数据优化运营
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字:联想,Hadoop技术,互联网,大数据 smarty:/if?>
- 发布时间:2016-10-25 10:19
联想电商数据内循环优化到分钟级,中国航天卫星数据传输提速十几分钟,企业数据“循环、优化、流转”,一气呵成;敏捷BI与数据探索式分析完美结合,大显神通;新形势下,利用Hadoop新技术、数据优化商业运营等手段,完成产业的创新与提升。
如今,亚马逊可以做到顾客还没有下单,就可以知道顾客想买什么东西,并且已经开始准备出货。众所周知,亚马逊是美国做得最好的电子商务平台,它是怎么做到的呢?主要由于亚马逊充分利用了各个消费者在网站上购买的消费记录,用大数据分析的方法进行预测。大数据可以给企业带来很大好处、很多便利。或许这就是数据优化商业运营的奥秘……
如果现在买游戏,你只会到实体店购买,那就真的落伍了,这就好像如今买手机只会用来发短信、打电话一样。
几年前BT下载发明者亲自开发设计Steam游戏平台,到现在用户已经超过2亿,如果说移动市场的游戏平台老大是AppStore,那么PC市场游戏的老大就是Steam平台,它的存在让其他的游戏平台只有抬头仰望的资格。相关数据显示,截止到2016年9月底,国内Steam激活用户已经超过1000万人。
这对于国内游戏行业有什么可以借鉴的地方?答案很简单,平台技术足够成熟,市场运营足够潮流就能做到。其实,大数据的“新命门”也在于此,让我们看看几方面的案例。
目前,以Hadoop为代表的一系列开源软件是大数据技术快速发展的核心推动力,其发展空间更是惊人。据Technavio报告:2015至2019年间,全球Hadoop市场布局将以年复合增长率超过53%的速度扩张,Hadoop市场和其相关的硬件、软件以及服务将在2020年创下502亿美元的效益。
尽管Hadoop的安全问题有待提高,但它一方面解决了传统数据库无法胜任海量数据处理的问题,另一方面基于该平台的一系列更具深度的智能分析技术和工具得以不断发展的现实也是不容忽视的,是大数据技术迈向成熟的必经阶段。
例如,Google公司曾经成功预测了流感的发生,现在我们知道流感要来了,是通过疾病预防中心或者是各个医院的报道,因为很多患者都来大医院就医,并且发烧、感冒,这往往是在两周时间以后我们才能知道流感要来了。
但是Google公司通过大量的用户使用数据,历史的搜索记录在流感爆发之前,在很多人搜索感冒发烧应该吃什么药的时候进行数据总结,成功预测流感即将发生,这是大数据技术基于Hadoop,通过深度分析带来的生活便利……
近年来,“大数据”日益成为国家基础性战略资源,其所蕴藏的巨大潜力和能量在各行各业不断积蓄的同时,整个数据行业的技术基础和实践能力也获得了长足的提升,对于数据分析和应用能力在不少行业案例中都得到了良好的展现。
单就运营而论,数据作为一种度量方式,能够真实地反映运营状况,帮助我们进一步了解产品、了解用户、了解渠道进而优化运营策略是其快速发展的根本动因。
通过数据分析的结果来驱动运营方式,最终帮助运营者乃至企业决策者凭借数据敏感性和逻辑分析能力指导业务实践十分重要。
卓越集团战略与运营管理部针对深圳数据中心项目商业场景进行了更精准的分析:写字楼下面的商场,周一到周五人流量非常大,周六周日流量非常少。周一到周五,有多少人没来这里而去了别的地方,把周边竞品拉出来看去了哪些品牌,然后进行分析调整;关于节假日引流问题,节假日在周边小区的客户没有挖掘,相关的触达和流动非常差,进而从招商和运营两个环节做了一些运营优化,可见数据指导运营实践的可行性。
至此,《中国信息化周报》记者就大数据Hadoop以及数据优化运营等方面展开了新一轮的探索。
技术篇:企业数据也可以循环利用
众所周知,数据只有流动起来才能产生价值……企业的数据可以总结为两个方面,第一个方面被称之为“企业内循环”,主要涉及到所从事的工作有助于加速企业提高经营效率,完成开源节流;另一方面叫做“企业外循环”,可以理解为通过企业产品让用户形成互动,进而产生海量数据。“如果将整个企业的外循环与内循环有机结合起来,就形成了企业的数据循环的一个体系。”红象云腾创始人童小军对《中国信息化周报》记者表示。
循环、优化、流转一气呵成
具体来说,对于数据分析的基本理念可以理解为“循环、优化、流转”,这是来自对于数据统计分析的一个理解。童小军说:“我觉得一个企业可以被看作一个生命体,具有自调整能力,将下层的产品统计、运维测试等统筹起来实现了一个在测的内循环,这是来自互联网公司的内循环。在外部,我们的产品与用户形成了企业的外循环。例如如果要优化产品,我们会记录用户数、活跃度等,这些数据会源源不断地更新到我们的产品中,或者我们的系统如果给一个用户发出一个搜索引擎或者一个需求,这时候企业给他们一个适时推荐,这个也可以称之为外循环。”
同样类似的案例在企业的质量管理中也存在,例如我们经常提到的戴明环等,其中也提到了循环质量优化的观点;还有一个自动控制领域也涉及到闭环控制理论。
在我们的理解中,其实大数据所起到的作用在反馈这个层面,只有整个的大数据体系形成闭环的模式才能更好地服务企业。
“我们所理解的智能应该是一种结构,很简单地被认为是一种闭环的反馈结构,而这种结构本身具备了一系列的制度。我们企业数据循环系统可以释放整个数据的想象力,关键大数据系统要打开关于数据的释放响应空间。其中数据循环、持续优化,高速流转,系统稳定、开源开放等都是客户所提出的需求。”童小军补充道。
如今大家经常提起大数据Hadoop,分别涉及到化整为零、分片存储、移动计算、分片处理。因为分片存储以及化整为零的技术,每台机器都可以用,这样就形成了移动计算分块处理。因为数据分散的动能,就可以将其移动到机器的本地化处理,所以整个系统会表现得非常高效。
另外本地化处理与并行可以极大地解决IO问题,带宽问题以及计算问题,在集中式机构时就会面临这样的问题。因为作为集中式架构根本性的一个性能缺陷在于无法移动计算,就需要把数据从集中式的存储拖拽到拥有计算的资源中进行再次计算,从而产生了一个IO瓶颈、带宽瓶颈以及磁盘瓶颈等。
童小军在分析大数据Hadoop时说:“通过对分布式计算的移动计算、化整为零等体系的全面了解,逐渐形成了一整套基于开源的系统,这是我们以前基于gedis架构的系统。我们可以看到Hadoop生态圈就像原始森林一样,从底层的Hadoop等出发,我们可以把它总结成几个层面。
首先是平台层,其次是结构层、计算层、展现层以及管理层。其实开源大数据到底是大数据推动了Hadoop发展,还是Hadoop推动了大数据发展并没有一致的绝对性,其中都是互相推动的过程。我们可以看到整个Hadoop生态圈已经庞大,其实开源本身也产生了标准的力量,对大数据标准产生带来了助力。”
极致性能生态化才是王牌
商务方面,红象云腾提出了生态化的战略,其中+Hadoop是公司提出的观点,目标是服务更多的集成商,成为生态一部分。以“+Hadoop”为核心形成整个生态圈,进而达到服务器、各种中间键以及相应的多角度、全方位服务。
在大数据领域,通过软硬件一体化,企业更需要打造极致的性能,红象云腾在这方面有很多合作伙伴,第一个是红旗,另一个是中太服务器,组成了红色数据高铁的红象。“这个项目我们完成了将近几万亿数据的快速检索,当然这里还有其他的核心作用,我们叫做chinaRedoop,红象的超级数据,形成了整个优化的产品站、128线程,红象云腾今后的目标是对更多的CPU进行更进一步的加速,进而形成打造极致的性能。”童小军展望生态化战略时表示。
企业通过与硬件厂商的合作,可以提炼成一个库,叫做Hadoop处理加速库,同时加速库也可以提炼为一个观点,叫做HPU。
其关键的作用主要是实现在Hadoop框架下多种项目的加速,例如EC、SORT等都可以通过这个方式来完成加速。其中涉及几个性能指标,通过与Java、X86、IBM相比,提速将近有30倍以上。
童小军认为在加速库的角度,红象云腾早已进行了极致的分析,目前通过全面合作的策略,已与两款国内的大数据软件,分别是YDB和kylin完成合作,哪怕是在kylin检索上千亿数据也是可以完成的。这个打破了Hadoop在高速检索速度慢的怪圈,原因在于这其中所有的数据库并不是直接拷贝到硬盘上。
应用案例不胜枚举
说到数据循环的成功案例,也是不胜枚举。例如,联想电商,这套系统其实非常符合数据循环系统的理念。在联想主要包含两套循环,一个是内循环,一个是外循环。特别的是,内循环已经优化到分钟级,在进行关键业务的广告投放时,或者进行关键活动的决策时,都依赖这个系统,另外在稳定性,系统稳定性检测也依赖这个系统。
另外,中国航天如今已经有5个PB的上线,这也是红象云腾提供的机房整套建设,一百多个节点的部署情况的展现。整个平台性能指标主要在IO密度上需要卫星的数据传输过来,通过Hadoop可以做什么呢?对于简单的做图,以前第一期投入就需要八千多万,这套系统投入才两千多万,而且数据提速到十几分钟就可以得到,效率大大提升。
另外,目前红象云腾正在跟踪包含交通部门、公安部门等在内的相关数据,其中涉及大量数据分析场景。例如公安部门有一整套关于快速结合算法,快速计算同行和同住人员以及大情报的数据分析架构收效显著。
对于“大数据+交通”的理解,核心的需求是这样的。审计交通部门需要路面的数据,以及GPS信息数据甚至包括桥梁数据。
在这个过程中需要检测某些大型车辆是否进入安全区,对于桥梁的承载载重问题,是否需要设置车辆靠近时进行报警,提示是否需要进入该区,或者已经进入危险区域等。
另外基于桥梁的数据,桥梁的各种各样传感器,包括温度传感器、压力传感器来识别这个桥梁是不是正常等情况,这其实是一种创新。
面对未来的大数据发展以及企业数据循环,童小军说:“我们在设想将虚拟世界中的某些尝试拉入现实世界,在大数据平台上是不是可以增加虚拟因素?将以前用的三维、多维引擎植入数据中,形成对大数据系统的三维后台式模拟。这也是我们提出来的一套关于大数据的基础架构,更是基于内循环、外循环、高速数据交换的理念。”
在人才的战略部署方面,红象云腾有一个极致人才战略,叫做“百校千企”。具体内容是面向一百所高校提供大数据的课程以及平台,同时面向Hadoop,面向有关企业提供大数据人才,并做到运营开放实验室。借此希望把开源技术、开放技术推向更多的大数据系统,进而完成各种方面的加速工作。
运营篇:大数据运营商们的“绝活儿”
如今基本上所有人都达成了共识,大数据给运营商带来了革命性的影响,而数据资产在运营商的运营中扮演着越来越重要的角色。随着大数据时代的到来,数据慢慢变成企业最重要的、最高价值的资产之一,所有业务的升级转型都离不开数据的支持,所以IT部门在数据时代慢慢从成本中心向利润中心转变。在这个过程中同时也帮助了运营商与相关企业完成自己的业务形态转型。
北京永洪商智科技发展公司高级副总裁王桐表示,通过数据都能做出怎样的事情,产生怎样的价值,同时应该怎样更好地去运用数据……成为关键的几个问题。除此之外,通过数据化的运营,将改变以往决定战略和决策的思维模式。以前经常是通过业务经验来做相应的决策,不管是宏观的、战略的,还是和具体的某些执行相关。
数据本身通过这种客观,如实的证据帮我们提供了一个量化决策支持的基础。通过这样的基础支持,帮助更好地完成决策的事情。所以,对于企业战略的定义,还是未来的走向,具备数据的支撑是非常重要的。在存量的时代,数据资产化、决策数据化才是整体的趋势。
运营数据难题多
过去几年大数据领域的热门话题多是集中在基础架构方面,近年来伴随着相关底层技术的逐渐成熟与丰富,在数据的底层的基础建设的问题上不再困难。“如今大家都不约而同地思考更进一步的问题,这些保存下来的数据,其价值产出如何,怎么在业务场景中体现价值,如何对外输出和变现……这些都成了用户乃至企业的管理者们共同思考的问题。”王桐对《中国信息化周报》记者说。在这个过程中,同样产生了很多有创意的业务形态与想法,现在数据的价值在于如何通过数据达到更精准的运营、更有效的管理以及更加全面的集团企业监控,才是数据价值所主要遵循的三个方向。
在每一个方向中,实际有很多具体的细分场景。例如更精准的运营,可能会与用户画像、用户活跃度等密切相关,其中更有效的管理可能偏向内部执行层面,更全面的监控是指偏财务审计与管理层面。在这些不同的业务层面,其实数据都能够切入每一个具体的业务场景中,通过数据化的指标帮助完成监控。不管是运营还是管理,还是业务,成效如何主要通过数据化的KPI来监控。很多时候,业务本身就是通过数据进行包装组合的利用,最后构成了服务的一部分,甚至是产品的一部分。
但在今天,所有的运营商,包括所有的行业企业都会在运营方面遇到各种各样的难题。例如,我们经常会发现运营商的报告,在内容和数据分析等菜单项,实际上存在大量的重复。看数据的过程其实是感知业务、发现问题,并且思考逻辑、找到答案、采取行动的过程。如果所看的分析内容,实际有很多冗余,这就会对分析与思考的过程带来很糟糕的用户体验,耽误效率的同时还造成成本的浪费。
在探讨运营难题时,王桐说:“现在绝大部分的数据分析系统,或者是VI系统,底层还是上一代的传统架构,是基于立方体的技术底层,它的特点是相对比较零散和固定,往往是一个需求对应一个数据模型,模型中的分析和计算方式只满足了一次的需求的实现。和客户交流的过程中,会发现有的客户的数据仓库中有几百个模型,甚至多达上万个,后果是数据仓库复杂到不可维护,性能的损耗相当严重,不但带来了不可维护性,而且也给用户非常差的体验。”
通过观察多家企业的数据分析系统,我们总结出其中的统计数据依然占比很高,明晰偏少。实际上,对于数据分析的操作过程相对比较复杂,而且数据的目录结构也很难梳理,最终表现出来的问题看起来很零散,问题表现的背后实际上还是过去做数据分析的思路与逻辑的诟病。
探究其问题的本质,IT资源往往是有限的,如果负担过重,资源会变成瓶颈。数据分析虽然只是一个词,但实际上却涉及了一个完整的链条,从数据的整合、清洗、加工、建模、分析、展现,输出,还有挖掘和深度分析,整个链条涉及到了很多方面,管理难度非常大。目前很多场景对大数据的应用还不够灵活高效,往往以固定报表为主,数据的展示只是起点,而不是终点,所以对数据的分析和利用绝对不是做一个静态报告就结束了,后续还有很多工作要做。
如今大多数情况下大数据的价值产出与预期可能并不匹配。如何让数据真正促进业务,真正产生价值的变现,并且让产生价值的过程高效,是值得探讨的问题。
敏捷BI+探索式分析大显神通
业界权威的IT机构Gartner撰写了商业报告,证明敏捷型BI以及探索式的分析已成为大势所趋。许多企业中,无论是信息部门,还是业务部门,两者都在呼吁能不能成为数据分析过程中的协作角色,使IT部门可以充分完成底层的数据模型建设后,将剩下90%的常用需求让业务部门“上手”,这样可以让业务部门自己进行服务分析。
“无论是国外还是国内,实际上越来越多传统的、完全以IT为中心的BI平台正在逐渐被新型平台所补充,甚至被取代。最新的BI的报告中,这种敏捷型,探索式的BI也是不够的。众所周知,数据分析是一个完整的链条,必须要移动到一站式的大数据平台,这将会是未来各个企业的标配。”王桐补充道。
探索式分析可以让业务部门也能轻松做数据分析,实际上只做BI类偏描述型的分析也是不够的。如果需要做用户画像,收入预测,或者是电子商城商品的关联交易分析,以及其它机器学习等相关分析的话,还是需要深度分析的,所以深度分析与企业级的管控等四部分有机融合在一起就构成了一站式的大数据分析平台。敏捷型数据分析,会进一步释放数据价值。数据分析做到更敏捷,需要提供更好的洞察力,如今很多行业的客户已经开始采用一站式大数据平台来完善、提升大数据运营能力。
王桐在交谈中提出:“现在是存量的竞争时代,以用户画像举例。用户画像归根结底是要对用户有更深刻的了解,因为大多时候电子商城也有第三方的产品和自由服务,逻辑过程比较类似。做用户画像,更深地了解用户和C端的消费者,对研发设计人员,或者电子商城的选品,以及产品和服务的设计人员来讲,会有很关键的指向作用。以前是基于自己的经验去设计新产品和服务,设计好后,再推销出去,这是过去闭门造车的做法;好的做法是先调查用户的需求与喜好,再结合需求与喜好来设计套餐和选品。”
另外针对营销人员,面对产品和服务,明确针对不同的用户卖什么产品,才能更有效达成交易,这个精准营销的过程,对于营销人员比较关键。例如,想生产将年轻女性作为用户群的电视,需要做的事情是要先了解年轻女性对电视的需求和喜好是什么,进而指导设计。一方面去计算过去有多少年轻用户购买了这种功能的电视,另外在舆情调查上又有多少人讨论与电视相关的问题,尽管这部分权重比较低,但也会综合考虑,最后将两者数据结合在一起。如果除了功能诉求外,像颜色、尺寸、价格都有数据统计,就会在发现消费者需求的时候,迅速满足客户需要。
总结来讲,如今对于数据分析,人们已经不再停留在初期的摸索阶段,实际上很多的问题都已经得到了有效解决,现在面对的是如何做有价值的利用,并且让这个利用的过程变得更加容易和高效。
记者手记
借用《双城记》那段经典的开场白:这是一个最好的时代,这是一个最坏的时代。对于运营商这样天生依靠人口红利、规模红利的企业,未来在大数据的浪潮中或许并不容易翻云覆雨,真的需要数据优化运营的种种“绝活儿”才可以始终立于不败之地。数字化运营,至少有三件事可以做,分别是盘点数据资产,建立计算能力,开放数据平台。
谈及大数据Hadoop,今天Hadoop主要应用场景集中在技术处理上,但是已经有一部分的应用开始偏向机器学习。例如有的IT厂商与合作伙伴开始尝鲜,利用Hadoop技术来处理数据的高级分析,从大数据中挖掘出有价值的数据,相信未来Hadoop生态系统的发展会卓有成绩。
■本报记者 刘晶晶
