大数据,光大是不行的

专题出品人: 
专题日期: 
星期六上午专题分享

基于大数据的竞争,已经从海量数据获取与存储、入门级的分布式统计等上升到新的层面,行业领先者正在投入更多精力专注于实时流式数据处理以及深度数据挖掘。如果说,常规大数据技术的应用给企业铺就了通向大数据时代的道路,那么实时流式处理会让企业在这条道路上走的更快,而深度数据挖掘则让企业走的更远。本专题就当下这两个方向的发展及应用,通过各位演讲嘉宾精彩的内容,如实呈现给各位。

在中小型企业中,作为成本中心的数据团队,更快做出业务价值显得尤为重要,那么我们该怎么廉价的构造我们的数据系统呢?哪些模块和组件在我们属于must to have,哪些在前期可以省略?在这种架构下,我们要做哪些事情来让数据的业务价值最大化?本次分享讲讲述一种创业企业的数据平台架构方法,同时结合在腾讯、珍爱的实践描述报表系统实施、生命周期管理的实现方法和婚恋模式下推荐系统的特殊之处。

在今天异常复杂的无线网络环境下,从用户理解来看,你的移动应用的速度是什么?在携程,我们的速度是通过用户的设备来测量,而测量的数据能告诉我们每一周应用的访问速度是什么。应用每次变化时,它也能检测出速度的陡然变化。也能告诉你不同的设备,不同的城市,访问速度有什么不同。你甚至能够发现应用在Android设备和iOS设备上运行时的不同。

在本分享中,我会介绍这个架构收集了什么数据,以及数据是如何以近乎实时的速度从各种设备汇集到后端系统。数据被收集后,通过每个设备上每个用户的行为进行传递,而且是7*24的。这个分享会讨论数据流的设计,和多个关键组件的协作。我们还会讨论到多个技术细节:在设备上,代理收集数据,然后放到队列里。代理将速度数据传递到后端收集器,然后被实时传递给仪表盘和报警服务,进而检测出用户的访问速度体验。另外,数据还被传递到Hadoop池,用于分析和报告,以优化产品体验。

本次演讲主要介绍小米存储与计算平台组的三个方向:

  • 存储平台,其中存储平台目前主要集中在HDFS和HBase的改进和集群运营;
  • 计算平台包括mapreduce / storm / spark / hive / impala等计算框架的应用与实践;
  • 开放平台则是小米推出的类amazon aws的公有云存储平台,目前已包含类S3和DynamoDB的产品。