主页 > 频道

大数据现行体系结构、问题及未来的进化方向

时间:2019-04-26 来源:拯时及救

数据中心·铁面 201811


Part1:大数据现行体系结构

大数据现行体系结构部分我们按照以下步骤展开:

  • 总体架构

  • 数据流架构

  • 数据管理体系

  • 衍生数据产品

先介绍美团、网易、今日头条等头部公司的现行体系结构,再介绍我司目前的体系结构。



实时数据仓库:

美团初期的实时数据处理,并没有完整的体系,而是采用“一路到底”的开发模式:

通过在实时计算平台上部署 Storm 作业处理实时数据队列来提取数据指标,直接推送到实时应用服务中。

随着产品和业务人员对实时数据需求的不断增多,他们逐步走向了创建实时数据仓库的道路;

现在美团采用 Flink 作为实时计算框架,参照离线数据生产经验,使用分层设计方案来建设实时数据仓库,其分层架构如下图所示:



1.5 我们目前的大数据体系结构

1.5.1 我司的数据流架构:


上图从左到右依次为数据接入、数据计算、数据产出。各个部分都有对应的平台化组件。

数据接入:

      数据源:

      各业务线数据:数据库变更订阅;

      第三方数据:数据文件,数据采集;

      开发平台组件:移山;

数据计算:

      离线计算:spark、hive;

      实时计算:storm、flink、structured streaming;

      开发平台组件:魔盒、能量块;

数据产出:数据平台、数屏、数据开放实验室,自助报表及其他。


中间层为数据开发平台,为方便统一管理,我们将魔盒、移山、数屏、数据开放实验室,能量块(元数据管理)整合到一个统一的平台。

最底层为我们目前大数据体系的技术栈,主要为:

Hadoop、Sqoop、Hbase、Spark、SparkSQL、Hive、Storm、Flink、Kafka、Mesos等。


1.5.2 我司的数据管理体系

我们数据管理体系部分,主要包括:

魔盒中的离线计算任务提交、Azkaban工作流调度、Mesos集群资源监控;

能量块(元数据管理)中的数据仓库元数据管理、大数据任务的血缘关系查看、数据表的生命周期管理等部分。

具体细节在衍生数据产品中展开。

     


Part2:目前存在的问题及面临的挑战



数据时效性、正确性缺乏一定的保障措施

     存在的问题:

     目前数据平台或数屏上线后,经常有业务部分人员质疑数据的准确性,元数据管理中现在只能查看任务的具体执行逻辑,不能验证数据是否准确。

     待调研的方案:

     完善元数据管理系统,增加数据质量检测功能,可参照美团数据质量监控中心功能。


自助报表等数据可视化平台亟需整合

     存在的问题:

     虽然有了数屏,数据报表等可视化配置平台,但针对对象大多还是开发人员;对一般的分析,运营人员还有较高的门槛,主要体现在数据不知道如何获取,有了数据不知道如何配置,严重制约了数据的流通和共享速度。

     解决方案:

     我们希望找到一种融合数据加工处理,实时分析和可视化展示于一体的自助式报表解决方案,将适用范围扩大至运营分析人员。少明同学目前正在调研阿里云数加的 Quick BI,网易有数等自助式报表解决方案将补充我们在这方面的不足。


数据挖掘、机器学习方面的能力有待加强

数据挖掘是从现有的信息中提取数据的模式和模型,精选出最重要的信息,以用于运营分析决策;机器学习是人工智能的重要组成部分,目前在实践中主要用于从过往的经验中学习新知识,达到预测结果的目的。

数据挖掘:

    目前我们的工作大部分停留在数据分析层面,主要对已知数据进行关联、聚合操作,实现1+1=2的效果;后续我们将逐步加强数据挖掘方面的能力,建立各种纬度的数据模型,挖掘数据更深层次的价值,实现1+1>2的效果。

机器学习:

    目前有一个源自技术团队内部,巨大的应用场景:AIOps,值得我们去探索和实践。


Part3:未来进化方向和愿景

为了适应企业的发展,我们构建了领先的完整的大数据技术生态体系,在此基础上,为了保证内部研发效率,我们封装整合了大数据开发平台,为保证技术体系的先进性,未来我们将继续加大该方面的投入。



大数据开发平台是我们提升工作效率的工具,我们将持续集成,为数据分析、挖掘提供足够的火力支持。

我们希望将大数据体系建设成为一个基础架构稳定、计算框架先进、数据流通快速的一体化平台;使数据具备足够的开放、共享能力,为集团发展赋能,为上下游合作伙伴提供数据支持。


在完成业务需求开发的前提下,完成数据预处理,实现数据的深层次挖掘,更好的支撑运营决策:

数据建模:对现有数据以特定主题进行纬度建模,实现数据预处理,方便运营分析人员查询使用,例如:以设备为主题建立时间纬度、地点纬度、交易纬度等模型;

数据集市:数据集市是计算结果,纬度模型的载体,我们希望运营分析人员能在数据集市中拿到他们关心的数据;

机器学习:随着业务的发展、应用场景的增多,我们希望在机器学习方面进行探索,发现数据的价值,实现数据驱动。


数据本身不产生价值,如何分析和利用数据对业务产生帮助才是关键。我们希望在完备的大数据体系基础上,更好地开放、共享数据,为集团、合作伙伴运营发展提供助力。将数据转变为行动,依托大数据,实现数据赋能


-EOF-

欢迎关注云纵达摩院


创业公司要首先打造的文化不是“勤奋”,而是“靠谱”。

靠谱有三层含义:负责,清晰,自驱。负责,就是事情交到我手上,我有责任拿出或者看到结果;清晰,就是要含义明确,讲证据,讲逻辑,不似是而非;自驱,就是要敢于在没有条件时创造条件,没有思路时探索思路,不浅尝辄止,不三分钟热度。

勤奋不太难,靠谱比较难。

——侯小强

相关阅读