至于100
报告编委
主创团队
黄勇
爱分析合伙人&首席分析师
武宇
爱分析高级分析师
孟晨静
爱分析分析师
李冬露
兰壹凡
外部专家(按姓氏拼音排序)
陈玉奇
斗象科技首席安全架构师
方正
数说故事产品总监
郭振强
科杰科技副总裁
孔德明
网易数帆流通行业大数据实施交付总监
刘诚忠
衡石科技CEO
乔昕
深睿医疗联合创始人/CEO
孙妍
观远数据副总裁
王申
九章云极银行BU总经理
王爽
锘崴科技创始人、董事长
王一刚
中科闻歌数智媒宣事业部总经理
特别鸣谢(按拼音排序)
报告摘要
湖仓一体强化全域数据管理效能
为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。
湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。
从管理到运营,DataOps释放数据中台价值
当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。
DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。
高时效场景爆发,实时数据平台支撑热数据价值释放
物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。
实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。
政策合规要求推动隐私计算平台快速渗透
以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。
隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。
属于业务人员的数据分析时代来临
随着数据应用的深化,企业数据分析场景正在发生三个“转变”1、平民化数据分析平台的服务对象从传统财务人员及管理人员向一线业务人员转变;2、场景化数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。
数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。
数据智能行业应用从监测、诊断性分析走向智能决策
传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。
智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。
目录
1. 综述多种因素推动,数据智能全链路升级
2. 湖仓一体强化全域数据管理效能
3. 从管理到运营,DataOps释放数据中台价值
4. 实时数据平台支撑爆发中的高时效场景
5. 政策合规要求推动隐私计算平台快速渗透
6. 属于业务端的数据分析时代来临
7. 数据智能行业应用从监测、诊断性分析走向智能决策
8. 展望
数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的息,从而为企业提供数据驱动的分析与决策。
当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。
本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。
图 1 数据智能市场全景地图
随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。
与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。
图 2 数据智能应用趋势
随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。
图 3 数据仓库、数据湖共存带来的挑战
数据架构复杂企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。
数据流通低效数据仓库、数据湖两种数据架构在集群层面割裂导致数据不能自由流通。如机器学习中数据来源于数据仓库或数据湖,难以跨架构进行数据融合分析,增加了数据流通和计算开发成本。
数据冗余,存储成本高数据仓库、数据湖的同时存在也会造成数据冗余,且随着数据量增长,存储成本将持续攀升,超大规模体量数据的计算性能也将持续下降。
企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。
图 4 湖仓一体架构示意图
湖仓一体在技术架构、功能和性能层面主要具备以下主要特征
通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。
流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。
云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。
案例1某跨国零售集团建设统一数据底座,全面提升数据管理运营效率
某海外跨国综合零售及服务集团为世界500强企业,主营商业零售、地产、金融、健康、游戏娱乐5大主要业态,旗下包含数百家成员公司,在日本、中国、东南亚等地区具有广泛影响力。
旧架构难服务新零售,数据开发管理应用全流程能力需提升
近年来,“新零售”的崛起为零售行业持续带来巨大变革,该零售集团也希望借助其商超和供应链优势开辟线上——线下到家业务,并通过逐步构建完善的线上零售体系,实现传统零售业务的全面转型。
经过多年数字化建设,该集团陆续在本地和云上建成多个数据仓库,并面向整个集团建立了统一的CDP平台,沉淀了丰富的数据资源。然而线上业务的开展引发了数据量激增,底层数据架构混乱、端到端数据运营分析能力落后的问题暴露无疑。具体而言
1. 烟囱式建设,数据资产不统一。该集团数据存、算基础设施均是以需求为导向进行阶段性单点建设而成,建立在离线、微软云、亚马逊云之上的结构化、非结构化数据存储及数据调度、实时计算工具等纵横交织,底层技术栈混乱,这直接导致了集团数据标准、数据口径不统一,数据开发格式和数据开发工具相互独立,难以形成统一数据资产。
2. 业务稳定性、即时性不达标。该集团数据仓库层次结构不清晰,数据域、主题设计不合理,导致数据重复开发和计算问题严重,数据分析低效且耗费大量资源。在数据分析需求激增的情况下,原有云资源算力和存储都达到瓶颈,一项数据分析需求的响应往往需要2-3天,大大影响了任务稳定性和即时性,无法满足业务需求。
3. 数据全流程运营管理方法不健全,服务能力差。该集团分别采购海外供应商抽取、集成、调度、监控、服务等数据开发管理工具,但这些工具之间彼此割裂,不仅导致数据全流程运营效率低,通过代码开发出的数据能力无法复用,影响对外开放赋能,同时导致数据分析师、数据科学家、业务人员、管理人员等不同角色之间无法有效协作。
该集团经内部评估规划,决定面向整个集团当下及未来5-10年数字化转型需要,统一数据存、算基础设施,并通过全方位数据治理统一全域数据资产,健全数据开发、管理、运营全流程体系,从而支持智能化应用,统一开放赋能,并最终将整套成功经验推广复制到该集团的全球市场。
通过长时间细致地对众多国内外优秀厂商及其客户进行实地调研和技术验证,以及对各厂商产品的开放式体验,该集团发现,国外厂商工具能力较强,但不同数据开发管理工具彼此独立,无法形成有机串联,导致数据工具和数据治理体系“两张皮”,无法实现该集团构建统一数据资产管理运营体系的需求。而科杰科技在工具能力与国外厂商旗鼓相当的基础上,将数据资产管理运营全流程的方法论和最佳实践融入数据工具设计中,使客户能够使用科杰科技全套产品构建统一、可持续的企业级数据资产运营管理体系。因此该集团最终选择科杰科技作为合作伙伴。
北京科杰科技有限公司(简称“科杰科技”)是领先的数据能力构建商,核心技术团队拥有丰富的头部互联网企业大数据平台建设和运营经验,针对多业态、多场景的大型复杂组织的数据底座建设运营,沉淀出了一套成熟的实施方法论。现已服务能源、汽车、零售、制造等多个行业头部企业。
建设湖仓一体数据底座,统一数据存储和管理,支持对上开放赋能
该集团在科杰科技的帮助下,梳理现有数据能力,规划设计了满足未来5-10年的数据能力建设蓝图,以科杰云原生数据底座,统一纳管底层数据基础设施,建立数据标准规范和管理体系统一全域数据资产,并最终实现对组织统一开放赋能。
1. 搭建湖仓一体数据底座,实现资源统一纳管。
该集团利用云原生湖仓一体数据底座良好的兼容适配性,实现跨云数据集成,统一集团主数据、元数据,同时支持多租户。云原生架构带来的资源弹性扩缩容能力使该集团能够便捷、灵活为二级单位进行资源调配,满足其个性化的资源使用需求,同时其良好的扩展性也能够支持集团未来数年的数字化发展。
2. 统一全域数据资产,构建数据资产管理体系。
首先,该集团在科杰科技帮助下进行了数据治理工作,完整重构数据仓库体系,设计核心数据指标模型,制定数据标准,规范数据质量,构建起全域统一的数据资产。
其次,通过一系列工具平台落实数据资产管理框架、标准、制度和流程,形成数据资产管理体系。建立统一的数据开发管理平台,与统一系统认证系统集成,集离线、实时开发能力于一体,实现全域数据的接入、加工及任务维护和管理;创建数据资产目录,对数据指标、标签进行分类管理,形成数据地图和血缘关系图谱,面向业务构建商品、店铺、交易、利润、会员、营销等主题,方便数据查询调用。
3. 开展数据资产服务化运营,实现统一开放赋能。
搭建数据服务平台,提供数据API、标签服务、实时服务、报表服务和大屏服务。如对于面向用户画像、个性化推荐等智能应用的特征指标,能够通过指标平台,以及API发布数据服务方式,直接提供给业务人员使用。同时,平台将数据管理体系进一步贯穿组织架构和业务主题,面向不同角色和不同业务场景,进行数据能力的整合,支撑团队协同开发,实现数据资产的共享交换。
融入DataOps理念,通过平台多个数据开发管理工具的有机串联,实现数据开发运维一体化。数据科学平台支持托拉拽的方式编排算法组件,辅以对数据应用模型算法构建方式和流程的指导,大大缩短数据分析模型开发上线的速度,同时支持复用,算法和业务过程快速交互形成闭环,优化结果能快速传递到业务端,实现数据反哺业务。
图 5 湖仓一体数据智能平台
打造统一开放的数据协作体系,持续稳定赋能业务发展和创新
通过集团统一大数据底座建设,该零售集团全方位完善了从底层基础设施到上层数据应用能力,具体而言
1. 资源统一纳管,高效稳定支撑上层业务开展。通过基础设施统一纳管和灵活的资源调度,减少系统风险,提升上层业务稳定性,同时降低了总体拥有成本。
2. 统一数据资产体系,为企业数据资产持续开放共享打好基础打通消费者在WEB、APP、小程序、门店系统的数据,以及各业务系统会员、门店、电商、供应链、财务等全域数据,进行全链路数据血缘关系数据资产沉淀,并形成公司内统一的数据门户,提升企业数据资产的使用效率。
3. 数据资产服务化运营,实现组织规模化数据协作。数据研发人员通过数据中台实现大规模项目跨团队协同开发的能力,极大地提高了研发人员工作效率;业务和运营人员在平台内实现数据需求在线提报并自动流转,并通过高度可视化的功能实现业务数据自助分析和分发,极大地提升了数据在企业内流转和使用的效率,完成由传统的被动数据研发模式到基于统一数据资产之上进行高度复用的开发模式升级转变。
数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。
随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。
数据质量难保证
业务影响数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等
技术影响ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;
数据用户类型复杂,数据应用交付缓慢
企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。
数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。
DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可性、自动性等五个特征。
图 6 DataOps能力构建
图 7 成熟的DataOps特征
目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。
案例2九州通建设数据中台打通数据壁垒、挖潜数据价值
九州通医药集团股份有限公司(以下简称“九州通”)为科技驱动型的全链医药产业综合服务商,立足于医药流通、物流服务及医疗健康等大健康行业,主营业务包括数字化医药分销与供应链服务、总代品牌推广服务、医药工业及贴牌业务、数字零售、智慧物流与供应链解决方案、医疗健康与技术增值服务六大方面。九州通连续多年位列中国医药商业企业第四位,领跑中国民营医药商业企业。
IT架构复杂、数据分散阻碍数据跨平台共享协作,数据价值难展现
早在2015年,九州通集团就开启了数字化转型之路。随着集团规模持续扩大,市场竞争愈加激烈,九州通迫切需要发挥数据价值支持经营分析、经营决策以及服务上下游客户。但在数据应用过程中,九州面临IT架构和数据层面的痛点。
数据孤岛严重。一方面,九州通集团业务线复杂,包含中西成药、中药、医疗器械、零售等多业态,各业态又分为集团、地市、区域三级结构。九州通以业务为主导,各业态、各层级分别依据各自需求建设数据平台,造成数据平台架构各异,数据共享协作效率慢。另一方面,同一公司内不同业务单元也会引入不同业务系统,系统之间难打通,造成数据分散。因此,九州通虽储存有海量数据,但数据难流动难使用,数据价值难实现。
数据标准体系不完善,数据质量差。目前九州通未对数据进行分层管理、未建立完善的指标体系且缺乏药品标签;同时数据存在不及时、不准确、不完整、关联性差等质量问题,造成数据难使用,不能有效支持经营分析应用。
数据模型复用度低,不足以支持业务应用需求。目前九州通单个数据平台内的数据模型仅支持对应系统应用,复用度低,导致应用重复开发,浪费资源。同时数据应用在下钻深度、关联广度、数据呈现丰富度等方面都不足以支持经营分析需要,数据模型有待完善。
建设数据中台,盘活数据资产,数字化提质增效
数字化转型大背景下,九州通迫切需要盘活数据资产、发掘数据价值,推动降本增效、营销创新。九州通曾先后尝试自建Oracle数仓以及Hadoop数仓来统一储存集团数据,虽然投入大量资源,但效果有限。为打通集团各业态各层级数据平台,为业务赋能,九州通决定通过招标建设集团数据中台。通过综合考虑技术集成能力、数据开发工具便捷性以及厂商最佳实践经验等因素,最终九州通决定与网易数帆合作。
网易数帆是网易集团旗下To B数字化转型技术与服务提供商,为客户提供国产软件基础平台产品及相应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用、低代码应用开发平台四大领域,致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一代息技术下实现数字化转型的需求。目前已服务金融、零售、制造、能源、通等各领域头部客户三百余家。
在网易数帆协助下,九州通历时8个月完成了数据中台规划以及数据中台初始化部署,包含建设数据仓库、实现数据开发及运维以及数据治理。
图 8 九州通数据中台架构示意图
1)建设统一的数据仓库平台,打通集团跨平台数据,提升数据利用率
建立数据仓库及分层模型数据仓库分为数据运营层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、应用层(ADS)共四层。将不同类型数据根据数据模型需要进行分层存放,避免不同业务部门因对数据利用方式不同,而需要对模型进行重复开发,提升数据利用率。
数据汇集借助网易数帆丰富的Hadoop大数据平台组件,九州通将多种架构数据平台的数据集成到数仓平台的数据运营层(ODS),并对数据进行清洗、汇聚、加工和计算。
数据建模在网易数帆的咨询规划协助下,九州通在不同数仓层建模,其中在明细数据层(DWD)拉通商品、客户、人员、供应商、岗位及组织架构维度数据,搭建主数据公共域模型;在汇总数据层(DWS)建立采购、销售、供应链、营销、财务等主题模型;在应用层(ADS)建立各业务报表需要的业务数据模型。
2)实现数据便捷开发和运维,提升工作效率
利用网易数帆提供的一套便捷可视化数据开发工具,九州通数据研发团队可快速实现离线开发、实时开发、权限管理、资源管理等功能。通过数据运维平台实现任务的监控和报警推送,预估任务实例的产出时间、展示实例对下游报表影响范围,实现任务高效运维。
3)对多源数据进行统一治理,降低工作量和资源成本
九州通建设数仓平台汇聚各业态各层级的多源数据,包括不限于各中西成药、中药、医疗器械、零售等业态版块中,集团、区域以及子公司各级的采购、库存、人力、营销等系统数据。之后通过数据治理平台对多源数据进行统一治理,包括建设数据地图使业务人员能在海量数据中快速找到所需数据,通过数据血缘关系展示表的上下游表动态追溯、表的下游任务等;搭建数据指标体系实现跨部门指标定义统一和指标定义管理;建立数据质量管理体系,业务人员可预设多场景下的质量监控规则,并设置邮箱、电话等多种告知形式;建立数据资产管理体系,评估数据资产的成本、价值、质量,优化存储成本,节约计算资源,实现精细化的数据生命周期管理等。
数据中台赋能业务应用,经营效率再提升
通过数据中台,九州通实现集团复杂组织架构下跨业态、跨层级、跨系统的数据打通,成功消除数据孤岛;并通过统一的数据架构、模型开发、数据治理等功能盘活数据资产,建立通畅、标准化的数据链路,持续为前台业务应用和分析提供数据服务,推动营销创新、提升经营效率。
消除数据孤岛,实现数据共享共通。九州通通过数据中台对旗下各业态各层级数据进行汇聚,由数据中台提供统一数据出口,实现全集团跨平台数据分享调用。
搭建统一的数据指标体系,实现数据科学管理和快速响应。本次项目共建设8个主题域,落地213个业务指标,全部指标统一口径、统一管理,能有效避免因指标定义模糊和逻辑混乱而导致的数据质量问题,大大减少无效、重复工作,同时能快速提高数据响应速度,如采购分析体系中,所有采购分析数据需求,均实现秒级响应,平均5秒出结果。
健全客户标签体系,支撑精准客户洞察。本次项目开发客户标签共计6大分类,共100+个标签,覆盖基本息、行为属性、交易属性、企业用及风险息等,组成标签工厂,对数据进行更精细的分类管理,支撑精准营销决策和风险控制。
利用数据中台灵活快速开发业务应用,实现降本增效。如通过数据中台开发供应商画像,综合资金周转、供货预期、付款周期、销售情况等息,为供应商付款审批提供数据支撑;针对业务员开发业务员画像,跟进业务员成单率、拜访计划、拜访效果等实现精准考核等;针对药店拜访开发药店画像,提高业务员拜访成功率等。
深挖数据价值,从数据支撑到数据赋能。相较于传统数仓,大数据平台提供了更强的算力支撑,在通过中台整合了各系统数据资源,利用项目完成数据的集中化标准治理的基础上,九州通深挖数据价值,尝试通过AI算法模型在业务前侧,包括采购体系、销售体系、获客体系等方面实现数智化。例如零售门店的销售预测、活动商品的精准营销、采购智能AI补货、中药生产供应链优化等。
厂商数据集成和咨询能力是传统企业搭建数据中台关键
回顾本项目实施全过程,厂商的选型对九州通数据中台建设以及成功应用具有关键影响。对于有同类数据中台建设的企业,在选择数据中台厂商时可借鉴以下两点经验。
针对具有复杂组织架构的传统企业,应选择具有深厚底层数仓开发以及数据集成能力的厂商。对于复杂架构的集团型企业,在数字化进程中,各子公司及各业务常根据业务需要分别建设数仓,造成数仓架构不统一。因此厂商需要具备扎实的组件开发以及数据集成能力,以灵活适配多种数据库环境,实现多源数据高效、稳定集成。
针对技术团队开发能力较弱的传统企业,应选择具有咨询能力的厂商。尤其对于虽有技术团队,但尚未成功建立数仓平台,且数据应用意识较弱的企业,应选择具有咨询能力的厂商,在厂商协助下开展梳理业务、制定指标体系、搭建数据模型、管理数据权限、开发数据应用等活动,快速建立起数据中台,并最终通过厂商知识转移,快速提升企业数据中台使用能力和数据建模能力,挖潜数据价值。
案例3某高速行业息化公司建设数据中台,打造高效智慧高速系统
十四五以来,随着我国开启全面建设社会主义现代化新征程、转向高质量发展阶段,公路交通也进入高质量发展新阶段,发展重心由原来的交通运输网络建设转向交通运输供给有效性和适配性、以及出行服务品质等。发展数字交通,尤其以5G、物联网、大数据、云计算、人工智能技术为代表的新基建与交通运输深度融合,成为深化交通供给侧改革、提升运输服务效能、促进综合交通高质量发展的重要推动力。
高速行业数据缺乏融通和应用,相关高速单位提升运营效率存在困难
近年来,随着息化的发展,高速领域的相关单位已具备多个息化系统,如视频监控系统、交通流管控系统、收费站管控系统、应急指挥系统等,但由于息系统相互独立,在高速运营中仍会面临以下数据问题
数据孤岛高速数据来源于导航系统、ETC、龙门架、路网卡口、摄像头、毫米波雷达、车载终端等形色各样的系统和终端设备,数据类型复杂,且分属于高速公路建设、管理、养护以及运营等四个阶段,导致不同系统的数据无法互通互联形成数据孤岛。
数据质量不稳定由于高速数据的采集来源于不同的感知设备,存在数据不稳定、数据空包、丢漏数据的现状。原有系统缺乏数据质量管理体系,导致采集的数据中存在大量缺失息或无效数据。
缺乏数据标准当前高速公路业务数据尚未形成国家或是行业标准规范,尤其不同地域、不同供应商产品的数据格式、模型、表结构千差万别,导致上级单位在进行数据收集汇总时需花费大量人力物力。
难以有效支持多元应用高速领域包含多元的服务应用及对象,诸如视频监控、交通流管控、收费站管控、应急指挥、绿通查验等服务,现有数据系统存在数据难调用、难使用的问题,不能支持业务应用体验升级需求。
为了更好地赋能各地域的高速公司,提升各地高速交通的运营效率,某高速行业息化公司基于高速行业的发展现状和系统基础,提出建设数据中台解决上述问题。通过多方考察,该公司综合考虑行业经验、产品功能、产品体验以及公司规模等因素,最终决定与国内专业的数据智能服务商每日互动股份有限公司(以下简称“每日互动”)合作建设数据中台。
每日互动成立于2010年,是专业的数据智能服务商,为企业客户及政府单位提供丰富的数据智能产品,便捷、稳定的技术服务与智能运营解决方案,服务行业涉及互联网运营、用户增长、品牌营销、金融风控等领域客户以及政府部门。同时,基于强大的数据积累能力和丰富的数据治理经验,每日互动构建了数据中台——“每日治数平台”,将数据挖掘、萃取和治理能力向各行各业输出,用数据智能帮助客户解决其实际业务中所遇到的痛点难题。
建设数据中台,实现智慧高速
每日互动在城市大脑、智慧交通、应急管理等公共服务领域具有丰富实践,积累了对人、车、道路、时间、空间等多要素数据进行关联计算和分析洞察的能力。依托于“每日治数平台”一站式数仓搭建、可视化数据资产管理、零代码模型构建、低代码机器学习等特色功能,每日互动和该高速行业息化公司共同建设数据中台,包括构建数据标准、管理数据资产以及制定数据质量管理体系等,实现了数据资源的统一整合和数据治理,主要运用于支持高速公路的高效运营和高质服务。
图 9 相关高速单位数据中台架构图
数据接入和集成依托于每日互动的技术支持,某高速行业息化公司可将相关高速单位的多个自有息平台如高速管控平台、设备维修管理平台、隧道管控平台的异构数据,以及可靠第三方数据统一接入数据中台。
构建数据标准,建立统一的数据仓库模型每日互动与该公司组织的多个业务专家一起深入高速业务一线,理清当前数据现状以及数据使用过程中的痛点,根据数据源不同,建立相应的业务主题库,构建起一套完整的数据标准体系,形成统一、整合的数据仓库模型。
数据资产管理和可视化基于每日互动提供的数据勘探、数据血缘、元数据采集、建表/分区管理等工具,该公司可进一步帮助相关高速单位完善数据资产;并且对数据资产进行可视化呈现,如数据资产目录层级结构展示,相关单位可便捷地从不同视角检索和管理数据资产。
制定数据质量管理体系基于数据标准,制定数据质量校验规则,实时对数据质量进行智能监测和预警;结合AI算法,定期对数据质量进行稽核,如系统根据数据缺失情形,参考历史数据进行补充或是对严重缺损数据进行剔除,保证高速数据可用、可。此外,通过数据血缘功能可定期对数据流转过程进行追溯和梳理,实现数据全生命周期的智能管理。
数据应用多源异构数据经数据中台清洗、融合治理后形成共享数据,通过API以服务目录的形式供各部门调用,消除应用部门对数据质量、数据来源的担忧,专注提升应用体验。
数据中台有效提升高速运行效率和服务品质
在本项目数据中台建设过程中,每日互动梳理建立起一套完善的高速数据标准体系,运用于高速行业多个场景的效率提升,相关单位的高速交通应急处置效率、运行效率和服务品质等多个方面均有显著提升,具体表现如下。
打通数据孤岛,实现数据高效高质共享通过数据中台,某高速行业息化公司将相关高速单位系统内多个渠道数据进行集成、清洗、融合治理,形成高质量数据,赋能各业务部门。
实时可视化,提升应急处置效率依据每日互动数据中台的图像智能和可视化等功能,该公司实现了对高速交通全局态势的实时感知以及对局部路段路况的实时查询、分析,并通过大屏监控车祸、拥堵、抛锚等突发状况,能对突发状况实现快速定位和救援。该公司将此可视化功能应用到道路救援时,救援时间缩短了60%至80%,救援效率得到大幅提升。
数据融合,促进路网通畅通过对ETC、服务区卡口、高速路网等数据融合,业务人员对停靠超时的车辆进行精准引导,缓解夜间服务区的大流量痛点,提高服务区的服务质量。
AI算法预判,提升通行效率针对高速匝道等事故多发以及易拥堵路段,业务人员可基于每日互动数据中台AI算法进行提前预判和事前预警,为相关高速单位进行道路拥堵疏导提供科学依据和有效支撑,也为民众合理规划错峰出行路径提供引导,促进路网流量合理分布,提升高速通行效率。
数据中台厂商综合数据能力为数据中台建设、数据中台应用良好体验提供坚实保障
回顾数据中台建设前期、建设中期以及建设后期应用的全过程,数据中台能成功发挥效用、提升高速交通运营能力有两点关键因素。
1)选择优质厂商事半功倍某高速行业息化公司在进行数据中台厂商选型时,应考虑厂商在特定行业已积累丰富案例,形成完善数据治理方法论,其中行业不限于高速行业。该厂商应具备数据资产管理、数据分析、数据可视化、数据标签等数据治理专业能力以及丰富的数据治理输出经验,具备成熟的久经市场验证的数据产品引擎与提效工具,能将以往行业经验迁移到高速行业中,服务高速行业。在本项目中基于“每日治数平台”丰富的行业客户和相关政府单位解决数字化转型难题经验,每日互动已经沉淀出可复用的数据能力、业务能力、效率工具等,因此能快速为该公司建设数据中台,服务于高速公路建设、管理、养护、运营四个阶段。此外,厂商还应具有算法建模、机器学习、图像智能等综合数据能力,在实现数据整合、数据治理等基本功能基础上,能为数据在多元场景应用提供支持。在本项目中,每日互动的数据中台产品“每日治数平台”具备多元完善的AI算法、图像智能等技术,操作便捷、轻量、易上手,可实现路况实时查询分析并可视化呈现、对路况预判提升通行效率等功能,为客户的数智化创新赋能提效。
2)建设执行团队落地生花除厂商选型外,为使数据中台真正落地、发挥最大效用,某高速行业息化公司在明确数据中台规划、践行数据中台建设的过程中,还需搭建岗位配置齐全的团队,包括但不限于中台建设、中台运维、数据产品经理、数据资产管理、数据运营等岗位来支持中台建设及运维,实现跨组织协同,实现数据驱动。
随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。
但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。
要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。
图 10 端到端的实时数据解决方案
可以采集多种类型数据实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通协议接口。
高可用、低成本的数据同步方案实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。
统一的数据存储和查询由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。
金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。
案例4: 某股份制银行搭建实时应用支撑平台,通过实时数据赋能业务价值提升
随着金融数字化时代的来临,金融业务正在发生深刻的变化。国内某股份制银行结合市场趋势变化和自身情况,将大数据技术作为企业数字化战略目标的基础。该银行目前处于业务发展的新阶段,资产规模持续扩大,经营实力不断增强,同时积极推进金融创新,而新业务模式的创新离不开数据的支持,也对核心数据能力提出了新要求。
传统的数据处理时效性和灵活性无法满足业务发展需求
在传统的批处理方式下,通过T+1的全量或增量数据更新和处理可以满足银行内各部门对于经营情况和内部管理等数据分析的需求,但是随着精准营销、风险监控和内控管理等场景对于数据时效性的要求越来越高,银行内现有的批量式、准实时式数据处理效率无法满足所有的业务场景,未来需要实现对交易、日志等流式数据的毫秒级实时采集、处理和计算能力。
数字经济时代下,银行需要收集和管理的数据量也将持续高速增长,现有的数据基础设施从性能和处理方式层面都难以满足PB级海量、混合数据的存储、整合、加工以及完成实时流式新增场景接入的要求,需针对现有的数据基础设施进行维护和升级。
在业务支撑方面,当前的数据交付方式复杂且低效,无法满足快速变化的业务需求,需要提升快速、自主、迭代式平台的交付能力。
该股份制银行综合考虑自身业务情况和当前技术能力,提出了搭建实时应用支撑平台来满足海量数据的实时处理和分析,对于实时应用支撑平台具体的需求如下
1.流处理接入和批处理升级
实时应用支撑平台需完成实时流式新增场景接入,需要以现有的flink方式,进行实时数据感知和获取以及相关任务的下发;针对批处理任务场景,为配合完成实时需求,需针对配套的批量任务完成开发和改造,对于现有的批量任务要进行维护和升级。
2.系统组件优化升级
完成传统大数据服务平台应用支撑集群流式平台的系统升级和版本升级。应用支撑集群很多是自研和开源组件,新的实时应用支撑平台需要在现有基础上进行资源整合和优化升级,包括集成自动化测试功能、集成门户查询功能、优化ES存储索引等。
监控方案制定和实施。统筹建立实时应用支撑平台整体监控方案,并完成相关指标的制定以及开发优化,在现有的监控指标基础上完成系统、组件、应用、批、流全方位的监控系统升级,保障系统稳定运行和对外提供服务。
3.集群扩容升级
数据完整性保证。为保障数据完整性,配合实时应用支撑平台扩容计划,在承接更多实时场景的情况下,继续保障集群可以在实时数据消费的同时进行数据备份,并且在集群出现重大问题或流消费有问题时,可以保障数据不丢失。
数据安全保证。为配合平台中实时数仓的建立,丰富目前的实时、准实时数据接出模式,需要建立配套的安全权限管理模式,进行数据安全管控。
为满足上述需求,该股份制银行在实时应用支撑平台搭建中,综合技术能力、产品成熟度和过往经验等多种考虑因素,最终选择与九章云极DataCanvas展开合作。
九章云极DataCanvas成立于2013年,是一家数据智能基础软件供应商,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。
通过开源产品搭建实时应用支撑平台,利用低代码环境提升数据开发效率
在项目中,该银行的IT团队与九章云极DataCanvas共同合作,对全行的实时业务场景做了全面梳理,作为构建实时应用支撑平台的基础。在落地层面,借助九章云极DataCanvas成熟的企业分布式流数据实时处理,分析和决策产品(以下简称“DataCanvas RT实时决策中心“),依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成某银行实时应用支撑平台的搭建和基础数据的准备,以此开展各业务应用工作。
图 11 某股份制银行全行级实时应用支撑平台架构图
实时应用支撑平台通过对批量数据和实时数据的处理、计算、分析,尤其是通过机器学习模型对实时数据进行分析获取业务洞察,进而为下游的业务系统提供多样化的数据服务。在实时数据应用支撑集群中,九章云极运用DataCanvas RT实时决策中心为该银行提供实时指标引擎、模型引擎、数据资产管理、数据作业管理(算子作业、SQL作业、JAR作业)、数据服务、日志管理、多租户及租户资源、UDF管理功能等众多模块和功能。
图 12 算子作业开发示意图
其中UDF的全称为User Definition Function,是DataCanvas RT实时决策中心作为一个平台级的产品基于Flink的框架下开发的低代码数据开发功能,结合预置的算子,让用户可以用可视化拖拽的方式把算子在画布中连接,组成数据开发任务。在实时应用支撑平台项目中,该银行IT人员利用UDF可以极大减少流式数据开发任务的难度,提升开发任务效率,使得实时场景的数据开发上线周期大大缩短。
本次实时应用支撑平台项目历经初建、扩容和推广三个阶段
初建阶段初建阶段主要是在该银行原有的批处理架构基础上,搭建以Hadoop为基础的系统架构,结合多种开源大数据组件搭建具备实时数据处理和实时交易感知的系统,并在部分试点场景中上线运行。
扩容阶段扩容阶段在初建阶段的系统基础上融入DataCanvas RT实时决策中心,并扩容集群规模,在上线时即形成50台节点的系统集群,线上运行20多类业务场景,并在后续逐步扩容至100台节点的系统集群和80多个实时业务场景。
推广阶段推广阶段基于前期的系统建设基础,遵照规范管理流程,接入更多业务场景,提供及时的数据服务,提升业务洞察能力。
实时应用支撑平台除了一般的技术和功能需求外,九章云极DataCanvas还针对该银行的特殊需求对于DataCanvas RT实时决策中心进行定制化开发,包括
高可用流作业在DataCanvas RT实时决策中心中添加高可用流作业功能,有效解决流作业重启情况下导致的数据延迟问题,以及双作业流场景中的基于第三方缓存Redis做的状态一致性保障UDF,本次项目中研发的高可用流作业功能也已经和九章云极一起申请专利。
多租户需求通过逻辑隔离和在预置算子外开发UDF算子如Redis状态计算、去重算子、Hbase维表关联等算子的方式满足该银行实时风险管理系统租户、报表与息服务平台系统租户、营销管理系统租户和标签管理系统租户的多租户需求。
实时应用支撑平台优化数据服务,提升业务洞察
该股份制银行通过九章云极DataCanvasRT实时决策中心搭建的实时应用支撑平台,在投产后已实现无间断运行近四年,并且可以有效应对海量数据处理和实时业务场景应用需求
1.实现了海量实时数据的处理和分发。该银行在上线实时应用支撑平台后,每日实时报文采集量和准实时数据日采集量有了显著提升。类似于大额资金变动预警的实时场景中,实时数据经平台规则处理后可以在0.2秒内输出预警,目前日预警量达到千万条,实时动帐交易日预警量约百万条。
2.极大提高了实时场景开发和上线的效率。随着实时应用支撑平台项目的实施,平台上支撑的总体业务场景不断增加,平均每2周就能上线一个实时业务场景,截止2022年3月已经上线了80多个实时业务场景,总体的需求提出部门达到了15个,包括运营管理部、用卡中心、息科技部、网络金融部等,共涉及3种业务类型,包括营销类、监控类、监管类,平台在对用户需求的支持上得到了显著提升。
3.适用业务发展需要的流数据计算架构。实时应用支撑平台上线后,实现了十万级以上的TPS峰值报文配对处理量,每日全行总线报文采集量加足迹数据采集量达到20亿以上。并且随着业务不断发展,九章云极DataCanvas RT实时决策中心也对平台架构进行持续优化,例如最新版本的RT产品支持Flink SQL,可以有效提升实时数据的开发效率。
流批一体的数据处理能力和低代码环境可显著提升实时数据处理平台的落地效果
实时数据平台的数据处理能力和开发效率是决定其是否能够满足企业需求的核心要素,总结该股份制银行的实时应用支撑平台建设经验,其他银行在选择实时数据平台产品时应注意关注以下两点
流批一体的数据处理能力。在选择实时数据平台产品时,能够承载企业的流批一体数据处理工作,具备方便的横向扩展能力,并且可以对产品架构持续优化改进,不断引入新的技术和功能,才可以保证该产品可以长期稳定的满足业务发展需求。
低代码开发环境提升开发效率。基于DataCanvas RT实时决策中心的低代码开发环境,由成熟的测试团队完成工作流的配置和测试。对于复杂业务场景则通过大数据开发工程师通过UDF算子开发的形式,完成部分数据处理难点的实现,后续将UDF算子交由测试团队,通过可拖拽的方式构建数据开发工作流。
分享:
数据来自赢家江恩软件>>
虚位以待
暂无
32人关注了该股票
长期未登录发言
吧主违规操作
色情、反动
其他
*投诉理由
答:批发中药饮片、中成药、中药材、详情>>
答:九州通的注册资金是:39.09亿元详情>>
答:九州通公司 2024-03-31 财务报告详情>>
答:九州通所属板块是 上游行业:医详情>>
答:2023-10-11详情>>
保险行业今日虽上涨但短线回调趋势不改变,主要股票一览(附名单)
今天移动转售概念在涨幅排行榜排名第14 ST高鸿、*ST鹏博涨幅居前
今天钛白粉概念主力资金净流出691.2万元 国城矿业、东华科技涨幅居前
请输入验证信息:
你的加群请求已发送,请等候群主/管理员验证。
至于100
2022 数据智能应用实践报告(一)
报告编委
主创团队
黄勇
爱分析合伙人&首席分析师
武宇
爱分析高级分析师
孟晨静
爱分析分析师
李冬露
爱分析分析师
兰壹凡
爱分析分析师
外部专家(按姓氏拼音排序)
陈玉奇
斗象科技首席安全架构师
方正
数说故事产品总监
郭振强
科杰科技副总裁
孔德明
网易数帆流通行业大数据实施交付总监
刘诚忠
衡石科技CEO
乔昕
深睿医疗联合创始人/CEO
孙妍
观远数据副总裁
王申
九章云极银行BU总经理
王爽
锘崴科技创始人、董事长
王一刚
中科闻歌数智媒宣事业部总经理
特别鸣谢(按拼音排序)
报告摘要
湖仓一体强化全域数据管理效能
为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。
湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。
从管理到运营,DataOps释放数据中台价值
当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。
DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。
高时效场景爆发,实时数据平台支撑热数据价值释放
物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。
实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。
政策合规要求推动隐私计算平台快速渗透
以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。
隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。
属于业务人员的数据分析时代来临
随着数据应用的深化,企业数据分析场景正在发生三个“转变”1、平民化数据分析平台的服务对象从传统财务人员及管理人员向一线业务人员转变;2、场景化数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。
数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。
数据智能行业应用从监测、诊断性分析走向智能决策
传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。
智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。
目录
1. 综述多种因素推动,数据智能全链路升级
2. 湖仓一体强化全域数据管理效能
3. 从管理到运营,DataOps释放数据中台价值
4. 实时数据平台支撑爆发中的高时效场景
5. 政策合规要求推动隐私计算平台快速渗透
6. 属于业务端的数据分析时代来临
7. 数据智能行业应用从监测、诊断性分析走向智能决策
8. 展望
1. 综述多种因素推动,数据智能全链路升级
数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的息,从而为企业提供数据驱动的分析与决策。
当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。
本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。
图 1 数据智能市场全景地图
随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。
与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。
图 2 数据智能应用趋势
2. 湖仓一体强化全域数据管理效能
2.1 数据存储异构阻碍数据高效流通
随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。
图 3 数据仓库、数据湖共存带来的挑战
数据架构复杂企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。
数据流通低效数据仓库、数据湖两种数据架构在集群层面割裂导致数据不能自由流通。如机器学习中数据来源于数据仓库或数据湖,难以跨架构进行数据融合分析,增加了数据流通和计算开发成本。
数据冗余,存储成本高数据仓库、数据湖的同时存在也会造成数据冗余,且随着数据量增长,存储成本将持续攀升,超大规模体量数据的计算性能也将持续下降。
企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。
2.2 湖仓一体引领数据架构迭代更新
图 4 湖仓一体架构示意图
湖仓一体在技术架构、功能和性能层面主要具备以下主要特征
通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。
流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。
云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。
案例1某跨国零售集团建设统一数据底座,全面提升数据管理运营效率
某海外跨国综合零售及服务集团为世界500强企业,主营商业零售、地产、金融、健康、游戏娱乐5大主要业态,旗下包含数百家成员公司,在日本、中国、东南亚等地区具有广泛影响力。
旧架构难服务新零售,数据开发管理应用全流程能力需提升
近年来,“新零售”的崛起为零售行业持续带来巨大变革,该零售集团也希望借助其商超和供应链优势开辟线上——线下到家业务,并通过逐步构建完善的线上零售体系,实现传统零售业务的全面转型。
经过多年数字化建设,该集团陆续在本地和云上建成多个数据仓库,并面向整个集团建立了统一的CDP平台,沉淀了丰富的数据资源。然而线上业务的开展引发了数据量激增,底层数据架构混乱、端到端数据运营分析能力落后的问题暴露无疑。具体而言
1. 烟囱式建设,数据资产不统一。该集团数据存、算基础设施均是以需求为导向进行阶段性单点建设而成,建立在离线、微软云、亚马逊云之上的结构化、非结构化数据存储及数据调度、实时计算工具等纵横交织,底层技术栈混乱,这直接导致了集团数据标准、数据口径不统一,数据开发格式和数据开发工具相互独立,难以形成统一数据资产。
2. 业务稳定性、即时性不达标。该集团数据仓库层次结构不清晰,数据域、主题设计不合理,导致数据重复开发和计算问题严重,数据分析低效且耗费大量资源。在数据分析需求激增的情况下,原有云资源算力和存储都达到瓶颈,一项数据分析需求的响应往往需要2-3天,大大影响了任务稳定性和即时性,无法满足业务需求。
3. 数据全流程运营管理方法不健全,服务能力差。该集团分别采购海外供应商抽取、集成、调度、监控、服务等数据开发管理工具,但这些工具之间彼此割裂,不仅导致数据全流程运营效率低,通过代码开发出的数据能力无法复用,影响对外开放赋能,同时导致数据分析师、数据科学家、业务人员、管理人员等不同角色之间无法有效协作。
该集团经内部评估规划,决定面向整个集团当下及未来5-10年数字化转型需要,统一数据存、算基础设施,并通过全方位数据治理统一全域数据资产,健全数据开发、管理、运营全流程体系,从而支持智能化应用,统一开放赋能,并最终将整套成功经验推广复制到该集团的全球市场。
通过长时间细致地对众多国内外优秀厂商及其客户进行实地调研和技术验证,以及对各厂商产品的开放式体验,该集团发现,国外厂商工具能力较强,但不同数据开发管理工具彼此独立,无法形成有机串联,导致数据工具和数据治理体系“两张皮”,无法实现该集团构建统一数据资产管理运营体系的需求。而科杰科技在工具能力与国外厂商旗鼓相当的基础上,将数据资产管理运营全流程的方法论和最佳实践融入数据工具设计中,使客户能够使用科杰科技全套产品构建统一、可持续的企业级数据资产运营管理体系。因此该集团最终选择科杰科技作为合作伙伴。
北京科杰科技有限公司(简称“科杰科技”)是领先的数据能力构建商,核心技术团队拥有丰富的头部互联网企业大数据平台建设和运营经验,针对多业态、多场景的大型复杂组织的数据底座建设运营,沉淀出了一套成熟的实施方法论。现已服务能源、汽车、零售、制造等多个行业头部企业。
建设湖仓一体数据底座,统一数据存储和管理,支持对上开放赋能
该集团在科杰科技的帮助下,梳理现有数据能力,规划设计了满足未来5-10年的数据能力建设蓝图,以科杰云原生数据底座,统一纳管底层数据基础设施,建立数据标准规范和管理体系统一全域数据资产,并最终实现对组织统一开放赋能。
1. 搭建湖仓一体数据底座,实现资源统一纳管。
该集团利用云原生湖仓一体数据底座良好的兼容适配性,实现跨云数据集成,统一集团主数据、元数据,同时支持多租户。云原生架构带来的资源弹性扩缩容能力使该集团能够便捷、灵活为二级单位进行资源调配,满足其个性化的资源使用需求,同时其良好的扩展性也能够支持集团未来数年的数字化发展。
2. 统一全域数据资产,构建数据资产管理体系。
首先,该集团在科杰科技帮助下进行了数据治理工作,完整重构数据仓库体系,设计核心数据指标模型,制定数据标准,规范数据质量,构建起全域统一的数据资产。
其次,通过一系列工具平台落实数据资产管理框架、标准、制度和流程,形成数据资产管理体系。建立统一的数据开发管理平台,与统一系统认证系统集成,集离线、实时开发能力于一体,实现全域数据的接入、加工及任务维护和管理;创建数据资产目录,对数据指标、标签进行分类管理,形成数据地图和血缘关系图谱,面向业务构建商品、店铺、交易、利润、会员、营销等主题,方便数据查询调用。
3. 开展数据资产服务化运营,实现统一开放赋能。
搭建数据服务平台,提供数据API、标签服务、实时服务、报表服务和大屏服务。如对于面向用户画像、个性化推荐等智能应用的特征指标,能够通过指标平台,以及API发布数据服务方式,直接提供给业务人员使用。同时,平台将数据管理体系进一步贯穿组织架构和业务主题,面向不同角色和不同业务场景,进行数据能力的整合,支撑团队协同开发,实现数据资产的共享交换。
融入DataOps理念,通过平台多个数据开发管理工具的有机串联,实现数据开发运维一体化。数据科学平台支持托拉拽的方式编排算法组件,辅以对数据应用模型算法构建方式和流程的指导,大大缩短数据分析模型开发上线的速度,同时支持复用,算法和业务过程快速交互形成闭环,优化结果能快速传递到业务端,实现数据反哺业务。
图 5 湖仓一体数据智能平台
打造统一开放的数据协作体系,持续稳定赋能业务发展和创新
通过集团统一大数据底座建设,该零售集团全方位完善了从底层基础设施到上层数据应用能力,具体而言
1. 资源统一纳管,高效稳定支撑上层业务开展。通过基础设施统一纳管和灵活的资源调度,减少系统风险,提升上层业务稳定性,同时降低了总体拥有成本。
2. 统一数据资产体系,为企业数据资产持续开放共享打好基础打通消费者在WEB、APP、小程序、门店系统的数据,以及各业务系统会员、门店、电商、供应链、财务等全域数据,进行全链路数据血缘关系数据资产沉淀,并形成公司内统一的数据门户,提升企业数据资产的使用效率。
3. 数据资产服务化运营,实现组织规模化数据协作。数据研发人员通过数据中台实现大规模项目跨团队协同开发的能力,极大地提高了研发人员工作效率;业务和运营人员在平台内实现数据需求在线提报并自动流转,并通过高度可视化的功能实现业务数据自助分析和分发,极大地提升了数据在企业内流转和使用的效率,完成由传统的被动数据研发模式到基于统一数据资产之上进行高度复用的开发模式升级转变。
3. 从管理到运营,DataOps释放数据中台价值
数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。
3.1 数据应用多元化导致数据应用开发效率低
随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。
数据质量难保证
业务影响数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等
技术影响ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;
数据用户类型复杂,数据应用交付缓慢
企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。
数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。
3.2 DataOps方法论实现数据应用高质量、持续交付
DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可性、自动性等五个特征。
图 6 DataOps能力构建
图 7 成熟的DataOps特征
目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。
案例2九州通建设数据中台打通数据壁垒、挖潜数据价值
九州通医药集团股份有限公司(以下简称“九州通”)为科技驱动型的全链医药产业综合服务商,立足于医药流通、物流服务及医疗健康等大健康行业,主营业务包括数字化医药分销与供应链服务、总代品牌推广服务、医药工业及贴牌业务、数字零售、智慧物流与供应链解决方案、医疗健康与技术增值服务六大方面。九州通连续多年位列中国医药商业企业第四位,领跑中国民营医药商业企业。
IT架构复杂、数据分散阻碍数据跨平台共享协作,数据价值难展现
早在2015年,九州通集团就开启了数字化转型之路。随着集团规模持续扩大,市场竞争愈加激烈,九州通迫切需要发挥数据价值支持经营分析、经营决策以及服务上下游客户。但在数据应用过程中,九州面临IT架构和数据层面的痛点。
数据孤岛严重。一方面,九州通集团业务线复杂,包含中西成药、中药、医疗器械、零售等多业态,各业态又分为集团、地市、区域三级结构。九州通以业务为主导,各业态、各层级分别依据各自需求建设数据平台,造成数据平台架构各异,数据共享协作效率慢。另一方面,同一公司内不同业务单元也会引入不同业务系统,系统之间难打通,造成数据分散。因此,九州通虽储存有海量数据,但数据难流动难使用,数据价值难实现。
数据标准体系不完善,数据质量差。目前九州通未对数据进行分层管理、未建立完善的指标体系且缺乏药品标签;同时数据存在不及时、不准确、不完整、关联性差等质量问题,造成数据难使用,不能有效支持经营分析应用。
数据模型复用度低,不足以支持业务应用需求。目前九州通单个数据平台内的数据模型仅支持对应系统应用,复用度低,导致应用重复开发,浪费资源。同时数据应用在下钻深度、关联广度、数据呈现丰富度等方面都不足以支持经营分析需要,数据模型有待完善。
建设数据中台,盘活数据资产,数字化提质增效
数字化转型大背景下,九州通迫切需要盘活数据资产、发掘数据价值,推动降本增效、营销创新。九州通曾先后尝试自建Oracle数仓以及Hadoop数仓来统一储存集团数据,虽然投入大量资源,但效果有限。为打通集团各业态各层级数据平台,为业务赋能,九州通决定通过招标建设集团数据中台。通过综合考虑技术集成能力、数据开发工具便捷性以及厂商最佳实践经验等因素,最终九州通决定与网易数帆合作。
网易数帆是网易集团旗下To B数字化转型技术与服务提供商,为客户提供国产软件基础平台产品及相应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用、低代码应用开发平台四大领域,致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一代息技术下实现数字化转型的需求。目前已服务金融、零售、制造、能源、通等各领域头部客户三百余家。
在网易数帆协助下,九州通历时8个月完成了数据中台规划以及数据中台初始化部署,包含建设数据仓库、实现数据开发及运维以及数据治理。
图 8 九州通数据中台架构示意图
1)建设统一的数据仓库平台,打通集团跨平台数据,提升数据利用率
建立数据仓库及分层模型数据仓库分为数据运营层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、应用层(ADS)共四层。将不同类型数据根据数据模型需要进行分层存放,避免不同业务部门因对数据利用方式不同,而需要对模型进行重复开发,提升数据利用率。
数据汇集借助网易数帆丰富的Hadoop大数据平台组件,九州通将多种架构数据平台的数据集成到数仓平台的数据运营层(ODS),并对数据进行清洗、汇聚、加工和计算。
数据建模在网易数帆的咨询规划协助下,九州通在不同数仓层建模,其中在明细数据层(DWD)拉通商品、客户、人员、供应商、岗位及组织架构维度数据,搭建主数据公共域模型;在汇总数据层(DWS)建立采购、销售、供应链、营销、财务等主题模型;在应用层(ADS)建立各业务报表需要的业务数据模型。
2)实现数据便捷开发和运维,提升工作效率
利用网易数帆提供的一套便捷可视化数据开发工具,九州通数据研发团队可快速实现离线开发、实时开发、权限管理、资源管理等功能。通过数据运维平台实现任务的监控和报警推送,预估任务实例的产出时间、展示实例对下游报表影响范围,实现任务高效运维。
3)对多源数据进行统一治理,降低工作量和资源成本
九州通建设数仓平台汇聚各业态各层级的多源数据,包括不限于各中西成药、中药、医疗器械、零售等业态版块中,集团、区域以及子公司各级的采购、库存、人力、营销等系统数据。之后通过数据治理平台对多源数据进行统一治理,包括建设数据地图使业务人员能在海量数据中快速找到所需数据,通过数据血缘关系展示表的上下游表动态追溯、表的下游任务等;搭建数据指标体系实现跨部门指标定义统一和指标定义管理;建立数据质量管理体系,业务人员可预设多场景下的质量监控规则,并设置邮箱、电话等多种告知形式;建立数据资产管理体系,评估数据资产的成本、价值、质量,优化存储成本,节约计算资源,实现精细化的数据生命周期管理等。
数据中台赋能业务应用,经营效率再提升
通过数据中台,九州通实现集团复杂组织架构下跨业态、跨层级、跨系统的数据打通,成功消除数据孤岛;并通过统一的数据架构、模型开发、数据治理等功能盘活数据资产,建立通畅、标准化的数据链路,持续为前台业务应用和分析提供数据服务,推动营销创新、提升经营效率。
消除数据孤岛,实现数据共享共通。九州通通过数据中台对旗下各业态各层级数据进行汇聚,由数据中台提供统一数据出口,实现全集团跨平台数据分享调用。
搭建统一的数据指标体系,实现数据科学管理和快速响应。本次项目共建设8个主题域,落地213个业务指标,全部指标统一口径、统一管理,能有效避免因指标定义模糊和逻辑混乱而导致的数据质量问题,大大减少无效、重复工作,同时能快速提高数据响应速度,如采购分析体系中,所有采购分析数据需求,均实现秒级响应,平均5秒出结果。
健全客户标签体系,支撑精准客户洞察。本次项目开发客户标签共计6大分类,共100+个标签,覆盖基本息、行为属性、交易属性、企业用及风险息等,组成标签工厂,对数据进行更精细的分类管理,支撑精准营销决策和风险控制。
利用数据中台灵活快速开发业务应用,实现降本增效。如通过数据中台开发供应商画像,综合资金周转、供货预期、付款周期、销售情况等息,为供应商付款审批提供数据支撑;针对业务员开发业务员画像,跟进业务员成单率、拜访计划、拜访效果等实现精准考核等;针对药店拜访开发药店画像,提高业务员拜访成功率等。
深挖数据价值,从数据支撑到数据赋能。相较于传统数仓,大数据平台提供了更强的算力支撑,在通过中台整合了各系统数据资源,利用项目完成数据的集中化标准治理的基础上,九州通深挖数据价值,尝试通过AI算法模型在业务前侧,包括采购体系、销售体系、获客体系等方面实现数智化。例如零售门店的销售预测、活动商品的精准营销、采购智能AI补货、中药生产供应链优化等。
厂商数据集成和咨询能力是传统企业搭建数据中台关键
回顾本项目实施全过程,厂商的选型对九州通数据中台建设以及成功应用具有关键影响。对于有同类数据中台建设的企业,在选择数据中台厂商时可借鉴以下两点经验。
针对具有复杂组织架构的传统企业,应选择具有深厚底层数仓开发以及数据集成能力的厂商。对于复杂架构的集团型企业,在数字化进程中,各子公司及各业务常根据业务需要分别建设数仓,造成数仓架构不统一。因此厂商需要具备扎实的组件开发以及数据集成能力,以灵活适配多种数据库环境,实现多源数据高效、稳定集成。
针对技术团队开发能力较弱的传统企业,应选择具有咨询能力的厂商。尤其对于虽有技术团队,但尚未成功建立数仓平台,且数据应用意识较弱的企业,应选择具有咨询能力的厂商,在厂商协助下开展梳理业务、制定指标体系、搭建数据模型、管理数据权限、开发数据应用等活动,快速建立起数据中台,并最终通过厂商知识转移,快速提升企业数据中台使用能力和数据建模能力,挖潜数据价值。
案例3某高速行业息化公司建设数据中台,打造高效智慧高速系统
十四五以来,随着我国开启全面建设社会主义现代化新征程、转向高质量发展阶段,公路交通也进入高质量发展新阶段,发展重心由原来的交通运输网络建设转向交通运输供给有效性和适配性、以及出行服务品质等。发展数字交通,尤其以5G、物联网、大数据、云计算、人工智能技术为代表的新基建与交通运输深度融合,成为深化交通供给侧改革、提升运输服务效能、促进综合交通高质量发展的重要推动力。
高速行业数据缺乏融通和应用,相关高速单位提升运营效率存在困难
近年来,随着息化的发展,高速领域的相关单位已具备多个息化系统,如视频监控系统、交通流管控系统、收费站管控系统、应急指挥系统等,但由于息系统相互独立,在高速运营中仍会面临以下数据问题
数据孤岛高速数据来源于导航系统、ETC、龙门架、路网卡口、摄像头、毫米波雷达、车载终端等形色各样的系统和终端设备,数据类型复杂,且分属于高速公路建设、管理、养护以及运营等四个阶段,导致不同系统的数据无法互通互联形成数据孤岛。
数据质量不稳定由于高速数据的采集来源于不同的感知设备,存在数据不稳定、数据空包、丢漏数据的现状。原有系统缺乏数据质量管理体系,导致采集的数据中存在大量缺失息或无效数据。
缺乏数据标准当前高速公路业务数据尚未形成国家或是行业标准规范,尤其不同地域、不同供应商产品的数据格式、模型、表结构千差万别,导致上级单位在进行数据收集汇总时需花费大量人力物力。
难以有效支持多元应用高速领域包含多元的服务应用及对象,诸如视频监控、交通流管控、收费站管控、应急指挥、绿通查验等服务,现有数据系统存在数据难调用、难使用的问题,不能支持业务应用体验升级需求。
为了更好地赋能各地域的高速公司,提升各地高速交通的运营效率,某高速行业息化公司基于高速行业的发展现状和系统基础,提出建设数据中台解决上述问题。通过多方考察,该公司综合考虑行业经验、产品功能、产品体验以及公司规模等因素,最终决定与国内专业的数据智能服务商每日互动股份有限公司(以下简称“每日互动”)合作建设数据中台。
每日互动成立于2010年,是专业的数据智能服务商,为企业客户及政府单位提供丰富的数据智能产品,便捷、稳定的技术服务与智能运营解决方案,服务行业涉及互联网运营、用户增长、品牌营销、金融风控等领域客户以及政府部门。同时,基于强大的数据积累能力和丰富的数据治理经验,每日互动构建了数据中台——“每日治数平台”,将数据挖掘、萃取和治理能力向各行各业输出,用数据智能帮助客户解决其实际业务中所遇到的痛点难题。
建设数据中台,实现智慧高速
每日互动在城市大脑、智慧交通、应急管理等公共服务领域具有丰富实践,积累了对人、车、道路、时间、空间等多要素数据进行关联计算和分析洞察的能力。依托于“每日治数平台”一站式数仓搭建、可视化数据资产管理、零代码模型构建、低代码机器学习等特色功能,每日互动和该高速行业息化公司共同建设数据中台,包括构建数据标准、管理数据资产以及制定数据质量管理体系等,实现了数据资源的统一整合和数据治理,主要运用于支持高速公路的高效运营和高质服务。
图 9 相关高速单位数据中台架构图
数据接入和集成依托于每日互动的技术支持,某高速行业息化公司可将相关高速单位的多个自有息平台如高速管控平台、设备维修管理平台、隧道管控平台的异构数据,以及可靠第三方数据统一接入数据中台。
构建数据标准,建立统一的数据仓库模型每日互动与该公司组织的多个业务专家一起深入高速业务一线,理清当前数据现状以及数据使用过程中的痛点,根据数据源不同,建立相应的业务主题库,构建起一套完整的数据标准体系,形成统一、整合的数据仓库模型。
数据资产管理和可视化基于每日互动提供的数据勘探、数据血缘、元数据采集、建表/分区管理等工具,该公司可进一步帮助相关高速单位完善数据资产;并且对数据资产进行可视化呈现,如数据资产目录层级结构展示,相关单位可便捷地从不同视角检索和管理数据资产。
制定数据质量管理体系基于数据标准,制定数据质量校验规则,实时对数据质量进行智能监测和预警;结合AI算法,定期对数据质量进行稽核,如系统根据数据缺失情形,参考历史数据进行补充或是对严重缺损数据进行剔除,保证高速数据可用、可。此外,通过数据血缘功能可定期对数据流转过程进行追溯和梳理,实现数据全生命周期的智能管理。
数据应用多源异构数据经数据中台清洗、融合治理后形成共享数据,通过API以服务目录的形式供各部门调用,消除应用部门对数据质量、数据来源的担忧,专注提升应用体验。
数据中台有效提升高速运行效率和服务品质
在本项目数据中台建设过程中,每日互动梳理建立起一套完善的高速数据标准体系,运用于高速行业多个场景的效率提升,相关单位的高速交通应急处置效率、运行效率和服务品质等多个方面均有显著提升,具体表现如下。
打通数据孤岛,实现数据高效高质共享通过数据中台,某高速行业息化公司将相关高速单位系统内多个渠道数据进行集成、清洗、融合治理,形成高质量数据,赋能各业务部门。
实时可视化,提升应急处置效率依据每日互动数据中台的图像智能和可视化等功能,该公司实现了对高速交通全局态势的实时感知以及对局部路段路况的实时查询、分析,并通过大屏监控车祸、拥堵、抛锚等突发状况,能对突发状况实现快速定位和救援。该公司将此可视化功能应用到道路救援时,救援时间缩短了60%至80%,救援效率得到大幅提升。
数据融合,促进路网通畅通过对ETC、服务区卡口、高速路网等数据融合,业务人员对停靠超时的车辆进行精准引导,缓解夜间服务区的大流量痛点,提高服务区的服务质量。
AI算法预判,提升通行效率针对高速匝道等事故多发以及易拥堵路段,业务人员可基于每日互动数据中台AI算法进行提前预判和事前预警,为相关高速单位进行道路拥堵疏导提供科学依据和有效支撑,也为民众合理规划错峰出行路径提供引导,促进路网流量合理分布,提升高速通行效率。
数据中台厂商综合数据能力为数据中台建设、数据中台应用良好体验提供坚实保障
回顾数据中台建设前期、建设中期以及建设后期应用的全过程,数据中台能成功发挥效用、提升高速交通运营能力有两点关键因素。
1)选择优质厂商事半功倍某高速行业息化公司在进行数据中台厂商选型时,应考虑厂商在特定行业已积累丰富案例,形成完善数据治理方法论,其中行业不限于高速行业。该厂商应具备数据资产管理、数据分析、数据可视化、数据标签等数据治理专业能力以及丰富的数据治理输出经验,具备成熟的久经市场验证的数据产品引擎与提效工具,能将以往行业经验迁移到高速行业中,服务高速行业。在本项目中基于“每日治数平台”丰富的行业客户和相关政府单位解决数字化转型难题经验,每日互动已经沉淀出可复用的数据能力、业务能力、效率工具等,因此能快速为该公司建设数据中台,服务于高速公路建设、管理、养护、运营四个阶段。此外,厂商还应具有算法建模、机器学习、图像智能等综合数据能力,在实现数据整合、数据治理等基本功能基础上,能为数据在多元场景应用提供支持。在本项目中,每日互动的数据中台产品“每日治数平台”具备多元完善的AI算法、图像智能等技术,操作便捷、轻量、易上手,可实现路况实时查询分析并可视化呈现、对路况预判提升通行效率等功能,为客户的数智化创新赋能提效。
2)建设执行团队落地生花除厂商选型外,为使数据中台真正落地、发挥最大效用,某高速行业息化公司在明确数据中台规划、践行数据中台建设的过程中,还需搭建岗位配置齐全的团队,包括但不限于中台建设、中台运维、数据产品经理、数据资产管理、数据运营等岗位来支持中台建设及运维,实现跨组织协同,实现数据驱动。
4. 实时数据平台支撑爆发中的高时效场景
4.1 实时数据应用场景爆发
随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。
但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。
4.2 构建端到端的实时数据解决方案
要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。
图 10 端到端的实时数据解决方案
可以采集多种类型数据实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通协议接口。
高可用、低成本的数据同步方案实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。
统一的数据存储和查询由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。
金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。
案例4: 某股份制银行搭建实时应用支撑平台,通过实时数据赋能业务价值提升
随着金融数字化时代的来临,金融业务正在发生深刻的变化。国内某股份制银行结合市场趋势变化和自身情况,将大数据技术作为企业数字化战略目标的基础。该银行目前处于业务发展的新阶段,资产规模持续扩大,经营实力不断增强,同时积极推进金融创新,而新业务模式的创新离不开数据的支持,也对核心数据能力提出了新要求。
传统的数据处理时效性和灵活性无法满足业务发展需求
在传统的批处理方式下,通过T+1的全量或增量数据更新和处理可以满足银行内各部门对于经营情况和内部管理等数据分析的需求,但是随着精准营销、风险监控和内控管理等场景对于数据时效性的要求越来越高,银行内现有的批量式、准实时式数据处理效率无法满足所有的业务场景,未来需要实现对交易、日志等流式数据的毫秒级实时采集、处理和计算能力。
数字经济时代下,银行需要收集和管理的数据量也将持续高速增长,现有的数据基础设施从性能和处理方式层面都难以满足PB级海量、混合数据的存储、整合、加工以及完成实时流式新增场景接入的要求,需针对现有的数据基础设施进行维护和升级。
在业务支撑方面,当前的数据交付方式复杂且低效,无法满足快速变化的业务需求,需要提升快速、自主、迭代式平台的交付能力。
该股份制银行综合考虑自身业务情况和当前技术能力,提出了搭建实时应用支撑平台来满足海量数据的实时处理和分析,对于实时应用支撑平台具体的需求如下
1.流处理接入和批处理升级
实时应用支撑平台需完成实时流式新增场景接入,需要以现有的flink方式,进行实时数据感知和获取以及相关任务的下发;针对批处理任务场景,为配合完成实时需求,需针对配套的批量任务完成开发和改造,对于现有的批量任务要进行维护和升级。
2.系统组件优化升级
完成传统大数据服务平台应用支撑集群流式平台的系统升级和版本升级。应用支撑集群很多是自研和开源组件,新的实时应用支撑平台需要在现有基础上进行资源整合和优化升级,包括集成自动化测试功能、集成门户查询功能、优化ES存储索引等。
监控方案制定和实施。统筹建立实时应用支撑平台整体监控方案,并完成相关指标的制定以及开发优化,在现有的监控指标基础上完成系统、组件、应用、批、流全方位的监控系统升级,保障系统稳定运行和对外提供服务。
3.集群扩容升级
数据完整性保证。为保障数据完整性,配合实时应用支撑平台扩容计划,在承接更多实时场景的情况下,继续保障集群可以在实时数据消费的同时进行数据备份,并且在集群出现重大问题或流消费有问题时,可以保障数据不丢失。
数据安全保证。为配合平台中实时数仓的建立,丰富目前的实时、准实时数据接出模式,需要建立配套的安全权限管理模式,进行数据安全管控。
为满足上述需求,该股份制银行在实时应用支撑平台搭建中,综合技术能力、产品成熟度和过往经验等多种考虑因素,最终选择与九章云极DataCanvas展开合作。
九章云极DataCanvas成立于2013年,是一家数据智能基础软件供应商,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。
通过开源产品搭建实时应用支撑平台,利用低代码环境提升数据开发效率
在项目中,该银行的IT团队与九章云极DataCanvas共同合作,对全行的实时业务场景做了全面梳理,作为构建实时应用支撑平台的基础。在落地层面,借助九章云极DataCanvas成熟的企业分布式流数据实时处理,分析和决策产品(以下简称“DataCanvas RT实时决策中心“),依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成某银行实时应用支撑平台的搭建和基础数据的准备,以此开展各业务应用工作。
图 11 某股份制银行全行级实时应用支撑平台架构图
实时应用支撑平台通过对批量数据和实时数据的处理、计算、分析,尤其是通过机器学习模型对实时数据进行分析获取业务洞察,进而为下游的业务系统提供多样化的数据服务。在实时数据应用支撑集群中,九章云极运用DataCanvas RT实时决策中心为该银行提供实时指标引擎、模型引擎、数据资产管理、数据作业管理(算子作业、SQL作业、JAR作业)、数据服务、日志管理、多租户及租户资源、UDF管理功能等众多模块和功能。
图 12 算子作业开发示意图
其中UDF的全称为User Definition Function,是DataCanvas RT实时决策中心作为一个平台级的产品基于Flink的框架下开发的低代码数据开发功能,结合预置的算子,让用户可以用可视化拖拽的方式把算子在画布中连接,组成数据开发任务。在实时应用支撑平台项目中,该银行IT人员利用UDF可以极大减少流式数据开发任务的难度,提升开发任务效率,使得实时场景的数据开发上线周期大大缩短。
本次实时应用支撑平台项目历经初建、扩容和推广三个阶段
初建阶段初建阶段主要是在该银行原有的批处理架构基础上,搭建以Hadoop为基础的系统架构,结合多种开源大数据组件搭建具备实时数据处理和实时交易感知的系统,并在部分试点场景中上线运行。
扩容阶段扩容阶段在初建阶段的系统基础上融入DataCanvas RT实时决策中心,并扩容集群规模,在上线时即形成50台节点的系统集群,线上运行20多类业务场景,并在后续逐步扩容至100台节点的系统集群和80多个实时业务场景。
推广阶段推广阶段基于前期的系统建设基础,遵照规范管理流程,接入更多业务场景,提供及时的数据服务,提升业务洞察能力。
实时应用支撑平台除了一般的技术和功能需求外,九章云极DataCanvas还针对该银行的特殊需求对于DataCanvas RT实时决策中心进行定制化开发,包括
高可用流作业在DataCanvas RT实时决策中心中添加高可用流作业功能,有效解决流作业重启情况下导致的数据延迟问题,以及双作业流场景中的基于第三方缓存Redis做的状态一致性保障UDF,本次项目中研发的高可用流作业功能也已经和九章云极一起申请专利。
多租户需求通过逻辑隔离和在预置算子外开发UDF算子如Redis状态计算、去重算子、Hbase维表关联等算子的方式满足该银行实时风险管理系统租户、报表与息服务平台系统租户、营销管理系统租户和标签管理系统租户的多租户需求。
实时应用支撑平台优化数据服务,提升业务洞察
该股份制银行通过九章云极DataCanvasRT实时决策中心搭建的实时应用支撑平台,在投产后已实现无间断运行近四年,并且可以有效应对海量数据处理和实时业务场景应用需求
1.实现了海量实时数据的处理和分发。该银行在上线实时应用支撑平台后,每日实时报文采集量和准实时数据日采集量有了显著提升。类似于大额资金变动预警的实时场景中,实时数据经平台规则处理后可以在0.2秒内输出预警,目前日预警量达到千万条,实时动帐交易日预警量约百万条。
2.极大提高了实时场景开发和上线的效率。随着实时应用支撑平台项目的实施,平台上支撑的总体业务场景不断增加,平均每2周就能上线一个实时业务场景,截止2022年3月已经上线了80多个实时业务场景,总体的需求提出部门达到了15个,包括运营管理部、用卡中心、息科技部、网络金融部等,共涉及3种业务类型,包括营销类、监控类、监管类,平台在对用户需求的支持上得到了显著提升。
3.适用业务发展需要的流数据计算架构。实时应用支撑平台上线后,实现了十万级以上的TPS峰值报文配对处理量,每日全行总线报文采集量加足迹数据采集量达到20亿以上。并且随着业务不断发展,九章云极DataCanvas RT实时决策中心也对平台架构进行持续优化,例如最新版本的RT产品支持Flink SQL,可以有效提升实时数据的开发效率。
流批一体的数据处理能力和低代码环境可显著提升实时数据处理平台的落地效果
实时数据平台的数据处理能力和开发效率是决定其是否能够满足企业需求的核心要素,总结该股份制银行的实时应用支撑平台建设经验,其他银行在选择实时数据平台产品时应注意关注以下两点
流批一体的数据处理能力。在选择实时数据平台产品时,能够承载企业的流批一体数据处理工作,具备方便的横向扩展能力,并且可以对产品架构持续优化改进,不断引入新的技术和功能,才可以保证该产品可以长期稳定的满足业务发展需求。
低代码开发环境提升开发效率。基于DataCanvas RT实时决策中心的低代码开发环境,由成熟的测试团队完成工作流的配置和测试。对于复杂业务场景则通过大数据开发工程师通过UDF算子开发的形式,完成部分数据处理难点的实现,后续将UDF算子交由测试团队,通过可拖拽的方式构建数据开发工作流。
分享:
相关帖子