開啟主選單
求真百科
搜尋
檢視 大数据开发平台项目 的原始碼
←
大数据开发平台项目
由於下列原因,您沒有權限進行 編輯此頁面 的動作:
您請求的操作只有這個群組的使用者能使用:
用戶
您可以檢視並複製此頁面的原始碼。
{| class="wikitable" align="right" |- |<center><img src=https://p0.itc.cn/q_70/images03/20230204/580b0618f2154c41a712e6c041470c06.png width="300"></center> <small>[https://www.sohu.com/a/637349711_121124371 来自 搜狐网 的图片]</small> |} '''大数据开发平台项目'''天翼电子商务有限公司(以下简称“翼支付”)是中国电信集团的成员企业,[[中国电信]]旗下唯一的互联网<ref>[https://www.sohu.com/a/456373249_120413545 互联网到底是什么?这几点信息要了解清楚] ,搜狐,2021-03-19 </ref>金融平台,国内首家电信运营商支付公司,中国人民银行核准的第三方支付机构。 作为进军金融科技从事新业态的央企子公司,是兼具“[[金融]]、电信、[[互联网]]” 特点的国家高新技术企业。公司关注5G建设、运营过程中的金融服务需求,拓展传统供应链金融、保险等相关金融配套服务。2020年翼支付个账交易达到3943亿元;全年累计交易额达11075亿元;月均活跃用户数5249万户;合作商家超800万户。中国电信集团转型3.0战略,提出建设“五大生态圈”,其中 “互联网金融生态圈”以翼支付为核心构建。 ==案例概述== 该项目以企业的海量数据开发与服务为出发点,深入挖掘用户诉求,整合离线调度、实时计算、[[数据]]集成、数据服务、机器学习于一体。支持一站式数据采集、清洗、转换、[[服务]]等能力。离线调度模块采用行业先进的Apache Airflow作为调度引擎,可结合业务需求实现各种复杂依赖,实现600+任务并发处理,每日处理2万+离线调度任务,全年服务质量约99.995%(全年累计故障实例数/全年总实例数 ), 按需求保障既定任务完成质量及时效;实时计算模块采用StreamSQL,使用方可以使用SQL语法进行流式任务的开发,底层采用Flink流式处理框架;机器学习模块支AutoML,并支持跟其他离线、实时任务进行依赖调度;数据集成模块解决了夸系统的海量数据传输;数据服务模块解决数据快速应用痛点,通过向导式配置生成服务API。 此外,结合公司内部需求,设计了一种新型的计算[[资源]]分配策略,分时段分别采用动态资源分配和静态资源分配策略。利用动态资源分配策略保证了公司核心任务快速计算,利用静态资源分配模式更好地避免工作时间段各租户间的相互影响。 ==案例突破性== ===优势及特点=== 1、 一站式数据开发与[[服务]]平台,整合离线调度、实时计算、数据集成、数据发布、机器学习于一体,企业内部常规大数据<ref>[https://it.sohu.com/a/669707371_120797758 大数据有什么作用?] ,搜狐,2023-04-24</ref>计算需求都可以在平台上得到解决。 2、 采用spark计算引擎逐步替代hive引擎,离线计算[[效率]]提升2倍以上。 3、 分时段资源分配[[策略]],既满足核心任务优先快速计算完成,又满足工作时间各租户间不相互影响。 ==贡献及影响== 平台已成为翼支付公司数据开发的主要平台,作为[[公司]]数据治理的主阵地,有效保证数据开发任务的稳定性和时效性。 ==可推广性阐述== 平台能力可以进一步产品化,然后作为翼支付金融科技能力向[[市场]]输出。 ==技术要点== 根据2018年12月中国信通院发布的《数据资产管理实践白皮书3.0》:近年来,中国大数据和商业数据分析市场规模增速是世界平均增速的2倍,特别是银行业、离散制造业、流程[[制造业]]和政府等行业需求尤其旺盛。数据是数字经济的“血液”, 数字经济的崛起推动了社会发展,越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识。 目前我司积极探索数据的应用场景和商业模式。大数据部ODS汇聚了公司P级别的数据量,各数据中台、数据应用系统与数据的交互越来越频繁,业务对于数据使用的需求也日益增加。集群资源紧张、数据[[工具]]匮乏、任务运行时长过长、数据开发工作效率与业务诉求激增之间的矛盾也随之而来。在数据资产日益丰富的同时,我司在处理分析海量数据过程中还存在以下问题: 1. 任务管理缺乏系统化:调度平台以任务维度对任务维度进行运维管理,造成各部门任务管理混乱; 2. 任务处理时效性难以[[保证]]:由于调度任务的资源消耗已逐渐达到集群资源的上限,导致部分优先级低的任务难以按时运行完成,无法满足业务分析的时效性要求; 3. 上线任务缺乏充分测试:调度平台只有一套环境进行数据开发,任务修改失败会导致下游依赖任务受到影响,从而造成[[生产]]故障; 4. 任务之间的相互影响严重:原有调度配置策略,会导致某些耗用[[资源]]过大的任务长期占用集群资源,导致其他任务无法获得资源运行,从而产生较为频繁的任务延时; 5. 数据平台冗余,缺乏数据处理统一管理:公司存在先算平台、数据服务平台、ETL平台,并用于对不同类型的数据进行加工处理,数据平台冗余,且平台之间壁垒难以打通,缺乏统一管理。 为了解决这一系列[[矛盾]],公司从2020年年初开始启动数据开发平台项目建设工作。平台自2020年6月份上线第一个试运行版本,到现在已稳定运行近1年时间。在此期间,不断根据业务需求进行迭代,并参考行业先进解决方案,根据公司内部实际诉求给出符合公司实际的产品设计,并推动研发落地与生产应用。 以下将从[[产品]]成果、技术成果两个方面来阐述项目的价值。 ==参考文献== [[Category:500 社會科學類]]
返回「
大数据开发平台项目
」頁面