大數據開發平台項目檢視原始碼討論檢視歷史
大數據開發平台項目天翼電子商務有限公司(以下簡稱「翼支付」)是中國電信集團的成員企業,中國電信旗下唯一的互聯網[1]金融平台,國內首家電信運營商支付公司,中國人民銀行核准的第三方支付機構。
作為進軍金融科技從事新業態的央企子公司,是兼具「金融、電信、互聯網」 特點的國家高新技術企業。公司關注5G建設、運營過程中的金融服務需求,拓展傳統供應鏈金融、保險等相關金融配套服務。2020年翼支付個賬交易達到3943億元;全年累計交易額達11075億元;月均活躍用戶數5249萬戶;合作商家超800萬戶。中國電信集團轉型3.0戰略,提出建設「五大生態圈」,其中 「互聯網金融生態圈」以翼支付為核心構建。
案例概述
該項目以企業的海量數據開發與服務為出發點,深入挖掘用戶訴求,整合離線調度、實時計算、數據集成、數據服務、機器學習於一體。支持一站式數據採集、清洗、轉換、服務等能力。離線調度模塊採用行業先進的Apache Airflow作為調度引擎,可結合業務需求實現各種複雜依賴,實現600+任務並發處理,每日處理2萬+離線調度任務,全年服務質量約99.995%(全年累計故障實例數/全年總實例數 ), 按需求保障既定任務完成質量及時效;實時計算模塊採用StreamSQL,使用方可以使用SQL語法進行流式任務的開發,底層採用Flink流式處理框架;機器學習模塊支AutoML,並支持跟其他離線、實時任務進行依賴調度;數據集成模塊解決了夸系統的海量數據傳輸;數據服務模塊解決數據快速應用痛點,通過嚮導式配置生成服務API。
此外,結合公司內部需求,設計了一種新型的計算資源分配策略,分時段分別採用動態資源分配和靜態資源分配策略。利用動態資源分配策略保證了公司核心任務快速計算,利用靜態資源分配模式更好地避免工作時間段各租戶間的相互影響。
案例突破性
優勢及特點
1、 一站式數據開發與服務平台,整合離線調度、實時計算、數據集成、數據發布、機器學習於一體,企業內部常規大數據[2]計算需求都可以在平台上得到解決。
2、 採用spark計算引擎逐步替代hive引擎,離線計算效率提升2倍以上。
3、 分時段資源分配策略,既滿足核心任務優先快速計算完成,又滿足工作時間各租戶間不相互影響。
貢獻及影響
平台已成為翼支付公司數據開發的主要平台,作為公司數據治理的主陣地,有效保證數據開發任務的穩定性和時效性。
可推廣性闡述
平台能力可以進一步產品化,然後作為翼支付金融科技能力向市場輸出。
技術要點
根據2018年12月中國信通院發布的《數據資產管理實踐白皮書3.0》:近年來,中國大數據和商業數據分析市場規模增速是世界平均增速的2倍,特別是銀行業、離散製造業、流程製造業和政府等行業需求尤其旺盛。數據是數字經濟的「血液」, 數字經濟的崛起推動了社會發展,越來越多的企業看到了數據資產的價值。將數據視為企業的重要資產,已經成為業界的一種共識。
目前我司積極探索數據的應用場景和商業模式。大數據部ODS匯聚了公司P級別的數據量,各數據中台、數據應用系統與數據的交互越來越頻繁,業務對於數據使用的需求也日益增加。集群資源緊張、數據工具匱乏、任務運行時長過長、數據開發工作效率與業務訴求激增之間的矛盾也隨之而來。在數據資產日益豐富的同時,我司在處理分析海量數據過程中還存在以下問題:
1. 任務管理缺乏系統化:調度平台以任務維度對任務維度進行運維管理,造成各部門任務管理混亂;
2. 任務處理時效性難以保證:由於調度任務的資源消耗已逐漸達到集群資源的上限,導致部分優先級低的任務難以按時運行完成,無法滿足業務分析的時效性要求;
3. 上線任務缺乏充分測試:調度平台只有一套環境進行數據開發,任務修改失敗會導致下游依賴任務受到影響,從而造成生產故障;
4. 任務之間的相互影響嚴重:原有調度配置策略,會導致某些耗用資源過大的任務長期占用集群資源,導致其他任務無法獲得資源運行,從而產生較為頻繁的任務延時;
5. 數據平台冗餘,缺乏數據處理統一管理:公司存在先算平台、數據服務平台、ETL平台,並用於對不同類型的數據進行加工處理,數據平台冗餘,且平台之間壁壘難以打通,缺乏統一管理。
為了解決這一系列矛盾,公司從2020年年初開始啟動數據開發平台項目建設工作。平台自2020年6月份上線第一個試運行版本,到現在已穩定運行近1年時間。在此期間,不斷根據業務需求進行迭代,並參考行業先進解決方案,根據公司內部實際訴求給出符合公司實際的產品設計,並推動研發落地與生產應用。
以下將從產品成果、技術成果兩個方面來闡述項目的價值。
參考文獻
- ↑ 互聯網到底是什麼?這幾點信息要了解清楚 ,搜狐,2021-03-19
- ↑ 大數據有什麼作用? ,搜狐,2023-04-24