開啟主選單

求真百科

跨數據中心高性能分布式機器學習系統

來自 搜狐網 的圖片

跨數據中心高性能分布式機器學習系統電子科技大學坐落於四川省成都市,學校1960年被中共中央列為全國重點高等學校,1961年被中共中央確定為七所國防工業院校之一,1988年更名為電子科技大學,1997年被確定為國家首批「211工程[1]」建設的重點大學,2000年由原信息產業部主管劃轉為教育部主管,2001年進入國家「985工程」重點建設大學行列,2017年進入國家建設「世界一流大學」A類高校行列。2019年教育部和四川省簽約共同推進我校世界一流大學建設。學校已建成國家精品在線開放課程等一批國家精品課程、精品教材,擁有國家大學生文化素質教育基地,以及國家級實驗教學示範中心、虛擬仿真實驗教學示範中心、工程實踐教育中心、全國工程專業學位研究生聯合培養示範基地等20餘個國家級教育教學實踐基地和示範中心,獲得一批國家級教學成果獎。學校大力實施學科提升戰略,紮實推進理工深度融合,學科影響力持續提升。學校現有2個國家一級重點學科(所包括的6個二級學科均為國家重點學科)、2個國家重點(培育)學科。在第四輪全國一級學科評估中,學校4個學科獲評A類,其中電子科學與技術、信息與通信工程兩個學科為A+,A+學科數並列西部高校第一。

目錄

案例簡介

本成果從分布式機器學習軟件系統的通用性和高效性出發,聚焦探索多類機器學習算法的統一併行化、地理分散的域間高效參數同步以及動態異構資源下阻塞避免的協同訓練三個關鍵科學問題,提出基於參數服務器[2]的並行化策略,實現六類常用機器學習算法並行模式的統一,使得軟件系統框架能支持不同機器學習算法。同時,圍繞減少域間同步連接數和數據量等,設計了五種高效參數同步技術;並且圍繞避免域間與域內阻塞和不同域間阻塞,提出了兩種高效協同技術。本成果在跨數據中心資源受限異構環境下的訓練效率,仍能達到其他軟件系統在單數據中心理想環境下的訓練效率。本成果具有國際先進性,已在鵬城實驗室得到部署,獲全國科技競賽優秀方案獎。

成果突破性

本成果實現了六類25種常用機器學習算法的統一併行化,算法庫易擴展,系統框架可通用;提出並集成了七種參數同步和計算協同相關的優化創新技術,訓練效率提升20餘倍,在資源受限的跨數據中心場景中取得趨於甚至超越單數據中心系統的性能,實現了跨域算力和數據的高效融合。多數據中心協同的數據分析與挖掘是一個普適性問題,因此本成果具有廣泛的應用前景,包括如跨地域或跨國的醫學數據分析和挖掘、大型企業分布式數據分析和融合、各部委數據共享分析與服務等領域。本成果可催生新型雲服務企業,能推動形成互惠互利的企業雲協同服務生態,具有較高的經濟和社會效益。本成果屬於軟件系統,已在GitHub上開源,具有較好的影響力;可依託已有數據中心直接部署,無需額外硬件成本,可推廣性好。

技術要點

(一)行業痛點

跨數據中心分布式機器學習是一個普適性問題。人工智能決策依賴海量跨域多源數據分析,不同領域的數據往往相互關聯,但由於數據量龐大、經濟、隱私、安全及國家主權等因素,現實數據分布在不同地理域(如跨國),融合分析和挖掘這些分散的數據就必將面臨跨數據中心分布式數據挖掘的問題。然而,已有系統往往僅支持單一類型機器學習算法的並行化,缺乏統一的並行化範式,難以擴展到多種類型算法的並行化。並且,由於不同數據中心之間的網絡帶寬資源往往非常有限且異構,跨數據中心的迭代訓練容易形成通信瓶頸,進而降低整個機器學習任務的效率,這使得傳統的分布式機器學習系統無法滿足訓練高效性的要求。因此,支持多種類型機器學習算法的統一併行化,研究有限且異構網絡環境下的跨數據中心高性能分布式機器學習系統,對跨域數據的聯合分析與挖掘具有重要的理論和現實意義。

(二)解決思路與技術方案

本項目成果為這一普適性問題提供了高效且通用的解決方案,從框架通用性和訓練高效性兩個關鍵指標出發,針對圖1所示三個關鍵科學問題,提出若干創新技術,最後將上述技術集成於軟件系統並驗證其性能。

2.1 多類機器學習算法的統一併行化問題

現有分布式框架僅支持統計機器學習類或深度學習類算法,不同框架的並行化策略混雜,難以復用,框架上支持的算法難以擴展。

因此,需要研究多種類型的機器學習算法的統一併行化策略,滿足框架通用性。

本成果提出基於參數服務器的統一併行化策略。針對統計機器學習類算法,本成果研究了12個典型算法的可並行參數及並行策略,歸納為集成學習類、支持向量類和MapReduce類三個算法子類,基於參數服務器並行策略分別實現算法庫。

針對深度學習類算法,本成果研究了13個典型算法的可並行參數及網絡結構,歸納為梯度下降類、在線學習類、增量學習類三個算法子類,基於參數服務器並行策略分別實現算法庫。

綜上,本成果支持25種常用機器學習算法的統一併行化,上述並行算法集成於一個軟件框架中,保證了框架的可擴展性和可復用性,本成果的軟件框架能滿足用戶對多類並行算法的需求,滿足了框架通用性。

2.2 地理分散的域間高效參數同步問題

地理分散的跨數據中心分布式機器學習需要在中心間高頻同步大規模參數。然而,多中心的設備總數多,跨域流的數量和規模大,而域間帶寬難以承受密集的大規模通信,同時,地理分散使得傳輸時間變長,導致域間參數同步低效,成為通信瓶頸,進而使得系統低效和擴展性差。為實現域間帶寬受限下的高效參數同步,本成果從減少流數量、流大小、端到端流傳輸時間、協作流完成時間出發,提出四種創新技術優化同步通信效率。

第一是分層參數服務器通信架構,該架構引入域內參數服務器隔離數據中心內外網絡環境,利用分層聚合的設計有效減少跨域流數量,從而減少在有限帶寬域間網絡的通信開銷,實現通信高效的參數同步。

第二是雙向混合壓縮技術,同時壓縮上下行通信數據,在域內採用雙向混合精度壓縮,在域間採用雙向稀疏梯度壓縮,在最小化實際傳輸數據量的同時,確保模型精度幾乎無損,實現高壓縮率且低失真的高效參數同步。

第三是參數丟失容忍的差異化傳輸協議,基於機器學習算法對部分參數丟失的容忍性,確保關鍵參數優先可靠傳輸,允許非關鍵參數低優先級盡力傳輸,在模型精度幾乎無損的前提下,緩解尾流時延,降低端到端參數同步的傳輸時延。

第四是面向參數分發和聚合的傳送調度機制,針對域間參數分發和聚合過程,利用參與數據中心作為傳輸中繼,感知中心間的全局帶寬和算力分布,調度分發和聚合流組的傳送順序和路徑,降低參數分發和聚合的傳送完成時間。

2.3 動態異構資源中阻塞避免的高效協同問題

由於廣域網帶寬資源和數據中心算力資源的差異,數據中心之間可用資源異構分布,且受競爭的影響隨時間動態變化。資源的動態性和異構性會引發掉隊中心,在同步模式下,掉隊中心阻塞其它中心的訓練進程,並引入同步阻塞時延,拖慢系統訓練效率;在異步模式下,掉隊中心用過舊的梯度更新最新的參數,引發延遲梯度問題,造成收斂震盪和精度下降。另外,域間同步與域內同步之間相互依賴,低效的域間同步會阻塞域內同步,引發順序阻塞問題,導致域內資源低利用率和訓練低效。為實現動態異構資源中阻塞避免的高效協同訓練,本成果從平衡域間計算時間、鬆弛依賴出發,提出兩種創新技術優化訓練效率。

第一是計算時間自平衡的快速同步算法ESync,通過藉助狀態服務器實時感知全局進度和資源狀態,允許差異資源的不同中心執行不同次的域內同步,通過協調域內同步次數,均衡計算時間,避免掉隊中心引發同步阻塞,實現阻塞避免的高效協同。

第二是域內同步與域間同步的流水線並行算法NBSync,通過鬆弛域內同步和域間同步的順序依賴,允許域間同步完成前調度多次域內同步,使其能以流水線方式重疊並行執行,避免低效域間同步順序阻塞域內同步,實現域內資源利用率最大化和訓練效率提升。

(三)主要技術指標

本成果實現了25種常用機器學習算法的統一併行化,滿足框架通用性需求;

本成果實現了在跨數據中心的複雜場景(有限帶寬、動態異構)下趨於甚至超越單數據中心的訓練效率,滿足訓練高效性需求。具體而言,相比典型分布式機器學習框架MXNET,在同等帶寬條件下訓練至收斂時,本成果實現的系統在收斂精度幾乎無損情況下可減少約96%的訓練時間,訓練效率提升20餘倍。

(四)技術成果、部署與市場認可

本成果在MXNET軟件系統上,進行二次開發和集成,實現了一種跨數據中心的高性能分布式機器學習軟件系統(GeoMX)。該軟件系統的技術棧如圖2所示,實現了25種常用機器學習算法的統一併行化,使得系統有更好的通用性;集成了上述5種高效參數同步技術和2種高效協同技術,實現了在跨數據中心的複雜場景(有限帶寬、動態異構)下趨於甚至超越單數據中心的訓練效率,滿足訓練高效性需求。

本成果已在GitHub開源在鵬城實驗室數據中心部署應用。在中國通信學會主辦的「智薈杯」2019全國高校金融科技創新大賽中榮獲優秀方案獎,獲浦發銀行、百度智能雲等產業界高度評價。

參考文獻