檢視跨数据中心高性能分布式机器学习系统的原始碼

{| class="wikitable" align="right"
|-
|<center><img src=http://5b0988e595225.cdn.sohucs.com/images/20190408/99e46dfc483243e6b65ddb180164eec6.jpeg width="300"></center>
<small>[https://www.sohu.com/a/306558038_120046457 来自 搜狐网 的图片]</small>
|}

'''跨数据中心高性能分布式机器学习系统'''[[电子科技大学]]坐落于四川省成都市，学校1960年被中共中央列为全国重点高等学校，1961年被中共中央确定为七所国防工业院校之一，1988年更名为电子科技大学，1997年被确定为国家首批“211工程<ref>[https://www.sohu.com/a/225124567_100125206 史上最全面最详细的“211工程”介绍 ]，搜狐，2018-03-10 </ref>”建设的重点大学，2000年由原信息产业部主管划转为教育部主管，2001年进入国家“985工程”重点建设大学行列，2017年进入国家建设“世界一流大学”A类高校行列。2019年[[教育部]]和四川省签约共同推进我校世界一流大学建设。学校已建成国家精品在线开放课程等一批国家精品课程、精品教材，拥有国家大学生文化素质教育基地，以及国家级实验教学示范中心、虚拟仿真实验教学示范中心、工程实践教育中心、全国工程专业学位研究生联合培养示范基地等20余个国家级教育教学实践基地和示范中心，获得一批国家级教学成果奖。学校大力实施学科提升战略，扎实推进理工深度融合，学科影响力持续提升。学校现有2个国家一级重点学科（所包括的6个二级学科均为国家重点学科）、2个国家重点（培育）学科。在第四轮全国一级学科评估中，[[学校]]4个学科获评A类，其中电子科学与技术、信息与通信工程两个学科为A+，A+学科数并列西部高校第一。

==案例简介==

本成果从分布式机器学习软件系统的通用性和高效性出发，聚焦探索多类机器学习算法的统一并行化、地理分散的域间高效参数同步以及动态异构资源下阻塞避免的协同训练三个关键科学问题，提出基于参数[[服务器]]<ref>[https://www.sohu.com/a/664503974_120926322 服务器是什么？服务器的作用与用途] ，搜狐，2023-04-08</ref>的并行化策略，实现六类常用机器学习算法并行模式的统一，使得软件系统框架能支持不同机器学习算法。同时，围绕减少域间同步连接数和数据量等，设计了五种高效参数同步技术；并且围绕避免域间与域内阻塞和不同域间阻塞，提出了两种高效协同技术。本成果在跨数据中心资源受限异构环境下的训练效率，仍能达到其他软件系统在单数据中心理想环境下的[[训练]]效率。本成果具有国际先进性，已在鹏城实验室得到部署，获全国科技竞赛优秀方案奖。

==成果突破性==

本成果实现了六类25种常用机器学习算法的统一并行化，算法库易扩展，系统框架可通用；提出并集成了七种参数同步和计算协同相关的优化创新技术，训练效率提升20余倍，在[[资源]]受限的跨数据中心场景中取得趋于甚至超越单数据中心系统的性能，实现了跨域算力和数据的高效融合。多数据中心协同的数据分析与挖掘是一个普适性问题，因此本成果具有广泛的应用前景，包括如跨地域或跨国的[[医学]]数据分析和挖掘、大型企业分布式数据分析和融合、各部委数据共享分析与服务等领域。本成果可催生新型云服务企业，能推动形成互惠互利的企业云协同服务生态，具有较高的经济和社会效益。本成果属于软件系统，已在GitHub上开源，具有较好的影响力；可依托已有数据中心直接部署，无需额外硬件成本，可推广性好。

==技术要点==

===（一）行业痛点===

跨数据中心分布式机器学习是一个普适性问题。[[人工智能]]决策依赖海量跨域多源数据分析，不同领域的数据往往相互关联，但由于数据量庞大、经济、隐私、安全及国家主权等因素，现实数据分布在不同地理域（如跨国），融合分析和挖掘这些分散的数据就必将面临跨数据中心分布式数据挖掘的问题。然而，已有系统往往仅支持单一类型机器学习算法的并行化，缺乏统一的并行化范式，难以扩展到多种类型算法的并行化。并且，由于不同数据中心之间的网络带宽资源往往非常有限且异构，跨数据中心的迭代训练容易形成通信瓶颈，进而降低整个机器学习任务的效率，这使得传统的分布式机器学习系统无法满足训练高效性的要求。因此，支持多种类型机器学习算法的统一并行化，研究有限且异构网络环境下的跨数据中心高性能分布式机器[[学习]]系统，对跨域数据的联合分析与挖掘具有重要的理论和现实意义。

===（二）解决思路与技术方案===

本项目成果为这一普适性问题提供了高效且通用的解决方案，从框架通用性和训练高效性两个关键指标出发，针对图1所示三个关键科学问题，提出若干创新技术，最后将上述技术集成于[[软件]]系统并验证其性能。

====2.1 多类机器学习算法的统一并行化问题====

现有分布式框架仅支持[[统计]]机器学习类或深度学习类算法，不同框架的并行化策略混杂，难以复用，框架上支持的算法难以扩展。

因此，需要研究多种类型的机器学习算法的统一并行化策略，满足框架通用性。

本成果提出基于参数服务器的统一并行化策略。针对统计机器学习类算法，本成果研究了12个典型算法的可并行参数及并行策略，归纳为集成学习类、支持向量类和MapReduce类三个算法子类，基于参数[[服务器]]并行策略分别实现算法库。

针对深度学习类算法，本[[成果]]研究了13个典型算法的可并行参数及网络结构，归纳为梯度下降类、在线学习类、增量学习类三个算法子类，基于参数服务器并行策略分别实现算法库。

综上，本成果支持25种常用机器学习算法的统一并行化，上述并行算法集成于一个软件框架中，保证了框架的可扩展性和可复用性，本成果的软件框架能满足用户对多类并行算法的需求，满足了框架通用性。

====2.2 地理分散的域间高效参数同步问题====

地理分散的跨数据中心分布式机器[[学习]]需要在中心间高频同步大规模参数。然而，多中心的设备总数多，跨域流的数量和规模大，而域间带宽难以承受密集的大规模通信，同时，地理分散使得传输时间变长，导致域间参数同步低效，成为通信瓶颈，进而使得系统低效和扩展性差。为实现域间带宽受限下的高效参数同步，本成果从减少流数量、流大小、端到端流传输时间、协作流完成时间出发，提出四种创新技术优化同步通信效率。

第一是分层参数服务器通信架构，该架构引入域内参数服务器隔离数据中心内外网络环境，利用分层聚合的设计有效减少跨域流数量，从而减少在有限带宽域间网络的通信开销，实现[[通信]]高效的参数同步。

第二是双向混合压缩[[技术]]，同时压缩上下行通信数据，在域内采用双向混合精度压缩，在域间采用双向稀疏梯度压缩，在最小化实际传输数据量的同时，确保模型精度几乎无损，实现高压缩率且低失真的高效参数同步。

第三是参数丢失容忍的差异化传输协议，基于机器学习算法对部分参数丢失的容忍性，确保关键参数优先可靠传输，允许非关键参数低优先级尽力传输，在模型精度几乎无损的前提下，缓解尾流时延，降低端到端参数同步的传输时延。

第四是面向参数分发和聚合的传送调度机制，针对域间参数分发和聚合过程，利用参与数据中心作为传输中继，感知中心间的全局带宽和算力分布，调度分发和聚合流组的传送[[顺序]]和路径，降低参数分发和聚合的传送完成时间。

====2.3 动态异构资源中阻塞避免的高效协同问题====

由于广域网带宽资源和数据中心算力资源的差异，数据中心之间可用资源异构分布，且受竞争的影响随时间动态变化。资源的动态性和异构性会引发掉队中心，在同步模式下，掉队中心阻塞其它中心的训练进程，并引入同步阻塞时延，拖慢系统训练[[效率]]；在异步模式下，掉队中心用过旧的梯度更新最新的参数，引发延迟梯度问题，造成收敛震荡和精度下降。另外，域间同步与域内同步之间相互依赖，低效的域间同步会阻塞域内同步，引发顺序阻塞问题，导致域内资源低利用率和训练低效。为实现动态异构资源中阻塞避免的高效协同训练，本成果从平衡域间计算时间、松弛依赖出发，提出两种创新技术优化训练效率。

第一是计算时间自平衡的快速同步算法ESync，通过借助状态服务器实时感知全局进度和[[资源]]状态，允许差异资源的不同中心执行不同次的域内同步，通过协调域内同步次数，均衡计算时间，避免掉队中心引发同步阻塞，实现阻塞避免的高效协同。

第二是域内同步与域间同步的流水线并行算法NBSync，通过松弛域内同步和域间同步的[[顺序]]依赖，允许域间同步完成前调度多次域内同步，使其能以流水线方式重叠并行执行，避免低效域间同步顺序阻塞域内同步，实现域内资源利用率最大化和训练效率提升。

===（三）主要技术指标===

本成果实现了25种常用机器学习算法的统一并行化，满足框架通用性需求；

本成果实现了在跨数据中心的复杂场景（有限带宽、动态异构）下趋于甚至超越单数据中心的训练[[效率]]，满足训练高效性需求。具体而言，相比典型分布式机器学习框架MXNET，在同等带宽条件下训练至收敛时，本成果实现的系统在收敛精度几乎无损情况下可减少约96%的训练时间，训练效率提升20余倍。

===（四）技术成果、部署与市场认可===

本成果在MXNET软件系统上，进行二次开发和集成，实现了一种跨数据中心的高性能分布式机器学习软件系统（GeoMX）。该软件系统的技术栈如图2所示，实现了25种常用机器学习算法的统一并行化，使得[[系统]]有更好的通用性；集成了上述5种高效参数同步技术和2种高效协同技术，实现了在跨数据中心的复杂场景（有限带宽、动态异构）下趋于甚至超越单数据中心的训练效率，满足训练高效性需求。

本成果已在GitHub开源在鹏城实验室数据中心部署应用。在[[中国通信学会]]主办的“智荟杯”2019全国高校金融科技创新大赛中荣获优秀方案奖，获浦发银行、百度智能云等产业界高度评价。

==参考文献==
[[Category:500 社會科學類]]