永乐高ylg88888能源大数据智慧计算科研团队在人工智能顶级学术期刊《Artificial Intelligence》上发表分布式机器学习最新研究成果

发布日期:2024-04-16      浏览次数:111

近日,永乐高ylg88888能源大数据智慧计算科研团队的杜海舟副教授及其硕士生倪诚栋、程超乾在人工智能顶级期刊《Artificial Intelligence》上发表了题为《A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex Models and Heterogeneous Data》的分布式机器学习领域的研究论文,上海电力大学为该论文唯一单位。这一研究成果的取得标志着该团队在分布式机器学习领域取得了重大突破。

分布式机器学习(Distributed Machine Learning)已成为大规模机器学习,尤其是大模型时代处理数据的重要范式。但在现实场景中,存在两个方面会严重影响学习模型的性能:模型非凸性和数据异构性。非凸优化问题可能具有多个局部最优值,从而导致次优解,并降低模型的整体准确性。此外,它还会导致模型不稳定并阻碍训练过程;数据异构性是分布式机器学习训练的关键挑战之一,导致收敛缓慢和不稳定,并影响模型泛化性。因此,有必要从全面的角度考虑非凸性和数据异构性,以提高分布式机器学习在现实世界中的应用性能。

目前大部分研究集中于上述问题之一,但缺少一个最优的通用框架。为此,论文提出了一个基于动量的统一范式(UMP),它包括两个算法:D-SUM和GT-DSUM。前者为一般非凸目标提供了收敛保证,而后者通过引入梯度跟踪技术来估计全局优化方向以缓解数据异构性。论文通过严格的数学推导证明了提出的两个算法在光滑、非凸条件下的收敛上界。此外,通过设定UMP中的不同参数,还可以推导出其他不同场景下基于动量技术的分布式机器学习算法,从而让UMP成为基于动量技术的分布式机器学习的统一泛化性框架。

D-SUM算法提出了一种新的随机统一动量(SUM)的关键更新公式。通过调节算法的超参数,D-SUM能够覆盖一系列基于动量的分布式机器学习算法,使它们成为UMP的特例,例如经典的Heavy Ball,Nesterov’s momentum与PR-SGDm算法。

为了减轻异构数据的影响,论文提出了第二个算法:GT-DSUM。通过引入一个辅助变量来追踪全局梯度方向,GT-DSUM能够调整本地模型的参数向量,从而有效解决数据异构性对分布式学习的影响,提高模型的准确性和收敛速度。

实验结果表明,与知名的去中心化基线相比,D-SUM和GT-DSUM在不同的non-IID程度下分别提高了35.8%和57.6%的模型准确性。而GT-DSUM在数据异构性的训练任务中,在模型泛化上比D-SUM表现得更好。

1 UMP与其他最新方法在AG NEWS数据集的测试精度比较(自然语言处理领域数据集)

Artificial Intelligence》是国际著名爱思唯尔出版社在人工智能领域于1970年创建的顶级学术期刊,被中国计算机学会(CCF)评定为排名第一的A类推荐期刊,其影响因子高达14.4,在人工智能学科领域中属于顶级期刊。研究成果被该期刊接受并发表,被视为在人工智能研究领域取得了一项重要成就。

                                                                永乐高ylg88888 供稿


Baidu
sogou