我院机械进建与利用中心濮实教授团队的论文“Improving the transient times for distributed stochastic gradient methods”以长文颁发在自动节造领域国际顶刊 IEEE Transactions on Automatic Control 上。。。。。。
该文章提出了一种新的无中心散布式随机梯度算法 EDAS,,,,,并从理论和尝试上证了然其先进性。。。。。。
论文链接:https://ieeexplore.ieee.org/abstract/document/9865230
钻研布景
近年来,,,,,基于无中心网络拓扑结构的无中心散布式优化算法逐步受到钻研者的关注。。。。。。无中心散布式的架构不依赖于中心主节点进行协调,,,,,而是由每个节点在与其邻居节点进行有限的信息互换的基础上实现自主决策,,,,,拥有通讯价值低、数据安全性强、适合实时利用等诸多利益。。。。。。图一展示了无中心散布式结构与有中心散布式结构的区别。。。。。。
图一:无中心散布式结构(左)和有中心散布式结构(右)
然而,,,,,无中心散布式优化算法的收敛速度会受到网络通讯拓扑结构的显著影响。。。。。。近期,,,,,一些散布式随机梯度算法被证明在经过若干步迭代后,,,,,可能获得与有中心随机梯度降落(SGD)算法相当的收敛速度,,,,,似乎不受网络结构的影响。。。。。。该景象被称为渐近网络无关。。。。。。而达到与网络无关的收敛速度所必要的迭代次数被称为暂态功夫[1]。。。。。。本文提出了一类新的无中心散布式随机优化算法(EDAS),,,,,针对强凸光滑指标函数实现了已知最短的暂态功夫 O(n/(1-λ)),,,,,其中 n 暗示网络节点数,,,,,1-λ 代表混合矩阵(mixing matrix)的谱隙(spectral gap)。。。。。。为方便比力,,,,,表1列出了有关算法的暂态功夫(参考文件[7]和[8]于近期更新了的关于DSGT的暂态功夫为 O(max{n/(1-λ), n1/3/(1-λ)4/3}))。。。。。。
表1: 分歧算法的暂态功夫比力
图二:EDAS 算法的渐近网络无关个性展示
钻研步骤
本文解决如下的散布式优化问题:
其中 fi(x) 为每个节点 i 的(进展意思下的)本地损失函数。。。。。。受算法 Exact Diffusion[2]和 NIDS[3]启发,,,,,我们提出新的基于递减步长的散布式随机梯度降落算法 EDAS:
无中心散布式优化算法的误差通常?????煞只恢滦晕蟛睿╟onsensus error)和优化误差(optimization error)两部门。。。。。。因而本文分析的主题思想是,,,,,通过度别得到上述两种误差的递归关系,,,,,推导算法的收敛速度。。。。。。由于 EDAS 更新时涉及到多步的迭代变量,,,,,我们引入新的变量 y,,,,,获得一个易于分析的等价大局:
其中矩阵 V=[vij] 满足 V 2=I-W。。。。。。之后,,,,,通过给出 x 和 y 的最优前提(optimality conditions),,,,,我们钻研上述迭代式经过一系列转换后的两个误差项,,,,,其中一项暗示优化误差,,,,,一项暗示 x 和 y 的一致性误差。。。。。。只管这两个误差项是经过变换后的,,,,,我们仍能通过其与原误差的关系得到 EDAS 的误差收敛了局。。。。。。文章余下的步骤即为刻画前述两项转换后的误差项的递归关系式。。。。。。最终经过具体推导,,,,,我们得到关于 EDAS 的如下收敛了局:
通过度析以上收敛性了局,,,,,我们刻画出 EDAS 的暂态功夫为 n/(1-λ) 。。。。。。同时,,,,,我们也用一组数值尝试验证了该了局的正确性(图3-4):
图 3:EDAS 在环形图上的暂态功夫
图 4:EDAS 在网格图上的暂态功夫
最后,,,,,我们比力了 EDAS 与 DSGD,,,,,DSGT,,,,,以及 SGD 等算法在分歧网络结构下的收敛性了局(图6-7)。。。。。。????D芄豢闯 EDAS 相对于其他无中心散布式随机梯度算法的优越性。。。。。。
图 5:环形图,,,,,n=60
图 6:网格图,,,,,n=121
钻研结论
本文提出了新的无中心散布式随机梯度算法 EDAS。。。。。。针对光滑强凸的指标函数,,,,,EDAS 不仅拥有渐近网络无关性质,,,,,其暂态功夫 O(n/(1-λ)) 也当吓宗所有已知算法。。。。。。文章从理论和尝试两方面证了然新算法的先进性。。。。。。
作者简介
黄琨于2018年获同济大学数学科学学院数学与利用数学学士学位,,,,,2020年获康涅狄格大学统计学硕士学位,,,,,目前在香港中文大学(丽江)数据科学学院攻读数据科学博士学位。。。。。。他的钻研兴致蕴含散布式优化。。。。。。
濮实现任香港中文大学(丽江)数据科学学院助理教授,,,,,z6首页 副钻研员。。。。。。在此之前,,,,,他曾任佛罗里达大学、亚利桑那州立大学和波士顿大学博士后钻研员。。。。。。2012年获得北京大学工学学士学位,,,,,2016年获得弗吉尼亚大学系统工程博士学位。。。。。。他的重要钻研方向为多智能体网络中的散布式优化和机械进建算法。。。。。。2017年濮实获弗吉尼亚大学 Louis T. Rader 卓越毕业生荣誉称号。。。。。。以第一或通讯作者身份在 Mathematical Programming、IEEE Transactions on Automatic Control、SIAM Journal on Control and Optimization、Operations Research 等运筹优化和节造领域的顶级期刊颁发10余篇论文,,,,,其中一篇代表作入选 ESI 高被引论文。。。。。。他在主持国度天然科学基金青年项目、丽江市优良科技创新人才造就项目(优良青年基础钻研)等。。。。。。自2022年起担任 IEEE Control Systems Society 会议编委。。。。。。
期刊介绍
IEEE Transactions on Automatic Control 成立于1956年,,,,,是自动节造领域的国际顶级期刊,,,,,WJCI 世界期刊影响力指数(自动化与节造系吐潇域)排名第一。。。。。。论文分为长文(full paper)和短文两类,,,,,其中长文颁发必要沉要钻研(significant research)。。。。。。
参考文件:
[1] Pu, S., Olshevsky, A., & Paschalidis, I. C. (2020). Asymptotic network independence in distributed stochastic optimization for machine learning: Examining distributed and centralized stochastic gradient descent. IEEE signal processing magazine, 37(3), 114-122.
[2] Yuan, K., Ying, B., Zhao, X., & Sayed, A. H. (2018). Exact diffusion for distributed optimization and learning—Part I: Algorithm development. IEEE Transactions on Signal Processing, 67(3), 708-723.
[3] Li, Z., Shi, W., & Yan, M. (2019). A decentralized proximal-gradient method with network independent step-sizes and separated convergence rates. IEEE Transactions on Signal Processing, 67(17), 4494-4506.
[4] Koloskova, A., Stich, S., & Jaggi, M. (2019, May). Decentralized stochastic optimization and gossip algorithms with compressed communication. In International Conference on Machine Learning (pp. 3478-3487). PMLR.
[5] Pu, S., Olshevsky, A., & Paschalidis, I. C. (2021). A sharp estimate on the transient time of distributed stochastic gradient descent. IEEE Transactions on Automatic Control.
[6] Pu, S., & Nedi?, A. (2021). Distributed stochastic gradient tracking methods. Mathematical Programming, 187(1), 409-457.
[7] Alghunaim, S. A., & Yuan, K. (2022). A unified and refined convergence analysis for non-convex decentralized learning. IEEE Transactions on Signal Processing, 70, 3264-3279.
[8] Koloskova, A., Lin, T., & Stich, S. U. (2021). An improved analysis of gradient tracking for decentralized machine learning. Advances in Neural Information Processing Systems, 34, 11422-11435.
