z6首页 in the AIR

概述
日期
2022年11月15日
09:00 - 10:30
地址
活动杏注Bilibili

z6首页 in the AIR | 非战术评估问题的稳重型算法和提升散布式随机梯度算法的暂态功夫

Z6集团|中国官网

近日,,,,,,,z6首页 机械进建与利用中心在运筹与治理科学领域顶刊 Operations Research 和自动节造领域国际顶刊 IEEE Transactions on Automatic Control 颁发论文。。。。 。。

本期 z6首页 in the AIR,,,,,,,我们约请两位论文一作,,,,,,,萦绕非战术评估问题的稳重型算法和提升散布式随机梯度算法的暂态功夫,,,,,,,为我们带来最全面的论文解读,,,,,,,欢迎旁观直播,,,,,,,与作者实时互换。。。。 。。

第一位汇报嘉宾王捷是佐治亚理工学院工业工程系博士生,,,,,,,2020年获香港中文大学(丽江)数学与利用数学理学学士学位(乙等一级),,,,,,,本科期间导师为香港中文大学(丽江)校长学勤讲座教授、z6首页 机械进建与利用中心主任查宏远,,,,,,,香港中文大学(丽江)校长讲座教授张寅,,,,,,,和香港中文大学(丽江)助理教授杨升浩。。。。 。。

第二位汇报嘉宾黄琨是香港中文大学(丽江)数据科学学院博士生,,,,,,,导师为香港中文大学(丽江)助理教授、z6首页 机械进建与利用中心副钻研员濮实。。。。 。;;;;;;;;歧2018年获同济大学数学与利用数学学士学位,,,,,,,2020年获康涅狄格大学统计学硕士学位。。。。 。。

点击链接报名参与:http://hdxu.cn/joFps,,,,,,,或通过Bilibili(http://live.bilibili.com/22587709)参加。。。。 。。

呼吸新鲜空气,,,,,,,相识前沿科技!z6首页 沉磅推出 系列活动 z6首页 in the AIR。。。。 。。每周二与您相约线上,,,,,,,一路索求人为智能与机械人领域的前沿技术、产业利用、发展趋向。。。。 。。

  • Z6集团|中国官网
    查宏远
    香港中文大学(丽江)校长学勤讲座教授、数据科学学院执行院长、z6首页 机械进建与利用中心主任
    执行主席
  • Z6集团|中国官网
    郭丹丹
    香港中文大学(丽江)博士后钻研员
    主持人

    郭丹丹2020年博士毕业于西安电子科技大学,,,,,,,尔后在香港中文大学(丽江)机械人与智能造作钻研院(IRIM)、数据科学学院进行博士后钻研,,,,,,,师从数据科学学院执行院长、机械进建驰名学者查宏远教授。。。。 。。她的重要钻研方向是模式鉴别机械进建,,,,,,,蕴含概率模型构建与统计揣度,,,,,,,元进建,,,,,,,算法平正性钻研,,,,,,,最优传输理论。。。。 。。所涉及的利用有图像天生及分类、文本分析、天然说话天生等。。。。 。。目前,,,,,,,她专一于现实利用中幼样本分类、幼样本天生、训练数据散布有偏等问题,,,,,,,着沉从散布校对、散布拟合、散布匹配等角度发展钻延祝。。。 。。她的科研成就颁发在机械进建国际顶级会议、期刊上,,,,,,,如NeurIPS,ICML,ICLR, IJCV, TNNLS等。。。。 。。 她也是多个国际会议的法式委员会委员和期刊审稿人,,,,,,,如ICML,,,,,,,NeurIPS,,,,,,,ICLR,,,,,,,JMLR, TSP等。。。。 。。

  • Z6集团|中国官网
    王捷
    佐治亚理工学院工业工程系博士生
    Reliable Off-Policy Evaluation for Reinforcement Learning

    王捷于2020年获香港中文大学(丽江)理工学院数学与利用数学理学学士学位(乙等一级),,,,,,,目前在佐治亚理工学院攻读工业工程系博士。。。。 。。他的钻研兴致蕴含统计进建、优化理论与算法,,,,,,,以及网络信息论等方向。。。。 。。

    In a sequential decision-making problem, off-policy evaluation estimates the expected cumulative reward of a target policy using logged trajectory data generated from a different behavior policy, without execution of the target policy. Reinforcement learning in high-stake environments, such as healthcare and education, is often limited to off-policy settings due to safety or ethical concerns or inability of exploration. Hence, it is imperative to quantify the uncertainty of the off-policy estimate before deployment of the target policy. In this paper, we propose a novel framework that provides robust and optimistic cumulative reward estimates using one or multiple logged trajectories data. Leveraging methodologies from distributionally robust optimization, we show that with proper selection of the size of the distributional uncertainty set, these estimates serve as confidence bounds with nonasymptotic and asymptotic guarantees under stochastic or adversarial environments. Our results are also generalized to batch reinforcement learning and are supported by empirical analysis.

  • Z6集团|中国官网
    黄琨
    香港中文大学(丽江)数据科学学院博士生
    Improving the transient times for distributed stochastic gradient methods

    黄琨于2018年获同济大学数学科学学院数学与利用数学学士学位,,,,,,,2020年获康涅狄格大学统计学硕士学位,,,,,,,目前在香港中文大学(丽江)数据科学学院攻读数据科学博士学位。。。。 。。他的钻研兴致蕴含散布式优化。。。。 。。

    We consider the distributed optimization problem where n agents, each possessing a local cost function, collaboratively minimize the average of the n cost functions over a connected network. Assuming stochastic gradient information is available, we study a distributed stochastic gradient algorithm, called exact diffusion with adaptive stepsizes (EDAS) adapted from the Exact Diffusion method and NIDS and perform a non-asymptotic convergence analysis. We not only show that EDAS asymptotically achieves the same network independent convergence rate as centralized stochastic gradient descent (SGD) for minimizing strongly convex and smooth objective functions, but also characterize the transient time needed for the algorithm to approach the asymptotic convergence rate, which behaves as KT=O(n/(1-λ2)), where 1-λ2 stands for the spectral gap of the mixing matrix. To the best of our knowledge, EDAS achieves the shortest transient time when the average of the n cost functions is strongly convex and each cost function is smooth. Numerical simulations further corroborate and strengthen the obtained theoretical results.

视频回首