快来参与最新一期的理论中心前沿系列讲座吧！往期精彩回顾也为你整理好了哦！

2022-12-20 09:12

（本文阅读时间：14分钟）

理论是计算机科学的基础，也是计算机技术发展的动力。2021年12月，微软亚洲研究院理论中心正式成立，通过搭建国际学术交流与合作枢纽，微软亚洲研究院理论中心已促发了很多关于计算机理论研究的前沿探讨。

在此背景下，我们正式推出了微软亚洲研究院理论中心前沿系列讲座。作为微软亚洲研究院的常设系列直播讲座，该讲座将邀请全球站在理论研究前沿的研究者介绍他们的研究发现，主题涵盖大数据、人工智能以及其他相关领域的理论进展。通过这一系列讲座，我们期待与大家一起探索当前理论研究的前沿发现，并建立一个活跃的理论研究社区。欢迎对理论研究感兴趣的老师和同学们参与讲座并加入社区（加入方式见后文），共同推动理论研究的进步，加强跨学科研究的合作，助力打破 AI 发展瓶颈，实现计算机技术实质性发展！

直播预告

微软亚洲研究院理论中心前沿系列讲座第七期，将于12月22日（本周四）上午10:00-11:00与你相见！这一期，我们邀请到了俄亥俄州立大学电气与计算机工程系教授 Yingbin Liang ，带来以 “通过样本高效的表示学习进行无奖励强化学习” 为主题的讲座分享，届时请锁定 B 站 “微软中国视频中心” 直播间！

错过了此前的直播？不必担心！今天我们还为大家整理了四至六期的讲座回顾，速戳下文了解详细信息吧！

直播地址：B 站 “微软中国视频中心” 直播间

https://live.bilibili.com/730

直播时间：12月22日 10:00 - 11:00

扫码或点击 “阅读原文” 直达直播间

Yingbin Liang

俄亥俄州立大学

电气与计算机工程系教授

Dr. Yingbin Liang is currently a Professor at the Department of Electrical and Computer Engineering at the Ohio State University (OSU), and a core faculty of the Ohio State Translational Data Analytics Institute (TDAI). She also serves as the Deputy Director of the AI-Edge Institute at OSU. Dr. Liang received the Ph.D. degree in Electrical Engineering from the University of Illinois at Urbana-Champaign in 2005, and served on the faculty of University of Hawaii and Syracuse University before she joined OSU. Dr. Liang's research interests include machine learning, optimization, information theory, and statistical signal processing. Dr. Liang received the National Science Foundation CAREER Award and the State of Hawaii Governor Innovation Award in 2009. She also received EURASIP Best Paper Award in 2014.

报告题目:

Reward-free Reinforcement Learning via Sample-Efficient Representation Learning

通过样本高效的表示学习进行无奖励强化学习

报告摘要:

As reward-free reinforcement learning (RL) becomes a powerful framework for a variety of multi-objective applications, representation learning arises as an effective technique to deal with the curse of dimensionality in reward-free RL. However, the existing algorithms of representation learning in reward-free RL still suffers seriously from high sample complexity, although they are polynomially efficient. In this talk, I will first present a novel representation learning algorithm that we propose for reward-free RL. We show that such an algorithm provably finds near-optimal policy as well as attaining near-accurate system identification via reward-free exploration, with significantly improved sample complexity compared to the best-known result before. I will then present our characterization of the benefit of representation learning in reward-free multitask (a.k.a. meta) RL as well as the benefit of employing the learned representation from upstream to downstream tasks. I will conclude my talk with remarks of future directions.

The work to be presented was jointly with Yuan Cheng (USTC), Ruiquan Huang (PSU), Dr. Songtao Feng (OSU), Prof. Jing Yang (PSU), and Prof. Hong Zhang (USTC).

第四期

On the (Non)smoothness of Neural Network Training

神经网络优化中的不光滑性

讲座回顾：在本次讲座中，来自清华大学的张景昭教授介绍了他在神经网络优化领域的最新工作。张教授指出现在的优化理论分析和实践观察仍有较大差距，特别是在对光滑性的建模方面。张教授同时提供了一些神经网络不稳定收敛的实验观察。来自微软的研究者们与外部观众提出了自己对于当前神经网络优化方面的看法和疑问，并得到了张教授的解答。

张景昭

清华交叉信息研究院助理教授

张景昭现任清华交叉信息研究院助理教授，博士毕业于麻省理工学院计算机科学专业，曾获伯克利研究生奖学金，MIT Lim 奖学金，IIIS 青年学者奖学金等奖项。研究主要包含优化算法复杂性分析，机器学习理论，以及人工智能应用。

回放地址：

https://www.bilibili.com/video/BV19N4y1N7UE/

扫码观看回放视频

第五期

What Should a Good Deep Neural Network Look Like? Insights from a Layer-Peeled Model and the Law of Equi-Separation

好的神经网络应该是什么样的？

讲座回顾：在本次讲座中，来自宾夕法尼亚大学的苏炜杰教授分享了神经网络训练中的一些有趣的几何现象。苏教授特别探讨了著名的神经坍缩现象。他提出这一现象可以用一种只建模最后一层输出和权重的层剥离模型的优化过程来解释，并据此模型预测了非均衡学习中的一种少数坍缩现象。然后苏教授提出了他和合作者们最新观测到的等分律现象，即神经网络对数据的分离程度逐层随指数状态平稳提升。大家对这些现象背后的深层次原因及进一步的现实意义提出了问题，并得到了苏教授的解答。

苏炜杰

宾夕法尼亚大学

统计与数据科学系副教授

苏炜杰现任宾夕法尼亚大学沃顿商学院统计与数据科学系以及工学院计算机系副教授，同时他也是宾大机器学习研究中心的联合主任。2016年，他博士毕业于斯坦福大学，2011年本科毕业于北京大学。苏教授的主要研究方向为隐私数据保护、深度学习理论、最优化理论、高维数据推断和机制设计。他曾获得斯坦福 Theodore Anderson 毕业论文奖(2016)、NSF CAREER Award (2019)、斯隆研究奖(2020)、美国工业与应用数学学会（SIAM）数据科学青年奖（2022）和 IMS Peter Gavin Hall Prize（2022）。

回放地址：

https://www.bilibili.com/video/BV1vg411a7ra

扫码观看回放视频

第六期

Player-optimal Stable Regret for Bandit Learning in Matching Markets

匹配市场上的多臂老虎机算法

讲座回顾：在本次讲座中，来自上海交通大学的李帅教授分享了其团队在匹配市场中多臂老虎机算法领域的最新工作。针对求解玩家最优匹配这一具体问题，李教授展示了其团队提出的最新算法，并在理论上证明了这一算法可以达到（关于玩家的偏好差距的）多项式级别的后悔。该算法是首个达到这一量级后悔的（在不需要其他假设的情况下）。讲座结束后，大家就算法表现能否进一步提升等问题提出了疑问，并得到了李教授的解答。

李帅

上海交通大学约翰·霍普克罗夫特

计算机科学中心助理教授

李帅现任上海交通大学约翰·霍普克罗夫特计算机科学中心助理教授。她于浙江大学获得数学学士学位，在中科院大学获得数学硕士学位，在香港中文大学获得计算机博士学位。她的研究兴趣包括机器学习理论、bandit 算法和强化学习算法。李帅在 ICML、NeurIPS、KDD、AAAI、IJCAI 等国际一流会议上发表了40多篇论文并担任审稿者。

加入理论研究社区

欢迎扫码加入理论研究社区，与关注理论研究的研究者交流碰撞，群内也将分享微软亚洲研究院理论中心前沿系列讲座的最新信息。你也可以向 [email protected] 发送以 "Subscribe the Lecture Series" 为主题的邮件订阅讲座信息。

微信群二维码

关于微软亚洲研究院理论中心

2021年12月，微软亚洲研究院理论中心正式成立，期待通过搭建国际学术交流与合作枢纽，促进理论研究与大数据和人工智能技术的深度融合，在推动理论研究进步的同时，加强跨学科研究合作，助力打破 AI 发展瓶颈，实现计算机技术实质性发展。目前，理论中心已经汇集了微软亚洲研究院内部不同团队和研究背景的成员，聚焦于解决包括深度学习、强化学习、动力系统学习和数据驱动优化等领域的基础性问题。

你也许还想看：

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章