专访清华裘捷中:亚洲高校首个KDD最佳博士论文奖是如何炼成的?
AMiner x 量子位 发自 凹非寺
量子位 | 公众号 QbitAI
今年的KDD最佳博士论文奖RUNNER UP,由毕业于清华大学的裘捷中博士斩获。
值得一提的是,这是亚洲高校的学者首次获此殊荣。
SIGKDD(简称 KDD),是数据挖掘领域公认的顶级会议,获得 KDD 颁发的奖项是该领域研究者至高无上的荣誉。
为表彰数据科学、机器学习、数据挖掘领域中杰出的博士论文工作,KDD 每年都会评选出「最佳博士论文奖」(下设 1 名「WINNER」和至多 2 名「RUNNER UP」)。
裘捷中博士获奖的工作题为「图表示学习的谱理论与自监督学习」。
该论文从多个角度研究图表示学习,包括节点嵌入的谱理论,基于谱理论的大规模节点嵌入的算法,图神经网络的自监督学习算法和图表示学习的应用等,对图结构数据的理解、分析和推理做出了重要贡献。
此次KDD 2022 最佳博士论文奖的「WINNER」奖项,由毕业于斯坦福大学的「GraphSAGE」「PinSAGE」和 「GNNExplainer」一作Zhitao Ying获得。
有趣的是,据AMiner AI 2000学者排名预测,Zhitao Ying 和裘捷中在AI 2000学者排名单上恰好分别位列 2018-2022 年数据挖掘领域新星的前两名。
△AI 2000学者排名
我们有幸与裘捷中博士进行了一次深入的对话,来一同了解下他在科研道路上的那些故事。
不是第一次“登顶”
其实,拿下亚洲首个KDD最佳博士论文奖,并不是裘捷中第一次登上「世界之巅」。
翻开裘捷中「光辉灿烂」的履历,不乏在各大竞赛中夺冠、获得各类奖学金的高光时刻:
ASC2015 、SC2015 超级计算机竞赛冠军、2018 国家奖学金、2018 微软学者提名奖、2022 清华优秀博士学位论文,计算机系优秀毕业生、2022 年北京市优秀毕业生……
△裘捷中获得清华大学 2022 年优秀博士学位论文
2015 年,在清华大学读大三的裘捷中代表学校参加了 ASC2015 和 SC2015 两项国际超级计算机竞赛,并斩获头名。
在 SC15 颁奖词中,美国阿拉贡国家实验室的专家评论道:「不仅是颁发一枚奖章……它为这个行业未来几年的发展定下了目标,也是对中青年研究者最好的激励」。
△超算团队获得国际大学生超级计算机竞赛(SC15)冠军:左四为指导教师翟季冬,左五为裘捷中
这类赛事要求选手在给定的算力、能耗的预算下,通过配置计算集群来完成大规模的科学计算、深度学习应用,旨在考察参赛者对超级计算、分布式计算等技术的掌握。
在裘捷中看来,在深度学习时代,对高性能计算知识的掌握会让他在研究中能够钻研得更深,探索更多的未知领域。
年少成名,征战信息学竞赛
实际上,早在中学时期,裘捷中就已经在国内外的信息学竞赛中初露锋芒。
出于对算法竞赛的兴趣,受到身边环境的感染,裘捷中从初中起就投身于信息学竞赛。
高中时,裘捷中升入了有深厚信息学竞赛底蕴的绍兴一中,该校培养了唐文斌(旷视科技联合创始人)、周而进(旷视 12 号员工),陈可卿(旷视 5 号员工),商静波(加州大学圣地亚哥分校助理教授)等信息学竞赛名将。
在这里,裘捷中如鱼得水,在竞赛中投入了更多的精力。
绍兴一中的信息学竞赛采取的是高年级带低年级的方式,上述四人也都成为了裘捷中竞赛路上的「师父」。
他们对裘捷中参加信息学竞赛、进入清华学习计算机科学、走上科研的道路产生了深远的影响。
当时,绍兴一中信息学竞赛队采取“以赛代练”训练模式,密集地仿照正式信息学竞赛举办模拟赛。
通常而言,每次模拟赛都会从早上 8 点持续到下午 1 点,比赛时间长达 5 小时。
裘捷中回忆道,模拟赛结束后,食堂一般已经不再提供午饭,队里的小伙伴们常常会坐车去附近的一家麦当劳吃午饭。
在那里,大家可以卸下竞赛的压力,享受轻松的午休时光,“巨无霸+玉米粒+可乐”也成为了裘捷中模拟赛后补充体力的必备菜单。
短暂休息后,队员们将回到学校,对上午的模拟赛进行复盘,出题人(常常是周而进)会分析题目,讨论比赛思路和做题策略。
在这种紧张充实又充满乐趣的训练日常中,裘捷中在 2011 年迎来了丰收,获得了「亚太地区信息学奥林匹克竞赛」国际金奖和全国信息学奥林匹克竞赛金奖。
裘捷中认为参与信息学竞赛对于培养动手能力、锻炼思维十分有帮助。
优秀的信息学竞赛选手可以迅速实现自己的想法。
诚然,在深度学习时代,PyTorch、TensorFlow 等编程框架大大降低了研究人员编程能力的门槛。
但是,在从事前沿开创性研究时,编程能力和算法设计能力仍然至关重要。
十年清华路,修炼与传承
为了让更多的本科生参与到科研实践中,清华大学开展了一项名为「学术新星计划」的科研活动。
在这一活动中,裘捷中与唐杰教授结为师生,开始了一同进行科学探索的旅程。
进入实验室后,裘捷中学习了大量的社会网络挖掘知识(例如,小世界理论、六度分隔理论、幂律定理、社区发现技术),并将这些理论和技术应用到了与微信合作的相关项目中,完成了学术启蒙。
此后的研究中,裘捷中将研究重心放在了图表示学习上。
实验室扁平、开放的环境让基础扎实的裘捷中如鱼得水。
在这里,学生与学生之间并没有非常明确的等级制度,导师团队充分相信每一位研究者的潜力,期望每一位学生都能够独当一面。
在这种氛围下,学生需要具有极强的自我驱动力和自我管理能力。
对于裘捷中这种具有极强算法分析能力和动手能力的研究者,导师团队会根据其研究进度和状态,灵活地安排富有针对性的讨论,提高指导效率,做到因材施教。
在 KEG 实验室,裘捷中练就了一身过硬的科研本领,也领悟了诸多受益一生的奋斗哲学:
「研究要剑指世界第一」、「做事情一定要特别专注」、「做学术要像爷们一样顶天立地」、「像咖啡一样做学问」……
在互联网上,唐杰教授「像咖啡一样做学问」的「名言」得到了许多研究者的认可。
裘捷中在学习和生活中也深传承了这一品格,他不失幽默地说:
如今,我也成为了重度的咖啡爱好者,咖啡是我工作日的必备饮料。
△裘捷中和实验室另一个博士生张宇韬(循环智能CTO)一起参加 KDD 2019
深耕图学习,驶向星辰大海
△裘捷中(左)在博士学位论文答辩会现场
裘捷中博士期间的研究工作可以被概括为:从图嵌入启航,在图预训练时代乘风破浪。
图表示学习
KEG实验室在图挖掘领域深耕多年,在社会网络分析与挖掘、语义 Web、知识图谱等领域有悠久的研究历史。
在深度学习技术兴起之前,社会网络挖掘领域中就存在许多定义清晰的与图数据相关的问题。
裘捷中最早的研究工作正是从这个角度切入,研究与图相关的算法服务于社会网络挖掘问题。
2014 年前后,DeepWalk、LINE、Node2Vec 等图表示学习(即图嵌入)应运而生。
彼时,研究者们创造性地将自然语言处理领域的 Word2Vec 类算法的思想应用到了图数据上,并且在一系列下游任务上取得了不俗的性能,深度学习浪潮席卷到了图学习领域。
在这个大背景下,具有扎实算法分析功底和丰富竞赛经验的裘捷中开始对基于深度学习的图学习算法进行分析,研究此类算法的性能、特点、复杂度。
DeepWalk 等算法通过在图上进行随机游走采样得到节点序列,并将这些序列看作自然语言处理中的句子输入到词向量算法 Word2Vec 中。
通过结合对 Word2Vec 和图上随机游走的理论研究,裘捷中试图对图表示学习算法进行理论推导,证明可以从矩阵分解的角度来统一此类算法的工作机制,并开发了一套加速方法,从而将此类算法拓展到大型图表示学习的任务中。
△若干图嵌入工作的矩阵表示形式
在裘捷中看来,他于 WSDM 2018 上发表的论文 《Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec》是其博士生涯中最令自己满意的工作。
在该论文中,裘捷中系统性地研究了基于随机游走的图表示学习算法的渐进行为,证明了当图上随机游走采样的步数无限长时。这些算法可以被归纳到一个矩阵分解的框架 NetMF 中,这一工作为后续图表示学习的算法开发与理论分析工作提供了一个严谨的框架。
在此基础上,裘捷中在 WWW 2019 上发表了续作《NetSMF: Large-scale Network Embedding as Sparse Matrix Factorization》,讨论了如何基于 NetMF 的矩阵分解框架和图谱稀疏化技术开发可扩展到大规模图上的图表示学习算法,该工作也入选了 WWW 2019 的 Best Papers Award Track。
在 NeurIPS 2020 上,裘捷中继续完善了 NetMF 的理论体系,发表了论文《A Matrix Chernoff Bound for Markov Chains and Its Application to Co-occurrence Matrices》,证明了 NetMF 中的无限长步数的随机游走不是必要的,只需要 O(t(logt+logn)) 步随机游走就能保证算法的有效性(其中 t 为图上随机游走的混合时间,n 为图中的节点数量)。
上述三个工作从理论推导、算法设计、系统开发三个角度对图表示学习进行了研究,锻炼了裘捷中综合而全面的学术能力与技术,也使他被领域同行所认可,得到了和世界上许多研究机构的优秀研究者一起工作的机会。
面向图的预训练
2018 年,自然语言处理领域的 BERT 预训练模型横空出世,技惊四座。
一时间,预训练技术成为了各大互联网巨头、顶尖实验室的宠儿。在这波浪潮的刺激下,预训练技术在图挖掘领域的应用也越来越广泛。
得益于图神经网络、对比学习等技术的快速发展,裘捷中试图将开发好的图编码器与预训练相结合,对图数据进行预训练。
对于预训练而言,定义合适的自监督任务对于充分利用无标签数据至关重要。
在传统的社会网络挖掘领域,研究者们会通过人工的方式定义桥、捷径、结构洞、三元闭包等模式。
在图预训练场景下,裘捷中试图让网络通过自监督的预训练自动利用网络数据找出图中的结构模式,由此得到对下游任务有所帮助的图编码器。
在裘捷中看来,预训练是一种全新的学习范式,可以基于网络大数据构建通用性很强的先验知识,助力下游任务,为从业者节省了大量数据标注的工作。
然而,在涉及一些专业性很强的领域的下游任务时,如何将领域知识与预训练模型融合仍然是一项具有挑战的工作。
正如张钹院士所言,下一代人工智能有赖于数据和知识的双轮驱动。数据驱动的深度学习技术飞速发展的今天,知识工程同样重要,我们也许可以通过符号神经计算等方式将二者结合起来。
在裘捷中的求学生涯中,他实习的经历遍布国内外知名企业,也曾前往康奈尔大学等世界顶尖高校访问。
在他看来,在高校和企业之间切换的过程就好比强化学习中的「探索-利用」。
在高校,研究生可以静下心来深耕某个长达半年、一年的课题;而企业的实习环境往往更适合让学生从事较为探索性的工作。
对裘捷中而言,在企业实习的经历让他拥有了更开放的心态,迈出了积极探索图预训练技术的脚步。
2015 年暑假,在清华大学「星火计划」的支持下,裘捷中于大三暑假赴美国康奈尔大学计算机系研修,访问了图灵奖得主 John Hopcroft 教授。
在访问的过程中,裘捷中完成了对复杂网络中群组的行为模式研究,与 John Hopcroft 教授合作撰写的论文被第25届国际万维网大会接收。
Hopcroft 教授「focus on fundamental research」的教诲也激励着裘捷中不懈追寻学术梦想。
△2015 年暑假,裘捷中在 Cornell 大学访问 John Hopcroft 教授
回顾自己的博士生涯,裘捷中认为:
博士是自己所属领域中最专精的少部分人。
博士阶段的研究往往是差异化的,每一个成功的博士都有其成功的秘诀,很难有放之四海皆准的成功模式。
但一般来说,博士研究生应该有开放的心态,对自己的事业和研究保持热情,保持自信。
普遍来说,博士需要具备规划时间和解决问题的能力,对自己五年内的研究有一定的计划。同时,执行力对于成功博士的博士生涯也至关重要。
关于裘捷中
裘捷中,现为腾讯高级研究员,于 2022年 1月获得清华大学计算机科学与技术系博士学位,导师为唐杰教授。
主要研究方向是图数据的算法设计和表示学习。
他关于图表示学习的工作 NetMF 和 GCC 分别是是 WSDM’18 和 KDD’20 当年会议第二高引用和最高引用论文。
他曾获得 2018 MSRA 微软学者提名奖、2022 北京市优秀毕业生、2022 清华大学优秀毕业论文。
关于AI2000:
今年1月,AMiner 团队推出 AI 2000榜单,旨在通过AMiner学术数据在全球范围内遴选过去十年间,人工智能学科最有影响力、最具活力的顶级学者,赞扬他们对于人工智能研究领域的卓越贡献。
学者主页::
https://www.aminer.cn/profile/jiezhong-qiu/562d41dd45cedb3398da2eba
AI 2000榜单:
https://www.aminer.cn/ai2000
查看更多学者排名情况,点击【阅读原文】,直达AI2000~
— 完 —
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
ps.加好友请务必备注您的姓名-公司-职位哦~
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
微信扫码关注该文公众号作者