Redian新闻
>
北邮王啸:挖掘图神经网络中的「万物真理」

北邮王啸:挖掘图神经网络中的「万物真理」

公众号新闻
北京邮电大学副教授、青源会会员王啸是国内图学习领域的佼佼者。回顾他的科研历程,从探寻网络研究的本质,到在物理学家的论文中寻找灵感,他对图神经网络研究的热情未曾衰减。未来,他还将继续从基础理论入手,深入探索图神经网络中的不变性。

王啸,北京邮电大学副教授。研究方向为图神经网络、数据挖局与机器学习。天津大学博士,美国圣路易斯华盛顿大学联合培养博士,清华大学计算机系博士后,曾入选ACM中国新星提名奖,以及AI2000学者榜单。

采访&整理丨李梦佳、熊宇轩



1

跟随马克纽曼的步伐

在物理研究中寻找灵感
当前,在蓬勃的图神经网络研究浪潮中,研究者针对各种任务提出了五花八门的图神经网络,并且都能够自圆其说。王啸认为,研究者们需要探究图神经网络中的「不变性」,针对图神经网络算法背后的基础理论产生共性认识。以物理学为例,同一套万有引力模型可以同时解释各种物体从高空掉落到地上的现象。
王啸表示,目前计算机科学领域的研究更多偏向针对具体的问题设计新的方法,缺乏挖掘现象背后的本质特性。而图神经网络这一领域纷繁复杂的算法背后,最终需要沉淀出一系列基本准则与共性,这样才能为这一方向奠定出理论基础,才能成为一个有体系的方向,图神经网络的大厦才能够建立起来。
在找寻新的科研灵感过程中,持续跟进国内外的前沿动向至关重要。从刚接触「社区发现」研究开始,王啸就从物理学家马克纽曼(Mark Newman)的研究中汲取了大量的灵感。

物理学家马克纽曼(Mark Newman)
马克纽曼是一位英裔美国物理学家,2014年获得拉格朗日奖。他以在复杂网络和复杂系统领域的基础性贡献而闻名,其基于网络的方法已被应用于心理学、社会学、经济学和生物学等多个领域。纽曼还研究了森林火灾的风险和新西兰海豚的社会行为等丰富的问题。纽曼的论文「复杂网络的结构和功能」在 2001 年至 2011 年期间获得了所有相关论文中最多的引用。
与计算机学者追寻改造世界追求性能提升的思路不同,物理学家更偏向基础核心理论来理解世界,更侧重于发现与解释现象中蕴含的真理。一直以来,马克纽曼致力于将复杂的世界系统变成Graph的形式,并从中发现规律。时至今日,王啸还会时不时看看纽曼的主页有何新动向,「读他的论文,总让我觉得茅塞顿开,突然一下子灵感就来了。他是我内心的榜样之一,每年的工作很少,但每篇读来却很有建设性。」



2

追寻拓扑之美

连接世间万物的真理
科学研究之所以魅力无穷,很大程度上在于人们可以发现某些自然的规律、普世的真理。以统计学中的幂律分布为例,其涉及范围广泛,从财富分布的二八原则(即少数人聚集了大量的财富,而大多数人的财富数量都很小)到大多数语言中的词频,再到物种的迷食模式等等。

幂律分布示意图
而在AI领域,统一的Transformer 架构可以解决许多计算机视觉、自然语言处理及其多模态任务。类似地,在图神经网络研究的道路上,王啸也试图挖掘一种统一的架构。他表示,万事万物都具有拓扑结构。从图像到分子,从种群到交通,正是这种「拓扑之美」,冥冥之中将万物连接在一起。
「有时你会怀疑世界上到底有没有神,或者说造物主,因为你会发现人的社交网络和动物网络存在的基本共性,两种不同的网络却存在着潜在一致性,这就好像我发现了世间的某些真理」王啸这样解释到,「用图将各种数据、各种任务统一起来是我的理想,图神经网络的应用潜力还远没有被充分挖掘。」
在王啸团队的不懈努力下,他们发现了图神经网络模型背后的统一架构,研究者可以基于这一框架改写出适用于各种场景的图神经网络。
在 WWW 2021 上发表的论文「Interpreting and Unifying Graph Neural Networks with An Optimization Framework」中,将不同基于消息传播机制的图神经网络统一在了同一套优化问题下。
在 SIGIR 2022 上,进一步针对异质图发表了论文「Space4HGNN: A Novel, Modularized and Reproducible Platform to Evaluate Heterogeneous Graph Neural Network」,通过包含异质线性转换、异质图转换和异质消息传递层这三大组件的模型框架,统一了各种应用场景下的异质图神经网络,并构建了 Space4HGNN 平台,提供了模块化组件、可复现的模型实现以及标准化的评估工具。



3

科研启蒙:「社区发现」算法
回溯研究的初心,王啸回忆起2012年,最初进入天津大学操晓春研究员实验室的日子。在那里,他正式开启了自己的图学习研究之路。在不断推进项目课题的过程中,王啸为日后独立研究打下了坚实的数学、编程、图理论基础。
他说,在初入研究之门的日子里,他的研究方法很简单:「导师指哪打哪」。起初,操晓春和金弟为王啸选定网络的「社区发现」作为其研究方向。网络中的「社区」指的是一组由节点以及与其相连的边紧密地形成的实体。
举例而言,社交网络中会有一群人在客观上具有隐式的群体联系。社区发现旨在遵循「社区中的节点紧密相连,不同社区间的节点稀疏相连」的规则对实体集合进行聚类。「社区发现」旨在通过一定的算法,将这些人聚到一起,挖掘出潜在的社区。由于图数据广泛存在于真实世界中,「社区发现」技术还可以被用于论文引用网络、蛋白质交互网络、电子商务网络、动物网络等场景的分析,具有非常广泛的应用价值。

社区发现算法
在探索「社区发现」的过程中,王啸逐渐培养起了对科研的兴趣。经过一次次的理论推导、实验验证,许多有趣而令人激动的科学发现激励着王啸执着向前。
2013年,王啸完成了自己第一篇「社区发现」方向的研究论文「Identifying overlapping communities as well as hubs and outliers via nonnegative matrix factorization」。文中,他提出了一种可解释性很强的社区发现算法,取得了当时处于领先地位的模型性能。然而,王啸发现,无论如何调整算法,有一些用户始终不能被纳入到某个社区中。经过仔细分析,这些用户正属于「异常点」。因此,这一算法也就具备了异常点检测的功能,实属意外发现。



4

直击图表示学习研究的本质——编码结构和性质
随着研究的不断深入,王啸意识到,网络数据的表征质量对于下游任务的性能至关重要。2016 年,博士毕业后的王啸从天大走向清华,在国内图学习代表性学者杨士强教授、朱文武教授和崔鹏教授的指导下从事图表示学习方面的博士后研究。
 
「做研究要解决本质」崔鹏教授的这一观点对王啸今后的学术道路产生了深远影响。在崔鹏看来,本质的问题也许并不能仅仅通过阅读现有的文献得出,而需要研究人员自身真正进行深入、有创造力的思考。
 
聚焦于图表示学习领域,网络由节点以及节点之间的边组成。为了得到网络的良好表征,需要在嵌入向量中尽可能保留有关节点和边的信息,即保留网络的结构。因此,网络研究中最本质的问题是如何编码并利用网络的结构和性质。如果能够很好地对网络的结构和性质进行编码,就可以在下游任务上取得较好的性能。为此,崔鹏和王啸等人针对网络的结构和性质进行了仔细的梳理,形成了较为完善的研究体系。
 
在宏观研究体系的引导下,团队在网络结构表示领域产出了一批前沿学术成果。在此期间,基于博士期间在网络社区发现方面的研究,王啸进一步探究如何在网络表征的嵌入空间中保持社团结构。最终,崔鹏、王啸团队的工作「Community preserving Network Embedding」于 2017 年的 AAAI 大会上问世,至今已取得了 800 的引用量,成为了网络嵌入领域的代表性论文之一。



5

独立研究,深挖异质图
在清华做博后的两年间,王啸逐渐形成了自己的科研哲学,他不跟风盲从,而是独立开展自己的研究。2018 年,他来到北京邮电大学,成为了一名青年教师。
彼时,图神经网络等深度学习技术逐渐成为了热门的研究话题。王啸继续延续之前的图表示学习科研思路,自然而然也带领学生参与到了图神经网络研究之中,首先针对异质图的图神经网络展开了研究。
在他看来,异质图是一种典型的图数据,当时的图神经网络还不能很好地处理异质图数据,针对异质图的图神经网络也鲜有研究。2019年,王啸和石川教授等人在 WWW 2019上首先提出了针对异质图的图注意力网络「Heterogeneous Graph Attention Network」,该论文至今已收获了超过 1,000 的引用量,成为了那届 WWW 大会最受关注的论文之一,在异质图神经网络的发展史上具有里程碑式的意义。
异质图示意图
在图神经网络研究过程中,王啸和石川等人发现了一系列有趣的现象和规律。例如,图神经网络的置信度的分布与普通神经网络的置信度分布存在很大的差异。神经网络往往会「过于自信」,对分类结果的置信度往往很高;而图神经网络则相反,呈现出「欠自信」的特点,对分类结果给出的置信度较低。此外,他们发现传统的图神经网络往往在度较大的节点上具有较优的性能,而在度较小的节点上则性能较差,存在较为明显的模型的不公平性。为此,利用图对比学习技术通过自监督的方式训练图神经网络,有效缩小了度大的节点和度小的节点上的模型性能。



6

Q&A
1. 图神经网络广受关注的背后有什么深层次的原因?
A:图结构广泛存在于各种数据中,基本没有孤立存在的数据,图可以将各种数据和任务统一起来。由于图结构的复杂性,曾经对于图的研究陷入瓶颈,但是一旦取得了突破,比如图神经网络实现了图上的深度学习,那么后面潜力就非常大了。大家都发现好像自己的领域都可以尝试用图神经网络去做一下,因为数据中都天然存在图结构,深度学习也更加自然走进不同领域了。
2. 未来,研究者可以将图神经网络应用于哪些方面?
A:图神经网络技术的应用场景十分广泛。我未来考虑将图与分子、化学、医药结合起来,也希望能应用于交通领域,当然这些需要与相关领域的学者一起合作努力。此外,将图学习技术应用于解决计算机领域内的一些问题(例如,旅行商问题、网络流问题)也是一个十分有趣的研究方向。
3. 您有怎样的学术理想?
A:我的长远理想包含两方面:首先,从学术的角度来说,我希望做出一些有价值有思想启发性的工作,让大家真正了解这个领域,比如希望能够解释图神经网络技术为什么有效,图神经网络这一领域的普世价值观是什么,基础体系是什么;从应用落地的角度来说,我希望能够充分挖掘图学习技术的商业价值和社会价值,造福于人类社会。
4. 您曾入选2021年ACM中国新星提名奖,以及2022年AI2000学者榜单。这些荣誉对您来说意味着什么?
A:感谢同行对我学术工作的认可,让我更加确信自己在做正确的事情,走在一条正确的道路上,而并不只是简单发表了一篇论文。这种支持和认可对青年研究人员积累信心有着非常大的鼓励。
5. 对有志于从事图神经网络方向研究的学生,有什么建议?
A:首先,学生要充分相信导师,在科研小白阶段跟着导师踏踏实实做一些工作。青年学生的学术积累有限,在迷茫时、找不到研究方向和研究问题时,可以多看看世界顶尖的科学家在做什么,跟随优秀者的脚步。同时,要有自己的思考,选择做的科研课题和研究思路首先要说服自己。
其次,欲速则不达,不追求「快」,要扎扎实实。在一篇论文准备的前期仔细针对研究思路展开讨论,充分论证其可行性,找到合适的研究路线,确定合适的度量指标、实验设定、对比方法是至关重要的。否则在以上没有思考清楚的情况下盲目开展工作,研究生很可能走一些弯路,产生很多重复劳动,最终文章也很难被接收。
更多内容,点击下方关注:
扫码添加 AI 科技评论 微信号,投稿&进群:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华&上交等发表Nature子刊!分片线性神经网络最新综述!中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门ICLR'23截稿, 图神经网络依然火热 (附42 篇好文整理)神经网络的简单偏好NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA神经网络高斯过程 (Neural Network Gaussian Process)手机中的「万亿颗芯」何时能由中国造?《新智者Talk》开播上热搜!大规模GNN如何学习?北邮最新《分布式图神经网络训练》综述,35页pdf阐述分布式GNN训练算法和系统网络中的三张表—— ARP 表, MAC 表,路由表渔歌子(外几首):乡土情怀心系NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索Benchmark大学舞会的那点事儿研究人员开发在小型设备上训练大型神经网络 保护隐私AAAI 2022 | 正交图神经网络因果推理相关的图神经网络研究进展庆结婚35周年行(2):奔跑在乡间TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力挪威交响诗 (二)卑尔根—挪威灵魂的赋予者王啸@北京航空航天大学:图神经网络的“共性”与“个性”智能座舱开启「万物交互」新革命,隐形冠军们如何突围?不管想不想肢解俄罗斯,都可以多了解一些俄罗斯的组成和人口分布等一位警犬训导员眼中的「万物生灵」ICML2022 | GNNRank: 基于有向图神经网络从两两比较中学习全局排序7 Papers & Radios | 用神经网络推开数学推理大门;世界首个宏基因组蛋白质图谱上海交大副教授五年参禅:神经网络的简单偏好一种基于神经网络的策略,可增强量子模拟百岁汇编语言之母逝世!71岁时她还在和儿子合写神经网络论文只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能从多篇顶会论文看图神经网络黑盒攻击近期进展​四季度看好这一板块!香橙资本何潇:挖掘无人问津的赛道及个股,重仓须满足三个条件汇编语言之母100岁逝世:曾和冯·诺依曼一起研究,退休后还在研究神经网络
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。