Redian新闻
>
清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light

公众号新闻

机器之心专栏

机器之心编辑部


清华大学朱文武教授团队自 2020 年发布智图库(AutoGL)以来,在图自动机器学习的可解释性和可泛化能力等方面取得新进展,特别关注于图 Transformer、图分布外泛化(OOD)、图自监督学习等方面,发表图神经架构搜索评测基准,并在中国新一代开源创新服务平台 GitLink 上发布首个轻量智图库(AutoGL-light)。


智图库回顾


图(graph)是描述数据间关系的一般抽象,广泛存在于不同的研究领域中并有许多重要应用,例如社交网络分析、推荐系统、交通预测等互联网应用,新药物发现、新材料制备等科学应用(AI for Science),覆盖诸多不同领域。图机器学习在近年来取得了广泛关注。由于不同图数据在结构、性质和任务上千差万别,现有人工设计的图机器学习模型缺乏对不同场景与环境变化的泛化能力。图自动机器学习(AutoML on Graphs)是图机器学习发展的前沿,旨在针对给定的数据和任务,自动化地设计最优的图机器学习模型,在研究与应用上都有着极大的价值。


针对图自动机器学习问题,清华大学朱文武教授团队从 2017 年开始布局,并在 2020 年发布了智图库(AutoGL)—— 世界首个针对图自动机器学习的平台和工具包。


项目地址:https://github.com/THUMNLab/AutoGL


智图库已在 GitHub 获得了超千个星标,吸引了超过 20 个国家和地区数万次访问,并在 GitLink 上进行了发布。智图库包括一套完整的图自动机器学习流程,涵盖了主流的图自动机器学习方法。智图库通过图自动机器学习解决方案 AutoGL Solver,将图上的自动机器学习拆分为五个核心部分:图自动特征工程、图神经架构搜索(NAS)、图超参数优化(HPO)、图模型训练,以及图模型自动集成。智图库已经支持节点分类、异构图节点分类、链接预测、图分类等多种类型的图任务。 


图自动机器学习研究新进展


针对目前图自动机器学习缺乏可解释性和可泛化能力等问题,智图团队在图自动机器学习研究取得了一系列新进展。


1. 图分布外泛化(OOD)架构搜索


针对图神经架构搜索无法处理图数据分布变化问题,提出了基于解耦自监督学习的图神经架构搜索方法,通过为每个图样本定制合适的图神经网络架构,有效增强了图神经架构搜索方法处理数据分布偏移的适应能力。该工作已发表于机器学习顶级国际会议 ICML 2022。



论文地址:https://proceedings.mlr.press/v162/qin22b/qin22b.pdf


2.大规模图架构搜索


针对现有图神经架构搜索无法处理大规模图问题,提出了基于架构 - 子图联合采样机制的超网络训练方法,通过重要性采样和同辈学习(peer learning)算法,突破了采样过程中的一致性瓶颈,极大程度提升了图神经架构搜索的效率,首次实现了单机可处理亿规模真实图数据。该工作已发表于机器学习顶级国际会议 ICML 2022。



论文地址:https://proceedings.mlr.press/v162/guan22d.html


3. 图神经架构搜索评测基准


针对图神经架构搜索缺乏统一的评测标准,以及评测过程消耗的计算资源量巨大问题,智图团队研究并提出了图神经架构搜索基准 NAS-Bench-Graph,首个针对图神经架构搜索的表格式基准。该基准可以高效、公平、可复现地比较不同图神经架构搜索方法,填补了针对图数据架构搜索没有基准的空白。NAS-Bench-Graph 设计了一个包含 26,206 种不同图神经网络架构的搜索空间,采用了 9 个常用的不同大小、不同类型的节点分类图数据,并提供了已经完全训练好的模型效果,可以在保证可复现性与公平比较的同时,极大地减少计算资源。该工作已发表于机器学习顶级国际会议 NeurIPS 2022。


项目地址:https://github.com/THUMNLab/NAS-Bench-Graph


4. 自动图 Transformer


针对目前人工设计的图 Transformer 架构难以取得最佳预测性能问题,提出了自动图 Transformer 架构搜索框架,通过统一的图 Transformer 搜索空间与结构感知的性能评估策略,解决了设计最佳图 Transformer 耗时长,难以得到最优架构的难题,该工作发表于机器学习顶级国际会议 ICLR 2023。



论文地址:https://openreview.net/pdf?id=GcM7qfl5zY


5. 鲁棒图神经架构搜索


针对目前图神经架构搜索无法处理对抗攻击问题,提出了鲁棒图神经架构搜索方法,通过在搜索空间中增加鲁棒性图算子并在搜索过程中提出了鲁棒性评价指标,增强了图神经架构搜索抵御对抗攻击的能力。该工作已发表于模式识别顶级国际会议 CVPR 2023。


论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf


6. 自监督图神经架构搜索


现有图神经架构搜索严重依赖于标签作为训练和搜索架构的指标,限制了图自动机器学习在标签匮乏场景的应用。针对该问题,智图团队提出了自监督图神经架构搜索方法,发现了驱动图数据形成的图因子与最优神经架构之间潜在的关系,采用了一种新颖的解耦自监督图神经架构搜索模型,实现了有效在无标签图数据上搜索最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。



7. 多任务图神经架构搜索


针对现有图神经架构搜索无法考虑不同任务对架构需求的差异性问题,智图团队提出了首个多任务图神经网络架构搜索方法,通过同时为不同图任务设计最优架构并采用课程学习捕捉不同任务之间的协作关系,有效实现了不同图任务定制最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。


轻量智图库


基于上述研究进展,智图团队在 CCF 指定开源平台 GitLink 发布了轻量智图(AutoGL-light),世界首个轻量图自动机器学习开源库。其整体架构图如图 1 所示。轻量智图主要具有以下特点:


图 1. 轻量智图框架图


项目地址:https://gitlink.org.cn/THUMNLab/AutoGL-light


1. 模块解耦


轻量智图通过更全面的模块解耦方式,实现了对不同图自动机器学习流水线更便捷的支持,允许在机器学习流程的任何步骤中自由加入模块,满足用户定制化需求。


2. 自主定制能力


轻量智图库支持用户自主定制化图超参数优化(HPO)和图神经架构搜索(NAS)。在图超参数优化模块中,轻量智图提供了多种超参数优化算法和搜索空间,并支持用户通过继承基类来创建自己的搜索空间。在图神经架构搜索模块中,轻量智图实现了典型和最先进的搜索算法,且用户能够根据自己的需求自主轻松组合和定制搜索空间、搜索策略和评估策略的模块设计。


3. 广泛的应用领域


轻量智图的应用不仅仅局限于传统的图机器学习任务,而是进一步扩展到了更广泛的应用领域。目前,轻量智图已经支持了分子图、单细胞组学数据等 AI for Science 应用。在未来,轻量智图希望可以为不同领域图数据提供最先进的图自动机器学习解决方案。


4. GitLink 编程夏令营


以轻量智图为契机,智图团队深度参与了 GitLink 编程夏令营(GLCC),其是在 CCF 中国计算机学会指导下,由 CCF 开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。智图团队的两个项目 “GraphNAS 算法复现” 和 “图自动学习科学领域应用案例” 吸引了国内十余所高校的本科生和研究生报名。


夏令营举办过程中,智图团队与参与同学积极沟通,工作进展程度超出预期。其中,GraphNAS 算法复现项目在轻量智图中成功实现了上述介绍的图分布外泛化架构搜索(ICML’22)、大规模图架构搜索(ICML’22)、自动图 Transformer (ICLR’23),有效验证了轻量智图库的灵活性与自主定制能力。

图自动机器学习科学领域应用项目则在轻量智图实现了基于图的生物信息处理算法,包括用于单细胞 RNA 测序分析的代表性算法 scGNN、用于分子表征学习的代表性算法 MolCLR,以及用于分子结构预测的代表性算法 AutoGNNUQ,推动了图自动机器学习技术在 AI for Science 的应用。在 GitLink 编程夏令营中,轻量智图既丰富了算法和应用案例,也使参与的同学锻炼了开源软件开发等技能,在图自动机器学习方面培养人才,并为助力我国开源生态建设的发展贡献了自己的力量。

智图团队来自清华大学计算机系朱文武教授领导的网络与媒体实验室,核心成员包括助理教授王鑫、博士后张子威、博士生李昊阳、秦一鉴、张泽阳,硕士生关超宇等十余人。项目得到了国家自然科学基金委和科技部的大力支持。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Light and shadowMistral AI:欧洲最强模型团队,打造开源轻量LLM最后机会|《数据科学·机器学习求职实战营》马上开课,FLAG、咨询、投行大牛导师团队带你求职数据科学!ClickHouse 正在退出开源世界?《花信风之处暑》不管谁放个打喷嚏,邻居都会感冒被Google导航指引到沙漠迷路了!网友发文怒斥,Google道歉小果果第一次唱全民 I see the light你好,我是筚(bì)篥( lì)!Npj Comput. Mater.: 多相态氧化镓—机器学习势函数的试金石把冰敲出火全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!真正实现一步文生图,谷歌UFOGen极速采样,生成高质量图像Light and Shadow对机器学习感兴趣?不如先来实践一下!|《基于机器学习的智能机器狗巡检系统》图模型也要大?清华朱文武团队有这样一些观点Npj Comput. Mater.: 机器学习预测晶格热导率:快!准!从俄军4位上将总指挥谈起...爱立信被曝裁掉整个广州研发团队:赔偿N+3加年终奖;英伟达将为中国定制三款芯片;马斯克旗下首款聊天机器人将开源 | AI一周资讯NeurIPS 2023 Spotlight | 面向通用决策场景的MCTS基准框架:LightZero万能的华人,我的车 engine oil light 总是亮灯,到底怎么回事?复旦大学、中国科学院团队综述,化学机器学习:基础知识和应用【Light Up】蒋圣力老师light up讲座回顾:以国际法为灯的循梦而行【Light Up】大学学习方法和学习意识漫谈机器学习泰斗Michael Jordan最新报告:去中心化机器学习中的契约、不确定性和激励Graphite:由 AI 助力的基于网络的开源矢量图形编辑器 | Linux 中国China’s Rural Children Close Height, Weight Gap, but Obesity Loo博后招募 | 清华大学机器学习与推理(LARS)课题组招聘博士后/工程师英国国家机器人实验室王教授:医学成像中机器学习的有效解释性|收获一作论文与导师推荐信!Npj Comput. Mater.: 大规模电子结构计算—可迁移的机器学习加速方法Half light, half shadow 上了首页,显摆一把长盛基金固收团队:投资是一场“长跑”,以团队的力量提升投资者的获得感Npj Comput. Mater.: 离子介电极化率数据缺失?机器学习填补其遗憾瑕疵!《桂枝香 - 七夕萤火虫》北京内推 | 滴滴出行网约车核心团队招聘机器学习算法实习生180刀Razer DeathAdder V3 Pro Ultra-lightweight Ergonomic Wireless马斯克直播试驾特斯拉FSD V12!世界首个端到端AI自动驾驶,1万块H100训练超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能Google Flights升级,可以更简单的订到便宜机票
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。