华盛顿大学西雅图分校、华盛顿大学、德州农工大学、康涅狄格大学知名学者重磅来袭!
MLNLP 2023学术研讨会 是由 MLNLP社区 和 中国中文信息学会青年工作委员会 联合举办的学术活动。 社区会定期举办学术研讨会并邀请国内外机器学习与自然语言处理领域知名青年学者进行报告交流,旨在加强国内外同学们之间的交流。
会议概况
召开时间:
2023年04月30日 9:00-12:00(北京时间)
主办单位:
MLNLP社区
中国中文信息学会青年工作委员会
大会主席:
丁雨霏:加州大学圣巴巴拉分校计算机科学系助理教授
程序委员会主席:
赵洁玉:马里兰大学博士后研究员
胥栋宽:北卡州立大学助理教授
组委会:
MLNLP社区秘书处(刘洪宇、段然、张钰迪、陈麒光)
社区支持 :
智源社区
直播平台:
哔哩哔哩:http://live.bilibili.com/23872620
微信视频号:请点击下方卡片预约
会议日程
嘉宾介绍
一、主持人:
赵洁玉
马里兰大学博士后研究员
嘉宾简介:赵洁玉,现为University of Maryland, College Park 的博后,师从Hal Daumé III。2023年秋季会入职USC CS系。Jieyu在2021年12月博士毕业于UCLA计算机专业,导师是Kai-Wei Chang。研究方向在于自然语言处理模型中的偏见问题,其论文曾获EMNLP2017最佳论文奖。她也获得了2020 Microsoft PhD Fellowship,并且被选入参加2021 EECS Rising Star Workshop。论文曾被国内外媒体报道过,并受邀参加联合国妇女署驻华办事处举办的关于性别平等的研讨会。
个人主页:https://jyzhao.net
胥栋宽
北卡州立大学计算机系助理教授
嘉宾简介:胥栋宽 (DK),北卡州立大学计算机系助理教授,领导北卡州立大学的可信赖与高效计算实验室 (NCSU Reliable & Efficient Computing Lab)。DK致力于可信赖的、高效的、可落地的深度学习,探究如何在深度学习系统的性能可靠性 (不确定性、鲁棒性、适应性)、计算资源 (参数、数据、计算)和模型性能 (推理、训练) 之间实现帕累托最优,开发低功耗的算法-硬件协同设计解决方案。其研究成果多次发表在人工智能、自然语言处理、计算机视觉等领域的顶级会议和期刊上,提交并拥有10项美国专利。DK担任了超过30个顶会和15个研究领域期刊的 (高级) PC委员或期刊审稿人。此外,他还担任ACM SIGAI通讯的专栏编辑,主持AAAI 2023的人工智能加速的深度学习-硬件协同设计研讨会 (DCAA'23),共同主持KDD 2023的资源高效的知识发现研讨会 (RelKD'23),并担任KDD 2022的"深度学习新架构"和"可扩展可信赖的人工智能"的专题会议主席。DK的长期研究目标是使人工智能民主化,以服务更广泛的人群和领域。
个人主页:https://dongkuanx27.github.io/
二、大会主席致辞:
丁雨霏
加州大学圣巴巴拉分校计算机科学系助理教授
嘉宾简介:丁雨霏博士于2017年加入加州大学圣巴巴拉分校计算机科学系,担任助理教授。她在北卡罗来纳州立大学获得计算机科学博士学位,并分别在中国科技大学和威廉玛丽学院获得物理学学士和硕士学位。她的研究兴趣横跨多种系统技术,从高层次的算法自动调整到特定领域的编程语言设计,GPU编程和优化,先进的编译结构,以及计算机结构。她的研究领域是以编程系统为基础的。她以这一基础为桥梁,影响其他重要领域,包括量子计算、机器学习和高性能计算。她是美国国家科学基金会CAREER奖(2020年)、IEEE计算机协会TCHPC高性能计算优秀早期职业研究员奖(2019年)、NCSU计算机科学优秀论文奖(2018年)、NCSU计算机科学优秀研究奖(2016年)和OOPSLA杰出论文奖(2020年)的获得者。丁雨霏博士是PICASSO实验室的创始人。她与谢源博士共同指导SEAL实验室。
三、分享嘉宾:
刘泽宇
华盛顿大学西雅图分校硕士
嘉宾简介:刘泽宇,华盛顿大学西雅图分校硕士,师从Professor Noah Smith。2021-2022年在Meta就职AI Resident。将于2023年加入得克萨斯奥斯汀分校攻取博士,师从Professor Greg Durett。研究兴趣包括NLP与其他计算机领域的衍生应用,因果机器学习,模型可解性。他担任过国际期刊如 EMNLP, ACL, NAACL的审稿人。在重要学术会议EMNLP, ICLR发表学术论文。个人主页:https://leo-liuzy.github.io/
报告题目:预训练模型的分析与提升
报告简介:预训练模型已成为事实上自然语言处理领域的基础设施,然而人们对这一重要基础设施的了解以及如何提升训练效率所知甚少。研究人员研发出(参数与非参数)探针(probe)来解释模型存储的知识,亦或通过将部分transformer看成键值(key-value)记忆网络来分析模型的预测行为。该报告将阐述运用“探针”来解释处于黑盒状态的预训练过程,同时将展示如何运用键值记忆的角度来解析与提升稀疏混合模型(sparse mixture of expert)。
施惟佳
华盛顿大学艾伦计算机科学与工程学院博士生
嘉宾简介:施惟佳,华盛顿大学艾伦计算机科学与工程学院的博士生。师从Luke Zettlemoyer。研究方向包括知识增强型语言模型 (retrieval-augmented language models)。现任Meta AI 访问研究员。Google scholar: https://scholar.google.com/citations?hl=en&user=4xMPgUcAAAAJ&view_op=list_works&sortby=pubdate
报告题目:知识增强的GPT模型
报告简介:大型语言模型,在其参数中融合了大量的事实知识和领域知识。尽管如此,它们仍无法完全记住语料库中的所有知识,因此有时会生成错误的信息。为解决这一问题,我们提出了一种知识增强语言建模框架,将语言模型(LM)视为黑盒,并通过可微调的知识检索模型对其进行增强。与之前的知识增强型语言模型不同,我们的模型并未使用特殊的交叉注意力机制来训练语言模型以编码检索到的文本,而是仅将检索到的文档预先加入黑盒语言模型的输入中。这种简洁的设计使得我们的方法能够轻松地应用于任何现有的检索系统和语言模型 (例如gpt-3)。
雷博文
德州农工大学统计学专业博士生
嘉宾简介:雷博文,德州农工大学统计学专业博士生,师从 Bani K. Mallick,研究领域为高效 (efficient) 和可靠 (reliable) 深度学习,贝叶斯机器学习,以及其在自然语言处理,计算机视觉等领域的应用。在重要学术会议 ICLR,CVPR, DAC, AISTATS和重要学术期刊 Nature 发表学术论文。个人主页:https://stevenboys.github.io/
报告题目:测试准确性不是你需要的全部:更少的成本,更强的可靠性
报告简介:我将介绍我们最近关于可靠和高效的稀疏化训练的研究。随着深度神经网络的模型规模和训练成本的增长,稀疏化训练获得了越来越多的关注,以降低成本和实现资源的高效利用。虽然它产生的稀疏模型能够实现与原始密集模型相同的预测性能,但稀疏化约束切断了大部分参数更新路线并且产生很多虚假的局部最优点,这使得优化变得更加困难,从而产生没有校准的不确定性估计,导致不可靠的决策。具体来说,我将首先介绍我们在稀疏化神经网络训练中对分布内数据的可靠预测的贡献,通过利用权重和梯度的大小决定决定确定性掩码来有效地搜索和激活重要的权重,同时随机更新随机掩码来进行对权重空间更好的探索,从而找到更合适的权重值。然后,为了进一步实现同时有效的分布外检测和分布内校准,我将讲述我们新的稀疏训练方法,鼓励模型在早期阶段后通过损失校正来意识到什么是未知的。我们通过理论分析以及大量的实验证明了我们提出的方法的好处。
黄绍逸
康涅狄格大学计算机科学与工程学院博士
嘉宾简介:黄绍逸,康涅狄格大学计算机科学与工程学院博士,师从Professor Caiwen Ding。曾任华为算法工程师和字节跳动实习研究员。研究兴趣包括高效能深度学习, 软硬件协同设计。她担任过重要国际学术会议如AAAI, KDD的审稿人以及DAC青年研究员。先后在ACL, SC, DAC, IJCAI, ICCAD等重要国际会议发表过学术论文。曾获得学院通用电气卓越奖学金, 博士卓越研究奖,Eversource能源公司研究生奖学金,个人主页:https://www.shaoyihuang.com/
报告题目:模型高效能训练和推理
报告简介:随着大模型在各种任务上展现出的出色表现和潜力,越来越多的人开始关注如何进一步利用它们提高下游任务的表现。然而,日益增长的模型尺寸一方面使得模型的训练和推理成本显著上升,另一方面也限制了相关应用在边缘设备上的部署。本次报告将探讨如何在包括Transformer在内的深度学习模型上实现训练和推理加速。具体包括讨论如何利用稀疏化,量化,蒸馏等软件算法和硬件(如FPGA,GPU)协同设计来实现模型压缩和加速,并分析展示相关算法在实际硬件设备上的有效性。
4
直播平台
直播平台
视频号
B站
会议报名
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者