Redian新闻
>
科学匠人 | 对话陈卫:为什么AI大模型时代更需要计算机理论研究?

科学匠人 | 对话陈卫:为什么AI大模型时代更需要计算机理论研究?

科技


(本文阅读时间:10分钟)


2021年12月,微软亚洲研究院成立了理论中心,由微软亚洲研究院高级研究员陈卫博士担任中心主任。从高中第一次接触编程起,陈卫就对计算机产生了浓厚的兴趣并结下了不解之缘。在获得保送北京大学数学系资格的情况下,陈卫还是通过高考进入了清华大学计算机系,由此开启了计算机理论的学习与研究生涯。


在康奈尔大学读博时,陈卫的研究偏向分布式计算理论,这是他的第一个主要研究方向,也是他加入微软亚洲研究院系统组后持续探索的领域。在微软亚洲研究院工作的十九年中,陈卫参与过众多研究项目,从在系统组对分布式计算进行的论证和分析,到在理论组基于影响力最大化与在线学习和优化展开的系列研究,再到今天的理论中心,理论研究一直是他不变的初心。


那么,在人工智能大模型当道的今天,陈卫如何看待计算机理论研究的意义?微软亚洲研究院理论中心又将有哪些新的研究方向?让我们通过对话听一听计算机理论科学家陈卫的想法。





Q:如何理解计算机理论研究,它都包含了哪些内容?有怎样的作用?你为何在这个“冷门”领域深耕多年?



陈卫:计算机理论是一个横向概念,它以数学为基础和工具来研究计算机科学的各个方面。在传统的计算机科学中,理论是操作系统、编译原理、网页搜索、图形学等所有这些领域的指导基础,例如,算法理论、复杂性理论等。随着计算机技术的不断发展,理论方向又延伸出了深度学习理论、数据驱动优化理论等。如果特指计算机科学理论的话,那么就是指结合数学工具和计算机应用背景来设计优秀的算法,并在计算机上生成代码去运行和验证。


事实上,计算机科学理论是一个交叉学科,它并不是一个独立的学科。首先它以数学作为基础,需要用严格的数学概念和方法对计算进行建模和分析,数学中的代数、分析、概率论、统计学等都是重要的工具。其次,它也涉及物理学的很多方面,包括涌现、相变理论等。我研究多年的网络科学也是计算机理论的一个分支,而网络科学本身也是一门交叉学科,其研究对象——网络形态,不仅指人的社交网络,也包括神经网络、蛋白质互动网络等。此外,随着人工智能技术的发展,理论研究还要纳入心理学、社会学等社会科学,研究将更趋于综合性。


我从事理论研究20余年,对这一领域始终充满热爱的原因是我可以通过自己的分析能力来推导、发现新的算法和新的理论,从而证明技术的可行性。这种依赖理性的思维和分析帮助我们更好地认识世界和改造世界,是让我对理论研究着迷的原因和动力。




Q:GPT-4 的出现,进一步证明了人工智能模型越大性能越强的论断。那么,作为理论研究专家,你如何看待大模型?大模型对理论研究有什么推进作用?理论研究又能帮助大模型解决什么问题?



陈卫:大模型的横空出世带来了很多变革,也第一次在应用上让普通大众切身感受到人工智能的实用性。从理论研究看,对于人工智能这个黑盒子,我们更习惯于问一些问题,比如它为什么如此强大?它的能力边界在哪里?有什么它不能做的?


目前来看,数学计算和推理是大模型的弱项。以加法为例,大模型是从左到右地概率预测每一位数,而人类是从右向左计算,思路是相反的。即使模型明确知道加法规则,但其内部的生成也不会按照规则运行,这就是概率生成模型的一个能力边界。


在微软亚洲研究院理论中心,我们的研究人员认为目前的大模型及其前向预测与信息压缩相关。相当于大模型把反映人类语言的所有“网页”压缩在了一个模型中,其生成过程就类似于解压的过程。所以,我们正在利用基于压缩的计算复杂性理论来理解和分析大模型的训练和生成过程,希望通过这个研究能更准确地认识大语言模型的生成能力。


大模型还有一个重要特点就是它的“涌现”行为。比如在算数四则运算上,两位数以内的计算,初始模型可以给出的结果准确率会高一些,但要计算三、四位或更多位数的,就需要将模型参数变多、训练变长才可以,这就是模型的涌现特性。


我们正在研究探寻这种涌现是否有理论能够解释。一个可能的理论是网络模型,其实涌现行为在网络科学、物理学中经常出现,我在网络科学方面的研究让我对网络中的涌现行为有比较深入的理解。我们正在考虑把大语言生成模型和网络科学建立联系来研究其内在的涌现特性。简单来说,大模型的生成可以看作是一张网,输入一个词,生成下一个词,两个词之间就连接成一条边,然后再生成下一个词再连接一条边,每条边都是概率生成,并不绝对,所以不太稳定。而网络一旦有概率,在网络科学中就有可能出现涌现特性。


微软亚洲研究院高级研究员陈卫




Q:在当前以大模型为主的研究背景下,理论研究将会面临哪些新问题?就个人而言,你会优先关注哪些方面?



陈卫:刚才说到的涌现行为就很重要,还有大模型的能力边界、性能效率、参数规模。例如,GPT-3 拥有1750亿个参数,模型是否真的是越大,性能效率就越高?这两者之间应该取得一个平衡。不可否认的是,模型越大能力越强,我们也确实可以通过增加更多参数、数据让模型更强,也可以涌现出更多新能力,但是人脑的工作原理却不是这样的。


《思考,快与慢》(Thinking,Fast and Slow)一书中将人类思考模式分为快思考和慢思考两个系统,即系统1和系统2。系统1是常用的、依赖直觉的、无意识思考系统,系统2则是需要主动控制的、有意识进行的思考系统。现在的大模型更像是系统1,凭直觉生成下一个字符,这也是它强大的地方,能够出口成章,但却也是它的弱势所在,它只能生成一次,没有回溯能力,缺乏更系统的有控制的推理和分析能力,这就是模型的限制。


因此,从理论上讲,很重要的一个问题就是:是否需要单独引入新的系统2的结构来与现有类似系统1的大模型结构合作以提高人工智能的能力,还是说只需要进一步提高模型的规模和训练数据就能提升大模型的性能?我认为,人工智能模型只基于语言模型和单向预测是不够的,新一代模型需要系统2的分析推理能力作为其核心组成部分。




Q:成立至今,微软亚洲研究院理论中心主要开展了哪些方向的研究?



陈卫:微软亚洲研究院理论中心会根据最新的人工智能发展趋势来动态调整研究策略。我们并不会限制研究员的研究方向,只要对理论研究感兴趣,研究员们可以从各种方向进行探索。


目前,理论中心主要的研究包括:数据驱动优化理论——如今的大模型都是由数据驱动的,然而数据是时刻变化的,所以需要将传统优化理论与数据结合,从数据角度做优化;深度学习理论——提升人工智能的可解释性、鲁棒性;还有可信计算,以及隐私保护等。其实很早之前在计算机领域并没有针对隐私保护的理论指导,直到2007年,微软研究院提出了差分隐私理论概念,随后该概念才被推广到了数据库、云计算等隐私保护场景。这是理论研究对计算机科学研究具有指导意义的一个很好的例证。


理论中心的研究主要集中在新的技术方向上,当然这些研究方向也会根植于传统的理论基础。大模型出现后,我们需要更新的理论,这些都还在摸索的阶段。科学研究初期通常都是应用研究发展较快,理论支持相对滞后,而当技术发展到一定时期就会出现很多问题,比如深度学习的可解释性、运行机制就需要理论指导,就像经典的算法理论一直在指导计算机科学的发展一样。如果我们完全不清楚 AI 大模型的运行机制和它超强能力的边界,就将其应用到生产生活的各个领域,必然会种下隐患。因此,我始终认为理论是计算机科学及相关科学非常重要的基础, 在当今 AI 大模型似乎要一统天下时,更需要理论的研究和支持。


微软亚洲研究院理论中心 workshop 活动照片




Q:微软研究院有没有针对大模型的新的理论研究方向和成果?



陈卫:大模型确实将人工智能推向了新阶段,改变了原来的研究方法,也让大家站在了统一的起跑线上。我们微软研究院总部的同事 Sebastien Bubeck 和他的团队近期提出了 Physics of AGI 的概念,即通用人工智能物理学。因为现在的大语言模型更像一个黑盒子,对它的研究更像是对一个物理系统、物理现象的研究,就像物理学里的实验物理和理论物理研究一样,通过实验来总结规律。这就像历史上研究天体运行的规律一样,先是开普勒用观测数据找出天体运行的若干经验定律,后来才是牛顿在理论上的突破,提出万有引力定律,再加上他发展的微积分工具,完美地解释了开普勒的经验定律。


Bubeck 团队对大模型进行了实证研究,通过抽象出代数系统来验证大模型核心架构 Transformer 的能力,并给出了一定的理论指导(相关论文:Unveiling Transformers with LEGO: a synthetic reasoning task, https://arxiv.org/abs/2206.04301)。我们计划与他们合作,通过抽象出网络图模型来评估 Transformer 的边界,并结合实证研究,希望能够构建出基于网络的大模型理论模型。




Q:想要从事理论研究,需要具备哪些特质?要如何培养理论研究人才?



陈卫:概括地讲,理论研究人才除了要具备较强的基于数学的分析和推理能力,也要有较高的综合能力,以及交叉学科的背景。从事理论研究需要有开阔的思路、博采众长,不能只局限于数学、分析,或计算机科学中的某一个方面。同时,还要有主动性,主动思考发现新问题,尤其是当下人工智能、大模型的研究是没有固定模式的,不能遵从已有的范式,更需要创新精神。


目前,许多学生更多具有的是竞赛式思维,只要有明确的问题,他们总会找到解决方法。但在研究领域,没有人会告诉你问题是什么,比如涌现行为并不具体,而是需要科研人员自己去明确它是否可以转化成数学问题。然而,如何培养这类人才也是值得思考的问题,尤其是人工智能发展到如今这个程度,如何一方面利用人工智能作为辅助,另一方面充分培养发挥人的创造性, 使人工智能和人相互促进,培养出新一代的学生和科研人员,也是一个重要的研究课题。





在进行计算机科研工作和学习的日日夜夜,你或许有些科研中的问题难以开口问询,或许有些焦虑与情绪无处安放,或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题,都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道,邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞,部分问题与回应会通过微软亚洲研究院账号公开发表。


快来点击上图链接,把你的难题倾倒在树洞里吧!让我们将这些困难封存在过去,轻装上阵,继续科研新旅途!









你也许还想看:



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型对话陈忻:父母要做孩子的太阳,而不是放大镜举报、告密与反告密百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实大模型更需要大数据,星环科技的跃升之路5小时get大模型时代提效神器:写出高价值大模型Prompt!科学匠人 | 麻省大学副教授熊杰加盟微软亚洲研究院 ——“你相信无线感知吗?”大模型时代,解析周志华教授的「学件」思想:小模型也可做大事文心一言开启国产大模型时代,应用新机遇如何解锁大模型时代AI研究开发新范式 ?尽在2023WAIC AI开发者领袖论坛对话罗杰斯:美国通胀将比1970年代更严重,经济衰退“将是我有生之年最糟”对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话北京内推 | 微软亚洲研究院媒体计算组招聘计算机视觉实习生阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl改良人种改良文化与改良思想ACL 2023|大模型时代,自然语言领域还有什么学术增长点?为什么马斯克、图灵奖得主等千名从业者联名叫停大型AI研究?ChatGPT来势汹汹,计算机专业会变“天坑”吗?卡内基梅隆计算机教授揭秘渔歌子(2):三月蝉鸣初入林对话中国大模型的最早推行者黄铁军:全球可能只需要三个大模型生态思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘对话陈凯丰:人工智能投什么?买微软啊!【广发证券】策略对话计算机:AI 大模型时代科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”大模型时代,国产GPU加速「狂飙」|Chat AI刘兰芳什么时候开始“说”, 什么时候“电台开始播”, 才是问题的关键, 老毛去世的前后, 意味深长对话|三个月诞生79个基础大模型,中国到底需要什么大模型?当大模型时代到来,如何借助 AI 驱动生命科学与医药创新谷歌披露量子计算机新突破:比世界最快的超级计算机快“47年”总编对话 | 世纪互联陈升:大模型时代“算粒”汇成强大算力智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会宾州新希望小城(New Hope),秋景名片科学匠人 | 王希廷:做自己的最优指标创造者MLPref放榜!大模型时代算力领域“潜力股”浮出水面:梅开二度拿下世界第一,今年获双料冠军
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。