严睿：大模型时代下的对话式 AI 发展丨GAIR 2023

2023-08-21 04:08

大模型时代——这是最好的时代，也是最坏的时代。

作者丨严睿

整理丨郭思

编辑丨陈彩娴

编者按：2023 年 8 月14日，第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。大会共开设10个主题论坛，聚焦大模型时代下的AIGC、Infra、生命科学、教育，SaaS、web3、跨境电商等领域的变革创新。此次大会是在大模型技术爆炸时代，国内首个出海的AI顶级论坛，也是中国人工智能影响力的一次跨境溢出。

在第一天的“青年科学家论坛”专场上，人民大学高瓴人工智能学院长聘副教授严睿以“探索智能人机对话，从小模型到大模型”为题发表了大会报告。严睿是北京智源人工智能研究院青年科学家，微软亚洲研究院铸星学者，至今共发表研究论文100余篇，累计引用10000余次。

严睿在演讲中主要介绍了大模型的发展历程，大模型所对应的新特性以及背后对应的新技术。此外，他还分析了将大模型能力与对话式人工智能相结合的研究点，探讨了一些现有的技术发展路线与可能存在的技术挑战，最后介绍了中国人民大学推出的玉兰系列大模型，包括RecAgent推荐模拟大模型，能在一定程度上解决数据匮乏与冷启动问题，也有可能推广到其他场景。

会后，严睿与现场观众对涉及到通用模型在专业领域应用的话题展开讨论，严睿认为将开源模型进行微调以适应特定领域数据有一定效果，但研究尚处早期无确切定论。

以下为严睿的现场演讲内容，AI科技评论作了不改变原意的编辑及整理

大家好，非常荣幸能够参加此次在新加坡举办的人工智能论坛，现场大家都用中英文沟通，经历了一场东西方思维的碰撞，我觉得这是一个非常神奇的体验。我是来自中国人民大学高瓴人工智能学院的严睿。首先我想引用狄更斯的一句话来开场，「这是一个最好的时代，也是一个最坏的时代」。为什么引用这句话呢，因为从 OpenAI 推出 ChatGPT 之后，人工智能以及大模型这件事变得家喻户晓，对从业者造成了非常巨大的冲击。我主要研究对话式AI（conversational AI），现阶段只要做大模型的公司，都在做对话式AI，随着技术的普及，门槛也越来越低，大家都可以进入这个领域，而且效果越来越好，未来怎么去突破AI对话技术就变成了我们面临的非常巨大的挑战。但是从另外一个角度来看这个问题，这对于对话式AI这个研究范围里边的研究者来说，也迎来了非常多的发展机会。所以我用狄更斯这句话开场恰如其分。

大模型的能力与缺点

ChatGPT 其实算是一个现象级的产品，各路媒体都报道说它可能是世界上增长速度最快的应用，发布几天之内用户量就破百万，其所带来的影响也不同凡响。去年底，ChatGPT 刚一推出，一线研究者已经就知道它的冲击力将会非常巨大，再往后，投资人以及金融机构开始关注大模型，再后来，一些更外围的人民群众也开始注意到大模型的高速发展。

我的朋友们也会来问我大模型能力怎么样？他们会去上抖音、小红书、 b 站去学大模型怎么用。我没想到大模型发布以后会演变成一个挣钱的生意，这非常有趣。相信大家应该也都有体验过ChatGPT，它的交互感很好，拥有很强的对话能力，能与用户进行多轮对话；问答能力非常卓越，可以分步骤、分条款清晰地罗列出来1234步再回答问题。除此之外，ChatGPT还有其他能力，如创意写作能力，也就是给它一些提示词或者关键词，甚至是一些用户可能想说的话，然后它就可以创造好一篇文章，这能极大地提高工作效率。针对ChatGPT，我们其实也做了一些简单的测试，我们会发现ChatGPT的摘要能力、翻译能力也很强。当然现阶段ChatGPT可能在通用领域翻译得比较好，但在一些垂直专有领域效果欠佳。此外它还有非常强的信息整合能力，比如它可以跟 Bing结合起来，从 Bing 的搜索结果中拿一些来做信息的整合，生成答案，反馈给用户。

还有一些比较有趣的现象，Chat GPT呈现出了所谓的灵活性。比方你对它说 2 + 3 = 5，它就会回答这是对的。但是假如你跟ChatGPT 进行反馈，说 2 + 3 不等于5，因为我老板说他等于 1 ， Chat GPT就会改口说你老板说的都对。这个表现其实非常优秀，因为这更像是个人类的回答。

不过我们也注意到，虽然ChatGPT在完成事务性上表现很不错，但它的缺点就是有比较严重的幻觉现象，因为它的产生机制就是根据前面的一个语句，然后去判断下一个token 里面最高likelihood（可能性）是什么，再去产生结果。

我们常常说ChatGPT是一个谣言产生器，是因为它对于很多问题只能做很宽泛的回答，并不能保证准确度。如果你对于某些领域不是很了解的话，你会觉得它说得很权威，但是如果你是该领域的专业人士，你就会觉得它在胡说八道。

比如你问周树人拜鲁迅为师这个错误问题，这其实是在对它进行调侃，但它会顺着这个错误的问题持续地进行交流，所以它可能还没有太好的通路去通过图灵测试。此外，ChatGPT不太能回答一些细节问题，如果太细节就容易犯错或者露出马脚，所以它尽可能去会选择空话套话糊弄过去。

ChatGPT 也有一些容易被攻击的点，比如你告诉它某些地方不应该回答什么问题，但是如果你反着提问，它就会把你想要的东西说出来。值得一提的是， GPT 3系统其实没有ChatGPT （基于GPT-3.5）一样好用，或者说对用户友好。所以 GPT 3 推出来之后，需要一层中间商包装或者将其适配给其他用户，这种情况下就催生了很多所谓的GPT 生态产品。但是当 ChatGPT 发布之后，它的对话机制可以让所有人轻而易举上手去互动、去玩，极大地拉近了与用户之间的距离，这也是造成了 ChatGPT 一炮而红的重要原因。所以我们能看到ChatGPT是人工智能发展过程中的一个重要里程碑。

大模型背后对应的新技术

接下来为大家介绍一下，大模型背后对应的新技术。首先Super LLM，个人感受更像是暴力美学般的一个存在。在以往研究机器学习之时，我们没有那么多数据和算力。如今随着计算能力的提升，人们便发现可以将人类历史上所有可以拿到的信息，都让大模型去学习、运算并且记忆，非常暴力地让大模型存下所有的人类经验。虽然有人觉得这并不是通向通用人工智能的路径，但这肯定是一条有可能性的路径。

这个发展趋势似乎是不可逆的，而且随着时间的推移，模型必将越来越大，规模也会越来越惊人。有些学者做了一些调研，随着这个模型的增大，人类区分对方是机器还是人的能力会越来越下降。不过从参数角度来说，Super LLM极其的烧钱，不是所有团队和机构都有机会去训练Super LLM。

Emergent Abilities（智能涌现）是大模型的一个比较显著的特征，大模型通过大量数据记忆，只要经过差不多两个星期的微调，对话能力就会非常惊人。而我们可能花费一两个月时间做一个专门的对话模型还做不过它。当然智能涌现只会出现在一些特大模型上，比如一些7B的模型就不会出现这个现象，至少得十几二十B以后的模型，才会出现智能涌现，这是一种暴力美学的体现，十分「暴力」，但你也得承认它确实美。

In-Context Learning，也就是情境学习，主要基于提示去执行任务，通常我们会对这个任务有一些设置，或者用一些特定任务对应数据，然后告诉大模型我现在有这些数据，你要去学习什么性能来完成某个特定任务，然后大模型通过少量的样本学习就能展现出我们所需要的能力。

这对于一些没有太多计算资源，或者不太能够去跑大模型的团队而言，其实是一个很好的机会。他不需要去训练基础模型，直接拿过来用。只需要输入一些 prompt 就能把大模型能力挖掘出来。

Chain-of-Thought 就是思维链，是大模型里一个非常有趣的现象，介绍起来就是大模型会觉得有些问题一步并不能充分求解，就会把这个问题拆解为若干的小问题，然后一步一步地去求解。这个能力的来源还属于比较黑盒的部分，现在科学界仍无法合理地进行解释。

但是有看法认为，这可能是因为训练大模型一方面用了文本的数据，另外一方面用了代码数据，代码数据本身会有很好的逻辑性以及结构信息，在文本数据和代码数据的联合训练的过程中，大模型就掌握了一些逻辑和结构特性。

Human-in-the-Loop，就是大模型自己对于数据进行自监督学习，但是由于数据中带有毒性或者偏见问题，大模型学出来的结果没有达到人们想要的结果。这个时候就需要人和这个机器能够有一定程度上的互动，对这个结果进行一定程度上的监督和选择。所以这时候一个自然的想法是引入Human-in-the-Loop的机制，能够让大模型在不断通过数据学习的同时，再去引入对人类偏好的学习，逐步地趋近人类想要的结果。但也还有一个比较好玩的现象，大模型发布还不到一年的时间，大家发现它越变越笨了。有些人在使用的过程中会故意添加很多噪音或者错误的反馈，影响到大模型的性能。所以从表面上看起来，大模型可能越来越笨了。OpenAI 技术本身是半透明的，同时拥有海量的用户，这是很高的壁垒，假如这些用户持续地产生噪音的话，对他们来说影响也是很大的。未来他们可能需要随机对于人类的反馈信息来进行一些甄别和筛选，才能更好地提升模型性能。

对话式 AI与大模型的结合

讲完大模型之后，我们回到对话式 AI 上，所以其实大模型和对话 AI 这两者似乎已经被深度绑定在一起，每一个做大模型的机构或团队，最后都会在对话形式上去验证大模型的能力。

对话式 AI目前的主要应用场景有两个。第一个是成为每个人的虚拟助理。现实生活中，不是每一个人都能支付真实的个人助理，这时候，虚拟的个人助理就成了较为便宜的方案。从 Siri 开始，我们看到了各种智能设备上的虚拟助理来管理个人事务性工作，对话式 AI系统在这个场景上会有很多的想象空间。对话式 AI另一个应用场景就是情感交互场景，也就是说，AI不负责事务性任务的管理，只是和人进行一些情感交互，或者提供社交支持，其实就是聊天机器人。聊天机器人的设计初衷是为了能够增加AI和用户的之间的粘性和亲密度，因为我们发现，如果只是有事说事，对话系统和用户只进行工作或者任务的交流，用户其实不会对这个系统产生任何粘性。只有通过一些闲聊（Small talk）的方式，用户才可能去分享他的个人情感和经历等。所以 ChatGPT 的存在的意义就在于它更好地实现了人与机器之间的这样一个交流。除了这两个主要场景外，智能扬声器（smart speaker）是过去若干年对话系统中最成功的一个呈现形式，主要应用于智能音箱或者智能家居的场景，通过一个智能音箱把家里的各种设备关联起来，如亚马逊的Echo，国内的天猫精灵、小爱同学等等，都是在这个方向发力。最后就是一些垂直领域的对话系统，将大模型的通用的对话能力应用到一个具体的领域。这个其实比较难，也是我们觉得未来可以重点发力的方向。

比如说健康养护（Healthcare），因为现在医疗资源分布非常不均匀，如何能够通过有经验的医生的专业知识的学习，去解决跨地区医疗的一些问诊问题，如远程医疗或者自动问诊等场景，这其实很有应用价值，但是人命关天。这个事情如果付费的大模型回答并不准确，就会造成医疗事故。所以在这个领域下有很多非常精细的工作需要完成。第二是金融领域，比如说投资顾问、投资建议方面。大模型平时算错一个数，我们会笑一笑，然后重新改一下就好了。但是对于金融而言这样不行，算错一个数就会导致错误的投资决定，甚至违反法规。所以这里边有很多垂直工作是需要完成。

还有法律部分，大家也知道请一个律师可能很贵，每个小时可能四位数起，但是如果我们让 AI 系统去学习大量的法务法律，它能够去做出一些法务知识的阐述或者咨询服务的话，其实也是让普法工作进入了千家万户。只不过这个对结果的精确度要求比较高，也很需要深耕。

上述我所说的垂直领域，现在也涌现出来了非常多优秀的大模型，比如在生物医药领域有华佗大模型，现在叫本草大模型；还有基于LLaMA模型并结合医学知识进行训练的ChatDoctor。此外，ChatGLM 是中文社区里比较大的开源大模型，在健康监护领域，也推出了自己的医疗版本。Bloomberg对金融数据进行了一个微调推出了BloombergGPT，这些都是在垂直领域比较著名的一些大模型。

接下来我们来聊聊对话式AI的发展历程，其整个发展的里程碑大概可以分为若干个阶段，最开始起源于 60 年代，因为从 50 年代，图灵提出图灵测试，提出对话可能是对人工智能能力的一个终极挑战，所以60 年代开始，学术界就开始做一系列对话形式的研究。60年代，MIT 开发的 ELIZA 系统，基本还是基于规则的系统，也就是对于这个系统提前预设如果别人问什么，机器应该回答什么，通过大量条目的枚举，使得它的对话系统回答得像模像样，这个其实做得很好。此后随着统计以及机器学习的兴起，基于规则的方法逐渐被取代了。所谓的浅层的机器学习方法出现，对对话进行一些特征提取，然后根据这些特征来选择对话的内容和结果。随着深度学习的兴起，机器学习逐渐从浅层的方法过渡到深度的方法，为大家创造了更多的可能性，尤其在文本生成的方面。当然也有一些工作是基于深度学习和浅度学习做融合进行开展的，比方说是hybrid的方法，然后再往后就可能是在 2020 年前后，随着各种预训练模型的兴起，BERT等方法出来之后，AI对话能力上了一个台阶，尤其像 Transformer 引入之后， ChatGPT拥有了让人惊艳的对话能力。预训练模型的整体优势就是在于能够通过海量的数据信息，拥有更好的学习上下文的能力，我们通过模型参数的优化，在预训练模型的加持之下，能得到更自然更连续或者说更人性化的一些产出。总体而言，随着时间的推移，大模型对标人类的语言能力已经在逐渐接近人类水平，并且已经开始超过了人类水平。

AI能力的提升，也让我们对对话式AI能达到的水平有了更高的要求。首先我们希望未来的AI可以产生一些与上下文更相关、更连贯、更一致的对话，除此之外，对话也应该对于风格、偏好等更隐式的信息有一个更好的适配。十亿级参数的大模型现在也有非常多的代表模型，比如谷歌预训练模型 T5，以及GPT 系列代表Decoder-only架构，（光解码结构）。这是目前大模型的一些分类，这些超大大模型涌现了很多独特的能力，在如何将大模型与人机对话更好地融合方面，还有一个重要方向就是多模态的能力， GPT 4也做了一些NLP和CV领域的融合，多模态的主要工作关键技术就是要在不同模态之间有一个对齐和融合的机制，将比方说视觉信号和文本信号进行一些融合，这使模型能产生多模态对话的一个能力。还有一个重要能力叫做信息获取的能力，典型代表如ChatGPT，可以融合更好的知识的信息，产生更为丰富的一些回答，再深入就是一些情感支持能力，主要特性就在于说要对情感进行一些交流，对聊天对象的人物性格，或者当前谈话对象情感状态，去制定它的对话的策略，去更好地进行交互，去展现共情能力，这也是我们在做的一些工作。

除了前面谈到的这些要求和方向，偏见和安全问题也是大模型现在主要的问题。安全问题方面，我们会发现如果人为地通过一些调配，大模型会交代出Windows 的序列号，这个其实是隐私安全。我们可以通过差分隐私的办法解决这些问题，也就是在训练数据的过程中，对数据进行一些扰动，让它没有办法完全地复原。大模型其实有很多方面都是黑盒，这也启示我们如果有办法更好地去知道它产生某个特定的结果的原因的话，其实能够更好地改进大模型。

此外，如何让大模型不产生凭空捏造报的信息或者幻觉信息，这里边就会涉及到一些基于事实信息、记忆信息去完成更好对话的一些研究。与此同时，还有一些语言它本身没有那么多的资源，如何让这些语言也可以应用大模型，这也是未来可以研究的问题。

玉兰大模型介绍

我们学院也做了一些关于大模型开源研发的工作，叫做YuLan-RecAgent（包含在玉兰系列大模型中）。玉兰大模型里边包括几个功能，对话功能、信息助手功能，也有推荐功能以及基于图像的多模态对话功能。但是今天我想重点提一下里面一个比较有趣的部分，recommendation这个部分。

现在很多做推荐系统的人在现实世界里都会面临同一个困扰，那就是冷启动问题，也就是在没有任何数据的情况下怎么去启动推荐学习的性能，因为在没有数据的情况下，人为去加数据标注会变得非常贵，并且我们也没有办法覆盖全部场景的数据，当然这样的好处是精度会非常高。但是另一个替代方案就是，我们可以牺牲一点精度，通过模拟仿真（simulation ）的方式引入更多的数据。这样的方式就会非常的便宜，并且能够覆盖各个场景，达到精度和成本的一定程度上的平衡。YuLan-RecAgent里有这样几个场景，就是我们可以去产生模拟的数据，就是让用户进行一些操作，如浏览、查询感兴趣的部分或者接受一些推荐去完成交互动作。它也可以去选择和其他用户进行交互，通过交互去传递它的推荐信息，像是“自来水”，这其实就像真实世界里用户怎么去传播偏好的一种方式。

YuLan-Rec像《西部世界》一样，构建了一个模拟的环境，来让用户进行这些操作。我们会非常惊喜地发现，引入这个模拟场景之后，它的效果真实提升了。尤其是在冷启动的场景下，通过模拟环境得到了更丰富的数据之后，推荐性能就极大提升了，而这种类似的发现也有可能被推广到其他场景去。

以上是我今天的报告，谢谢大家。

（更改于2023年8月18日）

更多内容，点击下方关注：

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

严睿：大模型时代下的对话式 AI 发展丨GAIR 2023

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。