北大袁粒：用户不会为只能“闲聊”的大模型买单 | 中国AIGC产业峰会

公众号新闻

2024-05-20 09:05

编辑部整理自 AIGC峰会
量子位 | 公众号 QbitAI

大模型能力与日俱增，如何将其转化为生产力？

中国AIGC产业峰会上，北京大学深圳研究生院助理教授袁粒给出了他的看法：

如果大模型只会闲聊，用户是不会买单的，唯有打造垂域应用，才能把大模型变为生产力。

袁粒专注于多模态深度学习研究方向，一作论文单篇被引用千余次。

屡屡登上热搜的ChatExcel、ChatLaw等垂直领域产品，都是出自他的团队。最近，由他们发起的Sora复现计划“OpenSora”，更是引发了广泛关注。

为了完整体现袁粒的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

话题要点

用来闲聊的玩具并不能满足用户真正的需求，将大模型转化为生产力的关键，在于垂域应用。
要做好垂域应用，必须先解决大模型的幻觉问题，一个重要方法就是检索增强生成（RAG）。
AI发展到今天，开源世界的贡献功不可没，正是有很多开源模型才推动了AI领域的繁荣。

以下为袁粒演讲全文：

怎样将大模型转化为生产力

我今天主要是来讲讲我们在多模态模型垂域上面的应用，主要是我们自己团队的工作。

首先引用浙大赵（俊博）老师的拷问，你会为一个闲聊的玩具买单吗，这是当Chat系列模型出来后，大家都会思考的。

同时在去年5、6月份，ChatGPT用户量出现了微跌，也就是说如果大家只是为了一个聊天去用一个产品，肯定是不够的，需要实实在在的转化成生产力，生产力由什么转化，就是垂域应用。

我们知道后来OpenAI动作很快，推出了GPT store，也就是GPT的商店。

我认为GPT商场中的每一个应用，就是一个垂域的产品。我们的团队也是做了一些多模态垂域的开发，包括ChatExcel、ChatLaw，既有语言生成应用，也有视觉生成的一些模型。

我们的基础平台是基于鹏城的云脑加上我们自建的算力，以及通用和行业的数据来进行应用的开发的。

我们先来简单看看一些代表性工作。

第一个就是数据垂域的应用ChatExcel，它其实是早于微软的Copilot发布的，在2022年下半年开始研发，23年2月发布。

一开始的想法很简单，是2022年下半年的时候，我的一个博士生告诉我，他说老师，我想给女朋友减负。

因为他的女朋友是一个高校的信息老师，天天要处理很多表格，大家也知道企业有很多“表哥、表姐”。所以当时我觉得这个想法很好，背后代表了大家普遍的需求，所以就出来了ChatExcel。

ChatExcel是从传统到生成式路线，而且会比生成式路线再往前推了一步，就是多模态生成。

我们看看在第一版的时候，线上能体现到这边这一部分，用文字直接操纵表格，其实WPS当前也已经能做这到一步，因为我们从2022年下半年到2023年初发布。

当然在这个之后，我们进行了升级，升级成一个多模态的模型，这个视频放一下，这也是我们目前部署给某奢侈品巨头的一个真正落地的case，大家可以看到已经不是单模态，能进行数据的可视化，以及能进行一些营销的处理，包括帮你分析这个产品哪一个明星来代言会更好。

我们ChatExcel孵化了一家企业，这个是我的学生创业做的一件事情，我也很支持他。如果大家感兴趣可以在互联网上搜到。

打造垂域应用，要先解决幻觉问题

第二个应用是ChatLaw，ChatLaw是中文法律垂域应用。

ChatLaw这个应用的动机很简单，就是在食堂和一个法学院的老师吃饭的时候，他说我们北大的法律比清华还是好的，但是法律科技在那个时候没有拥抱大模型，我们是否能做一些法律上面的东西。

所以我们一起合作做出来这个ChatLaw的模型。

其实这个很简单，思路就是用户提出需求，我们用Agent进行模型的调度、处理，最后提供法律助手服务，包括信息的分析、结构化抽取，同时能够为用户包括律师生成一些大家所熟知的诉讼状，一些文本的文件，这个是可以给普通用户，同时也可以帮律师。

当然我们目标从来不是替换律师，而是成为律师的助手，替换一些底层重复性的工作。

我们可以看看一些简单的能力，有人被裁员之后去问我的模型，我的模型会让他上传合同和HR沟通录音，然后给他分析事实，最后给出建议。

基于这个建议，我们告知他其实被裁员之后可以走劳动仲裁，仲裁流程以及劳动仲裁申请书都可以由ChatLaw生成，还会推荐一些类似的案例和判决结果。

同时我自己的学生，以及我个人，也有从这个模型中受益，这是当时ChatLaw内测的时候，我的学生身上发生的真实案例。

我的学生想买一个车，在4S店试驾，结果就遇到了一个法律问题。

一般情况下，在试驾的时候需要签一份“免责协议”，大概内容是如果开着这个车出了交通事故，责任完全由试驾人员承担，4S店则不承担责任。

但是很不幸，我这个学生把车开回4S店的时候，在视觉盲区中和一辆电动车发生了刮蹭。

当时我的学生被4S店告知，要么把这个车买下来，要么在完成定损之后全额赔偿。

当时ChatLaw正好在内测，我的学生就问了模型，我的模型最后给他的答案是，4S店的“免责协议”违背了《侵权责任法》第42条（现《民法典·侵权责任编》第1203条）的规定。

同时，ChatLaw也给这个学生生成了一份调解建议书，阐明了因为这个产品归属于4S店，所以这个“协议”属于霸王条款。

于是，这名学生拿着法律依据以及生成的文书给4S店，然后4S店对这件事情就没有再过问了，不了了之了。

虽然我的学生最后买的也是这款车，但没有在这家4S店。

这就是法律真正在普惠个人，包括我个人在现在生活当中一些小问题，也会问模型，因为很多时候它确实有效。

当然，大家也许会说，通用模型本身也能回答大家的这些法律问题。

但是通用模型有一个问题——在专业领域，最大的问题是幻觉问题，俗称“一本正经地胡说八道”。

大家知道如果问ChatGPT，“林黛玉倒拔垂杨柳”是怎么回事，ChatGPT会把这个过程说得非常清晰生动，甚至最后林黛玉的性格都能分析出来，说是《红楼梦》某一回的，这种问题非常严重。

去年上半年我们开发垂域模型的时候就知道，垂域模型必须要解决幻觉问题，所以我们当时提出来，现在大家都很熟知这个词叫检索增强生成。

那个时候确实是我们首次做出来的，只是我们没有把这个概念提出来，让大模型做大模型的事情，让检索做检索的事情。

当然这套框架，大家感兴趣可以读论文，我们也开源了一部分模型，但是商业版比开源模型更好。

其实简单说就是用检索的方式在数据库里面提取出一个参考信息，让这个检索参考信息抑制或者缓解模型的幻觉，尤其是发动“紧急立法权”编造法律条文这种重大问题。

这也是通用模型和垂域模型一个重要的差异，尤其在法律这种严肃的场景下一定要考虑这个问题。

“开源版Sora”是产业的期待

做完垂域应用的时候，当然大家可能说，一个高校团队好像做的事好多，确实，为什么？

因为我们在高校里面，不是追求必然的商业化，而是做有意思的科研和有意思的事情。

我最后介绍的一个东西是联合实验室最近的一项工作，叫做Open-Sora Plan，Sora的开源计划。

我刚开始发起这个计划的时候，很多人问说为什么叫复现，不叫超越。

我说我们还是要实事求是，我们离国外的大模型还是有一定差距，我们能把它复现出来，尤其我们作为高校团队，在算力和数据资源都有限的情况下，我们能复现出一版tiny Sora已经不错了。

而且我们这个是开源项目，我们选用的是MIT license，同时所有的人都可以无条件的用我们开源的数据和模型。

当然我们大家知道，在大语言模型ChatGPT出来的时候，其实还没有开源的模型，整个商业界或者整个产业界和学术界都比较难受——学术界没有研究对象，商业的生态也没有繁荣。

所以后来有了Meta的Llama，我们这个开源的目标就是能否做出一版视觉版的Llama。

这个事情为什么想在高校做，因为高校的姿态是中立，所有人都可以受益，我们拿的是纳税人的钱，做的事情繁荣了生态，也就没有浪费他们的钱。

所以我们想做这件事情。

于是我们很快把这套框架搭起来了，这个框架分为三个部分——视频编解码器、Diffusion Transformer，以及条件注入。

我们把这个框架搭起来之后扔给开源世界，整个开源世界，尤其在推特上面发布之后，对此是很支持的。

我们最看重是技术社区的评价，因为它才是大家真正从技术角度考虑的结果。我们也很快在GitHub上登了第一，目前Star超过 10K。我们这个特点是什么？

我觉得Sora这条技术路线的优势是能生成长时视频，原因之一是因为在训练的时候，喂给了它很长的视频片段。

所以里面核心模块之一是第一部分Video VAE，就是视频编解码，需要对视频进行压缩，因为无法将一个1分钟的视频直接放在一个80G显存的显卡。

所以我们在Video VAE做了很多工作，目前Video VAE能够对视频进行压缩，而且压缩完之后能重建保持高清晰度。

我们现在能够把1分钟1080P的视频塞进80G的显卡，如果是半分钟720P的视频，我们能塞4个。

我个人认为，视频重建就是视频生成的上限。如果无法压缩重建一个视频，也就无法生成。

我们现在能够对视频进行256倍的压缩，而且信噪比能保持30以上，信噪比越高，表示重建信号越好。

而且重建视频的同时也能够重建图像。我们现在开源的版本是能够压缩256位的视频，当然下一步目标是压缩512位，大家可以用我们的CausalVideoVAE进行视频压缩。

我们也进行了数据收集，有两类方案。

一个是爬取视频数据，因为是文生视频，需要打文本的标签。

但是这个很受限于标注模型的准确度，会受限于现在用的多模态理解模型，所以文本和视频的对齐度不高。

方案二也是用文本驱动物理引擎，比如游戏引擎去合成数据，这样的话文本和视频的对齐度和细粒度会非常高。

而且我们也是刚刚打通了这套数据收集方式，用文本的Prompt驱动游戏画面，让人物做出特定动作。

这种合成数据有个好处，就是对齐度高，收集速度也快很多，因为不需要打标，只需要构造很好的文本Prompt，驱动物理引擎。

大家知道Sora里面有很多case的场景很像物理引擎生成的，我个人认为就是这样的数据的功劳，所以我们现在也把这条路刚刚打通。

关于模型收敛情况，我们在上周发布了第一版预训练模型，坦率讲离Sora差距很大，不过我们仅仅用了一个实验室，用很少的算力预训练。

从我们生成的一些Demo来看，包括面包被烤熟、种子发芽这种质变场景，都比较符合物理规律，这个是Sora模型的核心。

视频生成的长度则是几秒钟到十秒钟。

当然，还可以建模游戏里面的一些场景，比如让它生成“我的世界”中建造房子的过程。

我们也有我们三阶段的复现目标，第一阶段已经完成了，就是1.0的版本，现在已经公开。

大家都可以用，包括压缩工具CausalVideoVAE也可以，不需要我们的商业授权，因为这就是开源的事情。

我们现在在第二阶段，该阶段目标也是开源项目的最终目标，我们希望训练出的模型可以生成20秒以上、720P清晰度的视频。

开源世界对我们支持了很多，比如我们合作伙伴，也是联合发起方兔展智能，为我们提供了百卡H100和H800的算力，进行第二阶段开源项目的研发。

华为昇腾团队也和我们积极合作，为我们提供了算力支持。

同时我们也承诺，第二阶段仍然开源。

当然在第三阶段，是超越开源项目的目标，这个是在座各位以及工业界能有更多的算力和更多数据，让它更接近Sora，尤其是在泛化性和时长上。

最后，我个人觉得AI发展到今天，开源世界的贡献功不可没。

大家知道的ImageNet数据集是开源的，很多的深度学习模型也都是开源的，所以才推动了这个领域的繁荣。

所以这个事情的意义是比较大的，学术界和产业界都有一个可以用的类Sora架构的模型。

好，我的演讲到这，谢谢大家。

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章