大模型疯狂 Rush，上海 AI Lab 回归语言建模本质

科技

2024-01-18 09:01

做大模型，还是要回归到难且价值大的事情上去。

作者丨王悦

编辑丨陈彩娴

2023 年，是国内外大模型疯狂 rush 的一年。

在这场白热化的竞争中，大模型过剩带来的市场挤压感正时刻提醒着参与者所面临的行业洗牌风险。各厂商深知，基础通用大模型，注定是少数人的游戏。

为了赢得这场游戏，各家大模型多以一月四次的频率飞速迭代自身产品。这么做的原因，无非是看中冲在前面的先发优势——这可以在一定的商业周期中，与后来者拉开不小的距离。

加之数据上的“飞轮效应”，更早应用、更多用户的大模型，具备更高的市场打开度。

诚然，更靠前的身位的确重要，但过度地重视速度，则容易忽略大模型落地所需要的长周期、重基建和工程化难度——底层基础尚不坚固就匆匆在此基础上搭建高楼，其效果往往是「基础不牢，地动山摇」。

虽说如此做法也可以营造繁荣的表象，成功地将模型的成绩在某些特定的方面提上来，且在评测榜单中处于一个比较不错的位置，但其背后，则更多地依靠专项调优的方法，潜力十分有限。

经过市场的狂热期，整个行业意识到，还是要更多地关注基础能力是否真正取得了进步。

不同于商业化的大模型厂商，上海人工智能实验室在这场角逐中则稳定地保持着自己的节奏。在 2023 年下半年发布了一个 20B 的模型之后，相当长一段时间内，在主模型上没有太多的动作。

直到今年 1 月 17 日，书生·浦语 2.0 （InternLM2 ）正式发布。

在这几个月中，上海人工智能实验室回归到模型本身的核心能力上去，发现团队还是有些课要补的，于是就关起门来，真正地、扎扎实实地把基础能力给补上去。

「扎扎实实地在做高质量基础模型，回归到语言建模的本质。」上海人工智能实验室领军科学家林达华如是说到。

回归语言建模的本质

2023 年 9 月，基于对刚发布的 20B 大模型一系列表现的思考，上海人工智能实验室进行了深入的探讨，最终得出结论：如果真的要做到 GPT 4 的水平，单是依靠在应用层面的调优是不够的。

把大模型的部分能力或成绩调到一个较高水平并不难，但这并不代表整个语言模型的能力到了一个新的高度。林达华表示，「 InternLM2 的核心即在于回归语言建模的本质。」

其实，就当下的技术发展现状，要想做好基础能力，模型结构并没有特别大的改变空间，仍然是相对标准的 Transformer 架构，训练方法大多也是类似的，所以核心还在数据。

「我们仍然认为，数据是做大模型的本质，语言建模能力增强的关键在于训练语料质量以及信息密度的提升。」林达华告诉 AI 科技评论。

为此，上海人工智能实验室研发了新一代的数据清洗过滤技术，主要发展了多维度数据价值评估、高质量语料驱动的数据富集和有针对性的数据补齐这三方面的技术方法。

数据清洗的方式在原理上其实并不复杂，但是里面涉及到大量的技术细节。这些技术细节的打磨和调优是一个艰苦的过程，需要进行大量的投入。

首先，从数据价值评估体系来看，沉淀出来这套体系实际上是要花很大力气。其背后有十几个不同的模型去关注数据的语言质量、信息密度等不同维度。每一个模型都由一个小团队或是研究员专门做，最后汇聚成一个完善高效的数据处理管线。

比如一个特定的模型，它的任务就是把所有的广告滤出来，保留其中数学层面的东西，要求模型能相对精准地执行这一指令。

其次，从高质量语料的比重层面来看，从物理世界、互联网以及语料库中找到高价值的数据，然后加重它们在整个训练数据中的比重，本身即是一件有技术含量的事情。

互联网中数据的密度较低，会有广告、低质量的信息充斥其中，这种数据对于模型能力的进一步提升带来的效果是非常有限的。因此，在数据的分布调整上需要加强对于高信息量的、高价值的数据的富集，会通过一些高质量的导引数据和种子数据去汇聚真正富有知识含量的数据，压动此类数据的比重，提高使用效率。

最后，对于模型暴露出来短板，在数据方面做了针对性的增强。针对性补充语料，重点加强世界知识、数理、代码等核心能力。

为了打造这一套数据清洗和过滤的体系，团队在背后训了三位数数量级的模型，起码有一两百个。基本上，每次在部分技术上做一些迭代，得全量训一个起码 7B 量级的模型，来发现它究竟有没有真正成规模的去应用，是不是带来有效的提升。

在这个过程中的，大量的内容是没有带来提升的，但是也留下了一些真正有效的提升的东西，而这些提升的背后是大量实验和庞大资源。

基于千亿规模验证集，比较初代 InternLM 和 InternLM2 在大规模高质量的验证语料上的 loss 分布，可以看到曲线整体左移，表明了语言建模能力的实质性增强。

为了把曲线从右边挪到左边，团队花了三四个月的时间。曲线挪过去之后就会发现，只需要花几个星期的时间，稍做一些对齐等其他工作，下游的表现、能力显而易见取得更高的成绩。

在过去一年的大模型研发历程中，上海人工智能实验室的数据清洗技术完成了三轮迭代。

比较这三代数据训练的 7B 模型在下游任务中的性能成长曲线会发现，在新的数据清洗技术的加持下，只使用约60%的训练数据量即可达到使用上一版数据训练 1T tokens的性能表现，而且持续训练后建模能力到达更高的水平。

去提升数据质量，而非参数量——这一步于上海人工智能实验室而言，是一个策略性考量。

打造出一版高质量的数据之后，就可以根据算力的安排灵活地训大、中、小的模型，无论是现在训 7B 的、20B 的，还是未来训 60B 的、100B 的都可以用这版数据。

目前，上海人工智能实验室有几个 T 的高质量 Tokens，还没有清洗的 Token 还有几十个 T 的规模。

「上海 AI Lab 沉淀的训练数据处理方法和能力，是我们重要的技术优势之一。」林达华表示。

水到渠成的核心能力提升

回归到本质，把语言建模能力这件事做好之后，模型下游任务的性能自然得到了全方位的提升。

这就相当于，如果底子不好，后续的一系列进程都难以为继，虽然也能够通过大量的题海战术，在某个特定的方向上做到很高的水平，但并不是模型能力本质地提升；底子好了后，很多上层的东西能够很快地上手，无论是继续去做应用，还是把某个方向做一些加强，都是水到渠成的事情。

大海捞针的长窗口能力

InternLM2 可以有效支持 200K tokens超长上下文，而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。

模型的超长上上下文支持能力，在当下是有切实需求的。

做一个比较长的对话、完成一个复杂的任务、解一道复杂的题目、读一个财报，这些实用的基本需求都会对上下文的承接能力有要求。如果长窗口能力不成熟，有很多应用就根本跑不起来。

支持超长上下文的能力，并不只上海人工智能实验室在做，其中不乏把能力打磨得很优秀的大模型，但也有很多大模型用了些取巧的方法，虽然宣称做了128K Token 的上下文，但是不一定能稳定发挥，或者主要支持开头和结尾的信息，一旦真正在中间某个地方塞一个信息，模型就无法正确回答。

为了检验长窗口能力的有效性，上海人工智能实验室对 InternLM2 进行“大海捞针”试验 —— 即将关键信息随机插入一段长文本的不同位置来构造问题，测试模型是否能从长文本中提取出关键信息，对模型的要求好似，无论把针放在哪，都要实打实地捞出来才行。

比较 InternLM-Chat 和 InternLM2-Chat 在不同长度的上下文（横轴）及上下文中不同位置（纵轴）上召回关键信息的准确率，红色代表较低的召回准确率，而绿色则代表较高的召回率。

可以见得，初代模型随着文档长度的增长，召回准确率不断下降，对于超过 8K 的上下文，平均准确率下降到低于30%的水平。而新一代 InternLM2-Chat，召回准确率始终保持在高位，16K以内的平均准确率达到 95.65%。

继续延长上下文的长度，对 InternLM-2 提出更大的挑战。试验结果表明，InternLM2-Chat 在上下文长度延展到 200K 时依旧保持了很高的信息召回成功率，验证了 InternLM2 对于超长上下文的支持能力是十分坚实的。

通过两个主流的长文评测集 LongBench 和 L-Eval 检验模型在多种长文任务中的表现对比，从上表中可以看到，InternLM2 在主流长文评测中表现不俗，不仅显著超越了初代 InternLM、Qwen 和 Mistral，而且相比于在长文任务中有很强表现的 ChatGLM3 也稍胜一筹。

在提升长窗口能力方面，上海人工智能实验室没有做太多取巧。训练的时候使用了最科学的位置编码的方式，并且找到了一些有长结构依赖关系的数据，真正优化了训练系统能够支持那么长的数据，没有中间截取了一半文本的情况。

高质量的对话和创作能力

InternLM2 采用了 Online RLHF，对奖励模型和对话模型进行了三轮迭代更新，在每一轮更新中针对前一轮模型的表现更新偏好数据和训练 prompt。在奖励模型训练和 PPO 阶段都平衡地采用各类 prompt，使得模型在安全性进一步提升的情况下，对话的主观体验也能显著提升。

在斯坦福大学1月份刚发布的 AlpacaEval2 英文主观对话榜单上，InternLM2-Chat-20B 超越了 GPT-3.5、 Gemini Pro 和 Claude-2。在谷歌发布的指令遵循能力评测集 IFEval 上，InternLM2-Chat-20B 的指令遵循率则超越了 GPT-4（79.5% vs 79.3%）。

在对话能力方面，InternLM2-Chat 可以精准地理解和遵循⽤户意图，具备较强的共情能⼒。

大模型的情感能力还是源于数据基础能力。林达华表示，在 Chat 版本微调的时候，一方面，在制定微调的数据上面做了高质量的清洗和过滤，数据清洗过滤技术的迭代不仅用在预训练，也用在后面的微调数据上面；另一方面，RLHF的能力也得到了比较强大的增强，给了非常强的反馈，这些反馈使得模型在表达温度、安全性上面各方面其实都能够得到比较好的调整。

在创作能力方面，书生·浦语 2.0 的优势也很明显，并且中文特色能力如吟诗作对不在话下，剧本小说亦信手拈来。

InternLM2-Chat-20B 将根据用户的简单指示展开畅想，编写《流浪地球3》的电影剧本提纲：

这一剧本提纲，在保持一个合理自洽的逻辑的同时，想象力也足够丰富。

可靠的工具调用能力

工具调用能够把大模型的应用能力拓展到非常广的边界。

使用更高质量的基础模型，其工具调用会做得非常可靠，这表现在能够持续多步的去调工具，中间都不出错，从而完成复杂任务。

上一代的书生·浦语模型就已经初步支持了工具调用能力，也展现出了零样本调用工具的泛化能力。

InternLM2 进一步升级了模型的工具调用能力，基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力，可以更可靠地支持复杂智能体的搭建，支持对工具进行有效的多轮调用。

针对多种任务构建了细粒度工具调用评测集 T-Eval（https://open-compass.github.io/T-Eval/），InternLM2-Chat-7B 在 T-Eval 上甚至超越了 Claude-2.1 和目前的开源模型，性能接近 GPT-3.5 和 GPT-4。

突出的数理能力

数学能力是大模型逻辑思维和推理能力的重要体现，InternLM2 从多方面提升模型的数学能力。不仅能解复杂数学题，还提供实用的数据分析能力，还能使用代码解决各类复杂的计算问题。

InternLM2 针对性提高了模型的计算能力，在不依靠计算器等外部工具的情况下，在100以内的简单数学运算上能够做到接近100%的准确率，在1000以内达到80%左右的运算准确率。

除此之外，书生·浦语 2.0 也能很好地支持代码解释器、编写代码进行更复杂的计算，或者对推理的结果进行形式化验证，从而可以解决计算要求更高或者演算过程更加复杂的问题。

在典型的数学评测集 GSM8K 和 MATH 上，配合代码解释器，InternLM2 都能够达到较高的分数。其中对于难度更高的 MATH 数据集，借助代码解释器，精度从 32.5 大幅提升到 51.2，甚至超过了 GPT-4 的表现。

配合代码解释器，20B 模型已经能够完成一些例如积分求解等大学级别的数学题目。

除了求解数学题之外，InternLM2 还能借助代码解释器进行数据分析和可视化。

例如，给模型新一份鲜出炉的2023年全国工业产值的数据表格，模型能够根据数据绘制经济数据折线图，并且使用机器学习模型预测未来的数据。

书生·浦语 2.0 ——

打造坚实的语言大模型基座

经过 2023 年大模型市场的角逐，不难发现，诸如长窗口、情感计算等任何一个大模型能力上的突破作为优势，持续的时间不会超过三个月，各家的大模型用不了多久就会把能力补齐。

时间到了2024年，基座大模型的技术壁垒或许已不再高不可攀，要想获得公众、资本还是市场的青睐，势必还需要把大模型推向真正的应用落地上。

反过来，各种应用的落地一定会依托一个比较强的、高质量的基础模型，这也是为什么上海人工智能实验室选择做高质量基础模型的原因——它能够让从模型到最终落地的应用中间的链条变得更短。

高质量的模型能让 AI 基础上的应用变得更方便、便捷、可靠，用更小的力气，站在更高的平台上。

「未来，我们的关注点还是在基础模型的质量和能力上。商业组织会在人工智能基座的基础上进行各类商业探索，但实验室不一样，我们会一直聚焦基础模型研发，长期投入于我们坚信的正确方向上。」林达华告诉 AI 科技评论。

书生·浦语 2.0 有三个版本，分别为 InternLM2-Base、InternLM2 和 InternLM2-Chat。

相较于浦语 1.0 ，本次多了一个 Base 版本。不同于以往的是，之前的基座模型已经在数学、编程、理解等多个方面做过强化，而本次的 Base 版本没有进行任何的强化工作。

InternLM2-Base 更像是一个预训练的版本，它的能力还没有被任何的方式激发，可能在直接表现方面并不是特别强，但是它的可塑性很高。

Base 版本提供了很大的探索的空间，上海人工智能实验室发布它的初衷也是希望各行业可以去探索如何将浦语 2.0 在某些垂直的方向进行运用，同时也期待对整个领域的生态构建带来更大的价值。

比较初代 InternLM 和 InternLM2 在各个能力维度上的表现，在推理、数学、代码方面，新一代模型的进步尤为明显。

观察 InternLM2 和 InternLM2-Chat 与 ChatGPT（GPT-3.5）以及 GPT-4 之间的差距可以发现：

20B 的模型，在多个关键评测中已经很接近甚至部分超越 ChatGPT（GPT-3.5），其中在 AGIEval、 BigBench-Hard（BBH）、GSM8K、MATH等对推理能力有较高要求的评测上，新一代20B模型的表现都优胜于 ChatGPT，在代码能力上的表现也远优于同量级开源模型，缩小了和 ChatGPT 的差距。

1 月 17 日，书⽣·浦语 2.0 正式发布后，即可免费商用，全链条开源。

上海人工智能实验室在大模型上，始终坚持一个路线：以高质量的开源来赋能创新——这是实验室的定位所在，也是其使命使然。

「我们正在建立国家的高质量的开源基座，也希望能够跟业界、学界传达这样的一个观点：做大模型还是要回归到很难但长期价值大的路径上去，这样才能最终到达一个新的高度。」

开源链接：https://github.com/InternLM/InternLM

免费商用授权许可申请：https://wj.qq.com/s2/12725412/f7c1

更多内容，点击下方关注：

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

大模型疯狂 Rush，上海 AI Lab 回归语言建模本质

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。