科学家揭示数据驱动型大模型的三大问题，并指出发展多语言AI的紧迫性

2024-08-18 13:08

近年来，以 ChatGPT 为代表的大模型飞速发展，在自然语言处理上展现出惊人的效果，俨然成为新一轮科技革命的重要驱动力量，深刻改变着人类的生产方式、生活方式和学习方式。

虽然大模型取得了突破性的进展，但其在多语言能力上的探索仍然十分滞后，并存在着诸多的局限性。

为此，北京交通大学助理教授黄锴宇和合作者，针对大模型在多语言场景下的语种维度和领域维度，进行了一次总结和分析。

图 | 相关论文（来源：arXiv）

日前，相关论文以《多语言大型语言模型研究综述：最新进展和新前沿》（A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers）为题发在 arXiv[1]。

图 | 黄锴宇（来源：黄锴宇）

黄锴宇和加拿大蒙特利尔大学博士生莫冯然是共同一作。

图 | 莫冯然（来源：莫冯然）

在这篇论文中，他们找出了通用数据驱动型大模型主要面临的三个问题：

第一，语言迁移问题。

大模型的训练数据主要专注以英文为核心的通用文本数据。

现有的具备一定多语言能力的大模型，也主要以高资源语种为主，所能支持的语种数量十分有限。

在资源受限的语种性能表现上存在一定的桎梏，比如难以生成流利的句子等。

第二，知识累积问题。

由于数据的限制，现有的数据难以实现互相共享和持续更新。

当将所有语言数据汇聚到一个语言模型中，模型的通用知识也会随着差异化训练而产生遗忘。这会让模型难以保持原本擅长的语言能力和其他能力。

不同语言之间的知识也存在冲突，造成大模型的知识持续累积能力不足，使得其在单一模型内难以实现多语言环境的通用人工智能。

第三，领域适应问题。

在多语言场景下的特定领域，大模型存在适应性不足的问题。

现有的领域级衍生大模型一般是单语模型。而在不同语言场景中，领域任务同时存在文化差异和语种差异，这时难以利用翻译、中轴语等弱对齐方式进行语料库扩展。

因此，在非英文场景之下，特定领域的语料库十分匮乏，这让模型难以扩展成为多语言的领域级大模型。

（来源：arXiv）

而在本次工作中，研究人员探究了当前大模型在多个维度下的多语言能力和训练方法，并提出了发掘大模型多语言潜力的方法。

同时，他们还引入“大模型的多语言性”这一概念，针对具有优质多语言能力的现有大模型进行了系统性调查。

课题组表示：大模型的多语言性，有别于传统的多语言大模型的概念。也就是说，现有的大模型不再过分强调自身是否是一个多语言大模型。

因此，该团队为这些模型提供了新的分类结构、比较分析和多视角探索，以评估其适用性和局限性，以便为大模型的有效利用提供建议。

对于大模型来说，它们基于数据驱动的范式。因此，研究人员针对与多语言有关的可用数据集和可用评测基准，也进行了总结和讨论。

通过此，他们绘制出一张概括图，并将这张图起名为“1+2+3+4”：即一个发展树（One Tree）、两种范式（Two Paradigms）、三种架构（Three Architectures）、四个未来探索点（Four Frontiers）。

通过此，他们针对近些年大模型的多语言能力，进行了一次综述性归纳，旨在探索多语言自然语言处理和多语言大模型的下一步发展方向。

（来源：arXiv）

正如研究人员在论文中所提到的：目前，多语言人工智能还面临着诸多挑战。而在大模型时代，这些挑战也仍旧存在。

这些挑战制约着大模型在推理能力、安全性和领域级解决方案等多方面的应用。

因此，该团队希望本次工作能够起到如下作用：即推动大模型在新一代多语言对话助手和多语言信息检索系统等方面的应用。

同时，研究人员指出在发展多语言大模型的同时，还需要思考下一代多语言人工智能的范式。

目前，大模型仍需依靠海量数据的支撑和驱动，这在多语言场景下会让其应用面临一定的掣肘。

一种语言的使用群体规模，决定了该类语音数据的规模。而一些资源匮乏的语言，也许永远不具备形成海量资源的可能。

而人类从头学习新语言、或借助一门基础语言再学习一门新语言，根本无需很多数据。即人类通过学习词汇和语法，就能很快进行造句，从而达到交流的目的。

但是，目前的人工智能技术显然并不具备这种能力，因此该团队认为多语言人工智能的进一步发展，将能够促进类人智能研究的发展，从而为探索人脑理解和生成语言的方式带来助力。

此外，由于当前大模型的数量非常多，仅国内就有两百多个大模型，因此在一篇论文中很难做到全部覆盖。

为此，研究人员发布了一个 GitHub 仓库和对应的 leaderboard，以用于陈列和在多个维度上比较现有大模型的多语言能力。

未来，除了继续维护上述仓库之外，他们也会延展多语言能力的评测方法，促进多语言社区的发展。

黄锴宇补充称：“语言，既是智能的一种表现形式，也是人类智慧的结晶，并会影响人类理解世界的方式。”

语言的界限，也意味着人类世界的界限。由于语言的独特性和多样性，打造多语言社区需要全世界人类的共同努力。

目前，英文社区仍然处于领先发展的状态，其他语言社区在这种发展态势下可能会被越拉越远，甚至逐渐消亡。

但是，多语言社区的持续发展，对于维护语言稳定和语种的多样性、以及保护资源匮乏语种不“被消亡”至关重要。

因此，黄锴宇希望多语言人工智能技术，可以成为打破语言界限的一种福祉。

参考资料：

1.https://arxiv.org/pdf/2405.10936

运营/排版：何晨龙

01/ 科学家打造360度弯曲的单晶硅太阳电池，工业尺寸电池效率达24.5%，为柔性硅基光伏产业化提供关键支撑

02/ Science“125个重大科学问题”迎新进展：科学家揭示二维铜/三氧化钨的室温磁性，解决自旋电子学材料应用难题

03/ 科学家揭示碳点又一奇特性质，成功建立碳点物理模型，实现不同气体的可逆吸附

04/ 科学家实现飞行器宽速域万级变量高效高精度气动优化设计方法，助力航空航天技术发展

05/ AI辅助冷冻电镜解析纤毛结构，浙大学者构建候选致病基因库，提供纤毛病研究新思路

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章