想让AI听懂中国话，有多难？

2024-03-27 10:03

*本文为「三联生活周刊」原创内容

新刊出炉！点击上图，一键下单↑↑↑

「汉语如何进化」

主笔｜杨璐

给ChatGPT和中国公司做的大模型产品做“中文十级测评”，成了网上一个热门内容。有人考大模型：“我多亏跑了两步，差点没上上上上海的车。请问我是赶上车了还是没赶上车。”还有人提问：“冬天：能穿多少穿多少。夏天：能穿多少穿多少。这两句话的区别是什么。”

正如这些被热议的测评，国内用户非常关心大模型技术能否“理解”中国文化，因为大家有一种朦胧地认知：对计算机来讲，汉字和汉语是外来者。

近代以来跟通信和传播相关的技术，很多源于西方，以拼音文字为底色。作为使用表意文字的中国人，被隔离在科技鸿沟的另一边：电报极大地提高了信息传播的速度，但莫尔斯电码是由26个点线组合，对应26个字母，另外还有10套组合对应从0到9的数字。打字机极大地提高了办公效率，英文打字机上有26个大写字母、26个小写字母和10个数字符号的铸字。中文打字机却是一个难题，流传下来最常见的中文打字机，需要一个数千字组成的常用字盘和一个备用字盘。打字员要从几千个字里找到每一个要打的字的位置，它的普及难度高于英文打字机，便携性更是无从谈起。

中国寻求现代化的道路上，这些差异甚至让文化先驱们一度怀疑，延续2000多年的汉字和我们的母语，还应不应该存在。100多年前，“汉字革命、改用拼音”，曾经引起过很多人的共鸣。以后，每当站在科技鸿沟面前，总有人担心和自我审视，汉字和汉语适配未来吗？现在每天有十几亿人，用汉字或者汉语把他们的想法输入进智能手机和电脑，再传播开来，是因为有一批人带汉字和汉语跨越了技术障碍。

《觉醒年代》剧照

孙茂松是清华大学计算机系长聘教授，人工智能研究院常务副院长，他研究如何让计算机理解汉语，超过了40年的时间。早在2016年，孙茂松就带着学生开始做一个叫“九歌”的人工智能作诗系统。2017年，“九歌”正式上线之后，跟清华大学的诗歌社团清莲诗社进行过作诗比赛，评委来自清华大学人文学院、计算机系和北大学生诗词社团。匿名评审之后，“九歌”的作品获得了最佳格律奖，它写的“古月堂”还以微弱优势获得现场观众投票的“最佳人气奖”。

这是一个持续的项目，随着人工智能技术的发展不断升级版本，目前“九歌”升级到了大模型技术。孙茂松说：“它学了大量古诗之后，可能就掌握了中国古诗的某些规则，然后我们再给它一些关键词。它就知道要写的这首诗里需要有什么，哪些词组合在一起，可能是跟这些关键词相关的。”

汉语对计算机来讲，真的很难。这是我采访自然语言处理科学家时，发现他们无意识就会透露出的意思。现在，大模型技术出现了。计算机能够流畅地理解英语，与人自如地进行多轮对话，甚至进行各种文学体裁的创作。前尘往事之下，我们本能就会关心，它对汉语的理解力是怎么样的？中国公司的大语言模型和美国公司开发的大语言模型谁更懂汉语？在大语言模型技术面前，我们有哪些障碍和难题？

（插图：老牛）

输入法、汉字显示、输出

计算机理解汉字的第一个难题

人类最早产生让计算机理解人类语言的念头，就是在机器翻译领域。1954年，美国乔治敦大学用IBM-701计算机进行了世界上第一次机器翻译实验，用计算机将60个简单的俄语句子翻译成英语。中国是在美国、英国，俄罗斯之后，全球第四个研究机器翻译的国家。

我们采访了冯志伟教授。他是中国最早从事计算语言、机器翻译的科学家之一，获得过中国计算机学会颁发的自然语言处理与中文计算（NLPCC）杰出成就奖。他1957年考上北京大学，在学校里读到机器翻译的英文报道和乔姆斯基的理论，立志做机器翻译的研究。原本，他打算在毕业之后到中科院语言所做机器翻译的研究，但文革改变了他的命运。他辗转回到故乡昆明，成为一名中学老师。

冯志伟的英语、俄语、法语都很好，他业余时间在云南图书馆里帮忙，借此机会阅读外文资料，了解计算机科技的发展。 “国外已经发展到超大规模集成电路的新时期了。我心里很激动，觉得中国长期这样下去可能也不行。中国人未来也会使用计算机的。计算机使用的是英文字母。到那时，中国人就要给汉字编码，才能输入和输出。汉字编码，就成了我关心的问题。”冯志伟说。

汉字如果要编码，首先要计算汉字的熵。1971年到1973年，他跟身边10位中学老师一起，组成团队，统计汉字的字频，计算出汉字熵是9.65比特，要采用双字节编码。“我属于先知先觉的人，感觉将来中国一定会要面对汉字编码这个问题。我是个小人物，当时的政治环境里也没有什么地方可以刊登。我曾经写过一个材料交给云南省科委，没有回应。这篇计算汉字熵的论文，是1984年，我从法国学习回来之后，身份变了，才发表的。”冯志伟说。

冯志伟，他是中国最早从事计算语言、机器翻译的科学家之一（吴家翔摄）

冯志伟的预感是对的。从1978年到80年代，为了让汉字在计算机里显示出来，汉字编码是一个基础工作。国家部委、研究机构和编码研究者通过不同途径研究编码方案。汉字编码一度掀起研究高潮。冯志伟当初通过手工计算得出的“双字节编码”，为汉字编码提供了语言学根据。

仅有编码还不够，汉字要在计算机上使用是个系统工程。孙茂松说：“当时做了一个汉卡，把汉字字库做在这个硬件里。汉卡插进计算机，就能显示汉字了。这是倪光南院士的工作。汉字还要能输出，王选院士被称为当代毕升，他解决的就是汉字输出的问题。他用矢量来显示汉字。矢量输出快，也容易变化，这种办法就可以显示各种字体。这两位院士的工作都是跟汉字相关。”

汉字的输入则是一个持续优化的过程。中国人口基数庞大，人们受教育水平和使用习惯不一样，输入汉字的需求就不一样。孙茂松说：“打字输入有拼音的办法，有根据字型的办法。周有光先生在汉语拼音制定和推广上做出了杰出贡献。懂汉语的人就会用拼音，所以用拼音把汉字往计算机里送，老百姓基本都会。周有光先生虽然不是直接对计算机行业做出贡献，但他的这个贡献可能跟拼音制定相比，一点都不小。根据字型往计算机里送，有一个很有名的五笔字型。它当时发明出来的时候，很轰动。五笔字型打字比拼音快，但它要学一下，专业人士会去用。”

输入还可以手写或者语音。孙茂松说：“汉字识别和语音识别，是1980年代最热门的人工智能任务之一。我本科毕业设计最后半年，做的就是手写汉字识别。它们也是最典型的人工智能挑战，而且这个挑战延续了好几十年，到现在大模型技术出来之后，它才解决得比较好。因为手写和语音太难了，比如手写一个‘土’字，到底是‘土’还是‘士’，计算机可能有各种解读。再比如说一个多音字，计算机怎么识别？孤立去看单独的字，可能不行，计算机要根据上下文判断，它就必须有智能。”汉字处理在输出领域也有其他的形态。孙茂松说：“我有一句话，让计算机说出来，这就是语音合成。科大讯飞就是靠语音合成做起来的。”

IBM-701计算机

自动分词：

汉语对计算机来讲，太复杂了

攻克汉字处理的难题，只是过了第一道关。对计算机来讲汉语难题还有：第二道关对词的处理。第三道关对句子的处理。汉语词和语法的特殊性，让我们没法照搬英文的自然语言处理技术。如果从1950年代，国家把机器翻译列入科学规划算起，为了让计算机理解汉语，中国的自然语言处理专家们研究了几十年。

计算机处理自然语言的时候，是以词语为识别单位的。英语、法语、德语等拼音语言都是以词为单位，词与词之间有空格。汉语是以字为单位，不懂汉语的人和计算机的眼里，它们是一长串符号。分词就成了让计算机理解汉语的一个基础性问题。分词的难度在于，不同的分法，句子就会是不同的含义。

孙茂松说：“长江，我们都知道一个专有名词，而不是一条长的江。但如果是南京市长江大桥，分词不同，意思就不一样了。它可以是南京市，长江大桥。它也可以是南京市长，江大桥。”汉语跟英语相比，形式灵活，分词就不如英语容易。孙茂松说：“我是一个上海人，英文可以说I am a Shanghainese。am，就是一个形式标志。汉语里说，我上海人，把am给扔了，我们中国人都能理解，但是计算机很难理解。”

汉语语法也有特殊性，不能直接用国外的理论。冯志伟在1978年底被派去法国，跟随数学家、计算机专家沃古瓦学习自然语言处理。他原本打算用乔姆斯基的理论来分析汉语句子，但发现寸步难行。“我告诉沃古瓦教授，汉语里讲’面包吃了’，意思其实是’面包被吃了’，但是汉语里一般不用‘被’；汉语里还可以说‘约翰吃了’，实际上是‘约翰把面包吃了’。如果我使用乔姆斯基的理论，用计算机去分析这两个不同的句子，得出的是一样的树形图。”冯志伟说。法国的计算机专家听完也头疼。冯志伟说：“他听完很惊讶，怎么会有语言能够不分主动和被动呢？”冯志伟只能根据汉语的特点，在乔姆斯基的基础上，进行改进。他后来提出了一种新模型，才把108句汉语通过计算机翻译成法语、英语、日语、德语、俄语等，完成了研究实验。这是世界上第一个把汉语翻译成多语种外语的机器翻译系统。

1996年10月，山西省静乐县李辛庄小学，来自温州的支教志愿者在给孩子们上电脑课（解海龙摄 / 视觉中国供图）

预训练大语言模型

解决汉语难题的技术出现了

预训练大模型技术的出现，才彻底解决了计算机理解汉语的难题。2018年，谷歌公司提出预训练语言模型BERT。同一年，OpenAI提出了生成式预训练模型GPT。2019年3月，百度推出了预训练大模型ERNIE（文心）。大模型技术的原理，百度集团副总裁吴甜解释说：“打个比方，我先给它很多’书’去读，这本’书’上我也不去标注阅读哪一段话，或者应该读出什么样的主题。我们说一个人读书破万卷的话，他学识渊博，博采众长。其实是因为读书的过程中，通过对语言的理解、分析和记忆等等，把语言所承载的知识学到了自己的脑子里。计算机去读这些书，也是类似的道理，而且毫不夸张地讲，它读书破万亿。计算机记了非常多的东西之后，它的建模能力非常强，对世界知识进行了压缩，形成一个模型。当我们使用的时候，用相应算法去进行解码，知识就能运用起来了。”

通过这种无标注海量数据的学习，大模型学会了跟人类似的理解、生成、逻辑和记忆等能力，拥有了“智能“的基础。吴甜说：“这种基础模型的通识能力非常强，但使用的时候，我们还要进行微调，要不然它不知道这个任务最后输出什么样的结果是更符合预期的。我们用少量精标的，高质量数据调教它，就是现在常说的对齐。对齐之后，模型就可以使用了。”

汉语具有的特殊性，大模型技术已经不需要特别去处理它。孙茂松说：“多种语言在大模型里打通之后，可能出现一种效果。英文语料对中文的理解也有帮助。英语语言学有一种说法，语义世界基本是稳定的。汉语的语义世界和英语的语义世界有差异，但总体上差不多，因为我们接触的事件差不多。比如我们吃苹果、梨、桃子，吃饭、睡觉等等有文化差异，但差异不是主流。所以，比如说大模型用英语把这些概念在一个计算空间里各就各位之后，再用少量的中英语料，就可以把中文世界和英文世界进行某种对齐。英文语义就可能来帮助处理中文。我们老祖宗的话叫大象无形。这是大模型技术比较深刻的原因，它把很多东西打通了。OpenAI公司的人可能都不懂中文，但他们把中文做得很好。”

2022年11月，OpenAI推出了基于大模型技术的ChatGPT。它可以跟人进行多轮对话，写论文、写小说，写代码，参加考试等等。它聪明得让全球震惊。2023年3月开始，百度、阿里、商汤科技、讯飞等等中国科技公司也陆续上线类似的产品。

因为聊天机器人，大模型技术破了圈。对于在中国使用的聊天机器人，汉语本身已经不是障碍，但要处理语言背后的文化差异。吴甜纠正我，说文心一言是中文大语言模型不够准确。“这种大语言模型，它天生就有多语言能力。因为在预训练的时候，我们不仅仅让它学习中文语料，其他语料也去学习了。当然，它为了面向公众服务，必须符合中国的文化和价值观。所以，文心一言中文语料的训练量比ChatGPT要大得多。我举个文化差异的例子。2022年我们发布文生图大模型得时候，有网友拿它跟国外的大模型比，佛跳墙，国外的大模型画出来就是一堵墙，然后有个佛像在跳。它可以理解汉字，但理解不了汉字背后文化的东西。”吴甜说。

2023年11月23日，第二届全球数字贸易博览会上，语言大模型“文心一言”展台吸引参观者互动了解（王刚摄 / 视觉中国供图）

算力、算法、应用：

解决汉语难题的第四道关

大模型的出现让扫除计算机理解汉语的障碍有了可能性。但是，大模型技术本身就能造成一道技术鸿沟。它需要天文数字的资金，丰富的人才储备，海量数据和多样化的应用场景。中国公司现在能让大模型理解和生成汉语，来自于互联网产业多年的积累。2023年以来，中国公司纷纷上线大模型项目，被自媒体戏谑为“百模大战”。“一哄而上”在这个语境里，不是贬义。孙茂松在一次会议发言里说：“不是一下子就能蹦出百模的。这一拨人工智能技术开始于2010年，国内自然语言处理、人工智能领域在技术积累和教学经验上都是很充分的，应该说在国际前沿位置。”

吴甜毕业就进入了百度。她先后开拓了机器学习、语义理解、推荐与个性化、用户建模、深度问答、对话系统等众多人工智能技术方向。她是跟这一拨人工智能技术一起成长起来的专家。百度的第一个产品搜索引擎，就是拉动AI技术的一项重要应用。吴甜说：“比如国际上，有些国家是直接用谷歌的，如果它们没有自己的搜索引擎，就很难有动力去拉动建设底层技术。如果智能不够深、应用场景不丰富，现在没办法发展大模型。”

百度集团副总裁、深度学习及应用国家工程研究中心副主任吴甜

2014年成立的商汤科技则是一家年轻但又深厚技术积累的公司。创始人汤晓鸥教授是全球人工智能领域的开拓者。商汤科技也是一家年轻人的公司，员工平均年龄不到30岁。大装置训练平台负责人张行程，说话声音里都带着朝气和自豪。2023年4月，商汤科技发布了自己的大模型。张行程说：“要把大模型做出来，核心要素就是算力。训练大模型对算力的需求是传统机器学习的上万倍。商汤在算力上的积累开始得非常早，远早于很多同类机构。2019年就开始在上海临港筹建人工智能计算中心（AIDC），2021年建好时算力规模有3700Petaflops，现在算力规模达到8100Petaflops，已有超3.5万块GPU。”人才也非常关键。张行程说：“它是全新技术，只有靠算法领域非常活跃的人才，对这个问题去探索解决，才能够做得好。统计到2021年，商汤有40名教授、250多名博士和博士候选人，科研人数超过公司总人数三分之二。在过去九年里，商汤和商汤的联合实验室在三大国际计算机视觉顶级会议上共发表806篇关于深度学习和计算机视觉的研究论文。我们在全球计算机视觉领域是领跑的。”

除了百度和商汤，还有若干家科技公司、创业公司、科研团队在做大模型。我们越过了技术鸿沟，站在了发展的一边。但是，我们面前依旧有困难。那么多网友在网上不断地给中国大模型和ChatGPT出题，结果上有差距。王强（化名）是一家科技公司技术负责人，他说：“我们跟OpenAI有代差，我们现在的方案是它一年或一年半之前的方案。算力的差距也比较成问题。Meta他们公布了最新的方案，他们有5万个NVIDIA最新的显卡H100组成的集群，专门用来训大模型。那如果算力少了，那么我们能够尝试迭代的方案就少，认知的前进速度就会变慢，本身就跟他们有代差，再加上认知、成长的速度也慢，这个差距可能就会被拉大，总之影响因素还是比较多的。”

高质量中文语料库

中国大模型的短板

中国公司的大模型跟英文大模型相比，除了算力被卡脖子，还有一个瓶颈是高质量中文语料的稀缺。这会限制我们人工智能技术的发展和创新应用的推进，也影响我国在全球人工智能领域的竞争力。

语料质量跟大模型“聪明”度相关，因为大模型技术还是属于机器学习的范畴，它要从数据中学习规律。吴甜还是以小孩学习为例，他读什么质量的书、涉猎面宽还是窄，读书多还是少，跟小孩的学问是有直接关系的。孙茂松也在很多场合呼吁重视高质量中文语料库的问题，他是工科教授，特别关注跟科学研究相关的论文。他说：“比如全世界的好代码写完都开源在GitHub上，这个网站被微软给买了。微软就拥有它全部的代码，比如它要是训练一个大模型来写代码。这个大模型写代码就会好，因为微软的数据量大。本来中国公司获取中文语料应该很容易，但现在需要一种机制来解决，比如说大量科技论文怎么能作为语料。如果大模型只能获取新闻、小说等语料做训练，它是一个文科生。”

《但是还有书籍》剧照

低质量的语料会把大模型带偏。张行程说：“很多语料是从互联网爬取下来的，处理海量语料的代码大多是非常固定的规则，基于这些规则处理出来的语料就会有各种各样的形态，其中难免就有低质量语料。我提炼一下，大概有几种。第一类还算好一点，它会把一堆毫无关系的段落拼在一起。模型在训练过程中看到的就是一些毫不相干的概念，颠三倒四的内容混合在一起。第二类是广告营销。互联网有一个特点是广告多，虽然可以进行清洗和筛选，但难免还是会有左边一堆广告，右边一堆广告嵌入到正文的各个角落里去了。大模型很不容易，它可能看到都是一些掺杂着广告，语义不连续的句子，最后它还要从里面去学习知识。还有一类就是偏营销的广告语，简单内容翻来覆去地重复，可能看了1万亿内容，里面有1%是这种营销广告。如果不精心挑选语料的话，大模型可能在输出过程中，就开始随机写广告语了。最后一类，网上还会有一些暴力、色情的内容，也会对模型带来干扰。”

高质量语料会提升大模型的性能。今年2月份，商汤发布了大模型体系“日日新SenseNova”4.0版本，在长文理解、综合推理、代码生成、多模态交互等表现上升级。这种提升一部分是在算力丰富的基础上，模型结构、参数量的改变。另外就跟语料相关。大模型对语料的需求是天文数字。这个行业里有一种说法，互联网上能合法合规，能用来训练的数据，已经都被爬取得七七八八了。采访对象列举了一些高质量数据的例子，比如法院判例、裁判文书、医疗诊断记录、政府公共数据、具有科研属性的数据，科研期刊论文、精心校编过的高质量图书等等，目前还没有通盘的解决方案去合法合规便捷地获取。可能需要妥善考虑和统筹，如何公开、流通和利用。根据AI应用开放社区Hugging Face数据统计，中文开源数据集数量仅占英文开源的11%。我们只能抛出这个讨论。一切都还在发展中。

（本文节选自《三联生活周刊》2024年第13期主文，原文有所删减）