Redian新闻
>
想让AI听懂中国话,有多难?

想让AI听懂中国话,有多难?

科技

*本文为「三联生活周刊」原创内容

新刊出炉!点击上图,一键下单↑↑↑

「 汉语如何进化

主笔|杨璐

给ChatGPT和中国公司做的大模型产品做“中文十级测评”,成了网上一个热门内容。有人考大模型:“我多亏跑了两步,差点没上上上上海的车。请问我是赶上车了还是没赶上车。”还有人提问:“冬天:能穿多少穿多少。夏天:能穿多少穿多少。这两句话的区别是什么。”
正如这些被热议的测评,国内用户非常关心大模型技术能否“理解”中国文化,因为大家有一种朦胧地认知:对计算机来讲,汉字和汉语是外来者。
近代以来跟通信和传播相关的技术,很多源于西方,以拼音文字为底色。作为使用表意文字的中国人,被隔离在科技鸿沟的另一边:电报极大地提高了信息传播的速度,但莫尔斯电码是由26个点线组合,对应26个字母,另外还有10套组合对应从0到9的数字。打字机极大地提高了办公效率,英文打字机上有26个大写字母、26个小写字母和10个数字符号的铸字。中文打字机却是一个难题,流传下来最常见的中文打字机,需要一个数千字组成的常用字盘和一个备用字盘。打字员要从几千个字里找到每一个要打的字的位置,它的普及难度高于英文打字机,便携性更是无从谈起。
中国寻求现代化的道路上,这些差异甚至让文化先驱们一度怀疑,延续2000多年的汉字和我们的母语,还应不应该存在。100多年前,“汉字革命、改用拼音”,曾经引起过很多人的共鸣。以后,每当站在科技鸿沟面前,总有人担心和自我审视,汉字和汉语适配未来吗?现在每天有十几亿人,用汉字或者汉语把他们的想法输入进智能手机和电脑,再传播开来,是因为有一批人带汉字和汉语跨越了技术障碍。
《觉醒年代》剧照
孙茂松是清华大学计算机系长聘教授,人工智能研究院常务副院长,他研究如何让计算机理解汉语,超过了40年的时间。早在2016年,孙茂松就带着学生开始做一个叫“九歌”的人工智能作诗系统。2017年,“九歌”正式上线之后,跟清华大学的诗歌社团清莲诗社进行过作诗比赛,评委来自清华大学人文学院、计算机系和北大学生诗词社团。匿名评审之后,“九歌”的作品获得了最佳格律奖,它写的“古月堂”还以微弱优势获得现场观众投票的“最佳人气奖”。
这是一个持续的项目,随着人工智能技术的发展不断升级版本,目前“九歌”升级到了大模型技术。孙茂松说:“它学了大量古诗之后,可能就掌握了中国古诗的某些规则,然后我们再给它一些关键词。它就知道要写的这首诗里需要有什么,哪些词组合在一起,可能是跟这些关键词相关的。”
汉语对计算机来讲,真的很难。这是我采访自然语言处理科学家时,发现他们无意识就会透露出的意思。现在,大模型技术出现了。计算机能够流畅地理解英语,与人自如地进行多轮对话,甚至进行各种文学体裁的创作。前尘往事之下,我们本能就会关心,它对汉语的理解力是怎么样的?中国公司的大语言模型和美国公司开发的大语言模型谁更懂汉语?在大语言模型技术面前,我们有哪些障碍和难题?
(插图:老牛)


输入法、汉字显示、输出

计算机理解汉字的第一个难题


人类最早产生让计算机理解人类语言的念头,就是在机器翻译领域。1954年,美国乔治敦大学用IBM-701计算机进行了世界上第一次机器翻译实验,用计算机将60个简单的俄语句子翻译成英语。中国是在美国、英国,俄罗斯之后,全球第四个研究机器翻译的国家。
我们采访了冯志伟教授。他是中国最早从事计算语言、机器翻译的科学家之一,获得过中国计算机学会颁发的自然语言处理与中文计算(NLPCC)杰出成就奖。他1957年考上北京大学,在学校里读到机器翻译的英文报道和乔姆斯基的理论,立志做机器翻译的研究。原本,他打算在毕业之后到中科院语言所做机器翻译的研究,但文革改变了他的命运。他辗转回到故乡昆明,成为一名中学老师。
冯志伟的英语、俄语、法语都很好,他业余时间在云南图书馆里帮忙,借此机会阅读外文资料,了解计算机科技的发展。 “国外已经发展到超大规模集成电路的新时期了。我心里很激动,觉得中国长期这样下去可能也不行。中国人未来也会使用计算机的。计算机使用的是英文字母。到那时,中国人就要给汉字编码,才能输入和输出。汉字编码,就成了我关心的问题。”冯志伟说。
汉字如果要编码,首先要计算汉字的熵。1971年到1973年,他跟身边10位中学老师一起,组成团队,统计汉字的字频,计算出汉字熵是9.65比特,要采用双字节编码。“我属于先知先觉的人,感觉将来中国一定会要面对汉字编码这个问题。我是个小人物,当时的政治环境里也没有什么地方可以刊登。我曾经写过一个材料交给云南省科委,没有回应。这篇计算汉字熵的论文,是1984年,我从法国学习回来之后,身份变了,才发表的。”冯志伟说。
冯志伟,他是中国最早从事计算语言、机器翻译的科学家之一(吴家翔 摄)
冯志伟的预感是对的。从1978年到80年代,为了让汉字在计算机里显示出来,汉字编码是一个基础工作。国家部委、研究机构和编码研究者通过不同途径研究编码方案。汉字编码一度掀起研究高潮。冯志伟当初通过手工计算得出的“双字节编码”,为汉字编码提供了语言学根据。
仅有编码还不够,汉字要在计算机上使用是个系统工程。孙茂松说:“当时做了一个汉卡,把汉字字库做在这个硬件里。汉卡插进计算机,就能显示汉字了。这是倪光南院士的工作。汉字还要能输出,王选院士被称为当代毕升,他解决的就是汉字输出的问题。他用矢量来显示汉字。矢量输出快,也容易变化,这种办法就可以显示各种字体。这两位院士的工作都是跟汉字相关。”
汉字的输入则是一个持续优化的过程。中国人口基数庞大,人们受教育水平和使用习惯不一样,输入汉字的需求就不一样。孙茂松说:“打字输入有拼音的办法,有根据字型的办法。周有光先生在汉语拼音制定和推广上做出了杰出贡献。懂汉语的人就会用拼音,所以用拼音把汉字往计算机里送,老百姓基本都会。周有光先生虽然不是直接对计算机行业做出贡献,但他的这个贡献可能跟拼音制定相比,一点都不小。根据字型往计算机里送,有一个很有名的五笔字型。它当时发明出来的时候,很轰动。五笔字型打字比拼音快,但它要学一下,专业人士会去用。”
输入还可以手写或者语音。孙茂松说:“汉字识别和语音识别,是1980年代最热门的人工智能任务之一。我本科毕业设计最后半年,做的就是手写汉字识别。它们也是最典型的人工智能挑战,而且这个挑战延续了好几十年,到现在大模型技术出来之后,它才解决得比较好。因为手写和语音太难了,比如手写一个‘土’字,到底是‘土’还是‘士’,计算机可能有各种解读。再比如说一个多音字,计算机怎么识别?孤立去看单独的字,可能不行,计算机要根据上下文判断,它就必须有智能。”汉字处理在输出领域也有其他的形态。孙茂松说:“我有一句话,让计算机说出来,这就是语音合成。科大讯飞就是靠语音合成做起来的。”
IBM-701计算机


自动分词:

汉语对计算机来讲,太复杂了


攻克汉字处理的难题,只是过了第一道关。对计算机来讲汉语难题还有:第二道关对词的处理。第三道关对句子的处理。汉语词和语法的特殊性,让我们没法照搬英文的自然语言处理技术。如果从1950年代,国家把机器翻译列入科学规划算起,为了让计算机理解汉语,中国的自然语言处理专家们研究了几十年。
计算机处理自然语言的时候,是以词语为识别单位的。英语、法语、德语等拼音语言都是以词为单位,词与词之间有空格。汉语是以字为单位,不懂汉语的人和计算机的眼里,它们是一长串符号。分词就成了让计算机理解汉语的一个基础性问题。分词的难度在于,不同的分法,句子就会是不同的含义。
孙茂松说:“长江,我们都知道一个专有名词,而不是一条长的江。但如果是南京市长江大桥,分词不同,意思就不一样了。它可以是南京市,长江大桥。它也可以是南京市长,江大桥。”汉语跟英语相比,形式灵活,分词就不如英语容易。孙茂松说:“我是一个上海人,英文可以说I am a Shanghainese。am,就是一个形式标志。汉语里说,我上海人,把am给扔了,我们中国人都能理解,但是计算机很难理解。”
汉语语法也有特殊性,不能直接用国外的理论。冯志伟在1978年底被派去法国,跟随数学家、计算机专家沃古瓦学习自然语言处理。他原本打算用乔姆斯基的理论来分析汉语句子,但发现寸步难行。“我告诉沃古瓦教授,汉语里讲’面包吃了’,意思其实是’面包被吃了’,但是汉语里一般不用‘被’;汉语里还可以说‘约翰吃了’,实际上是‘约翰把面包吃了’。如果我使用乔姆斯基的理论,用计算机去分析这两个不同的句子,得出的是一样的树形图。”冯志伟说。法国的计算机专家听完也头疼。冯志伟说:“他听完很惊讶,怎么会有语言能够不分主动和被动呢?”冯志伟只能根据汉语的特点,在乔姆斯基的基础上,进行改进。他后来提出了一种新模型,才把108句汉语通过计算机翻译成法语、英语、日语、德语、俄语等,完成了研究实验。这是世界上第一个把汉语翻译成多语种外语的机器翻译系统。

1996年10月,山西省静乐县李辛庄小学,来自温州的支教志愿者在给孩子们上电脑课(解海龙 摄 / 视觉中国 供图)


预训练大语言模型

解决汉语难题的技术出现了


预训练大模型技术的出现,才彻底解决了计算机理解汉语的难题。2018年,谷歌公司提出预训练语言模型BERT。同一年,OpenAI提出了生成式预训练模型GPT。2019年3月,百度推出了预训练大模型ERNIE(文心)。大模型技术的原理,百度集团副总裁吴甜解释说:“打个比方,我先给它很多’书’去读,这本’书’上我也不去标注阅读哪一段话,或者应该读出什么样的主题。我们说一个人读书破万卷的话,他学识渊博,博采众长。其实是因为读书的过程中,通过对语言的理解、分析和记忆等等,把语言所承载的知识学到了自己的脑子里。计算机去读这些书,也是类似的道理,而且毫不夸张地讲,它读书破万亿。计算机记了非常多的东西之后,它的建模能力非常强,对世界知识进行了压缩,形成一个模型。当我们使用的时候,用相应算法去进行解码,知识就能运用起来了。”
通过这种无标注海量数据的学习,大模型学会了跟人类似的理解、生成、逻辑和记忆等能力,拥有了“智能“的基础。吴甜说:“这种基础模型的通识能力非常强,但使用的时候,我们还要进行微调,要不然它不知道这个任务最后输出什么样的结果是更符合预期的。我们用少量精标的,高质量数据调教它,就是现在常说的对齐。对齐之后,模型就可以使用了。”
汉语具有的特殊性,大模型技术已经不需要特别去处理它。孙茂松说:“多种语言在大模型里打通之后,可能出现一种效果。英文语料对中文的理解也有帮助。英语语言学有一种说法,语义世界基本是稳定的。汉语的语义世界和英语的语义世界有差异,但总体上差不多,因为我们接触的事件差不多。比如我们吃苹果、梨、桃子,吃饭、睡觉等等有文化差异,但差异不是主流。所以,比如说大模型用英语把这些概念在一个计算空间里各就各位之后,再用少量的中英语料,就可以把中文世界和英文世界进行某种对齐。英文语义就可能来帮助处理中文。我们老祖宗的话叫大象无形。这是大模型技术比较深刻的原因,它把很多东西打通了。OpenAI公司的人可能都不懂中文,但他们把中文做得很好。”
2022年11月,OpenAI推出了基于大模型技术的ChatGPT。它可以跟人进行多轮对话,写论文、写小说,写代码,参加考试等等。它聪明得让全球震惊。2023年3月开始,百度、阿里、商汤科技、讯飞等等中国科技公司也陆续上线类似的产品。
因为聊天机器人,大模型技术破了圈。对于在中国使用的聊天机器人,汉语本身已经不是障碍,但要处理语言背后的文化差异。吴甜纠正我,说文心一言是中文大语言模型不够准确。“这种大语言模型,它天生就有多语言能力。因为在预训练的时候,我们不仅仅让它学习中文语料,其他语料也去学习了。当然,它为了面向公众服务,必须符合中国的文化和价值观。所以,文心一言中文语料的训练量比ChatGPT要大得多。我举个文化差异的例子。2022年我们发布文生图大模型得时候,有网友拿它跟国外的大模型比,佛跳墙,国外的大模型画出来就是一堵墙,然后有个佛像在跳。它可以理解汉字,但理解不了汉字背后文化的东西。”吴甜说。

2023年11月23日,第二届全球数字贸易博览会上,语言大模型“文心一言”展台吸引参观者互动了解(王刚 摄 / 视觉中国 供图)


算力、算法、应用:

解决汉语难题的第四道关

大模型的出现让扫除计算机理解汉语的障碍有了可能性。但是,大模型技术本身就能造成一道技术鸿沟。它需要天文数字的资金,丰富的人才储备,海量数据和多样化的应用场景。中国公司现在能让大模型理解和生成汉语,来自于互联网产业多年的积累。2023年以来,中国公司纷纷上线大模型项目,被自媒体戏谑为“百模大战”。“一哄而上”在这个语境里,不是贬义。孙茂松在一次会议发言里说:“不是一下子就能蹦出百模的。这一拨人工智能技术开始于2010年,国内自然语言处理、人工智能领域在技术积累和教学经验上都是很充分的,应该说在国际前沿位置。”
吴甜毕业就进入了百度。她先后开拓了机器学习、语义理解、推荐与个性化、用户建模、深度问答、对话系统等众多人工智能技术方向。她是跟这一拨人工智能技术一起成长起来的专家。百度的第一个产品搜索引擎,就是拉动AI技术的一项重要应用。吴甜说:“比如国际上,有些国家是直接用谷歌的,如果它们没有自己的搜索引擎,就很难有动力去拉动建设底层技术。如果智能不够深、应用场景不丰富,现在没办法发展大模型。”
百度集团副总裁、深度学习及应用国家工程研究中心副主任吴甜
2014年成立的商汤科技则是一家年轻但又深厚技术积累的公司。创始人汤晓鸥教授是全球人工智能领域的开拓者。商汤科技也是一家年轻人的公司,员工平均年龄不到30岁。大装置训练平台负责人张行程,说话声音里都带着朝气和自豪。2023年4月,商汤科技发布了自己的大模型。张行程说:“要把大模型做出来,核心要素就是算力。训练大模型对算力的需求是传统机器学习的上万倍。商汤在算力上的积累开始得非常早,远早于很多同类机构。2019年就开始在上海临港筹建人工智能计算中心(AIDC),2021年建好时算力规模有3700Petaflops,现在算力规模达到8100Petaflops,已有超3.5万块GPU。”人才也非常关键。张行程说:“它是全新技术,只有靠算法领域非常活跃的人才,对这个问题去探索解决,才能够做得好。统计到2021年,商汤有40名教授、250多名博士和博士候选人,科研人数超过公司总人数三分之二。在过去九年里,商汤和商汤的联合实验室在三大国际计算机视觉顶级会议上共发表806篇关于深度学习和计算机视觉的研究论文。我们在全球计算机视觉领域是领跑的。”
除了百度和商汤,还有若干家科技公司、创业公司、科研团队在做大模型。我们越过了技术鸿沟,站在了发展的一边。但是,我们面前依旧有困难。那么多网友在网上不断地给中国大模型和ChatGPT出题,结果上有差距。王强(化名)是一家科技公司技术负责人,他说:“我们跟OpenAI有代差,我们现在的方案是它一年或一年半之前的方案。算力的差距也比较成问题。Meta他们公布了最新的方案,他们有5万个NVIDIA最新的显卡H100组成的集群,专门用来训大模型。那如果算力少了,那么我们能够尝试迭代的方案就少,认知的前进速度就会变慢,本身就跟他们有代差,再加上认知、成长的速度也慢,这个差距可能就会被拉大,总之影响因素还是比较多的。”


高质量中文语料库

中国大模型的短板

中国公司的大模型跟英文大模型相比,除了算力被卡脖子,还有一个瓶颈是高质量中文语料的稀缺。这会限制我们人工智能技术的发展和创新应用的推进,也影响我国在全球人工智能领域的竞争力。
语料质量跟大模型“聪明”度相关,因为大模型技术还是属于机器学习的范畴,它要从数据中学习规律。吴甜还是以小孩学习为例,他读什么质量的书、涉猎面宽还是窄,读书多还是少,跟小孩的学问是有直接关系的。孙茂松也在很多场合呼吁重视高质量中文语料库的问题,他是工科教授,特别关注跟科学研究相关的论文。他说:“比如全世界的好代码写完都开源在GitHub上,这个网站被微软给买了。微软就拥有它全部的代码,比如它要是训练一个大模型来写代码。这个大模型写代码就会好,因为微软的数据量大。本来中国公司获取中文语料应该很容易,但现在需要一种机制来解决,比如说大量科技论文怎么能作为语料。如果大模型只能获取新闻、小说等语料做训练,它是一个文科生。”
《但是还有书籍》剧照
低质量的语料会把大模型带偏。张行程说:“很多语料是从互联网爬取下来的,处理海量语料的代码大多是非常固定的规则,基于这些规则处理出来的语料就会有各种各样的形态,其中难免就有低质量语料。我提炼一下,大概有几种。第一类还算好一点,它会把一堆毫无关系的段落拼在一起。模型在训练过程中看到的就是一些毫不相干的概念,颠三倒四的内容混合在一起。第二类是广告营销。互联网有一个特点是广告多,虽然可以进行清洗和筛选,但难免还是会有左边一堆广告,右边一堆广告嵌入到正文的各个角落里去了。大模型很不容易,它可能看到都是一些掺杂着广告,语义不连续的句子,最后它还要从里面去学习知识。还有一类就是偏营销的广告语,简单内容翻来覆去地重复,可能看了1万亿内容,里面有1%是这种营销广告。如果不精心挑选语料的话,大模型可能在输出过程中,就开始随机写广告语了。最后一类,网上还会有一些暴力、色情的内容,也会对模型带来干扰。”
高质量语料会提升大模型的性能。今年2月份,商汤发布了大模型体系“日日新SenseNova”4.0版本,在长文理解、综合推理、代码生成、多模态交互等表现上升级。这种提升一部分是在算力丰富的基础上,模型结构、参数量的改变。另外就跟语料相关。大模型对语料的需求是天文数字。这个行业里有一种说法,互联网上能合法合规,能用来训练的数据,已经都被爬取得七七八八了。采访对象列举了一些高质量数据的例子,比如法院判例、裁判文书、医疗诊断记录、政府公共数据、具有科研属性的数据,科研期刊论文、精心校编过的高质量图书等等,目前还没有通盘的解决方案去合法合规便捷地获取。可能需要妥善考虑和统筹,如何公开、流通和利用。根据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占英文开源的11%。我们只能抛出这个讨论。一切都还在发展中。
(本文节选自《三联生活周刊》2024年第13期主文,原文有所删减)




















更多精彩报道详见本期新刊


「 汉语如何进化

点击下图,一键下单




期更多精彩

| 封面故事 |

  •  AI时代的冲击 汉语如何进化(杨璐
  • 人工智能时代,中文世界应该焦虑吗(丘濂
  • 有了人工智能,该怎么学外语(丘濂
  • 100多年前的文字危机(苗炜
  • 陆胤谈“国文的创生”(苗炜
  • 王东杰谈“国语运动与现代中国”(苗炜

  | 经济 |

  • 市场分析:万科为什么会陷入债务危机?(谢九)

| 社会 |

  • 调查:邯郸事件:家庭破裂的留守儿童之殇(夏杰艺)
  • 专访:低龄未成年人犯罪:刑罚之上的矫治难题(刘畅)
  • 调查:赴韩整形乱象:下沉的求美豪赌(余物非)

| 文化 |

  • 文化:建筑的里外,生活的里外(唐克扬)
  • 文化:“任何我设计的建筑都是向外开放的”(唐克扬)
  • 话题:一场网络和自媒体对凯特的“猎巫”(李孟苏)
  • 旅游与地理:罗弗敦群岛:挪威的高饱和度色彩(昌小雨)
  • 文史:三道字寄(卜键

| 专栏 |

  • 邢海洋:新能源的高保费
  • 袁越:预期寿命比年龄更重要
  • 张斌:业余联赛日
  • 朱德庸:大家都有病


点击下方图片

开通数字刊会员月卡解锁本期👇




本周新刊

 汉语如何进化


点击图片,一键下单纸刊!












微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
当一个老小区的居民想自请“ 拆旧建新”,有多难?算数不行、还不懂中国文化,大模型现在抢不了设计师的饭碗! | AI 测评室F1上海站落幕,要办一站大奖赛有多难? |【经纬低调分享】中国企业想做好一件T恤,到底有多难?| 品牌新事《魔戒》公版“混战”进行中,出版托尔金究竟有多难?在温哥华做父母有多难?!奶粉暴涨!连娃都养不起了!“我儿子错哪了”3600÷9=400被扣分,家长质疑遭打脸:现在的小学题,到底有多难?!澳洲租房有多难?悉尼无门“单间”也要$320/周!网友:牢房比这还大母亲节整个活儿:用各个国家的语言说“妈妈”,你能听懂几个?推荐沙特电视剧“不同寻常的开斋节” “Crashing Eid'《小人书》你有我也有,往事如烟,岁月如歌UIUC即将成立计算机学院,美本CS专业申请究竟有多难?图形推理+数学英语,伊顿公学13+入学考试有多难?英国乔治王子也很烦……你真的不要我们了吗?龙凤联袂,让世界读懂中国龙最懂中国六个钱包的梵克雅宝也卖不动了 新词Feel-good是主要因素想要像周冠宇一样开上F1,究竟有多难?领导经常说的11句话,你能听懂几句?38岁决定转岗,这条路有多难?九大公学之一的温切斯特公学,13+入学考试有多难?拿到offer的孩子, 提前做了这件事.……中国学生赴美留学究竟有多难?如何破除留美困扰清朝的报销有多难?当好一个中小律所主任,到底有多难?互联网作者想科普教育别人的有效方式Costco 是懂中国春节的!龙年插花摆件、盆栽绿植,看着就喜庆!五一旅游必备:如何看懂中国古建筑(一)宾州长木公园,晚秋色彩当建筑重新开口说“中国话”……多少人是离婚后,才听懂了“清华才子”李健的这 5 句话民国“春运”,回趟家有多难?从诗词里读懂中国,这套书里藏着无数中国人的文化底气!家可以常回,却很难久待:家人之间爱的表达有多难?还是中国人懂中国年!这个国货品牌的红色美到我心里,过年必备!普及科学究竟有多难?——对科学的四个错误认知假装日本人有多难?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。