Redian新闻
>
更适应Chatgpt的语言,或许是中文?

更适应Chatgpt的语言,或许是中文?

文化
 *本文为「三联生活周刊」原创内容


“为了能够在现代保留汉字,激进派必须重新想象和定义技术、文字,以及人与机器的交互方式。



文|陈璐

斯坦福大学的历史学教授墨磊宁(Thomas Mullaney)曾带着好奇的目光踏足北京潘家园旧货市场,试图追寻一个不太引人注意的目标:中文打字机。“没有”是他最为耳熟的回应,但在这句“没有”背后,墨磊宁感受到的是一种历史的沉默:对中文打字机的历史探索从未受过应有的赞誉。自20世纪初以来,种种对中文打字机的发明尝试,都一度被冷嘲热讽,成为中国“无可救药”的落后的象征。

19世纪,美国开始大规模生产打字机,西方工程师们将基于有限拉丁字母的语言逐个塞入小小的键盘,实现了继印刷术后的又一次书写革命。然而,如何将汉字的书写机械化,成为许多工程师和企业家面临的难题:若按照西方打字机的“所见即所得”原则,键盘上必须容纳所有汉字。于是,中文打字机在西方人的想象中变成了一个庞大的怪兽:长达4.57米、宽约1.52米的键盘,相当于把两张乒乓球桌拼到一起,也不过能够容纳4万多个汉字,即便是最熟练的打字员一分钟也难以打出超过10个汉字。

打字机研发者和制造商们一边宣称他们的打字机具有普世性,一边对中文视而不见。汉字被排除在这股信息技术化的浪潮之外。为实现中国的现代化,必须放弃以汉字为基础的书写,这种在今天看来难以想象的理念,在当时的中国却得到了许多试图救亡图存的改革者的支持。陈独秀、钱玄同、鲁迅等人都将落后的源头指向汉字,甚至发出了“汉字不灭,中国必亡”的激进言论。

那么,中文打字机究竟是如何从一个“奇特幻想”变成现实的?古老的汉字又是如何踏上了现代化道路?墨磊宁以15年的时间,从二手市场、书店、图书馆和档案馆里收集了许多照片、手册、机器和相关资料,逐步拼接出这段历史的原貌,最终完成《中文打字机:一个世纪的汉字突围史》这部著作。

1947年9月纽约,一台能够打9万个汉字的新型打印机

书里他以一个不太被中国人注意的细节作为引子,讲述了汉字如何在这段历史进程中突围而出:2008年北京奥运会各国代表团的出场顺序。经1949年修订后的奥运会章程规定:“主办国有权按照主办国语言的字母顺序组织开幕式的入场式。”然而,汉字本没有字母。中国当然可以按照拼音字母的排序来安排入场,但这种看似平等的规则实际隐藏了对非字母国家的不公。组织方最终采用了按笔画数给汉字排序的方式组织入场。

这确实是一段曲折的历史。在中文打字机诞生的过程中,人们尝试了各种方法,试图解决一个看似不可逾越的难题。一些人依据“常用字”理论进行创新,这种理论主张只需熟记2000~4000个常用汉字,便能够理解大部分中文文献。毕业于麻省理工学院的中国工程师周厚坤将这个理论应用在他设计的圆柱式打字机中,仅使用了3000多个字模。一些人则借鉴“偏旁部首”分类法,走上了“拼合”理论的探索之路,他们将汉字拆解为不同部分,再进行拼接打印。然而,这种方法也并非完美,因为汉字的各个部分虽然看似相似,但宽窄、大小、位置却千差万别。还有一些人采用了中文电报的设计原理,运用了一种“代码”理论,将汉字通过一系列协议和规范进行拆分、转译和传输。

1919年,商务印书馆的工程师舒震东基于前人的研究进行创新,成功发明了第一台有实用价值的中文打字机。这台打字机采用了《康熙字典》的检字法,将字模分类排列,拥有2500个可拆卸的常用字模,以及可以安装在机器预留的空白处的3040个备用生僻字。然而,与西方打字机相比,这台中文打字机的效率明显不足。

令人诧异的是,最终发明出与西方人定义的打字机相一致的中文打字机的人,并不是工程师,而是作家林语堂。1947年,林语堂汲取了前人的三种理论,创造性地发明了“明快”打字机,引起了轰动。这是历史上第一台带有键盘输入功能的中文打字机,高9英寸、宽14英寸、深18英寸,键盘上有72个按键,对应汉字不同的“偏旁部首”。操作者只需同时按住两个键,打字机内部就会选出一行8个备选字,然后通过“enter”键选中所需要的字。三次按键输出一个汉字,这令中文输入的速度得到了极大提升——一分钟可打50个字。

墨磊宁说,“明快”打字机摒弃了传统的“按下按键汉字直接出现”的设计思路,创造性地引入了“输入”的概念,将打字转变为一种搜索过程,这与后来计算机时代的中文输入法的逻辑相吻合。然而,遗憾的是,由于当时中国陷入内战,美国制造商担心技术专利遭到侵犯,放弃了对林语堂的资助。林语堂本人也因负债累累,不得不放弃进一步推广“明快”打字机的计划。这个具有里程碑意义的发明最终化为历史尘埃,只留下了一些资料照片和专利图纸。

“如今,中国每年都有数十种新的中文输入法获得专利。”墨磊宁说。他曾在上海的咖啡馆里采访过一位抗战老兵,这位老兵发明了一种中文输入法。会面时,老兵的孙女也在现场帮忙,这个二十出头的年轻女孩私下告诉墨磊宁,自己也正在研发一种中文输入法,甚至比她的爷爷做得更好。墨磊宁惊讶地发现,包括她父亲在内的祖孙三代,都投身于输入法的研究之中。“然而,可能永远不会有一个终极赢家,因为有太多不同的方式来拆解汉字。”墨磊宁说,“当书写变成一种寻找、搜索的行为时,便有拥有无穷无尽的可能。虽然不是所有的中文输入法都很好,但它的确具有某种无限性或无界性。”

斯坦福大学中国历史学教授、费正清奖得主墨磊宁

为了让一切保持不变,一切都必须改变

——专访斯坦福大学中国历史学教授、费正清奖得主墨磊宁


中文输入,是语言历史上最重要的概念性变革之一

三联生活周刊:我很好奇,对于一位研究中国历史的美国学者,最初是什么吸引了你想要研究中文打字机?

墨磊宁:我被它吸引是因为它代表了一个不可能的对象。我早期的博士论文和第一本书都是关于分类和标准化的。我一直对公制系统(the metric system)的历史,以及时间与空间的标准化感兴趣。说实话,我从未遇到过这样的情况:总有一些经验、想法和对象无法适应某种标准,总有些特殊的事物和人在抵制标准化。当我发现中文打字机时,我意识到它打开了一个与全球标准不同的世界。

这个标准起源于美国和英语,很快在世界上占据了主导地位,成为人们使用机器书写法语、德语、希伯来语、俄语、西班牙语和阿拉伯语的标准方式。这种标准开始席卷全球,但在世界的许多地方却不完全适用。例如,它与阿拉伯语、韩语都不完全兼容。但由于欧美的权力、殖民主义和资本主义,许多写作系统被迫与这种系统相兼容。

然而中文,作为一种有超过10亿的全球人口使用的主要语言,完全不适用于这种标准。当时的公司和企业不能迫使中文适应西方打字机。但是,确实存在过中文打字机。这真是一个有趣的矛盾:一方面,如果我们认为打字机应该看起来像美国雷明顿打字机一样,那么制造中文打字机是不可能的;但另一方面,中文打字机确实存在,我读过它的专利文件、论文和技术图纸。所以我们面前有一个既不可能存在又确实存在的东西。这种矛盾性对我来说非常吸引人,因为它挑战了我曾经持有的很多观念,比如我认为某些标准会主导世界,虽然会有阻碍,但最终会呈现出一种稳定。

但在中文打字机的例子中,我们看到了一个从未在其他体系中稳定下来的事物,它成为诞生各种关于人机交互、语言等新想法的地方。并且,不仅仅是中国的发明家或工程师,还有美国工程师、华裔美国工程师、韩国工程师、俄国工程师、德国工程师,以及许多日本工程师……这是一个全球的工程师、语言学家和政策制定者的社群,他们都关注这个问题:中文书写的机械化。在这个社群里,一些非常有趣的想法应运而生。

三联生活周刊:阅读这本书确实勾起了我很多遥远的记忆。虽然拼音输入法对当下每个中国人来说都很普遍、熟悉,但上个世纪90年代最流行的其实是五笔输入法,当时很多职业还需要考一种类似于打字员之类的速录师证书。为何中文的信息化会发展到今天的模样,这对大部分中国人来说可能都是个熟悉又陌生的话题。

墨磊宁:在中文环境下展示自己的研究成果时,比如在我为中国人民大学开设的信息技术史课程上,我认为人们会对我讲述“拼音输入法”的历史感到无聊,因为每个人都使用拼音输入法。我预期听众里的教职员工或学生会说:“我已经知道这个了,你为什么还要告诉我?”中文环境里几乎没有人意识到“中文输入法”有多有趣,它被视为理所当然。

有趣的是,在英语环境下,每个人也都认为Q键代表Q、W键代表W是理所当然的。他们对人机交互的想象极度匮乏,虽然有些领域进行了非常有创意的工作,比如眼球追踪、脑机界面等,但主流观念仍认为所输即所得是最简单、最好的方式。

我是英语母语者,在这种环境下长大,习惯于在QWERTY键盘上打字。但我发现在中国、日本、韩国、印度以及阿拉伯国家,世界上大多数人在遍布全球的QWERTY式键盘前面却并不按照西方工程师“所预期”的方式使用QWERTY键盘,这对我来说非常有意思。并且我发现上个世纪40年代到60年代的一些工程师也曾为此感到震惊,他们没想过还存在其他可能的使用方法。

站在这两个默认的交汇点上真的很有趣。我告诉英语世界,你们的系统既不正常,也非天生如此。而对“中文输入法”的世界来说,这段历史真的很重要。很多人以为问题的核心是像拼音输入法、五笔输入法或者是其他某种输入法哪个更好之类的问题。当然可以讨论输入速度等问题,但我真正想讨论的是“中文输入法”本身。这是语言历史上最重要的概念性变革之一,也是我刚完成的第二本书的主题,该书明年将由麻省理工学院出版社出版,名为《中国计算机:信息时代的全球史》,正是关于中文输入法的历史。

三联生活周刊:理解中文打字机,对理解当前的全球信息技术重要吗?

墨磊宁:是的,历史上第一个中文输入法就是一台中文打字机。这台打字机是林语堂在1947年设计的原型机,虽然作为一项商业尝试,它从未大规模生产,遭遇了失败。但这对我们的故事并不重要,因为它是第一台带键盘的中文书写机器。而那个时代的其他中文打字机或是采用一种类似托盘的设计,或是装着一个印有不同部首的滚筒,每次只允许输入一个字符或汉字的一部分。

林语堂发明的中文打字机(视觉中国 供图)

林语堂开始研究这个项目时,其实并没有思考打字机。他考虑的是字典、档案柜和电话簿。这源于他参与了上世纪20~30年代发生在中国的一场名为“检字法问题”的讨论,即如何组织图书馆?如何组织中文列表?属于中文的字母顺序是什么?包括林语堂、王云五等,加入这个团队的每个人,都认为当时主流采用的《康熙字典》的部首系统很糟糕。在他们看来,利用这种方式查找字或词花费的时间太长,英文国家的学生或研究者在图书馆目录里仅需几秒钟便可以查找一本书,但中国的研究者需要的时间可能是其十倍。他们认为,如果如此,那么在现代化、科学、文学和文化等方面就将落后十倍。这种担忧确实有些夸张和恐慌,但这是问题的起点。当时诞生了几十种不同的实验性检字法,林语堂是从这里开始的。

但到了20世纪30年代,其他人还在讨论图书馆、目录和电话簿时,他转变了思考方向:把检字法问题引入书写。他创造了一种至少对中国而言全新的书写方式:通过搜索、查找,而非描写来书写。现在也一样,当你使用搜狗拼音或其他任何中文输入法时,按下的每个键,都不是在书写,而是在查找,一旦你找到它们,这些文字就会被添加到屏幕或文档上。可以说林语堂的尝试就是第一个中文输入法。

事物保持不变,意味着大量的工作已经投入其中

三联生活周刊:现在可能很难想象,但五四运动期间确实很多人呼吁废除汉字、全盘字母化,认为这是中国通往现代化的必经之路。作为一名历史学家,你如何看待汉字在全球信息技术发展过程中得以延续的关键?

墨磊宁:我非常钦佩鲁迅他们,但我认为历史学家有时在流行历史文化中过分强调了像陈独秀、鲁迅和其他呼吁过废除汉字的人。汉字继续存在的关键原因之一是,五四运动之前、期间和之后,都有其他的激进派存在。这些激进派与众不同,他们提出如何在保留汉字的同时思考和构建新的世界。他们并不是保守派,而是另一种类型的激进派。比如我书里提到的两位早期人物,祁暄和周厚坤。他们都是留美中国学生,祁暄毕业于纽约大学,周厚坤毕业于麻省理工学院,并且是麻省理工学院第一个航空工程硕士。周厚坤原本想通过学习飞机制造技术,回国推动工业进步,帮助实现中国现代化,但最终他决定投入到中国语言文字的改革中,觉得自己能够为祖国做的最好的事情是制造一台中文打字机。他在某种程度上与鲁迅有相似之处,都经历了某种转变。但周厚坤基本被人们遗忘了,因为他没有留下《狂人日记》这样的杰作。他的文章都是关于沥青、混凝土、打字机和飞机等相对枯燥的内容。

作家林语堂在纽约(TPG/amaly 供图)

在著名的意大利电影《豹》中有句台词,大意是“为了让一切保持不变,一切都必须改变”。我认为这正是周厚坤他们的观点:为了让汉字写作得以存在,一切都必须改变。因此,人们需要重新想象技术,重新想象如何组织图书馆,重新想象人与机器应该如何互动,重新想象什么是汉字。

我的书里有一节是讲“奇特的连续性”。历史上,事物保持不变是奇怪的事。人们认为历史学家应该关注事物何时发生变化、革命、断裂。但其实,事物保持不变,意味着大量的工作已经投入到维持其连续性中。像舒震东、周厚坤和林语堂这样的人,实际都是激进的“连续性派”,我认为这是我们在近代历史研究里忽略的部分。

三联生活周刊:除了这些有工程背景的留学生、知识分子、政治家等名人外,这本书还关注了许多普通人,比如我觉得很有趣的一部分内容是,新中国的打字员按照自己的工作方式进一步调整了打字机,你甚至将此与当下的人工智能变革结合到了一起,认为相比于字母语言,汉字在技术革新上不仅不处于劣势地位,而且非常顺应AI时代。

墨磊宁:关于那个时代的打字员和排版员的故事,是我写作这本书时最大的发现。正如我在书中所述,他们发明了一种基于文本预测的信息处理方式。比如对于“毛”“主席”“社会”“主义”等常用字符,这些打字员创造性地把它们放在距离相对较近的位置,缩短自己滑动这些字符、组合语言的时间。

想想看,当你从字盘上取出2450个字符并重新开始构建语句时,会有多少种组合方式?按照2450的阶乘进行计算,其可能性大概比宇宙里的原子数量都多。而每个使用这种技术的打字员对常用字符的组合方式都不同,所以他们开始构建自己的信息网络,记录、联想与预测常用的语言。这是一个非常本地化的故事,他们大都没有在历史上留下名字。

有人问我,你知道ChatGPT的到来吗?我说我不知道,但我一点都不惊讶。虽然从英文的计算机历史来看,ChatGPT似乎很疯狂,但我认为如果从中国计算机所代表的这部分全球计算机历史轨迹来看,它变得很明显,这实际是中文输入法历史的下一步:从预测用户想要什么,到试图更快找到他们想要的东西。

《中文打字机:一个世纪的汉字突围史》

(本文选自《三联生活周刊》2023年第36期)







 排版:孙孙Boy / 审核:然宁
本文为原创内容,版权归「三联生活周刊」所有。欢迎文末分享、点赞、在看三连!转载请联系后台。

招聘【新媒体运营】啦!

岗位要求:2—3年或以上微信公众号内容运营、小红书内容运营经验,有强烈的想搞点事的愿望,执行能力强。
(其他岗位详情请戳链接)👉 我们等你来!

大家都在看




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!笑喷了!海外华裔小孩的“烫嘴中文”!海外华裔孩子怎么学中文?免费机会千万别错过~斗鱼回应CEO陈少杰失联;茅台已开展全国稳价措施丨大公司动态全球最热一天纪录诞生,但这样的夏天在未来或许是常态从人类进化史看ChatGPT的本质|中企荐读你知道纽约每个社区最常用的语言是哪种吗?中文排名意外!豆瓣9.4,这或许是最治愈的青春片军事领域ChatGPT的技术与智能分析从书香谈昆德拉想到OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源ChatGPT的创业机会迷幻剂大举进入临床:或许是精神类疾病的大救星,但机制不清还会上瘾心理学者李雪:孩子体弱多病,或许是爸妈的需要狂飙284天后,一批「模仿」ChatGPT的创业公司或将倒闭油管已经有《安乐传》了生物学家翻译了海豚的语言,他们说其中充满了对人类的侮辱性词汇 | 冷兔小报 No.907OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报雅思口语卡在5.5,或许是因为你忽略了这几点!OpenAI官方ChatGPT速成课流出!一周驯化GPT的方法找到了....ChatGPT重大更新!prompt推荐瞬间解释超导,GPT-4成默认模型195亿美元的5G网络切片市场,苹果和谷歌或许是加速增长的关键俄方退出CR929研发?分开或许是更好的选择这或许是中国突破技术封锁的一条意外道路文学性的语言,却教会你独特的数学思考法《安乐传》7月11日突袭惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)元宇宙要破圈,从VR/AR切入或许是一个好的选择西弗吉尼亚, 恍若天堂 (Almost heaven, West Virginia)独家采访WizardLM团队,详解WizardCoder/Math超越GPT4/ChatGPT的RLEIF算法惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?或许是精神分裂了的北京中考改革城西这一项目,或许是整个成都改善市场的参照系悟空,情义难断一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。