我们在全网采集了700多亿字,发现了这些不规范字词问题
澎湃新闻记者 李敏
“当前网络不规范用字现象不容乐观,互动论坛、微博等互联网公共社交平台上常见错误、繁体字、异体字频现,政府、媒体网站及新媒体宣传账号发布内容中也存在误用和疏忽,对规范用字环境的形成造成不良影响。”
6月8日,由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的“数字内容生态实验室”发布《网络不规范用字用词现象研究报告》。针对上述现象,报告从错误类型、平台渠道等角度深挖不规范字词背后的规律,总结造成网络不规范字词现象的原因,建议成立由网络监管部门牵头、多方合作的网络语言生态联合体,以技术监管平台建设、规范用字用词评估、政策建议发布,形成促进互联网语言规范化的合力,推动规范、积极、向上的互联网语言生态建设。
现状和成因分析
数字内容生态实验室通过人工智能、大数据等技术手段对2022年12月到2023年3月期间互动论坛、数字报、客户端、微博、网站、微信、短视频平台七类信源内容进行随机抽取,形成具有4946.3万条、706.6亿字内容的样本,排查异体字、异形词、繁体字和常见错误出现情况,以错误类型、错误案例进行细分统计,对当前网络环境中不规范字词使用情况进行全面梳理,形成具有135.9万次不规范字词使用的数据库。
TOP20不规范字词
高频不规范字词统计
根据数据库信息,常见错误是互联网上主要出现的不规范用字(词)形式,在TOP20高频不规范词中占9项。常见错误中帐(账)号、莲(连)花清瘟等属于误用形近别字,颤(战)栗、架式(势)等属于误用读音相近的字。另外,互联网上还存在通过为表达其他含意,故意使用不规范字的情况,如“米(美)国”。异形词、繁体字各有5项出现。异形词因音、义均相同,曾经都被广泛使用,公众依然延续旧有的使用习惯,具有易错性。TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友故意用于表达个性,因此出现频率较高。
报告从多角度分析不规范使用行为背后的原因,指出互联网时代的人机交互方式、创作者能力参差不齐、网络个性化表达、专业内容平台示范作用待进一步发挥等因素都是导致互联网汉字不规范使用的原因。
建议规范使用引导措施
针对上述网络不规范字词现象,数字内容生态实验室向政府、媒体、内容平台、公众等多元主体提出互联网汉字规范使用建议互联网汉字规范使用引导措施:
1、重视技术作用,推广用字用词规范。结合人工智能语言模型等前沿技术优化输入法功能,实现结合上下文语境推荐选词,提高选词准确性。在内容发布平台引入智能不规范字词监测工具,优化文本内容检查功能,如微信公众平台的疑似错别字自动检测,以及澎湃清穹内容风控智能平台、铀媒等专业的内容校对及管理工具,协助内容发布者正确规范用字用词。
上海蜜度智能校对事业部总经理张晓娟表示,目前,国内智能校对系统能够针对汉语特点,将字义、字形和字音三类信息以多模态方式编码进大规模深度神经网络中,捕捉句子的细粒度语义信息和长程语义依赖关系,实现文字差错的自动识别,同时具备主动演进策略,能够持续学习新的语言现象以改进校对效果,为语言文字规范性的监督管理工作提供了有力支撑。
2. 发挥政府、媒体正向影响力,做好主流引导示范。用好网络传播渠道,以身作则保障发布内容中字词使用的规范性;强化内容管理与监督;引导公众在积极参与中树立正确规范的用字用词意识。
3. 内容平台发起倡议,形成规范用字氛围。开展专项行动提高公众对于不规范字词现象的认识,重视内容监管,打击不规范字词表象下违反公序良俗的行为,营造清朗的网络空间。
4. 开展专项监测,支撑语言规范推广。在人工智能技术参与下,对互联网内容进行大范围采集,分析常见不规范用法呈现的规律及背后的原因。组建负责互联网内容监管的技术平台,发挥技术在语言文字规范治理中的作用,形成规范语言文字使用的合力。
此外,针对互联网不规范字词使用现状,报告结合互联网平台信息传播特征,建议由互联网信息监管部门牵头,联合主流媒体、内容平台、专业技术机构,成立网络语言生态联合体。开发互联网内容规范监管技术平台,对互联网内容进行持续采集监测;研究确立科学的监测指标体系,进行数据挖掘、阶段性对比分析;定期发布监测研究成果,总结不规范字词成因及公众在互联网平台的语言习惯,聚焦纠错堵点,寻找有力抓手,提出具有针对性、可行性的规范用字对策建议。
中国传媒大学国家语言资源监测与研究有声媒体中心教授邹煜表示,《网络不规范用字用词现象研究报告》的数据有代表性,据此发现的网络不规范用字现状及其特征有很强的代表性,对成因的分析也很到位,规范引导措施有较强的针对性和可操作性。
推荐阅读
微信扫码关注该文公众号作者