Redian新闻
>
我们在全网采集了700多亿字,发现了这些不规范字词问题

我们在全网采集了700多亿字,发现了这些不规范字词问题

社会

澎湃新闻记者 李敏

“当前网络不规范用字现象不容乐观,互动论坛、微博等互联网公共社交平台上常见错误、繁体字、异体字频现,政府、媒体网站及新媒体宣传账号发布内容中也存在误用和疏忽,对规范用字环境的形成造成不良影响。”

6月8日,由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的“数字内容生态实验室”发布《网络不规范用字用词现象研究报告》。针对上述现象,报告从错误类型、平台渠道等角度深挖不规范字词背后的规律,总结造成网络不规范字词现象的原因,建议成立由网络监管部门牵头、多方合作的网络语言生态联合体,以技术监管平台建设、规范用字用词评估、政策建议发布,形成促进互联网语言规范化的合力,推动规范、积极、向上的互联网语言生态建设。

现状和成因分析

数字内容生态实验室通过人工智能、大数据等技术手段对2022年12月到2023年3月期间互动论坛、数字报、客户端、微博、网站、微信、短视频平台七类信源内容进行随机抽取,形成具有4946.3万条、706.6亿字内容的样本,排查异体字、异形词、繁体字和常见错误出现情况,以错误类型、错误案例进行细分统计,对当前网络环境中不规范字词使用情况进行全面梳理,形成具有135.9万次不规范字词使用的数据库。

TOP20不规范字词


高频不规范字词统计

根据数据库信息,常见错误是互联网上主要出现的不规范用字(词)形式,在TOP20高频不规范词中占9项。常见错误中帐(账)号、莲(连)花清瘟等属于误用形近别字,颤(战)栗、架式(势)等属于误用读音相近的字。另外,互联网上还存在通过为表达其他含意,故意使用不规范字的情况,如“米(美)国”。异形词、繁体字各有5项出现。异形词因音、义均相同,曾经都被广泛使用,公众依然延续旧有的使用习惯,具有易错性。TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;妳(你)、愛(爱)等被部分网友故意用于表达个性,因此出现频率较高。

报告从多角度分析不规范使用行为背后的原因,指出互联网时代的人机交互方式、创作者能力参差不齐、网络个性化表达、专业内容平台示范作用待进一步发挥等因素都是导致互联网汉字不规范使用的原因。

建议规范使用引导措施

针对上述网络不规范字词现象,数字内容生态实验室向政府、媒体、内容平台、公众等多元主体提出互联网汉字规范使用建议互联网汉字规范使用引导措施:

1、重视技术作用,推广用字用词规范。结合人工智能语言模型等前沿技术优化输入法功能,实现结合上下文语境推荐选词,提高选词准确性。在内容发布平台引入智能不规范字词监测工具,优化文本内容检查功能,如微信公众平台的疑似错别字自动检测,以及澎湃清穹内容风控智能平台、铀媒等专业的内容校对及管理工具,协助内容发布者正确规范用字用词。

上海蜜度智能校对事业部总经理张晓娟表示,目前,国内智能校对系统能够针对汉语特点,将字义、字形和字音三类信息以多模态方式编码进大规模深度神经网络中,捕捉句子的细粒度语义信息和长程语义依赖关系,实现文字差错的自动识别,同时具备主动演进策略,能够持续学习新的语言现象以改进校对效果,为语言文字规范性的监督管理工作提供了有力支撑。

2. 发挥政府、媒体正向影响力,做好主流引导示范。用好网络传播渠道,以身作则保障发布内容中字词使用的规范性;强化内容管理与监督;引导公众在积极参与中树立正确规范的用字用词意识。

3. 内容平台发起倡议,形成规范用字氛围。开展专项行动提高公众对于不规范字词现象的认识,重视内容监管,打击不规范字词表象下违反公序良俗的行为,营造清朗的网络空间。

4. 开展专项监测,支撑语言规范推广。在人工智能技术参与下,对互联网内容进行大范围采集,分析常见不规范用法呈现的规律及背后的原因。组建负责互联网内容监管的技术平台,发挥技术在语言文字规范治理中的作用,形成规范语言文字使用的合力。

此外,针对互联网不规范字词使用现状,报告结合互联网平台信息传播特征,建议由互联网信息监管部门牵头,联合主流媒体、内容平台、专业技术机构,成立网络语言生态联合体。开发互联网内容规范监管技术平台,对互联网内容进行持续采集监测;研究确立科学的监测指标体系,进行数据挖掘、阶段性对比分析;定期发布监测研究成果,总结不规范字词成因及公众在互联网平台的语言习惯,聚焦纠错堵点,寻找有力抓手,提出具有针对性、可行性的规范用字对策建议。

中国传媒大学国家语言资源监测与研究有声媒体中心教授邹煜表示,《网络不规范用字用词现象研究报告》的数据有代表性,据此发现的网络不规范用字现状及其特征有很强的代表性,对成因的分析也很到位,规范引导措施有较强的针对性和可操作性。



本期编辑 邢潭


推荐阅读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
年产值200多亿,这个小县城,承包了全国90%的辣条在口腔医院花了7000多,才知道,这么多年的牙竟然白刷了!火了70多年,舒服到被偷师,它才是大哥一样的存在又赚20%涨停,5万股民狂欢!军工巨头承诺:3年营收2000多亿融创最新发布!事关600多亿债务重组,股价大涨我采访了100个有了第三者的男人,发现了这个残酷的婚姻真相惊呆:7000台苹果手机全是空盒子!上市公司被西安电信骗了7000万?电信:员工个人行为!刚刚出炉!赚了3600多亿太可怕!一年暴赚1700多亿,创始人是个80后创始人因财务造假800多亿入狱!知名企业宣告破产叹为观止!恒大深夜发财报负债超2.4万亿!净亏8000多亿!许家印造的这颗雷,实在是太大了!当我们在追“静奢风”,我们在追什么?负债超2.4万亿!恒大深夜连发3份财报:过去2年净亏8000多亿!许家印还能翻盘吗?当我们在讨论老钱风我们在讨论什么魁省法语办公室再作妖! 蒙特利尔店铺被罚$2500: 网站不规范…如果美国违约,我们的8000多亿美债怎么办?400000000000000000倍!这是真正的天文数字→【IOTE物联网展】5月解锁物联网采购新浪潮,且看行业新技术、产品、应用!重要提醒!5 成儿童用药不规范,这份指南值得每个家长查看7000台苹果手机全是空盒子!上市公司被西安电信骗了7000万?电信:员工个人行为!公司回应…血压高至180 ,继续退圈《绿色的牧歌》&《怎么了》宾州斯沃斯莫尔学院(Swarthmore College),校园樱花还去啥夏威夷?地下发现了这个化石!最新研究发现温哥华曾是热带!当我们在讨论美国梦时,我们在讨论什么?闽籍“一姐”回国探亲被捕!伙同家人诈骗涉案20多亿 被称“长得漂亮 30多岁”山西金融腐败大案细节曝光 “德御系”违规从银行贷款2000多亿 造假材料十几吨无题外资净买超16亿!A股近4000亿白马股火了!30多亿杀入,银行股又被狂买答复snowandlotus21岁被被侵犯,从此逆袭,画了7000多张罪犯画像,抓1266名罪犯深入100个高知家长群,发现了一个趋势:他们正在放弃高考……给娃报了7、8个兴趣班,最后决定全喊停!直到学了这个最“没用”的,才发现娃的天赋这么高《少年读漫画·鬼谷子》不同主题,爆笑漫画、趣味故事、重点字词解释、生僻字注音,轻轻松松读懂原著!知名企业破产!创始人因财务造假800多亿入狱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。