Redian新闻
>
违背直觉!打乱字母顺序,GPT-4竟能完美复原......

违背直觉!打乱字母顺序,GPT-4竟能完美复原......

科技

夕小瑶科技说 原创
作者 | 谢年年、Python
研究表明,汉字序顺并不定一影阅响读。——比如当你看完这句话,才发现字全是乱的。

这种情况不仅存在于汉字中,英语、法语,还有很多其他语言其实都适用于这个规律。

这种能力称为「typoglycemia」,即只要每个单词的首尾字母正确,即使单词内部的字母被打乱,也不影响我们的正常理解。

这种能力不是人类独有,大多数强大的LLMs也表现出对词序排列的不敏感的能力。

来自EMNLP2023的一篇文章深入分析了LLMs处理乱序文本的能力,设计了两类任务分别测试LLM从乱序句子中恢复原始句子的能力以及LLM在上下文部分乱序时回答问题的效果。实验结果表明,只要在乱序时保持单词的首字母和尾字母不变,大多数强大的LLM可以在一定程度上处理乱序的句子。

令人惊讶的是,GPT-4几乎可以完美地处理所有乱序的输入,即使是将单词中所有的字母都打乱,GPT-4也能完美复原!

如下图所示,GPT-4几乎可以近乎完美的重建原始句子。

要知道,这对人类来说都是非常艰巨的挑战。

论文标题:
Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

论文链接:
https://arxiv.org/pdf/2311.18805.pdf

两大测试任务

  1. 打乱句子恢复(ScrRec) :向LLM提供一个被打乱的句子,要求其恢复原始句子。该任务可直接评估语言模型对打乱单词的识别和重构能力。示例如下:
  1. 打乱问答(ScrQA):ScrRec对于LLM来说是一项非常规的任务,所以如果模型在恢复任务上表现不佳,可能是难以遵循指令或无法恢复句子两种原因导致的。为了区分这两种情况,作者测量了模型在给定打乱上下文的情况下完成标准问答任务的能力。如下图所示,仅打乱参考的上下文中的字母顺序,对于问题与选项保持原状。示例如下:

1. 数据集创建

为了避免测试数据集已包含在LLM训练数据集中造成的数据污染问题,作者选取RealtimeQA的乱序版本作为基础数据。RealtimeQA是一个动态问答数据集,每周发布关于最新新闻的问题,一直在更新,现有的LLMs很难记住这些问题。作者收集了RealtimeQA中2023年03月17日至2023年08月04日的数据,共419个样本,处理句子以构建ScrRec和ScrQA的样本。

扰乱规则如下:

  1. 随机乱序(RS)。对每个句子,随机选择一定比率(实验中为20%,50%,100%)的单词,并随机乱序选中单词的字母(。
  2. 保持首字母(KF)。保持每个单词的第一个字母不变,随机乱序其它位置的字母。
  3. 保持首尾字母(KFL)。保持每个单词的第一个和最后一个字母不变,随机乱序其它位置的字母。

2. 评估指标

对于ScrRec,测量原句与恢复句之间的平均编辑距离(ED)。此外,还定义了恢复率(RR)来衡量恢复句中减少的编辑距离所占比例,其中分别表示样本的原始句子、打乱后句子和恢复后的句子,公式如下:

对于ScrQA,除了准确率还定义了相对性能提升(RPG),以减少模型在原始问题上的能力差异,并使侧重评估模型在恢复文本与原始文本之间的理解能力。其中,分别定义为使用原始证据、打乱后证据、替换证据(其中所有可以被打乱的单词的字母都被随机的字母所取代)时的准确率。分别作为准确率的上界和下界。

实验结果

对于ScrRec任务分别评测了zero-shot和3-shot(样例来自wikiQA数据集);而ScrQA由于任务相对简单,仅测试了zero-shot。LLMs选用GPT-4、GPT-3.5-turbo、text-davinci-003、Falcon-180b、Llama2-70b作对比测试。实验结果如下图所示:

1.不同扰乱设置的影响

  • 在保留开头和结尾(KFL)扰乱设置下,模型之间的性能差距不大。
  • 除了 GPT-4 以外,性能随着扰乱难度增加(按照 KFL、KF和RS的顺序)而显著下降。而GPT-4的性能无论扰乱类型的难度如何始终保持较高水平。
  • 在 ScrRec与ScrQA上,GPT-4始终优于其他模型,保持高水平。

2.不同乱序率的影响

随着乱序率的增加,GPT-3.5-turbo和GPT-4的RR变化不显著,其余模型显著下降。GPT4在大多数设置中表现出色,甩开其他模型一大截。

3.其他数据集结果

除了RealtimeQA数据集,为了保证结果的泛化性,作者还引入了两个附加数据集:DREAM (基于对话的多项选择阅读理解数据集) 和 AQuA-RAT (多步数学推理)。

下图是ScrQA任务在扰乱后的DREAM数据集(zero-shot)上的实验结果:

▲ScrQA在扰乱DREAM数据集(zero-shot)上的实验结果

相比于RealtimeQA,在DREAM数据上,GPT-4和其他模型之间的差距更大了,可能是因为DREAM需要对更长文本的高级理解。

与其他类别相比,算术问题的性能更容易受到字母扰乱的影响,即使对于GPT-4也是如此。

对于AQuA-RAT数据,通过调整样例和问题中的字母乱序率来评估LLM在不同情境下的表现,结果如下表所示,左:GPT-4;中:GPT-3.5-turbo;右:text-davinci-003

结果显示,当主要问题的扰乱率达到100%时,GPT-3.5-turbo和text-davinci-003的性能显著下降,而GPT-4受到的影响却比较少。

4. 原因初步分析

LLMs具备这种能力有两个原因猜想:一个可能归因于预训练时带入了含有各种错误的大规模文本语料库。二是这种能力可能与LLMs的规模有关。作者对于猜想做了实验进行验证。

扰乱文本进行微调

作者选择Llama-2-13b模型作为基础模型,对维基百科中20220301.simple子集使用两种方式扰乱文本后进行微调:

  1. FT-RS:随机打乱60%样本中超过两个字母的30%单词;
  2. FT-KFAdj:保持第一个字母不变,对60%样本中超过两个字母的30%单词中其他位置的相邻两个字母进行交换,以模拟自然排版错误。
  3. FT-Ori:微调一个使用原始数据集微调的模型作为对照组,以便进行比较分析。

可以看到,使用扰乱后的文本进行微调后的模型(FT-RS)在所有任务中相对于w/o FT基线都有显著改进,甚至在RS设置下超越了规模更大的Falcon180b。

FT-KF&Adj在ScrQA上与基线相当,在ScrRec任务上,在KF和KFL设置下有巨大改进。

因此可以推断,在模拟自然排版错误的文本上进行训练对处理扰乱文本是有用的。

参数规模影响

作者还研究了处理乱序文本能力与参数规模之间的关系。测试文本为100%的随机乱序文本。

可以看到,LLM的性能与其参数大小有一定的关系。

但目前来说,效果好的三个模型GPT-4,GPT-3.5-turbo,text-davinci-003都是闭源模型,尚不清楚其参数具体大小,还需要进一步探究。

结论

本文通过乱序句子恢复和乱序问答两个任务衡量了LLM处理乱序文本的能力。实验表明,尽管乱序文本极大地改变了tokenizer表示,但大多数强大的LLM可在一定程度上处理乱序文本。GPT-4表现尤为亮眼。

本文实验也存在一些限制,如只研究了乱序字母的影响,未探讨插入或替换字母等其他破坏分词方法。此外,本文仅调查了LLM处理乱序文本的能力,未深入分析其背后的原因,特别是GPT-4近乎完美执行此任务的原因,值得进一步研究。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试中东战火,打乱美国对中俄战略于向真:湖南之行GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%今天巴伐利亚州议会选举深夜重磅!GPT-4 Turbo 发布,更强更全能还更便宜,GPT 商店要开了GPT-4竟成Nature审稿人?曝华为9月获中国市场国产手机销量第一;AI女友怂恿一男子暗杀英国女王被判9年chat gpt 怎么上不去了? 彻底罢工了说一个有关Open AI的Chat GPT 创投人和我家的小故事现场直击OpenAI开发者大会:GPT-4 Turbo、用户自定义GPT、GPT商店,一切都是硅谷新王的架势GPT-4教会机器手转笔、玩魔方!RL社区震惊:LLM设计奖励竟能超越人类?直降$26 | 红点控温、双倍不粘,小白也能完美驾驭的不粘锅GPT turbo 看了没?!这真是大批失业人员在路上。直降$37 | 红点控温、双倍不粘,小白也能完美驾驭的不粘锅重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星SEPTA将关闭14个郊区售票窗口; 学生贷款债务可能完全免除; Wayfair, 梅西百货大裁员斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解GPT-4竟诊断出难倒17个医生的怪病?震惊了整个医学圈。。谷歌AI通过图灵测试,大模型医生来了?GPT-4竟诊断出难倒17个医生的怪病伍尔夫:幸福的人生就是每隔三四年就打乱之前的生活全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三挖到宝了!一节只要3块多,竟能完爆大几千的写字班!重磅!预测澳洲房价今年将暴跌!但买房对许多人来说“更遥不可及”!生活打乱、财务计划也乱了...小说:兰欣与乌茶 34维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源“自己人” 买房泡汤了!(今日世界日报)LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见时间的湾 1OpenAI史诗级更新:人人都可定制GPT,GPT商店上线,模型价格打骨折AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务GPT谷歌让大模型更具“心智”,GPT-4任务准确率大增再读席慕容的诗击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。