违背直觉！打乱字母顺序，GPT-4竟能完美复原......

2023-12-07 01:12

‍夕小瑶科技说原创
作者 | 谢年年、Python 研究表明，汉字序顺并不定一影阅响读。——比如当你看完这句话，才发现字全是乱的。

这种情况不仅存在于汉字中，英语、法语，还有很多其他语言其实都适用于这个规律。

这种能力称为「typoglycemia」，即只要每个单词的首尾字母正确，即使单词内部的字母被打乱，也不影响我们的正常理解。

这种能力不是人类独有，大多数强大的LLMs也表现出对词序排列的不敏感的能力。

来自EMNLP2023的一篇文章深入分析了LLMs处理乱序文本的能力，设计了两类任务分别测试LLM从乱序句子中恢复原始句子的能力以及LLM在上下文部分乱序时回答问题的效果。实验结果表明，只要在乱序时保持单词的首字母和尾字母不变，大多数强大的LLM可以在一定程度上处理乱序的句子。

令人惊讶的是，GPT-4几乎可以完美地处理所有乱序的输入，即使是将单词中所有的字母都打乱，GPT-4也能完美复原！

如下图所示，GPT-4几乎可以近乎完美的重建原始句子。

要知道，这对人类来说都是非常艰巨的挑战。

论文标题:
Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

论文链接:
https://arxiv.org/pdf/2311.18805.pdf

两大测试任务

打乱句子恢复（ScrRec）：向LLM提供一个被打乱的句子，要求其恢复原始句子。该任务可直接评估语言模型对打乱单词的识别和重构能力。示例如下：

打乱问答（ScrQA）：ScrRec对于LLM来说是一项非常规的任务，所以如果模型在恢复任务上表现不佳，可能是难以遵循指令或无法恢复句子两种原因导致的。为了区分这两种情况，作者测量了模型在给定打乱上下文的情况下完成标准问答任务的能力。如下图所示，仅打乱参考的上下文中的字母顺序，对于问题与选项保持原状。示例如下：

1. 数据集创建

为了避免测试数据集已包含在LLM训练数据集中造成的数据污染问题，作者选取RealtimeQA的乱序版本作为基础数据。RealtimeQA是一个动态问答数据集，每周发布关于最新新闻的问题，一直在更新，现有的LLMs很难记住这些问题。作者收集了RealtimeQA中2023年03月17日至2023年08月04日的数据，共419个样本，处理句子以构建ScrRec和ScrQA的样本。

扰乱规则如下：

随机乱序（RS）。对每个句子，随机选择一定比率（实验中为20%，50%，100%）的单词，并随机乱序选中单词的字母（。
保持首字母（KF）。保持每个单词的第一个字母不变，随机乱序其它位置的字母。
保持首尾字母（KFL）。保持每个单词的第一个和最后一个字母不变，随机乱序其它位置的字母。

2. 评估指标

对于ScrRec，测量原句与恢复句之间的平均编辑距离（ED）。此外，还定义了恢复率（RR）来衡量恢复句中减少的编辑距离所占比例，其中，，分别表示样本的原始句子、打乱后句子和恢复后的句子,公式如下：

对于ScrQA，除了准确率还定义了相对性能提升（RPG），以减少模型在原始问题上的能力差异，并使侧重评估模型在恢复文本与原始文本之间的理解能力。其中，，，分别定义为使用原始证据、打乱后证据、替换证据（其中所有可以被打乱的单词的字母都被随机的字母所取代）时的准确率。和分别作为准确率的上界和下界。

实验结果

对于ScrRec任务分别评测了zero-shot和3-shot（样例来自wikiQA数据集）；而ScrQA由于任务相对简单，仅测试了zero-shot。LLMs选用GPT-4、GPT-3.5-turbo、text-davinci-003、Falcon-180b、Llama2-70b作对比测试。实验结果如下图所示：