Redian新闻
>
小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器

小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器

公众号新闻

机器之心专栏

机器之心编辑部


我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learning)。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。

那么,常规大小的模型是否具备这种能力呢?为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。

目前,在实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。

一个直接的解决办法是收集相应的数据,然后在具体场景下对模型进行微调。但是这一过程需要重新训练模型,计算量很大,而且需要针对不同场景需要保存多个模型权重。如果文本识别模型也能具备上下文学习能力,面对新的场景,只需要少量标注数据作为提示,就能提升在新场景上的性能,那么上面的问题就迎刃而解。不过,场景文本识别是一个资源敏感型任务,将大模型当作文本识别器非常耗费资源,通过初步的实验,研究人员得到的观察是传统的大模型训练方法在场景文本识别任务上并不适用。

为了解决这个问题,来自字节跳动和华东师大的研究团队提出了自进化文本识别器,E2STR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习能力的常规大小的文本识别器,无需微调即可快速适应不同的文本识别场景。


论文地址:https://arxiv.org/pdf/2311.13120.pdf

E2STR 配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了 SOTA 的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。E2STR 证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。

方法

图 1 介绍了 E2STR 的训练和推理流程。


1. 基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器,目的为了获取文本识别能力:


2. 上下文训练

上下文训练阶段 E2STR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,E2STR 会学习理解不同样本之间的联系,从而从上下文提示中获取推理能力。


如图 2 所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:


3. 上下文推理

针对一个测试样本,该框架会从上下文提示池中选择 N 个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉 token 序列做平均池化,计算出图像 embedding I 。然后,从上下文池中选择图像嵌入与 I 的余弦相似度最高的前 N 个样本,从而形成上下文提示。


上下文提示和测试样本拼接在一起送入模型,E2STR 便会以一种无训练的方式从上下文提示中学得新知识,提升测试样本的识别准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的 token,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,而且 E2STR 不需要训练就能直接进行推理,因此额外的消耗也降到了最低限度。

实验

实验从三个角度进行:分别是传统文本识别集、跨域场景识别、困难样本修正。

1. 传统数据集

从训练集中随机抽取很少的样本(1000 个,训练集 0.025% 的样本数量)组成上下文提示池,在 12 个常见的场景文本识别测试集中进行的测试,结果如下:


可以发现 E2STR 在识别性能差不多已经饱和的传统数据集上依然有所提升,超越了 SOTA 模型的表现。

2. 跨域场景

跨域场景下每个测试集仅提供 100 个域内训练样本,无训练和微调对比结果如下,E2STR 甚至超过了 SOTA 方法的微调结果。


3. 困难样本修正

研究人员收集了一批困难样本,对这些样本提供了 10%~20% 的标注,对比 E2STR 的无需训练的上下文学习方法和 SOTA 方法的微调学习方法,结果如下:


可以发现,相比于微调方法,E2STR-ICL 大大降低了困难样本的错误率。

未来展望

E2STR 证明了使用合适的训练和推理策略,小模型也可以拥有和 LLM 类似的 In-context Learning 的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。




© THE END 

转载请联系本公众号获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
陌上花开1151 同频之人才懂你的万里山河|华东师大,物理教师,阳光开朗身材佳的元气girl上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树良辰美景奈何天NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成葛朗台LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习华东师大Nat. Commun.:一种铁电鳍式二极管的新型非易失性存储器她为什么换了导师?华东师大一硕士学位论文走红局部第二季,大都会博物馆UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源梅西百货拒绝了两家投资公司联合提出的58亿美元私有化收购要约刚在Costco看到Organic NuttZo 7 Nuts & Seed Butter,估计不错。大家可以看看:解密PC的AI进化:AI大模型如何“压”进PC?一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章视频生成新突破!字节跳动提出PixelDance:轻松呈现复杂动作与炫酷特效把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架华东师大教授2023毕业致辞:我想说的话越来越多,我能说的话越来越少爆款短剧如何打造?字节分享五千字干货Gunn HSMeta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT早茶&免费咖啡北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型耶鲁&谷歌提出HyperAttention:近线性时间的长上下文注意力字节 PICO 大裁员,骨干离岗,网友:字节跳动也跳不动了?MD/PhD 经验分享:小女2020年申请 42所医学院的 MD & MD/PhD programvivo 发布基于 Rust 的操作系统,全球首款?字节跳动宣布除夕统一放假;大妈招女婿要求大模型从业人员 | Q资讯小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大被指性侵未遂的山东师大新传学院院长,简历已从官网撤下钓鱼《她为什么换了导师》——下载量达1.4w次的华东师大硕士学位论文ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练扩招 | 华东师范大学2024年运动训练招生简章小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器《她为什么换了导师》——华东师大一硕士学位论文走红互联网大厂 | 字节跳动 2024 校招补录进行中,需求占比高达62%For Tern : something hot & spicy把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图當病人愛上醫生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。