Redian新闻
>
微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!

科技
夕小瑶科技说 原创
作者 | 谢年年、王二狗

文本嵌入是各项NLP任务的基础,用于将自然语言转换为向量表示。现有的大部分方法通常采用复杂的多阶段训练流程,先在大规模数据上训练,再在小规模标注数据上微调。此过程依赖于手动收集数据制作正负样本对,缺乏任务的多样性和语言多样性。

此外,大部分方法采用BERT作为编码器,如非常经典的Sentence-BERT和SimCSE通过在推理数据集上对BERT进行微调学习文本嵌入。

但现在LLMs技术发展得如火如荼,能否用LLMs来克服现有方法的限制,升级文本嵌入方法呢?

当然可以!

最近,微软发布了一种新颖的文本嵌入方法,使用专有的LLMs为93种语言中各种文本嵌入任务生成合成数据,并且涉及了多个任务场景。

微软使用了Mistral-7B对合成数据和标记数据进行混合训练,**成功登顶Huggingface排行榜,比之前的方法高2%**。

论文标题:
Improving Text Embeddings with Large Language Models

论文链接:
https://arxiv.org/pdf/2401.00368.pdf

模型:
https://huggingface.co/intfloat/e5-mistral-7b-instruct

数据
https://huggingface.co/datasets/andersonbcdefg/synthetic_retrieval_tasks

方法

合成数据生成

作者使用GPT-4集思广益产生一系列潜在的检索任务,然后为每个任务生成(查询,正例,困难反例)三元组,如下图所示。

为了生成多样化的合成数据,作者提出了一个简单的分类法,将嵌入任务分为几个组,并针对每个组应用不同的提示模板:

非对称任务:包括查询和文档在语义上相关但并不是互相改写的任务。根据查询和文档的长度,进一步分为四个子组:短-长匹配、长-短匹配、短-短匹配和长-长匹配。短-长匹配任务涉及短查询和长文档,是商业搜索引擎中的典型情况。

对称任务:涉及具有相似语义但表面形式不同的查询和文档。包括单语语义文本相似性(STS)和双语检索。

训练

给定一个相关的查询-文档配对,将以下指令模板应用于原始查询,生成一个新的查询

其中,嵌入任务的一句话描述的占位符。

给定一个预训练的LLM,将[EOS]标记附加到查询和文档的末尾,然后将它们输入LLM,通过获取最后一层的[EOS]向量来获得查询和文档的嵌入

为了训练嵌入模型,采用了标准的InfoNCE损失函数L,使用批内负样本和困难负样本进行计算。

其中计算查询q和文档d之间匹配分数的函数,本文采用温度缩放余弦相似度函数,是温度超参,在本实验中设为0.02。

实验

合成数据统计

本文一共生成了500k个示例,其中包含150k个独特指令。25%由GPT-3.5-Turbo生成,其余由GPT-4生成。总的token消耗约为180M。主要语言为英语,覆盖了共计93种语言。对于75种低资源语言,平均每种语言约有1k个示例。

模型微调与评估

模型选用Mistral-7b进行1个epoch微调,评估基准选用MTEB基准测试。

训练数据:利用生成的合成数据和包含13个公共数据集的集合, 在采样后得到约180万个样例。为了与一些先前的工作进行公平比较,还报告了仅有标签监督的MS-MARCO数据集的结果。

主要结果

▲表1

如上表所示,本文提出的模型“E5mistral-7b + full data”在MTEB基准测试中获得了最高的平均得分,比之前的最先进模型高出2.4个点

在“仅使用合成数据”的设置中,没有使用标记数据进行训练,其性能仍然相当有竞争力。生成式语言建模和文本嵌入都需要模型对自然语言有深刻的理解,。基于嵌入任务定义,一种真正强大的轻量级模型应该能够自动生成训练数据,然后通过轻量级微调转换为嵌入模型。

▲表2

在表2中,作者还对几个商业文本嵌入模型进行了比较。然而,由于这些模型缺乏透明度和文档说明,不可能做到完全公平的比较。作者主要关注BEIR基准测试的检索性能,因为RAG是未来LLMs应用的重要趋势之一。正如表2所示,本文的模型在性能上明显优于当前的商业模型。

多语言检索

为了评估模型的多语言能力,作者在包含18种语言的MIRACL数据集上进行了评估。该数据集包括人工注释的查询和相关性判断。

▲表3

如表3所示,该模型在高资源语言特别是英语上超过mE5large。对于低资源语言,本文的模型仍然不够优秀。这是因为Mistral-7B主要预训练于英语数据,未来将可以使用多语言LLM弥合这一差距。

除此之外,作者还探讨分析了几个问题。

分析

1. 对比预训练真的重要吗?

弱监督对比性预训练是现有文本嵌入模型取得成功的关键因素之一。例如,将随机裁剪的片段作为预训练的正样本对待,或者从各种来源收集并筛选文本对。

那么对于LLMs而言,对比预训练还有用吗?

如上图所示,对比预训练有益于XLM-Rlarge,在相同数据上微调时,其检索性能提高了8.2个点,与之前的研究结果一致。

然而,对于基于Mistral-7B的模型,对比预训练对模型质量几乎没有影响。这意味着广泛的自回归预训练使LLMs能够获取良好的文本表示,只需要进行最少限度的微调即可将其转化为有效的嵌入模型,而无需对比预训练。

个性化密码检索

为了评估模型的长上下文能力,作者引入了一项新的合成任务——个性化密码检索,如下图所示,包含多个文件,每个文件都有一个独特的人名和一个随机的密码,插入在随机的位置。任务是从100个候选项中找回包含给定个人密码的文件。通过这个过程测试模型将长上下文中的密码信息编码到嵌入中的能力。

作者通过改变滑动窗口大小和RoPE旋转基,比较了不同变体的性能。

  • 结果表明,默认配置下,使用4k滑动窗口在4k个token内达到了100%的准确率,但随着上下文长度的增加,准确率迅速下降。

  • 将滑动窗口大小天真地扩展到32k会导致更差的性能。

  • 通过将RoPE旋转基准更改为,模型可以在32k个标记内实现超过90%的准确率。但在短上下文不太适用。

结论

这篇工作证明了通过LLMs技术,文本嵌入的质量可以得到显著提升。 研究人员使用了专有的LLMs(如GPT-4),在多种语言环境下生成了多样化的合成数据,并结合Mistral模型强大的语言理解能力,在竞争激烈的MTEB基准测试中取得了SOTA。与现有的多阶段方法相比,既简单又高效,不再需要中间预训练的环节。

用网友的话说就是“Amazing Amazing Amazing!”,省去了人工采集数据的繁琐步骤,每个人都可以轻松地生成自己的数据集,并训练强大的嵌入模型。 语义检索模型不给力导致生成模型性能受影响的局面,总算有希望翻篇儿了!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
使用Go实现健壮的内存型缓存斗贫嘴也须机巧Nature Chemical Biology | 肖易倍/陈美容团队发表新型细菌免疫机制研究成果国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-42024年还会好吗?看王煜全用GPT的分析成果|直播预告用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞Cell子刊 |肠道真菌可预测肿瘤免疫治疗疗效!仁济医院陈豪燕/洪洁团队最新研究成果传微软OpenAI领投人形机器人;OpenAI一键调用GPTs功能上线;年度大模型评测榜单公布丨AIGC大事日报美国女子身穿比基尼"绑带被海鸥熟练解开...",网友:这只鸟看起来训练有素拥抱健康:Into blue 亲身游泳一年改善恢复健康谷歌DeepMind发布三项机器人研究成果;传苹果将在WWDC发布生成式AI版本Siri丨AIGC日报230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相佛卡和其他開始寫作谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报前哈佛校长剽窃调查持续 部分研究成果存在问题真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果Nucleic Acids Research | 德州学院“山东省生物物理重点实验室”发布EVLncRNAs数据库最新研究成果北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!无语!高校实验室25年研究成果被毁!只因清洁工嫌吵关掉冰箱电源...美国又快总统大选了使用GPT微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题热议!中山大学宋尔卫/苏士成团队Nature最新研究成果,被质疑!用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用2024年还会好吗?看王煜全用GPT的分析成果北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应微软Copilot Pro来了:个人用户也能在Word里用GPT-4,20美元/月Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局成果刊登Science,闫建斌与雷晓光团队共同解析紫杉醇生物合成关键酶,在烟草中实现紫杉醇前体生物合成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。