Redian新闻
>
首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT

首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】GPT-4在斯坦福AlpacaEval的榜首之位,居然被一匹黑马抢过来了。

第一个在AlpacaEval上超越GPT-4的模型,出现了!
今年6月,AlpacaEval榜单一公布,GPT-4就以绝对领先的优势夺得第一,胜率超过95%。
三个月后,一匹叫Xwin-LM的黑马,居然把稳居榜首的GPT-4从TOP 1拉下来了?

项目地址:https://tatsu-lab.github.io/alpaca_eval/

而且,Xwin-LM在同参数模型的对垒中,也毫无例外地拿下了三个第一:
Xwin-LM-70B-V0.1:在AlpacaEval基准测试中对Davinci-003的胜率达到95.57%,在AlpacaEval中排名第一。也是第一个在AlpacaEval上超越GPT-4的模型。此外,它对上GPT-4的胜率为60.61。
Xwin-LM-13B-V0.1:在AlpacaEval上取得了91.76%的胜率,在所有13B模型中排名第一。
Xwin-LM-7B-V0.1:在AlpacaEval上取得了87.82%的胜率,在所有7B机型中排名第一。

Xwin-LM:700亿参数打赢GPT-4


Xwin-LM是以Llama 2为基础进行微调的,该模型旨在开发和开源大语言模型的对齐技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样、人类反馈强化学习(RLHF)等。
1. 性能评估
研究人员评估了Xwin-LM在805个问题上与Text-Davinci-003 、ChatGPT和GPT-4的胜率。
可以看到,Xwin-LM的70B模型完全霸榜,成为AlpacaEval指标上的性能评估的第一,并首次打败了GPT-4,对GPT-4的胜率达到了60.61%。
Xwin-LM其他规模的模型,如Xwin-LM-13B-V0.1、Xwin-LM-7B-V0.1在性能上也远超相同规模的其他模型。
Xwin-LM-7B-V0.1甚至超过了比它规模更大的Llama 2-13B-Chat。
2. 案例比较
在第一个案例中,研究人员向GPT-4和Xwin-LM提问:
「我把一个盘子放在苹果上面,然后把盘子从厨房带到餐厅。苹果现在在哪里?」
GPT-4的回答是:
「苹果现在在餐厅,当你把盘子从厨房到端餐厅时,它就在盘子下面。」
在这里GPT-4给出了一个缺少常识的回复,现实生活中有重力,在盘子下方的苹果保持原来的状态,并不会和盘子一起到餐厅。
相比之下,Xwin-LM的回答就比较符合现实情况,并且还给出了把苹果带到厨房的方法:
「苹果还在厨房里,因为你只是移动了盘子。
苹果在盘子下面,所以如果你想把苹果带到餐厅,你应该直接移动苹果或把苹果放在盘子里,然后把盘子移到餐厅。」
在第二个案例中,研究人员向GPT-4和Xwin-LM提问:
「怎么法语说『晚上好』?」
GPT-4的回答是:
「在法语中,『晚上好』用『bonsoir』表达。」
而Xwin-LM的回答是:
「在法语中,『晚上好』被翻译为『bonsoir』。这种问候语在晚上和夜间使用,通常在下午 6 点之后。
它是『bon』(意思是好)和『soir』(意思是晚上)的组合。要发音,请说『bone-swahr』」。
虽然GPT-4的回答是正确的,但Xwin-LM不仅正确回答了问题,还解释了法语表达中「晚上好」的来源和发音,反馈给用户的信息更加丰富。
3. NLP任务
下表是Xwin-LM与其他LLM在NLP基础任务上的比较。
可以看到,Xwin-LM-70B-V0.1模型在所有任务中的性能都相对较高,在MMLU 5-shot和HellaSwag 10-shot任务中更是表现出色。
并且,从综合水平上来说,Xwin-LM-70B-V0.1是表现最好的。
4. 推理能力
研究人员提出,为了在使用Xwin-LM进行推理时获得所需的结果,需要严格遵守推理的对话模板。
Xwin-LM采用Vicuna建立的提示格式,并支持多回合对话。
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: Hi! ASSISTANT: Hello.</s>USER: Who are you? ASSISTANT: I am Xwin-LM.</s>......


HuggingFace示例
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( prompt := "A chat between a curious user and an artificial intelligence assistant. " "The assistant gives helpful, detailed, and polite answers to the user's questions. " "USER: Hello, can you help me? " "ASSISTANT:")inputs = tokenizer(prompt, return_tensors="pt")samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)output = tokenizer.decode(samples[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)print(output) # Of course! I'm here to help. Please feel free to ask your question or describe the issue you're having, and I'll do my best to assist you.
VLLM示例
因为Xwin-LM是基于Llama 2微调而来,它还支持使用VLLM进行快速推理。
from vllm import LLM, SamplingParams(    prompt := "A chat between a curious user and an artificial intelligence assistant. "            "The assistant gives helpful, detailed, and polite answers to the user's questions. "            "USER: Hello, can you help me? "            "ASSISTANT:")sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([prompt,], sampling_params)
for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(generated_text)

AlpacaEval:易使用、速度快、成本低、经过人类标注验证


作为一款LLM自动评估工具,AlpacaEval把AlpacaFarm和Aviary进行了结合。
一方面使用与AlpacaFarm相同的代码(缓存/随机排列/超参数),另一方面则使用类似于Aviary的排序提示。
与此同时,还对Aviary的提示进行了修改,从而减少对较长输出的偏见。
团队表示,AlpacaEval有着拔群的效果:
- 与人类多数票的一致性,高于单个人类标注者
- 胜率与人类标注高度相关(0.94)
- 胜率
模型的输出在每个指令上优于text-davinci-003(即参考文本)的比例。
具体而言,首先从AlpacaEval数据集中收集了期望模型在每个指令上的输出对,并将每个输出与相同指令下的参考模型(text-davinci-003)的输出进行配对。
随后,把这些输出同时喂给自动评测器,让它去判断哪一个更好(也就是评测器的偏好)。
最后,将数据集中所有指令的偏好进行平均,从而得到模型相对于text-davinci-003的胜率。如果两个模型打平,那么就算半个偏好。

论文地址:https://arxiv.org/pdf/2305.14387.pdf
- 局限性
虽然AlpacaEval为比较模型遵循指令的能力提供了一种有效的方法,但它并不是对模型能力进行全面评估的黄金标准。
正如AlpacaFarm论文中详述的那样,自动标注器的胜率与长度相关。虽然人类标注也会有这种偏差,但目前还不清楚更长的答案是否会增加下游任务的效用。
此外,AlpacaFarm的评估集虽然多种多样,但主要由简单的指令组成。
最后,AlpacaEval并不评估任何模型的安全性。
参考资料:
https://huggingface.co/Xwin-LM/Xwin-LM-70B-V0.1




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B小米AI大模型MiLM-6B:64亿参数,C-Eval总榜排名第10所有基准测试都优于Llama 2 13B,最好的7B模型来了,免费用GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT国产百亿大模型再增一员!400亿参数孟子GPT发布,各项任务平均提升10-15%近墨者不黑,谁能做到?现代文明和近代中国 (1-6 章,目录链接)1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性拿破仑的阳刚美和老佛爷的女人腿K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型《水韵江南》&《等待》性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作免费、可商用,阿里云开源70亿参数通义千问大模型汉莎航空三遇 之一 六国游变成七国游比GPT-4还强,20亿参数模型做算术题,准确率几乎100%苹果已研究生成式AI多年/阿里云开源通义千问70亿参数模型/新一代Switch最早本月宣布13B模型全方位碾压GPT-4?这背后有什么猫腻正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。