Redian新闻
>
可商用多语言聊天LLM开源,性能直逼GPT-4

可商用多语言聊天LLM开源,性能直逼GPT-4

公众号新闻

出品 | OSC开源社区(ID:oschina2013)

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat,一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM (176B) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。

根据介绍,BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。目前,BLOOM 已经是最大的多语言开放模型,在 46 种语言上进行了训练。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,GPT-4 的胜率为 54.75%,BLOOMChat 的胜率为 45.25%,稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比,BLOOMChat 在 65.92% 的时间内表现更优。且在使用 BLOOMChat 进行跨语言 NLP 任务的初步研究中,BLOOMChat 在 WMT 翻译基准中的表现要优于其他 BLOOM 变体和主流开源聊天模型。

“我们确实想指出,与我们比较的这些模型中,有些并不适合多语言环境。但由于开源社区中没有替代品,所以才有了现在的比较。我们的研究结果表明,使用正确的技术,可以在开源 LLM 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 BLOOMChat checkpoint 的发布能够为开源社区的持续讨论做出贡献,并激发 LLM 领域的进一步发展。”

项目团队使用定性和定量措施来评估了 BLOOMChat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一:人类偏好排序

旨在将 BLOOMChat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “OpenAssistant Conversations” 附录 E 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。

将 BLOOMChat 与 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三种开源模型进行了比较:

51 名志愿者在所有模型和 6 种语言中共提交了 1158 次比较。如上图所示,BLOOMChat (65.92%) 明显优于其它几个开源模型。

与 GPT-4 相比:

实验二:模型质量评估

此实验旨在验证 BLOOMChat 生成的多种语言文本的质量。

81.8% 的回答被归类为 “正确” 或 “可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但 BLOOMChat 在每种语言中都获得了超过 70% 的 “正确” 或 “可接受” 评级。

实验三:WMT 翻译任务

为了初步了解模型解决跨语言 NLP 任务的能力,评估了模型在 WMT 翻译任务上的翻译能力。

总体而言,BLOOMChat 在翻译任务中的表现明显优于其他 BLOOM 变体和开源聊天模型,但和 GPT-4 还有一定差距。

此外,BLOOMChat 团队也坦承了一些该模型的局限性:

  • BLOOMChat 有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。

  • BLOOMChat 可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。

  • BLOOMChat 可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息。

  • BLOOMChat 在生成代码或解决复杂数学问题方面的性能可能会受到限制。

  • BLOOMChat 可能无意中生成含有不适当或有害内容的回复。

更多信息可查看完整公告:https://sambanova.ai/blog/introducing-bloomchat-176b-the-multilingual-chat-based-llm/


往期推荐


GAN“泰裤辣”,DragGAN点点鼠标就能让狮子开口,未开源已破8k star
国产中文大语言模型 “天河天元” 发布,涉及各种小说、古文、百科、新闻、中医、法律等!
10余款开源静态站点生成器,构建属于自己的网站从未如此轻松!



🌟 活动推荐
2023 年 5 月 27-28 日,GOTC 2023 全球开源技术峰会将在上海张江科学会堂隆重举行。
为期 2 天的开源行业盛会,将以行业展览、主题发言、特别论坛、分论坛、快闪演讲的形式来诠释此次大会主题 ——“Open Source, Into the Future”。与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及 OSPO、汽车软件、AIGC、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
长按识别下方二维码立即查看 GOTC 2023 详情/报名。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
七律 春雨樱花高尔夫两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半Meta推出Llama 2,不只免费还可商用!其实有人欢喜有人愁……用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二往事并不如烟往事并不如烟增强版开源Llama2 终可商用;5G消息真的要来了,工信部最新通知;微软英伟达市值一夜飙升1750亿美元 | AIoT情报清华唐杰新作WebGLM:参数100亿、主打联网搜索,性能超OpenAI WebGPT王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头Meta推出Llama2,免费可商用!更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】最强大脑:人脑是否也有量子计算?叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻Stability AI火速发布Llama 2微调模型FreeWilly,性能媲美ChatGPT!网友惊呼游戏规则已改变LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比Dolly 2.0发布,首个真正开放、可商用的指令调优LLM11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023Meta“搞大事”了:发布GPT“平替”Llama 2,开源、免费、还可商用!更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了比JDK最高快170倍,蚂蚁集团开源高性能多语言序列化框架Fury代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT质疑习总携普大帝共创“百年大变局”:海外华人看中国走向大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools开源版ChatGPT,30分钟训完,性能堪比GPT3.5!650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。