Redian新闻
>
猎户星空推出微调大模型,多项测评霸榜,开源免费!

猎户星空推出微调大模型,多项测评霸榜,开源免费!

公众号新闻

11 月 20 日,猎户星空推出了一款基于零一万物开源的Yi-34B模型微调后的chat模型——OrionStar-Yi-34B-Chat。

为了验证模型的各项能力,OrionStar-Yi-34B-Chat一经推出,在C-Eval和C-MMLU两个最具影响力的中文指标评估中,就以显著优势领先于Qwen-14B-Chat、Baichuan2-13B-Chat等国产大模型,在OpenCompass权威大模型测评榜单上,中文数据集的综合能力更是位居全球首位。

目前 OrionStar-Yi-34B-Chat大模型已在 Hugging Face、Github 以及 Model Scope 平台发布。


01

OrionStar-Yi-34B-Chat

多个评估基准表现最佳

作为国产优质大模型,OrionStar-Yi-34B-Chat更懂中文。为了验证模型的各项能力,我们在C-Eval(val)、MMLU 、CMMLU评测集上做了测试,超过了同为国产大模型的 Qwen-14B-Chat、Baichuan2-13B-Chat,效果显著。


同时,OrionStar-Yi-34B-Chat 在最具影响力的中文评估基准 C-Eval上,综合评分位居第二。

榜单链接:https://cevalbenchmark.com/static/leaderboard.html

C-Eval 评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了 52 个来自不同行业领域的学科。


在权威大模型测评榜单OpenCompass上,OrionStar-Yi-34B-Chat 在中文数据集的综合能力方面位居全球第一。

榜单链接:https://opencompass.org.cn/leaderboard-llm

OpenCompass是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过50个评测数据集和30万道评测题目,支持零样本、小样本及思维链评测,是目前最全面的开源评测平台。


综合来讲,凸显中文的优异能力,可以更好的满足国内市场的需求。


从更为全面的评估来看,OrionStar-Yi-34B-Chat不仅在中文方面表现优异,在英文上表现同样亮眼。在全球大模型各项评测中最关键的 MMLU 英文权威评测榜单上,OrionStar-Yi-34B-Chat综合评分高达78.3,仅略逊色于 ChatGPT4 ,而比LLaMA-2-70B-Chat等某些参数规模更大的模型还要出色。


02

OrionStar-Yi-34B-Chat

是如何打造的?

此前,董事长傅盛曾公开表达过,以AI机器人业务为基本盘,聚焦大模型应用开发,凭借七年AI研发经验的积累,推出猎户星空自研AI原生应用“聚言”并作为公司创新增长引擎。基于对大模型应用的效果负责,猎户星空一直对市面上广泛的开源模型做测评,近期,发现零一万物开源的Yi-34B模型表现优异,并在大模型应用“聚言”上进行实际的效果验证,Yi-34B模型在基于文本的理解能力、交互准确率及逻辑推理能力的效果最强。


那么,猎户星空在大模型领域具备什么独有核心能力呢?


首先,在微调数据上,众所周知,高质量、多样性的微调数据是大模型训练的重要“燃料”,对大语言模型的对齐效果至关重要,猎户星空在微调数据上花了大量时间和精力,使用了多种构建方案和人工精标及筛选。第一,我们基于数万条种子数据参考SELF-INSTRUCT、WizardLM、Orca、Backtranslation等基于大模型的方案去自动化构建一批初始数据,这些数据经过一个专门的数据质量模型进行评分和筛选,最终仅保留高质量数据,第二,参考 Platypus论文上方法做了数据去重、去污,保证数据严谨、有效。最后经过严格的人工精标,将这些数据被进一步精炼,确保其无害性、真实性和实用性,最终形成了15W+高质量的微调语料。这些数据质量高、通用性强、覆盖面广、具备真实交互语料基础,对大型语言模型整个生命周期都有重要的影响,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。

另外,在数据筛选过程中,我们特别强调数据的安全性,加入了大量与安全相关的数据,以保证模型与人类价值观的一致性。

备注:关于数据的详细构建过程在猎户星空即将发布的自研大模型的技术报告里会详细说明,可以持续关注!


其次,在微调方法上,LORA和全参数量更新的微调,实际效果上基本也是全参数微调效果好于LORA。我们用DeepSpeed框架在4卡80G A100上使用ZERO3+Offload 策略,对这15W+数据进行了3个epoch的训练,分别在主观和客观测试集以及我们聚言业务的测试集上进行评测,给出了OrionStar-Yi-34B-Chat模型。这一过程不仅展示了猎户星空在大模型技术上的创新和专业性,也体现了我们对质量和安全的不懈追求。


03

OrionStar-Yi-34B-Chat

示例案例效果展示

OrionStar-Yi-34B-Chat在对话交互、知识问答、语义理解、摘要生成和信息提取等多个方面都展现出卓越的性能。OrionStar-Yi-34B-Chat在语义理解任务中表现出色,能够准确把握文本的核心含义,为后续处理提供了可靠的基础,在交互中保障了流畅而自然的对话体验。

在线体验地址:https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary

对话交互

知识问答

语义理解


“猎户星空发布OrionStar-Yi-34B-Chat模型,这代表了公司在大模型领域的首次重要突破,展现了我们在人工智能前沿技术的深度参与和创新能力。除了本次发布的微调模型之外,猎户星空还在积极筹备开源我们全链条自研的预训练大模型,预计在下个月发布,敬请关注。”猎户星空董事长傅盛表示。


日前,猎户星空已推出了大模型深度应用“聚言”,并陆续面向行业客户提供了定制化AI大模型咨询与服务解决方案。凭借猎户星空全链条大模型应用能力的核心优势,具备包括从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地,真正帮助客户实现企业经营效率领先同行目标

了解更多“聚言”,欢迎扫一扫下方二维码。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
冰岛阿库雷里(Akureyri),那片阳光人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源李开复官宣「全球最强」开源大模型:一次处理40万汉字、中英均霸榜Spirit航空推出20美元黑五特价机票NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用重磅预告|1月21日14:00猎户星空大模型发布AI早知道|抖音即创平台上线;零一万物发布并开源Yi微调模型;亚马逊宣布推出全新一代语音基础模型驱动的ASR系统UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024玻璃缸里的孙凤 (32)回乡小记(七)下馆子机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能郁金香,博爱无限AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此直播预告 | 清华大学深研院马仕镕:电商领域指令微调大模型用跑1个LoRA微调大语言模型的延迟跑10个!最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费劳柯| 我的一天(09/23/23,星期六)中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型特惠!维珍航空推出今年首次特价促销活动!50万张机票价格低至$49AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布Spirit航空推出20_美_元黑五特价机票免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!测评了8个国产AI大模型,差点崩溃……明天见 | 猎户星空企业应用大模型发布会幻方量化开源国内首个MoE大模型,全新架构、免费商用华为提出QA-LoRA:让微调大型语言模型‘轻装上阵’新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。