Redian新闻
>
国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用

国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

首个中英双语的语音对话开源大模型来了!

这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。

这篇论文提出了一个中英双语可商用对话模型LLaSM,同时支持录音和文本输入,“混合双打”也没有问题:

论文认为,“语音聊天”才是AI与人之间更方便自然的交互方式,而不仅仅是通过文本输入。

用上大模型,有网友已经在想象“躺着说话就能写代码”的场景了。

这项研究来自LinkSoul.AI、北大和零一万物,目前已经开源,也可以在抱抱脸中直接试玩。

一起来看看它的效果如何。

支持文本语音输入,手机也可玩

据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。

那么,就来看看它的语音文本输入中英双语能力如何。

首先来个中英文化碰撞,让它用英文评价一下李白:

还可以,正确地说出了李白的朝代。如果看不懂英文,让它直接翻译成中文也没问题:

接下来再试试中英混合提问,在中文里面掺杂一个“fried food”,模型输出也不错:

再试探一下模型,让它进行一些评价,看看李白和杜甫哪个更厉害。

可以看出,模型思考一会后给出了非常中立的评价,也具备大模型的基本“端水常识”(手动狗头)

当然,不止是电脑,手机也能玩。

我们试着用语音输入“给我推荐一个菜谱吧”:

可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。

不过,我们在尝试的时候也发现,这个模型有时候会出bug。

例如有时候它并不能很好地“听懂人话”。

要求输出中英混合的内容,它会假装看不懂并输出英文:

而当中英混合询问想听“Taylor Swift的Red”时,模型更是直接出大bug,反反复复输出一句话,甚至停不下来……

总体来看,当遇到中英混合的提问或要求时,模型输出能力还是不太行。

不过分开的话,它的中英文表述能力还是不错的。

那么,这样的模型究竟是怎么实现的呢?

做了个什么新模型?

从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入

要做到这两点,分别需要在架构和训练数据上做一些调整。

架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。

LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。

其中,Whisper负责接收原始语音输入,并输出语音特征的向量表示;模态适配器负责对齐语音和文本嵌入;LLaMA则负责理解语音和文本输入的指令,并生成回复。

模型的训练一共分为两个阶段,第一阶段训练模态适配器,冻结编码器和大模型,也就是让它来学习语音和文本对齐;第二阶段冻结编码器,训练模态适配器和大模型,来学习多模态对话能力。

训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。

而在50.8万个语音-文本样本中,有8万个中文语音样本,42.8万个英文语音样本。

研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。

这也是目前最大的中英文语音文本指令遵循数据集,不过目前还在整理中,据研究人员表示,整理完后会进行开源。

不过,论文暂时没有对比它和其他语音模型或文本模型的输出效果。

作者介绍

这篇论文来自LinkSoul.AI、北京大学和零一万物。

共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。

LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。

作为李开复旗下的大模型公司,零一万物也在这次研究中有所贡献。作者Wenhao Huang的Hugging Face主页显示,他毕业于复旦大学。

论文地址:
https://arxiv.org/abs/2308.15930

Demo地址:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

报名开启!9月6日

「具身智能前夜」仿生机器人沙龙
9月6日 14:30,量子位智库行业沙龙「具身智能前夜」将为你解读仿生机器人的崛起与挑战,邀请到来自云深处科技、帕西尼感知科技、大象机器人等企业代表,聊聊仿生机器人行业最新趋势~

后台回复「仿生机器人」,报名线下参与仿生机器人行业沙龙 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源历史小说《黄裳元吉》第一百零九章 无言智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手首个千亿医药对话大模型来了,要打破医药研发“三十定律”5106 血壮山河之武汉会战 浴血田家镇 14WS15是个里程碑事件孩子能看懂的莎士比亚16部经典,中英双语,不容错过!650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目美国中英双语教育下的孩子都需要学些什么?沉浸式体验中英双语教育....中文版开源Llama 2同时有了语言、多模态大模型,完全可商用美国费城独立日游行(2011),齐聚一堂Meta“搞大事”了:发布GPT“平替”Llama 2,开源、免费、还可商用!最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用刀郎《罗刹海市》英文版视频,中英双语歌词,英文版太好听了!UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源吴德耀与杜维明智源扔出大模型“全家桶”!推最强开源中英双语LLM,赶超Llama 2首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源免费、可商用,阿里云开源70亿参数通义千问大模型全球首个可商用生物医药大模型BioMedGPT-10B开源李开复的新AI公司登陆大模型战场,百亿级模型已内测|最前线阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。