Redian新闻
>
单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等

单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等

公众号新闻
Pine 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT的热度稍有平息,蛰伏已久的Meta就迅速放出“大招”:

一次性发布四种尺寸的大语言模型LLaMA:7B、13B、33B和65B,用小杯、中杯、大杯和超大杯来解释很形象了有木有(Doge)

还声称,效果好过GPT,偏向性更低,更重要的是所有尺寸均开源,甚至13B的LLaMA在单个GPU上就能运行。

消息一出,直接在网上掀起一阵热度,不到一天时间,相关推文的浏览量就已经快破百万。

同在Meta的LeCun当然也得为这次大模型的热度“添油加柴”,LLaMA直接给他写了段“AI”Rap:

We gotta think about the future, it’s gonna be here soon
Maybe we can even put some AI in the moon
Think about the children, think about the next generation
Let’s make sure we put the right systems in their foundation

(不得不说效果不错,还双押了,skr~)

不过话说回来,这次Meta的LLaMA模型到底如何?

一起来一探究竟。

数学编程写求职信统统都能拿下

Meta发布的LLaMA是通用大语言模型,原理就不多赘述,和以往的大语言模型一样:

将一系列单词作为输入,并预测下一个单词以递归生成文本。

这次,Meta之所以一次给出不同大小的LLaMA模型,论文中给出了这样的解释:

近来的研究表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由基于更多数据训练更小的模型实现的。

也就是说,较小的模型规模加上比较大的数据集,获得的性能可能会比更大规模模型的要好很多。

一方面,小规模模型需要的计算能力和资源相对来说都会少很多,另一方面,它还能基于更多数据集训练更多token,更容易针对特定的潜在产品用例进行重新训练和微调。

除了一把给出四种尺寸的LLaMA,Meta这次还直接开源了这个大语言模型。

更重要的是,Meta为了让自己的工作与开源兼容,使用的都是公开的数据。

而这把开源,也不只利好开发人员,同样也利好Meta。

LLaMA模型也有着其他大语言模型的通病:会产生偏见性、有毒或者虚假的内容。开源吸引来的更多的研究可以帮助解决这个问题。

不过讲了这么多,Meta的这个LLaMA模型到底能做啥?

扎克伯格直接在Facebook放出豪言,这是AI大语言模型里的新SOTA:

生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等它都能干。

论文的最后也给出了一些栗子

比如说,给出几个数字,它直接就能找出其中的规律并续写,还balabala解释了一大通。

ChatGPT之前擅长写的求职信LLaMA也能轻松拿下。

编程、写小说也是分分钟的事儿:


效果超越GPT-3

当然按照惯例,在最后LLaMA还是得和其他大模型做做比较(是骡子是马,咱得拉出来遛遛)

其中,大家比较熟悉的就是GPT-3,直接看看它们俩之间的效果比较:

相较于有1750亿参数的GPT-3,最多只有650亿参数LLaMA赢麻了:它在大多数基准上都要优于GPT-3。

比如说常识推理:

或者说一些基础问题的解决:

又比如说阅读理解:

甚至,研究人员还提供了一组评估模型偏见性和毒性的基准,得分越高,偏见就越大:

LLaMA以66.6分险胜,偏见性略低于GPT-3。

你对Meta这次的LLaMA怎么看呢?如果还想了解更多可以戳文末链接~

论文地址:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
参考链接:
[1] 
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[2] https://twitter.com/GuillaumeLample/status/1629151231800115202
[3] https://twitter.com/ylecun/status/1629243179068268548

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA火鸡汤面ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线Meta连夜加入AI大模型混战!用1/10参数量干过GPT-3,单个GPU就能跑GPT-4发布后,其他大模型怎么办?Yann LeCun:增强语言模型或许是条路杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023从语言模型到ChatGPT,大模型调教全攻略让ChatGPT长“手”!Meta爆火新论文,让语言模型学会自主使用工具元语AI(ChatYuan): ChatGPT中文版尝试?功能型对话大语言模型.beta版为什么现在的大语言模型(LLM)都是Decoder-only的架构?从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源我的“海外”文章在哪里???这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3炒股破产,却在其他方面取得巨大成就的人7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?Meta发布全新大型语言模型LLaMA人工智能大PK!Meta挑战ChatGPT,推出语音模型LLaMA...ICLR 2023 | 用大语言模型GPT-3直接替代传统搜索引擎Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记由ChatGPT反思大语言模型(LLM)的技术精要硬核观察 #934 Meta 的大语言模型 LLaMA 被泄露lāo dao?láo dao!大型语言模型也能跑在浏览器上了!又一ChatGPT平替诞生,训练成本8.5万美元国产类ChatGPT密集开测,单卡能跑大模型,生成式AI热潮爆发NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录比 ChatGPT 更早发布的微信大语言模型,现在什么水平?爱美丽锻炼我跑步AI大战升级!Meta推出先进大型语言模型,下一个ChatGPT不远了?Meta版ChatGPT惨遭“开源”?最新大模型LLaMA被泄露,已在GitHub收获7k+星被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力华大妈挖坑, 赵偷乐悲嚎, 汪健忘打脸
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。