Redian新闻
>
重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

Meta“羊驼”(LLaMA)的开源可商用复现品OpenLLaMA发布重大更新:

1T token上训练出来的130亿参数版本现已正式上线。

至此,这一训练量和原版羊驼已完全一致。

与此同时,之前发布的70亿以及30亿参数版本也完成了1T token的训练,并发布PyTorch和JAX权重。

可谓“一家人整整齐齐”。

性能测试显示,OpenLLaMA在多项任务中的表现都与原始LLaMA相当,并且不乏超越的情况。

一个彻底开源且供商用的LLaMA竞品家族就此诞生了。

目前,OpenLLaMA在GitHub上的标星数已近5k。

重训“羊驼”,最香替代品全面开放商用

OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目(Xinyang Geng拥有同等贡献,也是该校博士生)

它在Together公司发布的RedPajama数据集上训练,该数据集其实也是LLaMA训练集的复制品,一共包含1.2T token。

除了数据集不太一样之外,OpenLLaMA使用了与原始LLaMA完全相同的预处理步骤和训练超参数,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是“重训”了一把。

今年5月,该团队率先发布了70亿参数版本,不过当时训练token还是3000亿。

按照计划,如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。

据介绍,130亿版本是与Stability AI合作训练的,后者主要提供计算资源(当初Stable Diffusion也是这么与Stability AI合作)

和另外两个版本一样,OpenLLaMA-13B也以两种格式发布权重:

一是用于Hugging Face transformer的PyTorch格式。

使用该格式时需要注意先避免使用Hugging Face快速分词器(tokenizer),因为它的自动转换功能有时会给出不正确的tokenization。

所以可以先直接使用LlamaTokenizer class来实现,或者用AutoTokenizer class,将use_fast赋为False。

二是用于EasyLM框架的EasyLM格式。

在此请注意,与原始LLaMA不同,该OpenLLaMA的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA的这俩信息。

接下来,在训练量已达成一致的情况下,看OpenLLaMA各规模模型的性能表现如何。

在这里,作者使用EleutherAI发布的自回归语言模型few-shot评估框架(lm-evaluation-harness)对两只“羊驼”进行评估,以及还加入了“第三者”:

EleutherAI在Pile数据集上训练的60亿参数模型GPT-J,它的训练token数是5000亿。

需要注意的是,可能是因为不同的评估协议,作者跑出来的LLaMA结果与原始LLaMA略有不同。

以下是结果:

红色小方框为OpenLLaMA超过或者与原LLaMA表现一样的情况。

在红框之外,两者的差距也不大。

从平均表现来看,OpenLLaMA-7B和LLaMA-7B得分都是0.55,OpenLLaMA-13B和LLaMA-13B也都一样,为0.57,主打一个势均力敌

与此同时,只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。

Meta也要发可商用大模型了

特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上,曾多次表达一个意思:

LLaMA-65b就是目前最好的开源基础模型,可惜没能商用。

现在,650亿的商用平替羊驼虽然还没出现,130亿和70亿是已经妥妥安排好了。

不过,也有一则好消息。

就在几天前,据The Information爆料,Meta AI正计划发布一个新的LLM,并且免费供大家商用

有观点指出,在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下,Meta这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于OpenLLaMA的所有相关链接:
https://github.com/openlm-research/open_llama
https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括:
https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT商汤杨帆:大模型并非单纯暴力美学,背后是大量软件工程系统问题 | 中国AIGC产业峰会我的私隐真的不想你偷窥---哪种社交App安全?移民生活(四)谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉用语言建模世界:UC伯克利多模态世界模型利用语言预测未来UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5趋势观察|年轻人不愿做「环保韭菜」,品牌地球日创意还有招吗?Meta:一个「搅浑」大模型市场的选手GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞身中7枪,加大伯克利博士生墨西哥身亡UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光独特的车库风景UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一他发明苹果电脑,冒充美国国务卿,出演生活大爆炸…昨天,72岁的他二度受邀在UC伯克利发表毕业演讲!(附视频&演讲稿)我的私隐真的不想你偷窥---哪种社交App安全?彻底开源,免费商用,上海AI实验室把大模型门槛打下来《灯火阑珊》&合唱《雪白和玫瑰红》训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式GPT-4里套娃LLaMA 2!OpenAI创始成员周末爆改「羊驼宝宝」,GitHub一日千星两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增大模型进入「落地战」,腾讯云下手「行业」大模型GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告博士生申请 | 清华NLP实验室孙茂松教授招聘大模型方向博士、博士后、科研助理人人玩转Llama 2!Meta正式官宣免费用,微调羊驼指南大全集听伯克利博士给你讲解Llama 2的技术细节大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%最新QS世界大学排名公布,UC伯克利跻身TOP 10Meta推出Llama 2 免费开放商业和研究机构使用伯克利博士生去这里做研究 中7枪惨死 美国发旅行警告只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。