Redian新闻
>
开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

号称“史上最强的开源大语言模型”出现了。

它叫Falcon(猎鹰),参数400亿,在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA,以及MPT、Redpajama等现有所有开源模型

一举登顶HuggingFace OpenLLM全球榜单:

除了以上成绩,Falcon还可以只用到GPT-3 75%的训练预算,性能就显著超越GPT-3,且推理阶段的计算也只需GPT-3的1/5。


据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)

有意思的是,作为一个开源模型,TII在Falcon上推出了一个相当特别的授权许可证要求:

可以商业使用,但如果用它产生的收益超过了100万美元,就要被收取10%的授权费。

一时之间,争议满满。

史上最强开源LLM

据介绍,Falcon属于自回归解码器模型。

它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”,从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。

除了数据把关,作者还对Falcon的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。

据悉,Falcon一共耗费两个月,在AWS的384个GPU上训练而成。

最终,Falcon一共包含4个版本:

  • Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。

  • Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。

  • Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。

  • Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。

开源许可证引争议

Falcon作为开源模型,已公开源代码和模型权重,可供研究和商业使用

这对业界来说是一个好消息,毕竟像Meta的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉,该许可证部分基于Apache License 2.0协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

有不少网友认为,既然Falcon宣称开源,还要收费,就违背了Apache License Version 2.0的宗旨,不属于真正的开源。


并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

有网友已经跑到TII的官方账号下“讨要说法”:

你自己能解释一下这是如何符合“开源”的定义吗?

目前,官方并没有回复。

你认为这种做法究竟算不算开源呢?

参考链接:
[1]
https://falconllm.tii.ae/
[2]https://twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
彻底开源,免费商用,上海AI实验室把大模型门槛打下来击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜开源大模型到底开源什么?亚裔右转是自由派司法改革的错?外派故事25 --- KTV历险记教科书级数据is all you need:1.3B小模型逆袭大模型的秘密北交大开源交通大模型TransGPT·致远,可免费商用百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元《心中最美的歌》&《山水相恋》更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻想ruá!这几只“小猫”,怎么“虎里虎气”的~高达3.6万亿token!PaLM 2训练数据翻5倍,全新Bard对比ChatGPT有8个优势经常权变第三届 冇(Mǎo)国际青年影像周 开始征片啦!旷视恢复IPO注册程序;清华ChatGLM2-6B模型免费商用;传马斯克的xAI估值200亿美元丨AIGC大事日报2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging FaceAI赛道陷入内卷,开源大模型纷纷商用免费更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了教科书级数据is All you Need: 1.3B小模型逆袭大模型的秘密最强“GPT-4平替”开源!Meta推出免费商用的Llama 2,联手微软掀全球AI狂欢Meta发布免费商用大模型 / 微信团队取消秋招/ iPhone 16 Pro Max拍照性能或大幅提升华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」Meta开源大模型:支持4000+语言识别,1100+种语音文本转换回国之旅,想尝尝油渣炖豆腐国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE【公告】ChatGLM2-6B,免费商用Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。