Redian新闻
>
开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

号称“史上最强的开源大语言模型”出现了。

它叫Falcon(猎鹰),参数400亿,在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA,以及MPT、Redpajama等现有所有开源模型

一举登顶HuggingFace OpenLLM全球榜单:

除了以上成绩,Falcon还可以只用到GPT-3 75%的训练预算,性能就显著超越GPT-3,且推理阶段的计算也只需GPT-3的1/5。


据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)

有意思的是,作为一个开源模型,TII在Falcon上推出了一个相当特别的授权许可证要求:

可以商业使用,但如果用它产生的收益超过了100万美元,就要被收取10%的授权费。

一时之间,争议满满。

史上最强开源LLM

据介绍,Falcon属于自回归解码器模型。

它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”,从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。

除了数据把关,作者还对Falcon的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。

据悉,Falcon一共耗费两个月,在AWS的384个GPU上训练而成。

最终,Falcon一共包含4个版本:

  • Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。

  • Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。

  • Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。

  • Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。

开源许可证引争议

Falcon作为开源模型,已公开源代码和模型权重,可供研究和商业使用

这对业界来说是一个好消息,毕竟像Meta的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉,该许可证部分基于Apache License 2.0协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

有不少网友认为,既然Falcon宣称开源,还要收费,就违背了Apache License Version 2.0的宗旨,不属于真正的开源。


并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

有网友已经跑到TII的官方账号下“讨要说法”:

你自己能解释一下这是如何符合“开源”的定义吗?

目前,官方并没有回复。

你认为这种做法究竟算不算开源呢?

参考链接:
[1]
https://falconllm.tii.ae/
[2]https://twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署彻底开源,免费商用,上海AI实验室把大模型门槛打下来回国之旅,想尝尝油渣炖豆腐Meta开源大模型:支持4000+语言识别,1100+种语音文本转换外派故事25 --- KTV历险记碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face旷视恢复IPO注册程序;清华ChatGLM2-6B模型免费商用;传马斯克的xAI估值200亿美元丨AIGC大事日报两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集最强“GPT-4平替”开源!Meta推出免费商用的Llama 2,联手微软掀全球AI狂欢开源大模型重击OpenAI!小扎放出LLaMA2炸裂科技圈,联手微软高通冲击市场格局改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻第三届 冇(Mǎo)国际青年影像周 开始征片啦!北交大开源交通大模型TransGPT·致远,可免费商用【公告】ChatGLM2-6B,免费商用Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5开源大模型到底开源什么?击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】《心中最美的歌》&《山水相恋》经常权变AI赛道陷入内卷,开源大模型纷纷商用免费650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目亚裔右转是自由派司法改革的错?更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了教科书级数据is All you Need: 1.3B小模型逆袭大模型的秘密想ruá!这几只“小猫”,怎么“虎里虎气”的~Meta发布免费商用大模型 / 微信团队取消秋招/ iPhone 16 Pro Max拍照性能或大幅提升高达3.6万亿token!PaLM 2训练数据翻5倍,全新Bard对比ChatGPT有8个优势
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。