Redian新闻
>
碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

科技
这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型,突然成为了hugging face“开源”大模型排行榜的第一名。
这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中,LLaMA的模型规模甚至更大,达到了65B——比Falcon-40B大出了50%。
按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。
Hugging Face过去一直被认为是大模型领域GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单,被从业者给予了很高的参考价值。
按照Hugging Face方面表示,其整个榜单使用Eleuther AI Harness的评估框架,被分成四个标准:
25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的instruct版本中,诚实性能力也跟上来了。
Falcon备受外界关注,原因主要有几点。
一方面,如果仅以这个榜单数据来看,Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内,但Falcon-instruct直接提升了3.4分。
另一方面,Falcon与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。
TII的背后则是阿布扎比先进技术研究委员会(ATRC),因此是阿联酋政府官方扶持技术创新项目。
而根据阿联酋通讯社的报道,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于OpenAI GPT-3训练计算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B训练计算的80%。
阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B的出现:
“强化了阿联酋作为全球AI领导者的角色”。
目前来说,Falcon-40B虽然是开源大模型的第一名,但是和“不Open”的OpenAI相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon获得“开源大模型第一”其实也算是“捡了个漏”。
不过很快有从业者发推特质疑Hugging Face的评价体系。
有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉AI负责人、OpenAI元老级人物(founding member)Andrej Karpathy跟进评论:
“这就是我目前避免评论falcon的原因”。
Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家,对OpenAI的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉autopilot之父。
当他对hugging face的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。
果然hugging face联合创始人Thomas Wolf闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。
这其中诡异的点在于,hugging face的榜单不是一天发出的,Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后,却出现了两位对评价体系“不理解”、“不确定”的“外宾”。
看来硅谷还不是很适应来自中东的神秘科技力量,对这种“新鲜事物”条件反射地用审视的眼光去打量。
不过,Falcon-40B最大的争议或许不是来自于能力,而是来自于其对“开源”事业的“诚心”。
因为Falcon对商业化开源留了一个“后手”,虽然使用者原则上免费,但如果收入超过100万美金,依然需要缴纳10%的授权费用。
但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果falcon拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的“开源”。
大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。
而根据TII方面的消息,阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。
无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。

图片来源:网络





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章Agustín Hernández:中美洲建筑背景下的未来主义巨构“宝马MINI冰激凌”事件传到岛国!日本网友为此也吵了起来...微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人禁套套(TT,Tiktok)算个啥?被禁的APP大把在路上百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙修行从否定自己开始对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChat阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face炫到爆炸!HuggingGPT在线演示惊艳亮相,网友亲测图像生成绝了复旦MOSS大模型开源了!Github和Hugging Face同时上线Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱支持80+编程语言、集成VSCode,HuggingFace代码大模型来了东野圭吾争议之作,网友都为它吵翻了!钮祜禄·Meta:发布最强开源新模型Llama 2,拉拢微软做盟友|最前线彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”华航空姐因未说日语遭日本乘客辱骂,日网友为此吵了起来…漫游大华府(10)华盛顿故居华人的思维,某些科学家发明家的思维开源大模型重击OpenAI!小扎放出LLaMA2炸裂科技圈,联手微软高通冲击市场格局用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChatChatGPT自己会选模型了!浙大和微软提出:HuggingGPT比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题支持80+编程语言!集成VSCode,HuggingFace代码大模型来了《美的让人醉》&《我把吉祥送给你》国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUEHuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。