碾压LLaMA的最强开源大模型居然来自阿联酋，OpenAI和HuggingFace 为它吵了起来

2023-06-02 02:06

这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型，突然成为了hugging face“开源”大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下，包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中，LLaMA的模型规模甚至更大，达到了65B——比Falcon-40B大出了50%。

按照国际通用惯例，网友们少不了又要拉踩一把扎克伯格。

Hugging Face过去一直被认为是大模型领域GitHub，在人类大模型的开源事业的道路上不遗余力，被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单，被从业者给予了很高的参考价值。

按照Hugging Face方面表示，其整个榜单使用Eleuther AI Harness的评估框架，被分成四个标准：

25个小样本的推理逻辑测试（ARC：AI2 Reasoning Challenge）、10个样本的尝试推理测试（HellaSwag）、5个样本的多任务准确性测试（MMLU）以及诚实测试（TruthfulQA）

而在全部四项打分中，如图一所示，除了诚实测试表现相对一般外，其他三项都大幅领先对手。而在新推出的instruct版本中，诚实性能力也跟上来了。

Falcon备受外界关注，原因主要有几点。

一方面，如果仅以这个榜单数据来看，Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内，但Falcon-instruct直接提升了3.4分。

另一方面，Falcon与马斯克的火箭重名，但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所（TII），这也是中东首个世界顶级的大模型产品。

TII的背后则是阿布扎比先进技术研究委员会(ATRC)，因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道，Falcon-45B使用了1万亿个token进行训练，可以用更少的训练计算能力实现更优的效果，其仅相当于OpenAI GPT-3训练计算的75%，DeepMind Chinchilla人工智能的40%，谷歌PaLM-62B训练计算的80%。

阿联酋通讯社进一步表示，作为开源的大模型工具，Falcon-45B的出现：

“强化了阿联酋作为全球AI领导者的角色”。

目前来说，Falcon-40B虽然是开源大模型的第一名，但是和“不Open”的OpenAI相比，还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下，Falcon获得“开源大模型第一”其实也算是“捡了个漏”。

不过很快有从业者发推特质疑Hugging Face的评价体系。

有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面，前特斯拉AI负责人、OpenAI元老级人物（founding member）Andrej Karpathy跟进评论：

“这就是我目前避免评论falcon的原因”。

Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家，对OpenAI的发展起到了很大的作用，也一手推动了特斯拉自动驾驶项目的发展，可以说是特斯拉autopilot之父。

当他对hugging face的标准提出质疑时，这并不能被认为是一个轻飘飘的指控。

果然hugging face联合创始人Thomas Wolf闻风而至，对同行进行了友善的科普，表示他们的使用的评价工具的准确性是可靠的。

这其中诡异的点在于，hugging face的榜单不是一天发出的，Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后，却出现了两位对评价体系“不理解”、“不确定”的“外宾”。

看来硅谷还不是很适应来自中东的神秘科技力量，对这种“新鲜事物”条件反射地用审视的眼光去打量。

不过，Falcon-40B最大的争议或许不是来自于能力，而是来自于其对“开源”事业的“诚心”。

因为Falcon对商业化开源留了一个“后手”，虽然使用者原则上免费，但如果收入超过100万美金，依然需要缴纳10%的授权费用。

但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会，对商业开源是友好的。那如果falcon拿着免费开源的许可协议，未来依然会收取一定的商业化费用，这似乎依然算不上真的“开源”。

大模型确实很烧钱，即便贵如中东土豪，也不希望彻底的开源。

而根据TII方面的消息，阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本，届时围绕大模型的科技竞争可能会变得更有意思。

图片来源：网络

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq