Redian新闻
>
全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三

全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三

科技
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

试问百模大战的当下,谁家大模型的透明度最高?

(例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。)

现在,这个问题终于有解了。

因为斯坦福大学HAI等研究机构最新共同发布了一项研究——

专门设计了一个名为基础模型透明度指标(The Foundation Model Transparency Index)的评分系统。

它从100个维度对国外10家主流的大模型做了排名,并在透明度这一层面上做了全面的评估。

结果可谓是大跌眼镜!

若是以60分作为及格线,那么“参赛”的大模型们可以说是全军覆没,没有一个及格的……

来感受下这个feel:

排名第一的Llama 2,分数仅为54;紧随其后的便是BLOOMZ,得分53。

而GPT-4分数仅仅为48,排名第三;来自亚马逊的Titan Text成绩垫底,仅取得12分

不仅如此,在斯坦福HAI官方的博客中,负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说到:

基础模型领域的公司变得越来越不透明

例如名字带“open”的OpenAI曾明确表示,与GPT-4相关的大多数信息将不会公开。

总而言之,团队认为大模型发展到现阶段,它们的透明度是一个非常重要的关键点,直接与是否可信挂钩。

而且更深层次的,他们认为这也从侧面反映了人工智能行业从根本上缺乏透明度。

100多页论文研究模型透明度

那么这个排名到底是怎么来的?

在成绩公布的同时,团队也把一篇厚达100多页的论文晒了出来。

正如我们刚才提到的,这次排名一共涉及到了100个指标维度。

若是“归拢归拢”着来看,可以将这些指标大致分为三大类,分别是:

  • 上游(Upstream):指构建基础模型所涉及的成分和过程,例如计算资源、数据等;

  • 模型(Model):指基础模型的属性和功能,例如体系结构、能力和风险等;

  • 下游(Downstream):基础模型是如何分布和使用的,例如对用户的影响、更新内容、控制策略等。

将10大模型此次的成绩,按照上面的三大维度来看,得分细节如下:

从结果上来看,“上游”类指标的得分差异较为明显;例如BLOOMZ的“上游”类指标在整体得分中的占比较高。

而像Jurassic-2、Inflection-1和Titan Text,这三个模型的“上游”类指标得分直接为0。

如果将“上游”、“模型”和“下游”视为三个“顶级域”,那么团队在它们基础之上,还分了更精细、更深入的13个“子域”

  • 数据(Data)、劳动力(Labor)、计算(Compute)

  • 方法(Methods)、模型基础(Model Basicis)、模型访问(Model Access)、功能(Capabilities)

  • 风险(Risks)、缓解措施(Mitigations)、分布(Distributions)、使用策略(Usage Policy)、反馈(Feedback)、影响(Impact)

13个“子域”划分下的细节得分情况如下:

至于完整的100个指标维度,可以参考下面这张图表:

当然,对于大模型领域最具热度话题之一的“开源闭源之争”,也在此次的研究中有所涉足。

团队将广泛可下载的模型标记为开源模型,“参赛选手”中有三位属于此列,分别是Llama 2、BLOOMZ和Stable Diffusion 2。

从排名结果中显而易见地可以看出,开源模型的得分普遍遥遥领先,唯有GPT-4的得分比Stable Diffusion 2高出了1分。

对此,研究人员也做出了解释:

这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的,比如用于构建模型的数据、劳动力和计算。

此次模型透明度排名的更多细节内容,可参考文末的论文。

透明度为什么重要?

针对这个问题,斯坦福HAI在官方博客中也做出了相应说明。

例如在负责人Rishi Bommasani看来:

缺乏透明度,长期以来一直是数字技术消费者面临的一个问题。

在当下的互联网中充斥着诸多这样的问题,例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。

MIT博士Shayne Longpre认为,随着大模型越发的火热并且在各行各业中迅速落地,科学家们有必要了解它们是如何设计的,尤其是“上游”的那些指标。

对于产业界来说,亦是如此,决策者们在面对“用哪个大模型、怎么用”等问题时,都需要建立在模型透明度的基础之上。

那么你对于这次大模型的透明度排名有怎样的看法呢?欢迎在评论区留言交流~

论文地址:
https://crfm.stanford.edu/fmti/fmti.pdf

参考链接:
[1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
[2]https://github.com/stanford-crfm/fmti
[3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4没有意识!但图灵奖得主Bengio等88页论文暗示「天网」迟早降临ICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名相聚多伦多(十三)无可奈何花落去2024泰晤士世界大学学科排名出炉!斯坦福、哈佛赢麻.....GPT turbo 看了没?!这真是大批失业人员在路上。为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了1/3都不及格!刚刚!澳洲学生统考又考砸了,然而,华人普娃偏不信邪!笑谈邂逅(35)顶撞书记被免职太疯狂,GPTs上线:奥特曼表演手搓马斯克大模型,还有人已搞出第三方市场(附教程)爆冷!泰晤士高等教育排名发布!斯坦福重回全美第一,“最惨”藤校竟跌出前100?!2024泰晤士世界大学学科排名出炉!斯坦福、哈佛实力碾压.....矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见chat gpt 怎么上不去了? 彻底罢工了论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别GPT-4没有意识!但图灵奖得主Bengio等88页论文暗示“天网”迟早降临泰晤士高等教育世界大学排名发布!斯坦福重回全美第一!文学城我喜欢的有才德的妇人托福100是及格分?怎样才能达到每科25分?GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解全球30所顶尖商学院新版Casebook发布!斯坦福只能排第二重磅!2024QS全球MBA & 商科硕士排名发布!斯坦福商学院登顶!36岁生物学家回头看,小学成绩单都是不及格!2024年泰晤士世界大学排名正式发布!斯坦福全美第一最新!2024泰晤士世界大学排名!斯坦福力压哈佛,清北冲进前15!咀外文嚼汉字(272)宰鸡烹羊刀狼外网爆火!斯坦福内部Essay课流出,留学生:论文只得Pass原因找到了首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT投论文先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别!英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报刷屏!斯坦福内部Essay课流出,留学生:论文得Pass原因找到了…红色日记 5.21-31时间的湾 1大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免;长期炎症值得警惕!可能是癌症的得力助手|本周论文推荐美国各州房价最贵的地区一览,比佛利山庄仅排第三人类考92分的题,GPT-4只能考15分:测试一升级,大模型全都现原形了Llama 2第一、GPT-4第三!斯坦福大模型最新测评出炉2024年泰晤士世界大学排名发布!斯坦福力压哈佛,清北冲进前15!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。