Redian新闻
>
斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解

斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解

公众号新闻



  新智元报道  

编辑:桃子 贝果
【新智元导读】十大主流大模型透明度一览。

GPT-4、Llama等基础模型(FM)相继诞生,已成为当前生成式AI的引擎。

尽管这些FM的社会影响力不断增大,但透明度反而下降。

GPT-4官宣后,OpenAI公布的技术报告中,并未提及关键信息。包括谷歌PaLM,以及其他闭源模型也是如此。

每个人心中不禁有许多疑问:

模型如何训练?如何部署?训练数据从哪来?

构建这些AI系统背后,数据标注反馈的人是谁?他们薪水是多少?

除了以上问题等等,其透明度无论是对公司,还是对社会,都十分重要。

这不,斯坦福、MIT、普林斯顿团队提出了一个「基础模型透明度指数」,并对当前十个主流模型的透明度进行了评级。

地址:https://crfm.stanford.edu/fmti/

结果显示,10个模型中最透明的是Llama 2,得分为54%。GPT-4、PaLM 2都排在后面。

研究者承认,透明度确实是一个宽泛的概念。

斯坦福对于模型评分基于100个指标,这些指标涉及模型是如何构建、如何工作以及人们如何使用它们等等。

没想到的是,这个评分系统却引众多研究者炮轰,HuggingFace的联合创始人、LeCun都在其列。

斯坦福AI模型的公开排名,可能与模型的能力相反。而要求私人公司公开商业机密的想法太幼稚。

HuggingFace联创表示,这并非曼哈顿计划,初创公司选择不公开是为了盈利,完全可以理解。

并且,只要它们不以虚假的「安全理由」推动监管,限制那些想要开源的公司就行。

具体看看,这份报告是如何对模型透明度进行评估的。

生成式AI模型,急需透明度!


现在,基础模型的社会影响不断上升,但透明度却在下降。

如果这种趋势持续下去,基础模型可能会变得像社交媒体平台和其他以前的技术一样不透明,从而重蹈他们的覆辙。

从具体角度来讲,生成式AI是一把双刃剑,其既可以提高生产力,也可以用来伤害他人,有些人通过创建未经同意的深度伪造图片和视频,用于私有目的。

开发商确实有禁止此类用途的政策。例如,OpenAI的政策禁止一长串用途,包括使用其模型为他人生成未经授权的法律、财务或医疗建议。

但这些政策如果执行不到位,就无法产生实际的影响,而且由于平台在执行方面缺乏透明度,我们不知道它们是否有效。

老练的坏人可能会使用开源工具生成伤害他人的内容,因此政策永远不可能是一个全面的解决方案。

基础模型透明度指数


「2023年基础模型的透明度指数」由斯坦福大学基础模型研究中心(CRFM)和以人为中心的人工智能研究所(HAI)、麻省理工学院媒体实验室、普林斯顿大学信息技术中心的8名人工智能研究人员创建。

论文地址:https://arxiv.org/pdf/2310.12941.pdf

该团队的共同目的是提高基础模型的透明度。

评估的指标除了技术方面(数据、计算和模型训练过程的详细信息)之外,还包括训练基础模型的社会方面(对劳动力、环境和实际使用的使用政策的影响)。

此外,还需要评估其他指标,例如,开发人员是否披露执行数据劳动的工人的工资、用于开发模型的计算资源以及他们如何执行其使用政策。

这些指标基于并综合了过去旨在提高人工智能系统透明度的干预措施,例如模型卡、数据表、评估实践以及基础模型如何协调更广泛的供应链。

透明度报告的统计与发现


定义指标


在透明度报告中,定义了100个指标,全面表征基础模型开发人员的透明度。可将指标分为三大领域:

1. 上游:上游指标指定了构建基础模型所涉及的成分和流程,例如用于构建基础模型的计算资源、数据和劳动力。

2. 模型:模型指标指定基础模型的属性和功能,例如模型的架构、功能和风险。

3. 下游:下游指标指定基础模型的分发和使用方式,例如模型对用户的影响、模型的任何更新以及管理其使用的策略。

10个基础模型提供商的分数(按领域细分)

根据该指数的100项指标评估10个主要基础模型开发商及其旗舰模型,并全面找到需要改进的领域。

主要发现


通过计算,10个模型的平均分仅37分(满分100分),即使是最高得分的模型也勉强超过50分。

没有一家主要的基础模型开发商能够提供足够的透明度,这揭示了人工智能行业根本上缺乏透明度。

然而,有一个模型满足了其中82项指标,这表明如果其他开发人员能够实施他们已经采用的实践,那么有改进的空间。

开源基础模型需要引领潮流,在三个开源基础模型(Llama 2、BLOOMZ、Stable Diffusion 2)中的两个获得了两个最高分,两者都允许下载模型权重。

Stability AI是第三个开源基础模型开发公司,排名第4,仅次于OpenAI。

其他发现


在对模型进行评分后,研究团队主动联系了相关公司,寻求他们的回应和反驳。

下图显示了在解决开发者的反驳后,每个模型的最终得分情况还,并将指标分组为子域。其中子域提供了更精细、更直观的分析。

1. 数据、劳动力和计算是开发人员的盲点。

开发人员对于构建基础模型所需的资源最不透明。这是由于数据、劳动力和计算子领域的低性能造成的。所有开发人员的分数总计仅占数据、劳动力和计算可用总分的 20%、17% 和 17%。

2. 开发人员对于用户数据保护及其模型的基本功能更加透明。

开发者在与用户数据保护(67%)、基础模型开发方式的基本细节(63%)、模型的功能(62%)和局限性(60%)相关的指标上得分很高。

这反映了开发人员在如何处理用户数据及其产品基本功能方面的一定程度的基线透明度。

3. 即使在开发人员最透明的子域中也存在改进的空间。

只有少数开发人员透明地展示其模型的局限性或让第三方评估模型的功能。

虽然每个开发人员都描述了其模型的输入和输出模式,但只有三个开发人员公开了模型组件,并且只有两个开发人员公开了模型大小。

开源或闭源模型


当今人工智能领域最具争议的政策争论之一是人工智能模型应该开源还是闭源。

虽然人工智能的发布策略不是二元的,但为了分析,将权重可广泛下载的模型标记为开放。

下面列表中的3个开发人员(Meta、Hugging Face和Stability AI)开发了开源基础模型(分别为Llama 2、BLOOMZ和Stable Diffusion2),其模型权重可以下载。

其他7名开发人员构建了闭源的基础模型,模型权重不可公开下载,并且必须通过API访问模型。

开源模型(Meta的Llama-2、Hugging Face的BLOOMZ和Stability AI的 Stable Diffusion 2)处于领先地位

开源模型处于领先地位。

三个开源模型中的两个(Meta 的 Llama 2 和 Hugging Face 的 BLOOMZ)得分大于或等于最佳闭源模型, Stability AI的Stable Diffusion 2紧随OpenAI的GPT-4之后。

这种差异很大程度上是由于闭源的开发人员在上游问题上缺乏透明度造成的,例如用于构建模型的数据、劳动力和计算,如下图。

开源模型和闭源模型之间的差异是由上游指标驱动的,例如用于开发模型的数据、劳动力和计算的详细信息

就总体得分而言,开源基础模型开发者处于领先地位。开源模型和闭源模型开发人员之间的差异在构建模型所需资源(例如数据和计算)的指标上尤其明显。近年来,许多闭源模型的开发人员对训练模型的方法变得越来越保密。

如果想进一步了解方法与分析的结论,可以参考以下链接。

对于这些工作,有些网友还是对此表示认同。

有的人认为,推进模型透明度这项工作很有意义:这真的很酷,向前迈出了一大步!

还有网友表示这项工作太了不起了,并向作者提问如何看待最高比例只有54%的这个事实。

作者回应道,总体得分低得令人有些沮丧,但是有一个模型满足了82/100项,这意味着当前的限制还是可行的。

参考资料:
https://www.nytimes.com/2023/10/18/technology/how-ai-works-stanford.html
https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」2024年美国大学排名出炉 斯坦福位列第三,第一是它!老烟记事(364) 胶皮饭碗Brunello Cucinelli发布完整半年报:盈利能力大幅改善,中国市场正稳步实现“巨大增长潜力”超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发开放模型权重被指将导致AI失控,Meta遭举牌抗议,LeCun:开源AI社区如火如荼GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错GPT turbo 看了没?!这真是大批失业人员在路上。研究称AI绘画碳排放仅为人类画家1/2900,LeCun转发吴恩达加入图灵三巨头混战,炮轰Sam Altman:AI监管「不会管不如不管」,LeCun转赞Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4老人如何安度晚年?“9073”意味着家庭养老仍是主流模式生成模型构建交互式现实世界模拟器,LeCun觉得非常酷【新规】招聘广告须列出工资或薪酬范围,提升招工透明度!Erklärung zur Zusammenarbeit纽大具身智能新进展:靠视觉反馈学会开罐头,任务成功率提高135%,LeCun点赞CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPTAI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试首届「简约与学习会议」明日截稿!LeCun高徒主持新增「新星奖」,表彰年轻研究者大数据App会不会成为数字货币的粮票?钢琴音乐会chat gpt 怎么上不去了? 彻底罢工了国产时序数据库 Apache IoTDB 在海外排行榜位列第一,各性能领先 1- 97 倍!Llama 2第一、GPT-4第三!斯坦福大模型最新测评出炉时间的湾 1全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三近三年国人发文量位列第一,更是被网友戏称一投就中,几乎没退稿的毕业神刊!LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证自动驾驶独角兽如此造假,LeCun都服了卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞散步
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。