Redian新闻
>
斯坦福发布报告:AI在多项任务中击败人类

斯坦福发布报告:AI在多项任务中击败人类

公众号新闻

转载:《中国科学报》


4月15日,美国斯坦福大学人工智能研究所发布《2024年人工智能指数报告》,描绘了过去10年机器学习系统的飞速发展。


据《自然》报道,报告显示,聊天机器人ChatGPT等人工智能(AI)系统在阅读理解、图像分类和竞赛级数学等任务上的表现,已接近甚至超过人类。AI系统的快速发展意味着,许多用于评估它们的通用基准和测试很快就会过时。 


报告特别指出,推出评估AI的新方法越来越有必要,如评估其在抽象和推理等复杂任务上的表现。斯坦福大学社会科学家Nestor Maslej表示,10年前,基准可以为社会服务5至10年,而现在,它们往往在短短几年内就变得无关紧要了。“增长的速度快得惊人。”


斯坦福大学的年度人工智能指数于2017年首次发布。该指数由学术和行业专家编制,旨在评估AI领域的技术能力、成本、道德等,从而为研究人员、政策制定者和公众提供信息。今年这份长达400多页的报告指出,美国对与AI相关的监管正在升级。但是,由于缺乏对负责任地使用AI的标准化评估,因此很难根据系统构成的风险对它们进行比较。


新报告还首次用整个章节专门介绍AI的科学应用,包括谷歌DeepMind的一个旨在帮助化学家发现新材料的图形网络材料探索(GNoME)项目,以及DeepMind的另一个工具GraphCast,它可以进行快速天气预报。


当前的AI热潮建立在神经网络和机器学习算法之上,这可以追溯到2010年代早期。此后,这一领域迅速发展壮大。例如,代码共享平台GitHub上的AI编码项目数量从2011年的约800个增加到去年的180万个。报告称,在此期间,关于AI的期刊出版物大约增加了两倍。


AI的大部分前沿工作都在工业领域内进行。去年,该领域产生了51个著名的机器学习系统,其中学术研究人员贡献了15个。美国得克萨斯大学奥斯汀分校人工智能实验室主任Raymond Mooney表示:“学术工作正在转向分析企业推出的模型,深入研究它们的弱点。”


这包括开发更严格的测试,以评估大型语言模型(LLM)的视觉、数学甚至道德推理能力,这些能力为聊天机器人提供了动力。最新的测试之一是研究生级谷歌验证问答基准测试(GPQA),去年由包括美国纽约大学机器学习研究员David Rein在内的团队开发。


GPQA由400多个选择题组成,难度很大,博士水平的学者回答其所在领域问题的正确率为65%。而当他们试图回答其专业领域以外的问题时,尽管在测试期间可以上网,但正确率只有34%。


随着AI性能的飙升,成本也在飙升。据报道,OpenAI公司2023年3月发布的GPT-4的培训成本为7800万美元。谷歌的聊天机器人Gemini Ultra于2023年12月推出,耗资1.91亿美元。许多人担心这些系统的能源使用,以及冷却运行这些系统的数据中心所需的水量。


报告指出,在美国,监管急剧升级。2016年,美国只有一项法规提到了AI,去年则增加到25项。Maslej表示,2022年之后,政策制定者提出的AI相关法案数量大幅增加。


监管行动越来越侧重于促进负责任的AI使用。Maslej说,尽管出现了可以对AI工具的真实性、偏见等指标进行评分的基准,但并不是每个人都在使用相同的模型,这使得交叉比较变得困难。


中国学生美本录取大数据:


相关阅读:

老子英雄儿好汉!耶鲁老校长儿子当选斯坦福新校长

斯坦福脑科学家胡伯曼:学习速度提升10倍的秘诀

马斯克和戴蒙对AI有何预言?对人类未来意味着什么?



转载:《中国科学报》,本文版权归属作者/原载媒体所有。



喜欢本文?欢迎关注/置顶/点赞/加入留学家长公益交流社群:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福大学发布2024年人工智能指数报告字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | 重新审视并改正小样本3D分割任务中的问题!新benchmark开启广阔提升可能性!奥特曼斯坦福对话万字实录:GPT-5、AGI、核聚变发电、人类未来探索视频理解新境界!在12项任务中,Mamba先打败了Transformer穷人变富,健康大敌重磅利好!中国发布30天免签新政,在澳华人入境更容易!今年以来,多项出入境政策接连发布...MIT等惊人发现:全世界AI已学会欺骗人类!背刺人类盟友,佯攻击败99.8%玩家斯坦福人工智能指数 2024 报告:人工智能法规和生成式人工智能投资的增长99、长篇家庭伦理小说《嫁接》第二十七章 何去何从(2)美卧底执行任务遭警察殴打,获赔2350万美元!美对涉及伊朗16个人和实体制裁!加破获史上最大黄金劫案!美一票否决巴勒斯坦“入联”Mamba再次击败Transformer!在视频理解任务中杀疯了!今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言斯坦福发布 2024 AI 报告:中国 AI 专利全球第一,顶级 AI 模型主要来自美国 | 附报告全文“解放巴勒斯坦”!示威者在多大扎营!呼吁停战!切断关系!清华首个AI医院小镇来了!AI医生自进化击败人类专家,数天诊完1万名患者加拿大政府在作甚么斯坦福大学:2024年人工智能指数报告(386页)NICHE发布2024年美国最难申请的大学排名!冷门大学拿下TOP1,碾压哈佛MIT斯坦福!巴基斯坦值得骄傲:深空任务成功的立方星极少CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务最强中文大模型又易主了!击败GPT-4 Turbo,首款AI助手发布马未都的人生八字方针华府消息|法极右翼党在欧洲议会选举中击败执政党 马克龙宣布解散国民议会Gemini Ultra训练烧掉近2亿美元!斯坦福迄今最全AI报告发布,中国AI专利数遥遥领先一文看懂斯坦福2024年AI指数报告十大趋势比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类由父亲造就的“失败人生”,他却无能为力晨跑偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳上新!斯坦福商学院年度书单发布,第一本太猛了(附PDF)突然公告:不再上架部分安卓商店!腾讯将在多个手机渠道停更这一爆款APPAI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了奥特曼斯坦福对话万字实录来了!关于 GPT5、AGI、核聚变发电、人类未来Nature:斯坦福最新报告显示,人工智能这些领域接近甚至超过人类!医学领域尤为迅猛
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。