Redian新闻
>
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升

GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升

科技



  新智元报道  

编辑:编辑部
【新智元导读】等了这么久,Claude 2终于可以免费上手试用了!实测发现,文献概括、代码、推理能力都有了大提升,但中文还差点意思。

ChatGPT的最大竞争对手Anthropic再次上新!
就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。
相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升。
不仅如此,它还能做出更长的回答——支持高达100K token的上下文。
而且最重要的是,现在我们可以用中文和Claude 2对话了,而且完全免费!

体验地址:https://claude.ai/chats
只要用自然语言,就可以让Claude 2帮你完成很多任务。
多位用户表示,与Claude 2 交流非常顺畅,这个AI能清晰解释自己的思考过程,很少产生有害输出,而且有更长的记忆。

全方位大升级

在几个常见的基准测试中,研究者对Claude Instant 1.1、Claude 1.3和Claude 2进行了对比评测。
看得出来Claude 2对比之前的Claude提升是相当大的。
在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。

各类考试评测

与申请研究生的美国大学生相比,Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。
Claude 2在美国律师资格考试( Multistate Bar Examination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。
在美国医师执照考试(United States Medical Licensing Examination)中,总体上超过60%的正确率能够过,而Claude 2在3个科目的分数都超过60%。

输入和输出的长度

这次Claude 2的一个大升级,就是输入和输出长度的增加。
在每个prompt最多可以包含100k的token,这意味着:Claude 2可以一次读取几百页的技术文档,甚至一整本书!
并且,它的输出也更长了。现在,Claude 2可以写长达几千个token的备忘录、信函、故事。
你可以上传PDF之类的文档,然后基于PDF进行对话,上下文的长度,比GPT要大。(不过有用户反馈说,Claude 2在指令识别方面还是不如GPT)
比如,现在有这两篇论文。
你可以对Claude 2说:请你给我解释一下第一篇论文的重要性体现在哪里,并用简短的话描述它的新成果。对于第二篇论文,请为我制作一个两列的降序表,其中包含论文中的章节标题以及每个章节相应的详细重点。
喂给Claude 2超过8万3千字符的2个PDF文件之后,它完美完成了上述任务。
而且根据Anthropic官方在论文中的说法,Claude 2其实是有支持200k上下文的潜力。
目前虽然只支持100k,但是未来将会扩展到至少200k。

代码、数学和推理

在代码、数学和推理方面,Claude 2比起之前的模型都有很大的提升。
在Codex HumanEval的Python代码测试中,Claude 2的得分从56.0%提升到了71.2%。
在GSM8k(大型小学数学问题集)上,Claude 2的得分从85.2%提升到了88.0%。
Anthropic官方给大家秀了一段Claude的代码能力。
你可以让Claude生成代码,帮助我们把一幅静态的地图变成一幅可互动的地图。
首先让Claude 2分析一下已经有的地图静态代码。
然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。
然后把生成的代码复制进后台,一个可以互动的地图效果就完成了。
可以看出,Claude 2不但有很强的代码能力,而且它能很好地理解代码的上下文,保证生成的代码能够无缝嵌入已经有代码。
并且,Claude 2的功能还在不断升级中,未来几个月内,很多新功能都会逐渐推出。
结合了Claude的多语言能力,Claude 2在多语言支持方面也非常能打。
支持超过43种语言的翻译,23种常用的语言翻译水平能达到「可以理解」的水平。

实测来了

上线这么久的Claude,终于能方便上手了!
这还等什么,一大波火热出炉的实测这不就来了。
首先,我们做道简单的:写一个快速排序算法。
可以看到,Claude 2的中文还是很溜的,不仅分析了代码,而且还介绍了算法的复杂度。
接下来,我们让它给这段代码加入一些新的功能,比如自定义输入和输出。
实测可跑:
此外,你还可以要求Claude 2对下面这段Python代码做出解释。
import random
OPTIONS = ["rock", "paper", "scissors"]
def get_computer_choice(): return random.choice(OPTIONS)
def get_player_choice(): while True: choice = input("Enter your choice (rock, paper, scissors): ").lower() if choice in OPTIONS: return choice
def check_winner(player, computer): if player == computer: return "Tie!" elif beats(player, computer): return "You won!" return "Computer won!"
def beats(one, two): wins = [('rock', 'scissors'), ('paper', 'rock'), ('scissors', 'paper')] return (one, two) in wins
def play_game(): while True: player = get_player_choice() computer = get_computer_choice() print("Computer played:", computer) winner = check_winner(player, computer) print(winner) play_again = input("Play again? (y/n) ").lower() if play_again != 'y': break
if name == '__main__': play_game()
Claude 2给出了简洁明晰的解释:这是一个基础的剪刀石头布游戏循环逻辑。
接下来,给Claude 2上一道难倒不少大模型的推理题。
很可惜,Claude 2没能答对。
对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。
看起来,Claude 2可以进行一些简单的总结,就是翻译腔有点重。
然而,万万没想到的是,刚没生成多少内容,它就「卡bug」了……
昨天SemiAnalysis曝出的GPT-4架构大爆料,咱们试试直接把中文文档投喂给Claude 2,让它来做一份总结。
文章里的所有要点,Claude 2基本都概括全了。
而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。
这一轮较量,是ChatGPT输了。
此前,ChatGPT存在这样一种「奶奶漏洞」式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。

图源:@宝玉xp
同样的问题,咱们抛给Claude 2试试。
Claude 2对此根本不买账,油盐不进。
即使再多试几次,Claude 2也只是说话更温柔了些。序列号么,那是绝对不会给的。
而每个国产大模型都必经的测试,咱们当然也不能放过Claude 2。
对于经典的鸡兔同笼问题,Claude 2果然还是寄了……
不出所料,文学方面也是如此。
而同样的问题,国产大模型就可以轻松通过。
中文能力,还得看谐音梗。
把这个笑话问Claude 2,它倒是回答出了这个笑话的妙处在于谐音,但解释得并不对。
对于时下的最新消息,Claude 2也是无法回答的。回答当前热门影视剧时,它仿佛还活在一两年前。
而对于所有大模型都不能避免的幻觉问题,Claude 2也不能免俗,甚至还自创了网络热梗的全新用法。
国内大模型都要经历的「弱智吧」问题,Claude 2也挂了。

更高的安全性能

此前据说,Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致,才集体出走,创立了Anthropic。
Claude 2也一直在不停迭代,安全性和无害性大大提高,产生冒犯性或危险性的输出的可能性大大降低。
内部的红队评估中,员工会对模型在一组有害提示上的表现进行评分,还会定期进行人工检查。
评估显示,与Claude 1.3相比,Claude 2在无害回应方面的表现提高了2倍。
Anthropic采用了被他们称为Constitute AI的技术框架来实现对于语言模型的无害化处理。
相比传统的RLHF的无害化方式,Constitude AI的纯自动化路线效率更高而且能更多地排除人类偏见。
Constitute AI主要分为两个部分。
在第一部分,训练模型使用一组原则和一些过程示例来批评和修改自己的响应。
在第二部分,通过强化学习训练模型,但不使用人类反馈,而是使用基于一组「人类价值观」原则,由AI生成的反馈来选择更无害的输出。
大致流程如下图所示:

论文地址:https://arxiv.org/abs/2212.08073
在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。
可以不夸张地说,Claude 2 可能是现在市面上最安全的大模型了。

论文地址:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一,并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。
(Elo得分是一种比较性能指标,通常用于在锦标赛中对选手进行排名)
在语言模型的语境中,Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。
最近,LMSYS Org推出了一个公开的聊天机器人竞技场(Chatbot Arena),根据人类的偏好为各种LLM提供Elo分数。
本篇论文中,研究人员在内部也采用了类似的方法来比较模型,要求用户与模型进行聊天,并在一系列任务中对研究人员的模型进行评估。
用户每轮看到两个回答,并根据说明提供的标准选择哪个更好。
然后,研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。
在本报告中,研究人员收集了一些常见任务的数据,包含以下几个方面——有用性、诚实性、无害性。
下图展示了不同模型在这三个指标上的Elo得分。
黄色代表Helpful Only 1.3,蓝绿色代表Claude Instant 1.1,浅紫色代表Claude 1.3,深紫色代表Claude 2.
质量保证的偏见基准(The Bias Benchmark for QA,BBQ)用来测量模型在9个维度上表现出刻板偏见的倾向。
该评估采用多选问答的形式,专为美国英语的环境设计。BBQ为每个维度的模糊语境和消歧义语境提供偏差分数。
直观地说,消歧条件下的高准确率意味着模型不是简单地通过拒绝回答问题来获得低偏差分。当然,作为一个指标,研究人员表示其还有进一步改进的空间。
下图展示了不同模型在9个维度(年龄、社会经济地位、国籍、宗教信仰、外貌、是否有残疾、性别、种族、性取向)上的BBQ得分。
图例颜色同表1。
而下图则是消歧语境下的得分,每个问题存在标准答案。
TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。
其方法是——使用人类标注者来检查开放式模型的输出结果。
从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(Base LM)。
Anthropic的研究人员还编写了438道二元选择题,用来评估语言模型和偏好模型识别HHH反应的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、诚实性、无害性)。
模型有两种输出,研究人员要求其选择更「HHH」的输出。可以看到,所有Claude模型在这个任务的0-shot表现上都比上一个更好,「HHH」三个方面均有普遍改进。
这个图显示了「红队」提出有害要求或者越狱的情况下,各个模型的有害回答的比例。
Claude 2确实是相当安全可靠。
这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。
看得出Claude采用的技术是非常禁得住考验的。
参考资料:
https://www.anthropic.com/index/claude-2



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《梦想如此美丽》&《因为爱你》清华开了家员工都是GPT的公司,代码、文档一条龙服务GPT-4数学再提30分,代码解析器任督二脉被打开,网友:像大脑的工作方式无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升普林斯顿大学、哈佛大学、耶鲁大学、弗吉尼亚大学、韦尔斯利学院5月31日将联合召开线上说明会!注册通道已开放!中国正成为德国最强大竞争对手Runway最强竞争对手来了,一键生成短视频,限时免费开放使用ChatGPT企业版炸裂上线!无限制访问、两倍速、3.2万token……OpenAI开始“抢钱”了|GGView娘亲舅大 (一)华阳刘三姐与刘源的一面之缘上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙500万token巨兽,一次读完全套「哈利波特」!比ChatGPT长1000多倍ACL 2023 | 使用语言模型解决数学推理问题的协同推理框架儿子大了不由娘无限访问GPT-4!史上最强企业版ChatGPT上线,3.2万token,OpenAI颠覆打工人不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞ChatGPT 最强竞品 Claude2 来了:代码、GRE 成绩超越 GPT-4,免费可用爆冷!最新顶尖世界大学排名出炉:KCL史诗级大变,UCL成全英唯一黑马!愚不可及的,是自己对自己吼“你是个中国人”。有点像“受鲁迅思想影响”,怨谁?AIoT情报|消息称华为有望年底重返5G手机市场;ChatGPT竞争对手Claude二代来了!液氧甲烷火箭全球成功首飞千亿级、数学专用,MathGPT大模型开始公测了ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用马斯克为他“站台”,特朗普在共和党内最大竞争对手出现MK竞争力每况愈下 市值不足对手Coach集团一半斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升3.2万token、无限访问GPT-4,史上最强企业版ChatGPT上线刚刚!加拿大面包巨头认罪 被罚$5000万!与竞争对手勾结操纵价格自主品牌份额持续提升!福特CEO表态,中国车企才是竞争对手研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升他将宣布参加美国总统大选 被称特朗普头号竞争对手!全美首个:蒙大拿州将全面禁止TikTok!国会众议员计划提交针对拜登的弹劾条款让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!ChatGPT迎来史诗级iPhone时刻!OpenAI震撼登陆iOS,可精准识别中文
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。