Redian新闻
>
国内大模型首超GPT 3.5

国内大模型首超GPT 3.5

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE - 琅琊榜,目前已经获得有效投票 5.8K
以下是截至 2023 年 5 月 29 日 18 点 22 分的 SuperCLUE 琅琊榜初始排名。
SuperCLUE - 琅琊榜官方唯一地址:www.SuperCLUEAI.com
SuperCLUE 是中文通用大模型综合性测评基准。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:
● 这些模型不同任务的效果情况
● 相较于国际上的代表性模型做到了什么程度
● 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。



在初始排名中,由 Anthropic 公司开发的 Claude 模型以 1215 分暂居第一。在国内模型中,MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过 GPT3.5。
其中,GPT 3.5 以 1171 分排名第三。由清华大学和智谱 AI 开发的 ChatGLM-130B 则以 8 分微弱差距排名第四,ChatGLM-6B 以仅 60 亿参数量的模型跻身前五,表现不俗。香港中文大学和复旦大学同样表现优异,分列 6、7 名,IDEA 研究院的姜子牙大模型同样也超过了 1000 分,排名第 9。
相比之下在英文上表现强劲的 vicuna-13b 模型,仅仅排名第 10,在中文能力上明显弱于国内中文大模型。
值得提及的是,在英文对战排名中表现优异的 RWKV,在中文对战表现上稍显不足。RWKV 团队表示正在训练中文基底模型,后续会以中文身份加入对战。
CLUE 团队表示,之后会定期更新 SuperCLUE 琅琊榜排名,同时加入更多具有代表性的大模型。


往期推荐



Rust内部大乱斗不休止

MINIX已死,那么Linux呢?

作大死!Firefox 强制弹出全屏广告惹众怒



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群(古詩詞英譯) 清明 – 杜牧CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl王小川大模型首亮相!70亿参数霸榜,清北抢先用7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型吉利将推自研大模型;OpenAI提交GPT-5商标申请;谷歌助手拟引入大模型丨AIGC大事日报谷歌I/O开发者大会发布全新大语言模型,反超GPT-4!办公全家桶炸裂升级,还带来了首款折叠屏手机大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?空巢日记摘要(2)CIPS ATT | 一线国内大模型研究学者系统讲授大模型基础及应用前景,速览课程要点!360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象「苹果 GPT」首次曝光/百度称文心大模型3.5能力已超GPT-3.5/《奥本海默》确定引进女人当自强!读水沫小说<冷夏>所想到的Google新大模型赶超GPT-4/理想一季度交付量创历史新高/阿里巴巴取消首席技术官职位Google 下一款 ChatGPT 竞品曝光:投入或超GPT-4,AlphaGo 成秘密武器百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报万达辟谣大规模裁员;杭州人均存款达16万元;张朝阳称国内大模型炒作过热,互联网机会还没结束丨邦早报国内大模型,北京占一半 | 2023全球数字经济大会19 萧萧千禧梦 第二章 京讯生涯 (8-2)AI协助完成披头士最后一首歌;GPT-4参与手冢治虫漫画续作;国内大模型侵权第一案丨AIGC大事日报LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?谷歌打响AI反击战:新模型赶超GPT-4,安卓和Pixel都成配角对话面壁智能CEO李大海:国内大模型不要谈竞争,先追上GPT再说新Mac Pro跑分出炉/小米48亿或被印度没收/周鸿祎:国内大模型接近国际水平王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访国内大模型北京占一半;李开复大模型创企官宣;文心一言App上架苹果应用商店丨AIGC大事日报只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4国内大模型迎来中场战事LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源百度:文心已超GPT3.5;魅族CEO:极星只做万元高端机;一刀不剪 奥本海默确认引进看电视连续剧《他是谁》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。