Redian新闻
>
李开复:不参与“价格战”、模型盲测国内第一欢迎 PK

李开复:不参与“价格战”、模型盲测国内第一欢迎 PK

公众号新闻

作者 | 褚杏娟

“我们的模型表现超过了其他模型,欢迎不认同的友商来 LMSYS 打擂台,证明我是错的。但在那发生之前,我们会继续说我们是最好的模型。”李开复在 5 月 21 日的分享会上说道。

李开复的底气来自 Yi-Large 一直以来不错的测评表现。而最近的 5 月 20 日,在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界第七,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet,中文榜更是与 GPT4o 并列第一。

零一万物也因此成为总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前十位的四个名额。以机构排序,零一万物 01.AI 仅次于 OpenAI、Google、Anthropic,正式进入国际顶级大模型企业阵营。

榜单表现

让零一万物振奋的原因是 LMSYS 是大模型金标准,都是第三方匿名,而且每个模型都有数万用户评估,结果可信度非常高。OpenAI 的 Sam Altman 和 Google CTO Jeff Dean 都在最近的模型发布中引用了该测试结果。

为了提高 Chatbot Arena 查询的整体质量,LMSYS 实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中, Yi-Large 的 Elo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四。

国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测。在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI GPT-4o 并列第一。

在分类排行榜中,编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型“最烧脑”的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

艰难提示词(Hard Prompts)则是 LMSYS 为了响应社区要求,新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

测评结果:Coding、Longer Query、Hard Prompts

在此之前,各种静态榜单几乎成为厂商必争的地方。在零一万物模型训练负责人黄文灏看来,所谓打榜主要是厂商要把模型某些单一能力做提升,但比较的时候大家可能并不了解,会带来一些 bias。LMSYS 提供了一种更接近于用户真实场景的评测方式,所以可以作为一个更好的衡量标准。

李开复:不会对标“价格战”

用好的模型,贵不贵?当前,Yi-Large API 的定价是 0.02 元 / 千 tokens,大概是 GPT-4 Turbo 成本和定价的三分之一。

成本问题其实是零一万物一直以来就在关注的。“在大模型时代,模型训练和推理成本构成了每一个创业公司必须要面临的增长陷阱。”李开复曾说道。

“我们关注到最近降价的现象,我认为我们的定价还是非常合理的,而且我们也在花很大精力希望它能再降下来。”李开复表示,整个行业每年降低 10 倍推理成本是可以期待的,而且也必然发生的,以这个角度看,现在的降价对整个行业来说就是一个好消息。

但对于大模型公司,李开复认为,国内常看到 ofo 式的疯狂降价、双输的打法,大模型公司不会这么不理智,因为技术还是最重要的,如果技术不行,纯粹靠贴钱、赔钱做生意是行不通的。

李开复以万知为例介绍到,零一万物内部也纠结过用 Yi-Medium,中尺寸模型有成本优势,但是大尺寸模型更有泛化和推理能力优势。考虑到万知用户也包括海外用户,还是需要最强的推理能力,因此团队最终选择了千亿参数的 Yi-Large。

“虽然这并没有达到 TC-PMF、还不能赚钱,但是技术的需求是不可妥协。推出之后,模型和 Infra 团队就一起快速把钱降下来。”李开复说道。

对于当前的大模型价格战,李开复明确表示不会对标这样的(市场)定价。“如果中国市场就是这么卷,大家宁可赔光、通输也不让你赢,那我们就走外国市场。”

“最小到最大的模型,做到中国最好”

在做大模型方面,零一万物将继续坚持 Scaling Law。从最小的 6B 到 34B,到现在的千亿模型,还有训练中的万亿 MoE,零一万物技术团队明显看到模型性能随着参数量的增大,智能水平也在显著上升,Scaling Law 给 AGI 指明了一个方向。

以大模型为代表的就是大规模机器学习,需要过大量的算力做大量的实验来得到结论,同时需要算法和 Infra 做联合优化。

在 Scale up 过程中,最能够高效使用算力的通用结构一般会获得较大成功。在模型结构上加了各种各样的 prior(先验知识)、去调优可以获得更好效果,但这些 prior 也是约束条件,对模型效果产生影响。零一万物发现,最简单的模型就是最高效的,重要的是怎么去用好计算能力,而给定算力条件下的智能水平,最重要的是数据的质量和使用数据的效率、计算效率。

黄文灏表示,零一万物需要算法、Infra 和工程三位一体的人才,但这样的人在国内并不是很多。大模型研发中,人才的作用被放大,比如算法团队不需要特别多的人,一般是 10~20 人,但是他们后面是几万张卡,这些人的能力就被几万张卡放大了很多。

目前,零一万物的系列大模型参数刚迈入千亿行列,但已经可以与 GPT-4、Gemini 1.5 Pro 等万亿级别的超大参数规模模型扳手腕。

在 Chatbot Arena 测评的 44 款模型中,GPT-4o 在最新的 Elo 评分中以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型则以 1240 左右的评分位居第二梯队;其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成绩则断崖式下滑至 1200 分左右。

“我们的计划是从最小到最大的模型都能够做到中国最好。”李开复表示。一方面,根据 scaling law,越大尺寸的模型约有可能达到 AGI;另一方面,小一些的模型也有各种应用机会。因此,零一万物的打法是“一个都不放过”,并且在每一个潜在尺寸上做到性能最高、推理成本最低。

不过另一个现实是,零一万物 GPU 存量只有 Google、Microsoft 的 5%,但李开复认为这并不代表企业就没有机会。

“能用同样一张卡挤出更多的价值,这是今天我们能够达到这些成果的重要原因之一。”李开复说道。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!


今日好文推荐

字节系多款 App 被指控抄袭源代码,连拼错的代码都抄走了?美摄回应:我们不是碰瓷,是在维权

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

裁员、人去楼空,这家估值 80 亿的 AI 编程工具独角兽不行了?

奥特曼被吓坏了:两篇小作文接连否认“封口”离职条款,但没人相信他了

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
再回首 (二十七)如何不用经纪人卖掉自家房子? (之二)独家对话李开复:中国AI助手赛道DAU仅千万量级,大模型市场教育很迫切许家印豪宅接近半价售出;余承东:新车型对标远超迈巴赫;AI大模型打响“价格战”;《歌手》15秒广告位报价9000万...最懂打工人的AI特助万知来了,李开复在线催更!2分钟手机直出PPT效率×10大沙丘国家公园- Monte Vista Wildlife 湿地-Penitente 峡谷之旅贵州文旅删除东方甄选相关视频;耐克市值蒸发超280亿美元;李开复:AI智能有望明年赶超博士,奇点将于数年后爆发|邦早报李开复:中国需要自己的ChatGPT,当下国内AI工具“都还不够好”大模型“价格战”爆发,谁能抢占商业化制高点?苹果官方直营渠道加入“价格战”|首席资讯日报汽车“价格战”进入白热化 新能源车企出路在哪里?62岁李开复,又有了新身份遭遇网络勒索数十万字秒读,2分钟出PPT!李开复推荐的「万知」AI助手,小程序免费用王小川评AI大模型“价格战”:在中国市场,API服务对创业公司是走不通的;科大讯飞:讯飞星火Lite版永久免费丨AIGC日报零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5对话李开复:这次大模型创业,我十年都不会变现英伟达一季净利暴增 6 倍,AI 芯片年更;王小川、李开复拒绝跟进大模型降价;ChatGPT 可引用多家报纸内容 | 极客早知道打工人救星万知 AI 来了,还“挖角”李开复做“CEO”李开复:不参与“价格战”、模型盲测国内第一欢迎PK农博在楼下说十米以下的不要参与讨论退休的话题,遵命,不参与!另开一帖谈谈自己六十岁前退休的感受。李开复提出「PMF 不再适用大模型 AI-First 创业,要追求 TC-PMF」,如何理解?翻车了!9.11和9.9哪个大?实测12个大模型8个都答错;OpenAI开打价格战,新模型价格骤降96%-97%丨AI周报大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一豆包出击,直降99.3%!火山引擎开卷大模型“价格战”三只松鼠净利润同比预增85.85%-90.08%;奔驰、奥迪将退出“价格战”;市监局调查统一方便面 ... | 刀法品牌热讯零一万物发布千亿参数模型、海外产品收入将超1亿,李开复:我10年不套现抖音内测团购“顺手价”,加码“价格战”成电商平台主旋律?巨头杀疯了!阿里:降价97%!百度“王炸”:免费!创业公司怎么办?李开复表态诽谤中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?国产黑马大模型盲测竞技场挺进全球前十!中文榜和GPT-4o并列第一国产大模型评测超GPT-4!李开复:十年内不会套现承诺10年不套现, 62岁的李开复要陪AI大模型“长跑”成都“解锁”药品即时零售新生态 连锁药店是时候告别“价格战”了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。