Redian新闻
>
5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大

5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大

科技

▲图片由AI辅助生

技术为根,客户+应用成国产大模型“新考场”。
作者 |  徐珊
编辑 |  漠影
智东西3月26日报道,近日,全球增长咨询公司弗若斯特沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一
当下正值文心一言发布一周年,从去年3月文心一言发布到如今的文心大模型4.0版本,用户们见证了文心一言的迅猛成长,这不仅代表的是搜索平台、工具的迭代升级,更是人们对信息获取、理解和应用的一次全面革新。
在过去这一年里,大模型及生成式AI工具爆发式增长,正改变着传统工作流程,重塑各行各业。百度创始人、CEO李彦宏在今年3月的财报会议上提到,文心大模型的日调用量已超过5000万次,大约有2.6万家企业调用文心大模型,每1分钟企业调用文心大模型的次数超过3.4万次。
在以文心一言为代表的大模型狂飙的这一年里,我们从最新的成绩单中,看到了中国大模型产业发展的新动力。

01.
技术扎实可打,文心一言
还是国产大模型一哥


近期,沙利文发布的《2024年中国⼤模型能⼒评测》对国内主流的15个大模型进行了横评,从而将中国大模型分成了三个梯队
如下图所示,百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队,综合表现更为优异。其中,文心一言能力最为全面,五项评测维度均为优势能力,并取得四项第一。

▲沙利文《2024年中国大模型能力评测》:大模型综合竞争力气泡图

评测主打一个全面综合,维度包括通用基础能力专业应用能力两大方面。
具体来说,通用基础能力重点评估⼤模型在语言理解、知识储备、道德风险控制等方面的表现,以揭示其在自然语言理解和交互水平上的能力。而专业应用能力则着重检验⼤模型在实际应用中的效能与价值,通过考察其在任务规划、超长文本处理、行业内容生成等方面的表现,以衡量⼤模型在不同应用场景下的实际价值产出能力。
报告显示,文心一言在通⽤基础能⼒评测中超越部分国际大模型,能够精确解析⽂本、捕捉语义,并⽣成符合语法和语境规则的⽂本。但我们也能看到国际领先模型在通⽤基础能⼒和专业应⽤能⼒上略优于中国领先模型。
整体测评中,文心一言拿下数理科学、语言能力、道德责任、行业能力综合能力等五大评测维度的四项第一,在21个细化二级维度均表现突出。

▲文心一言综合表现最佳:5大维度取得4项第一

沙利文预测,2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化,而伦理责任和数据标准规范将成为持续发展的关键。

02.
技术为根,客户+应用
成国产大模型“新考场”


过去一年间,中国大模型如雨后春笋般涌现。
根据国家数据局3月25日发布的最新工作报告,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。
千行百业的客户与应用正成为国产大模型的“新考场”,AI根技术的“试金石”。
以“带头大哥”文心一言为例,过去一年,百度基于独有的四层AI技术架构,分别从芯片、框架、模型和应用层面出发,迭代技术。
尤其是框架和模型的协同优化,让文心大模型能不断提升效率。飞桨在过去一年里不断升级,向上支撑大模型生产,提高模型部署效率和灵活性;向下适配各类硬件,提高硬件适配效率和降低成本。据了解,如今文心大模型不断降低推理成本,目前已降至去年3月版本的1%。
同时为了让更多人用起大模型,百度推出了两款MaaS产品,用于应用开发的千帆AppBuilder和用于专有模型开发精调的千帆ModelBuilder,累计帮助用户精调1.3万个大模型,服务8万企业用户,帮助用户开发出16万个大模型应用。
截至目前,文心大模型的日调用量已超过5000万次,季度环比增长190%;去年12月,约有2.6万家企业调用文心大模型,季度环比增长150%。三星、荣耀、汽车之家等知名企业均与百度达成合作。
总的来说,只有技术和客户应用两手抓,大模型发展才是抓住了“牛鼻子”。
随着2024年的“百模大战”进入深水区,大模型产业将迎来玩家新洗牌。一方面,模型技术迭代和评测比拼将继续挑战极限;另一方面,大模型技术与行业应用加深结合,有推动证新的“灯塔式”案例跑出来,从而为产业筛选出更加有实力的选手。

03.
用户生态,大模型未来图景哺育者


“独木不成林”,大模型产业的发展需要生态共建。
大语言模型的出现,犹如热带雨林里蝴蝶轻轻扇动的翅膀,悄然间引发了一场深刻改变人们生活的“龙卷风”。而掀起这阵龙卷风的,不仅是AI大模型厂商,还有众多上下游的AI应用开发者、行业从业者及工程商等伙伴。
过去一年里,52岁的虎哥在这场AI“龙卷风”中找到了自己的第一个着陆点——利用AI助力考研。他通过文心一言帮助自己记忆知识点、总结归纳重点,用了100天的时间在考研的初试中取得了398的高分。如今,他称自己的这套学习方法为“AI学习法”。
“最简单的就是拿这个题直接去问文心一言,AI就会直接给我答案。”虎哥回顾自己的AI学习法时说。他还让文心一言提供“1小时快速回顾高中化学知识的计划”、“AI解答所有不能够理解的地方”、“让AI给出政治题参考答案,并总结成三个关键词背诵”等等。
“AI学习法,我觉得要学、要用就要尽快用,因为大家都会用了以后,你的时间差就没有了。”虎哥在谈到AI学习的好处时分享道。他还对比了ChatGPT和文心一言4.0,在中文回答上能感受到文心一言有时更胜一筹。
生成式AI不仅成为了虎哥的学习神器,也能成为一些特殊人群的“AI良药”。95后的李朋程和其团队也是通过文心一言打造了帮听障人士学说话的产品“声桥AI语训”。
凭借文心大模型的能力,“声桥AI语训”能够有效比对使用者的发音与标准发音之间的差异,并据此以文字形式提供针对性的正确发音指导,帮助用户改善发音质量。这也让部分听障群体能够在一遍遍的比对之中,听懂声音的含义、学会张口说话,纠正发音的偏差,从而节省下高达十几万的康复训练费用。
10后的熠墨小朋友通过文心一言,成功为自己的妹妹复刻出一个“数字爸爸”,让这个虚拟的陪伴者能够陪伴妹妹聊天,时刻维持着亲情的温暖。谢菲尔德大学的博士生彭煦潭,借助飞桨AI技术,开发出了一款“汉语-少数民族语言”词典,实现了汉语与少数民族语言之间的顺畅翻译,让少数民族语言能够在更广阔的范围内得到应用。
站在国产大模型狂飙突进一周年的节点上,我们看到,大模型的创新已层出不穷,一些有价值的应用也已经陆续出现,同时要真正走到规模化部署仍有一定距离。
2024年有望成为大模型落地应用元年。随着AI进入千行百业,它不仅让人们的生活和生产更便捷,也能帮人们将爱与善意具象化。随着用户生态的发展壮大,我们离大模型的未来图景将更近一步。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

2024年中国生成式AI大会预告



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事日记国产算力和国产大模型,迎来双赢时刻性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了新法EB5精讲|从选择到决策,四大维度剖析EB5之流程/项目/文件/服务篇(1)投资开悟的标志,就是学会区分能力与运气GPT-4 Turbo首次被击败!国产大模型拿下总分第一时隔一天,百川大模型拿下国产第一,AI助手「百小应」上线小红书迎来新社区内容负责人;文心一言数学能力与Claude-3并列第一;买“加速包”可优先购票?12306回应:无效……国产大模型落地为王!讯飞星火如何快人一步?库克称苹果今年引入生成式AI;文心一言数字分身功能内测;商汤大模型体系日日新4.0发布丨AIGC大事日报百度文心一言用户破 2 亿,李彦宏:文心大模型已成中国最领先的 AI 基础模型字节跳动大模型首次全员亮相:一口气9个,价格低99%,没有参数规模和榜单分数中美对话方式的巨大不同华为Mate60系列没有停产,商务部部长会见库克,雷军发SU7路测视频,文心一言或开放百万长文本能力,这就是今天的其他大新闻!余承东:Pura 70 过两天有好消息/文心一言用户数量破 2 亿/iPhone 16 Pro 或以 256 GB 存储起步《魅羽活佛》第366章 发情的大统领如何看待OpenAI最新发的ChatGPT-4o?文心一言、通义千问回答美国人寿保险种类和基本知识 美国人寿保险公司排名 美国人寿保险价格听Shifu讲那过去的事情国产大模型问鼎AIGC第一股!连续2年盈利,营收10个亿​​新一批国产大模型通过备案;1月游戏版号获批再破百;宁德时代与滴滴成立换电合资公司……国产大模型Kimi爆火,公司为宕机致歉,记者实测→AI早知道|字节Coze海外版支持GPT-4o;文心一言上线新功能;微软开放Phi-3 轻量级AI模型阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报AI早知道|腾讯文档智能助手开启公测;GPT-4、文心一言领跑主流大模型最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩苹果与 OpenAI 重启谈判,Siri 或引入 ChatGPT,网友:国行用文心一言?AI 配音酷似斯嘉丽,OpenAI 紧急停用;净亏损大幅收窄,小鹏股价一度大涨;Kimi 访问量超文心一言 | 极客早知道国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火「大脑」宇宙人(1489期)聂海胜出席中国航天大会;文心一言数学能力与Claude-3并列第一;英伟达黄仁勋称人形机器人未来将成主流卷出新高度,国产AI大模型首波价格战背后的逻辑打工人、宝妈、学生党都能用上大模型?6款国产大模型实用性测试宇宙人(1506期)Yahsat和Bayanat创建Space42;Kimi访问量已超文心一言;微软推出Team Copilot四大维度深度体验,GPT-4o为何被称作“最强”;OpenAI超级对齐团队“分崩离析”;脑机试验招募第二名患者|一周国际财经
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。