Redian新闻
>
打工人、宝妈、学生党都能用上大模型?6款国产大模型实用性测试

打工人、宝妈、学生党都能用上大模型?6款国产大模型实用性测试

公众号新闻

 防走失,电梯直达安全岛报人刘亚东A 




来源:凤凰网科技
作者:凤凰网科技

从卷参数、卷文本长度再到开卷多模态,国产大模型的角逐赛打的愈发激烈。
特别是2024年初以来,“长文本”悄然走入大众视野,在众多晦涩技术用词之外,让不少用户眼前一亮。
今年3月,月之暗面的Kimi智能助手宣布可支持200万字上下文,紧随其后,通义千问免费开放1000万字的长文档处理功能;4月,讯飞星火也可支持长文本、长图文、长语音,甚至还能进行超拟人语音对话、一句话声音复刻。5月14日凌晨,OpenAI推出最新旗舰大模型GPT-4o,能够对文本、音频、图像的任意组合作为输入,并生成文本、音频和图像输出。
大模型能力竞争来到了新的水平线。
不过,不论是模型参数,还是长文本能力,都并非以数字取胜。简言之,大模型并非参数越大越好用,文本也并非越长,效果就越好。
大模型到底好不好用,长文本的价值究竟几何?为了解答这些疑问,凤凰网科技对多款国产大模型进行了实测,横向比较了Kimi、文心一言3.5、通义千问、讯飞星火3.5、智谱清言与商汤商量共6款国产大模型,以日常合同、保险赔付、学习辅导、会议资料整理与日常生活等垂直应用行业为具体案例,呈现6大国产大模型的差异之处。
长文本,好用还是鸡肋?
起初将长文本概念带火的正是月之暗面,其旗下的Kimi智能助手主打的就是长文本。
在月之暗面创始人杨植麟看来,通往通用人工智能(AGI)之路,无损的长上下文将会是一个很关键的基础技术。
目前,Kimi支持200万字超长无损上下文,其相关负责人表示,长文本可进一步帮助打开对AI应用场景的想象力,包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。
当然,理论说明并不直观,既然Kimi号称有超强长文本能力,我们就来横向对比下,以日常合同、保险赔付、日常会议等为例,Kimi与文心一言、通义千问、讯飞星火、商汤商量、智谱清言的差别所在。
● 长文本识别及筛选能力实测:
我们在日常生活中有非常多合同使用的场景,而快速阅读字数繁多的合同、整理要点是普遍痛点,我们以房屋租赁合同为例,测试了以上几款产品在处理长文本上的能力。得到的结果如下:
Kimi的回答详尽且条理清晰,重点信息也做了突出显示,把注意事项一一列举了出来。
讯飞星火的总结同样对要点进行了提炼,并一一列举了注意事项。
通义千问的列举详尽,也对重点内容进行了标注。
而文心一言的表现就略显差一些了,逻辑性不强,对信息的提取不够凝练。
智谱清言同样交出了一份合格的回答,涵盖了核心重点内容。
商汤商量分为对话大模型和文档大模型,合同需要发给文档大模型处理,两个模型入口可能对用户来说不是很方便,在处理结果上,商汤大模型给出的回答也较为全面。
● 长文本问答能力实测:
我们以汽车出险赔付为例,参照平安保险机动车商业保险条款,了解事故发生后我们该如何进行保险理赔。
Kimi的回答依旧条理清晰,可行性较高,基本上解决了机动车出现事故后该具体如何操作问题。
讯飞星火的回答同样逻辑清晰,虽没有Kimi的解答那么细,但仍旧全盘列出了现场处理要点以及注意事项。
文心一言的回复相对而言比较泛泛而谈,无法一步到位直接解决当下的问题。
通义千问的回答同样有着不错的实用性,基本涵盖了事故发生后需要进行的操作。
商汤商量的回答较为全面,依然需要在文档大模型中单独使用,操作上略有不便。
智谱清言在此问题上的回答虽然相对简略,但同样涵盖了核心步骤。
● 长文本生成能力实测:
在具体的应用场景中,长文本除了识别与归纳,最核心的功能,就是生成功能了。这里我们设定需要这些大模型生成一份人工智能产业报告(2023)。
在长文本生成方面,Kimi仍旧呈现出了显著的专业性,不仅内容探讨方向更加丰富,且专业内容扎实,实用度高,几乎可直接拿来做报告的初步提纲。
讯飞星火的文本生成能力同样可圈可点,虽在条理性上略逊Kimi一筹,但展现出了更强的文采能力。
相比较之下,文心一言的学术性能力就稍逊一筹,产出的内容较为简单、基础,很难直接使用。
通义千问的回答稍微有一点文不对题,虽然给出了一张封面,但具体内容可用性较弱。
商汤商量生成的报告,在结构上比较完整,并涵盖了当前领域中的专业术语。
在长文本生成方面,智谱清言的回答中规中矩,有简单的基础信息,但还是专业度不足。
长图文、长语音,谁在抢跑多模态大模型
在大模型参数已经卷无可卷的当下,越来越多企业正在从细分方向突出重围,以让人们感觉大模型的好用之处。除了前文提及的长文本,多模态也是一个关键的研究方向。
对于人来说,多模态是一种十分自然的交互模式。但对于计算机来说,多模态却是极其复杂且困难的。
例如,随着CNN技术的突破,一度带动了人脸识别、视频识别技术的广泛应用,准确率可以远超人类,但该项技术却难以在文本理解方面取得显著的突破。直到2023年,大语言模型掀起了新一轮技术迭代,典型代表如ChatGPT,才使得AIGC再度向前迈进了一步,但以上多项技术突破,仍旧是以单模态见长。
所以可以认为,当下能够处理更多模态信息的如文字、图像、视频、语音等多模态大模型,可以更加灵活自如的与人们交流互动,也就更加接近真正意义上的AGI。
4月底讯飞星火3.5的更新,就在努力朝这一方向演进。不久前商汤日日新5.0也刚刚更新,提升的核心指标也包括多模态能力,号称图文感知能力达到全球领先水平。通义千问与文心一言目前也均有多模态模型。Kimi方面,实际上在Sora于今年初惊艳亮相之后,其内部就在推进多模态模型的研发,其联合创始人周昕宇表示,预计2024年会推出多模态模型及产品,但截至目前,相关产品仍未面世,可以说,在多模态能力方面,Kimi已经晚了一步。
凤凰网科技也就目前已经发布的几款大模型的多模态处理能力,进行了综合实测。
比如我们上传了一张小米su7发布会的PPT实拍图,让大模型对该页PPT进行重点总结。
讯飞星火准确的识别出了该张PPT中的重点信息,与此同时,对部分信息进行了推理,在多模态能力上呈现出了部分优势。
智谱也准确识别出PPT的信息,并在最后进行总结。
商汤商量识别出了PPT中的主要文字信息,对于图片的识别能力稍逊色了一点点。
通义千问和商汤的表现相近,整理了图片中的文字内容,但分析和归类能力较弱。
文心一言涉及了部分推理演绎,不过理解有部分错误,比如将800cltc续航里程和时速搞混了。
再比如我们在日常生活中有非常多辅导孩子学习的场景,我们截取了一张初中数学题的图片,交给大模型进行识别并给出解题思路。
商汤商量识别出了文字内容,并进行了解题,但解题思路有误,把长方形的长和宽搞错了,直接给出了错误答案。
讯飞星火不仅精准的识别出了图片中的文字,并给出了十分精准且正确的解题思路。如果在日常辅导孩子学习的场景下,非常实用。
通义千问、文心一言和智谱清言的解题思路基本相近,但逻辑上不是特别清晰,对于辅导来说,比较难教给孩子清晰、有逻辑的解题思路。
同样在图文识别方面,我们上传了2023年世界人工智能大会的议程,希望大模型能帮忙整理一份重点。
文心一言识别的很全面细致,但归纳重点的能力稍逊。
讯飞星火的内容识别凝练且主次分明,看起来更加方便。
通义千问的信息提取较为全面,但缺乏对重要信息的筛选和过滤。
商汤商量则将图片中的所有文字进行了提取,基本是原封不动的进行了复述。
智谱清言的识别最为丰富,对论坛信息进行了突出显示。
在音视频识别层面,目前业内布局尚不多:
我们上传了2020东京奥运会,乒乓球男单决赛樊振东与马龙对决的视频片段,让大模型为我们整理下视频的核心内容:
讯飞星火对该视频内容进行了简要解析,并复述了该段落的核心内容。
智谱清言则直接表示无视频分析能力。
实际上,目前文心一言、通义千问、商汤商量等均不支持音视频的上传与解析。
在音视频这类十分多见的应用场景中,讯飞星火已经有了显著的领先性。
基因虽不同,但好用才是正义
当下,越来越多人开始追求大模型实用与否,尤其是在学习、办公、日常生活等常见场景下的具体应用。
可以看到,在长文本、长图文与长语音方面,几款国产大模型已经基本上有了显著差异,比如Kimi的确在长文本方面展现出了较强的能力,但遗憾的是,多模态能力的缺失,让Kimi的使用场景有显著的短板。
此外,加强后的商汤商量、讯飞星火,在多模态上已经比通义千问、文心一言的表现更亮眼一些,尤其是讯飞星火,本就有更强的逻辑推理能力和数学能力,加上多模态能力的提升,除了准确的识别文字,还能对音视频文件进行处理,应用场景更为广泛。
经过长文本识别与生成能力、多模态输入和识别能力、数理能力等几个维度,得出测试结果如下:
图|凤凰网科技作者制作(注:白色星星为半颗星)
随着大模型的竞争进入新一层,各家已不再盲目追求参数,对于许多人而言,大模型之争,归根结底是要回归可用性,不然就是对算力资源的极大浪费。
当下,不管是大人辅导小孩学习、打工人整理会议记录、还是学生党整理学习笔记等应用场景,大模型正与人们的生活产生越来越多联系,而告别无意义的内卷,为人们创造更多实用价值,才是大模型技术发展所追求的目标。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国封锁开源AI!国产大模型还能卷多久?乌克兰自杀式无人艇也能发射火箭弹!使用思路有所改变,可惜实用性有限斯坦福团队抄袭国产大模型,面壁智能创始人:受到国际认可/百度被《时代》周刊评为全球领导者/特斯拉回应「单踏板模式被禁」传言《歌德堡变奏曲1550》工时越长越拉不出来,打工人已经没有“排便自由”了|2024打工人通便报告千万粉丝顶流网红“王妈”翻车,成也打工人、败也打工人?为什么斯坦福大学生要抄袭中国大模型?国产大模型的价格已经卷出网约车大战和百亿补贴的味儿了国产大模型降价潮看过美剧版《三体》后,原著党都疯了...宝妈注意!一冒牌哺乳顾问以评估为由向数千名宝妈索要裸照GPT-4 Turbo首次被击败!国产大模型拿下总分第一宝尊创始人、宝尊集团董事长兼CEO仇文彬:“新质”会带来品牌重塑中国工业互联网研究院:人工智能大模型工业应用准确性测评报告性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了国产大模型Kimi爆火,公司为宕机致歉,记者实测→中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火「大脑」周线开始盘整,大盘有回调的需要别再说国产大模型技术突破要靠 Llama 3 开源了震撼!GPT-4 Turbo级国产大模型登场,周冠宇F1赛事数据秒分析惊呆国际大佬双林奇案录第三部之校园疑案: 第二十六节5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大国产大模型评测超GPT-4!李开复:十年内不会套现狠人周受资:年薪7亿、最强打工人、最难CEO腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?国产大模型:今天起,我们100万tokens只需1元!真要这么卷?某国产大模型定价下调90%,百万 tokens 只需 1 元!硅谷的鸢尾花 第五章国产大模型问鼎AIGC第一股!连续2年盈利,营收10个亿childhood dreams - Bouguereau\'s art打工人流行去全季开钟点房,就为用上这个?法国轻奢ELLE拉杆箱上新~好看实用性价比高,无惧暴力托运!抖音千万网红塌房,打工人嘴替背刺打工人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。