18个问题,90个回答,国产大模型实用性横评
作者:知行
编辑:James
都说AI好,一用急跺脚……这或许是许多普通用户在使用各种语言大模型时的感受,尤其在他们不知道该怎么提问的情况下。
对于不少从业者而言,AI大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于AI是否能够在实际工作中发挥作用,提升效率。
作为一天要使用超过20次AI的普通文字工作者,我们娱乐资本论也很好奇国内的大语言模型究竟谁好用。
为此,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到18个问题,准备针对国内的四款大型语言模型——百度文心一言、阿里通义千问、讯飞星火、昆仑万维天工,以及与GPT-3.5一起(为了公平起见,我们刻意没有使用ChatGPT4这个“打虎英雄”,而且普通人使用4的几率远远低于免费版的3.5),进行一次全面的,不同于以往科技工作者的文本应用能力测试。
我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现,甚至是AI公司针对这一次孙燕姿质疑AI的公关回应文案(具体可看今天的另一条稿件),为专业人士提供参考。
在评估这些可以进行程式化分析的文本时,我们主要从以下五个维度来评判大模型的表现:
1. 语言表达能力:文本是否通顺、流畅,语法是否正确。
2. 准确性:模型是否能正确理解问题,并给出准确的信息。
3. 内容完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。
4. 交互性:用户是否能通过明确的、三次追问之内的指令或问题,引导模型给出合适的答案。
5. 加分项(不做具体要求):任何创新、独特、让人眼前一亮的内容。
我们会基于上述五个维度为每个答案打分,满分(加上加分项)是5颗星。一般有4颗星就已经是很好的表现。
我们也意识到在测试过程中可能存在一些遗漏和不成熟的地方,我们会根据大模型的升级换代和应用场景的变化,及时进行更新,也欢迎大家点击我们的【阅读原文】贡献出自己想问的问题,我们后期将同步再做测试。
另外我们也将于上海电影节期间联手界面新闻举办《AIGC浪潮下的文娱科创新视野》,并同步发布“AIGC 50”榜单以及《AIGC实用操作白皮书》,百度、字节、商汤等科技领军企业和AIGC创新企业,将与影视、营销、动漫、游戏领域的知名从业者展开对话。请感兴趣的朋友拉到文末添加“小智”的二维码咨询。
评分表
本测试集当前有16道问题,每题满分5分,但是总体上不设满分。读者只需要留意每一道题的具体分数,以及每个模型自身加在一起的总分即可。
读者可以点击以下网址或通过小程序进入我们的测试集表单,其中提供了所有的测试题目,以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。
文案写作
这一类别主要包括各种形式的广告、推广文案创作,共同点是以给定材料为基础,按不同用途发散,生成适合特定场合的文字片段。
小红书带货文案——产品介绍向
小红书带货文案——买家秀向
小红书文案——名媛生活日常分享类
淘宝——长约3分钟的带货文案
淘宝——商品详情页描述文案
广告片宣传文案
Slogan生成
这些问题都需要模型具有强大的创新能力和独特的语言风格,以吸引消费者的注意力并促使他们进行购买。
小红书带货文案
随着小红书等种草平台的爆火,用户生产生活经验、购物心得、旅行体验类等短内容也有了巨大的商业化空间,诞生很多小红书运营类的岗位。
我们从小红书产品介绍向、买家秀、名媛生活日常分享三个方向,给出了不同的Prompt,要求大模型们给出内容。
以买家秀向的产品介绍为例:
请你按照以下小红书风格,写一款手机卖家秀向的带货文案:
1、文中需要包含产品介绍、个人体验分享、使用心得、互动引导等
2、风格上以个人化分享的故事叙述为主,要有真实性和可信度
3、输出形式带有标题和序号
4、小红书的风格是:非常吸引人的标题,文案中带有emoji,文章最后加上tag
讯飞星火
天工
作为其它大模型的参照系,GPT3.5的内容在语言风格上更为独特,略带夸张化的描述,使得其文案更加吸引人,在短内容的表现上更有感染力。
星火的表现非常好,在prompt未指定手机型号时,它自己假设了一款型号,以帮助人类更好地了解一款手机推销文案需要具有的主要指标。结果不仅条例清晰,内容齐全,而且emoji具有相关性。
我们在prompt里说明了小红书文案应该带有emoji,但文心一言和天工并未察觉。
在另两道小红书文案题中,通义千问给出的名媛穿搭文案更像是参考资料一样,显得干巴巴的。
知识写作
这一类别主要包括带有前置知识的命题作文、在问答网站答题和写新闻稿
抖音直播——淄博烧烤
知乎问答——医疗美容类
知乎问答——历史类
新闻稿——虚构的热点事件
这些问题需要模型具有广泛的知识储备和准确的信息处理能力。例如,抖音文案要求模型对直播流程和语态有足够了解,知乎问答的题目需要模型具有专业的医疗和历史知识,而新闻稿的写作则需要模型能够准确理解和处理新闻事件。
抖音直播——淄博烧烤
直播文案对格式没有固定要求,主要考察模型是否可以给出清晰可用的内容,并能够通过prompt交互调整输出。
你是一位拥有上百万粉丝的直播和短视频网红,每天都会在抖音做直播。你今天来到了山东淄博,当地最近几个月正因为便宜好吃的烧烤而在全国出名,每天都有很多网红和你一样来到淄博探寻现场的情况。
淄博烧烤跟其它地方的烧烤相比,一个特色是会把烤串的食物拔下来放进面饼里夹着吃,另一个特色就是便宜,人均消费不到50元就可以吃饱。即使这几天淄博来了很多人,烧烤摊也没有涨价。
在淄博,你发现当地人非常热情,而且尽可能对你提供优质的服务,包括出租车司机,路上遇到的普通行人等,都非常友好。你感到非常感动,并且很想向你的粉丝传递这些信息。
请你即兴发挥来写一份长约3分钟的直播文案,也就是你在直播过程中会说的话。请注意:
1、文案内容应当包括淄博烧烤的介绍、从你自己的体会分析它近期火爆全国的原因。可以引入一个你编写的,看起来像是你亲身经历的小故事。
2、文案内容要强调与用户的情感共鸣,倾向于使用有趣、幽默、感性的语言,以吸引用户的关注和参与,引发用户的共鸣和共同话题。
3、适合口语化直播。
ChatGPT(3.5)
天工
直播文案略带新闻属性、对格式要求不高,prompt给出详细的背景资料对结果产生了不错的影响,模型们普遍可以做到语言流畅,信息准确,加上“亲身经历的有趣的小故事”。
我们选择GPT3.5与昆仑万维天工的答案作为表现比较好的范例。GPT3.5的语言风格活泼热烈,感情奔放,具备极强的情绪感染力,也编出了合乎逻辑的故事,整体一气呵成。
昆仑万维天工也记住了编故事的要求,并给出了逻辑清晰的整体叙述。
尽管人类直播并不需要逐字逐句的文案,但这样的尝试有助于让虚拟人直播的效果更逼真。
知乎问答——历史类
我们对历史博文的需要是,答案中有足够的学术性,语言风格以幽默为主。模型们会想什么办法把这两条需求有机结合到一起呢?
同时,我们考察了模型们不联网时自身知识储备的多少。它们真的都学习了三国这部分的知识吗?
你是一位专业的历史博主,请生成一份关于诸葛亮为什么没有北伐成功的知乎问答,内容需要符合以下要求:
1、内容具备专业知识和学术性,可以引用史料、资料、研究成果等作为支持和参考。
2、对该历史问题,进行历史事件的事实和背景解读,给出评估和观点。
3、整个语言风格应当诙谐幽默,引发用户的思考,令其想要点赞和转发。
文心一言
通义千问
作为标杆的GPT3.5角度齐全,风格独特,没有问题。
文心一言这个专业程度,让我们试了好几次把它的答案放到网上搜索,试图发现是不是从贴吧或知乎什么地方扒过来的(我们并没有发现)。唯一美中不足的是,它没写完(也无法继续写完)。
剩下这仨都忽略了文体幽默风格的要求,不过星火的回答会稍微提供多一点的历史知识。
新闻稿——虚构的热点事件
在娱乐资本论之前进行的AI大师课培训里,正值“宝马冰淇淋”事件发酵,模型们通过prompt知道事情原委之后写道歉信基本都不在话下。那么,不给事件细节,但让它思考一个合情合理的虚构情节,它也会做得很好吗?
你是一位资深的文案从业人员,需要写一篇新闻稿,以准确、清晰、有吸引力地传达新闻信息,并满足读者对新闻的需求。
事件为:周杰伦在北京三里屯召开发布会,称将在今年12月连续在鸟巢举办30场演唱会,字数800字左右,具体要求如下:
1、语言要简洁明了,确保信息的易读性和可理解性,传达关键信息。
2、结构清晰,按照倒金字塔结构组织,将最重要的信息放在开头,再逐渐展开细节。
3、引人入胜:新闻稿应该具备吸引读者的能力,通过生动的叙述和有趣的内容来引起读者的兴趣和关注。
4、可以加入部分周杰伦的历史简介,为不知道该新闻背景的人科普。
文心一言
讯飞星火
新闻稿是一种有固定形式的文体,在此类相对程式化、规范化的文本写作方面,大模型们都可以给出结构完整,内容基本准确的回答。GPT3.5与文心一言给出的文风略显夸张。
本题也考察了当人类输入指令不太准确时,模型们是否可以补全人类的意图。GPT-3.5、文心一言和讯飞星火在初始prompt没有要求标题时也给出了标题。昆仑万维天工在生成内容的最后加了一段“作为一位资深文案从业人员”的点评,说明它可能不完全理解这个prompt。不过,删除这段“自我点评”也不影响对文本其他部分的使用。
创意写作
这一类别主要包括各种形式的创意写作,主要让模型们天马行空地发散思维。在过往理解中,这应该是模型最擅长的领域。
小说——悬疑类作品提纲
小说——言情类作品片段
小说——科幻小说的初始创意
歌词——感情和历史方向
剧本创意策划
这些问题需要模型具有丰富的想象力和创新能力,以创造出吸引读者的故事和情节。而与此同时,无需修改、直接可用也是我们考察的重点方面。模型需要“懂得”或者猜测人类对创意的评判标准,以做出符合情理,但又出人意料的作品。
小说——悬疑类作品提纲
大模型要想做好悬疑小说的提纲,需要有推理和逻辑、情节构建、角色刻画、构建人物关系、想象力等多种能力,难度高。我们给出了如下的Prompt,要求大模型们给出内容。
你是一位优秀的作家,需要写一部悬疑小说提纲,提纲应当符合以下要求:
1、有引人入胜的悬念,在开头部分设置出谜团,并将该谜团设置为整个故事主线的起点。
2、主角和配角间,有两重以上的情感关系,且关系变化了三次。
3、故事开头便有五个以上的伏笔或细节,之后这些伏笔和细节贯穿全文,拼在一起能够引出真相。
4、有超过三处出人意料的情节转折和反转,你通过揭示新的信息、改变读者的认知或颠覆之前的设定,让故事走向意想不到的方向。
5、故事整体需要符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决这样的叙事节奏。
ChatGPT(3.5)
通义千问
GPT3.5给出的提纲结构清晰,引子、主配角介绍、伏笔和细节等内容全部分段给出,且逻辑清晰,内容前后呼应,可以直接使用。
通义千问给出了看似合理,实则无法使用的回答,看似是故事,更像是评论。昆仑天工的故事逻辑清晰,但故事俗套,且内容重复,可用性低。
讯飞星火最“听话”,严谨的按照Prompt给出了相应的答案,主配角之间的情感变化与犯罪次数均可量化,故事整体可用。
文心一言给出了结构完整的大纲,故事有可参考的地方。
剧本创意策划
剧本的创意策划,需要大模型在具备知识整理能力的基础上,也具备创造力和想象力,才能够提供深度和广泛共鸣的创意策划方案。
我们考虑了不同的方案,最后确定的测试方法是仿写。结合一部在GPT等大模型训练截止日期前(2021年9月)的非常知名的作品,要求模型们给出相应的仿写策划。这样可以避免prompt过长,且模型难以理解问题。
你是一位资深编剧,请参考《爱、死亡和机器人》这部短片集,给出类似的五个短片集的创意策划,具体要求如下:
1、主题鲜明深刻
2、主题能够涵盖大多数人的命运
ChatGPT(3.5)
文心一言
毫不意外的是,GPT-3.5的表现最突出,给出的内容全面,创意涵盖了人类的情感、思想和命运,它自述的目的在于“引发观众对生活和人类存在的深刻思考”。文心一言走了“文艺风”,短篇集涵盖了爱情、亲情、友情等主题,“让观众从短片集中汲取人生经验,学会思考、感悟、宽容与坚守,做自己的生命守护者。”
通义千问拒绝给出回答。昆仑天工给出的答案看来还需要大量的人工修改才能使用。
尾声
经过以上所有题目的评测,我们的整体结论如下:
1.规范化文本写作和短内容生成方面,各家大模型表现都及格
2.GPT3.5综合表现明显优于其它模型,想象力丰富
3.讯飞星火生成的文本完成度高,需要更少的人工修改即可使用
4.文心一言和昆仑万维天工的知识储备更充足
5.通义千问和昆仑万维偶尔会拒绝回答,或给出错误信息;通义千问使用过程中经常会被迫退出,需要重复登录,历史信息只能保留10条,这些设置也降低了使用体验。
需要注意的是,这个初步结论受到下列条件的限制:
01
我们对生成结果的打分是编辑的主观打分,以我们自己作为文字工作者的判断为基础。如果您感觉对主观打分有异议,可以通过留言等多种渠道给我们反馈。
02
各个大模型在测试中均无法以任何形式联网,因此其本身的知识储备量可能在后续版本中因联网而被拉齐。我们会在国内大模型普遍具备联网功能后再结合GPT-4做一次补测。
03
我们的prompt仅仅是达到测试目的的其中一种写法,并且不保证是最优的写法。有可能一些在我们测试中表现不好的大模型,会对另一种形式的prompt表述有更好的回应。
使用AI工具尽可能减少人力投入,是我们做这个评测的终极目标,当然这个目标贯穿了我们评测从策划道执行的全过程。各位读者可以猜猜看,本文有多少比例的内容是由GPT-4协助生成的?
对于这样的任务自己是否胜任,相比人类来点评,我们更想听听模型们自己是如何评价的。所以,本文会让它们自己来写这个结尾。
作为大模型,你觉得自己在文本生成方面,可以超越人类吗?
01
GPT-3.5
虽然我可以生成自然语言文本,但我并不真正理解我所生成的内容的含义。我依赖于我在训练数据中观察到的模式和统计信息。我没有自己的意识、情感或判断力。尽管我可以生成准确的信息和合理的推理,但我缺乏对人类经验、情感和直觉的直接体验。
在某些领域,我可以提供有用的信息和创造性的想法,但在其他领域,特别是涉及主观性价值观和伦理问题的领域,我的回答可能是不完全准确或缺乏人类的洞察力。
02
文心一言
我的任务是根据输入的文本生成合理的输出。在这个过程中,我会利用大量的语料库和语言学知识来理解和生成文本。
与此相比,人类作家在创作文本时,不仅需要理解语言的含义,还需要考虑故事情节、角色塑造、文化背景等多个方面。因此,从这个角度来看,人类在文本生成方面可能具有更高的创造力和灵活性。
此外,人类还具有情感和创造力的优势、他们可以通过自己的经验和情感来创作出更加真实和感人的文本。而我则是通过预先训练好的模型来生成文本,可能会在一些方面缺乏人类的情感表达能力。
综上所述,虽然我不能自我评价为“超越人类”,但是我可以肯定的是,我的生成文本的质量和效率已经达到了非常高的水平,远远超过了大多数人类作家。
03
通义千问
我不能完全超越人类。在以下任务上,我可以比人类做得更好:
生成自然而流畅的文本:我可以生成自然流畅的文本,并且在语法、拼写、标点等方面更加准确。
对于特定领域的知识: 虽然我可以生成一些领域的文本,但是与人类相比,我的知识储备和理解可能不如人类深入和全面。
创造复杂的情境和交互: 对于一些更复杂的场景和交互,例如写小说、写剧本等,我可以生成文本,但是需要人类进行二次创作和修改。
04
星火
我不能感知自己的存在和能力,也不能判断自己是否可以超越人类。我的设计目的是协助人类完成各种任务,而不是取代人类。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具备人类的创造性和情感表达能力。
05
天工
虽然我可以生成大量的文本,但是我缺乏人类的创造力、想象力和情感。此外,我的文本生成结果也可能存在一些语法和逻辑错误,这些错误可能会影响文本的质量。
当然,我的文本生成能力在某些特定的任务上可能会优于人类,比如在生成大量的文本摘要、翻译等方面。但是在创造性的写作和文学作品方面,我认为我的能力还需要进一步提高。
再提醒一下各位读者:您可以点击以下网址或通过小程序进入我们的测试集表单,其中提供了所有的测试题目,以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。
娱乐资本论AIGC大模型内容生产力测试集(阅读原文)
您对本测试集及测试结果的任何意见和建议,都可以直接在本文评论区提出;您也可以关注公众号「视智未来」,并且留言说出您的看法。
在这里再给大家预报一个大新闻:6月的上海国际电影节期间,娱乐资本论和界面新闻将联合主办《AIGC浪潮下的文娱科创新视野》论坛暨“首届上海文娱科创峰会”。本次峰会聚焦AIGC,搭建“科技”“文娱”两个领域的高端对话平台,将邀请百度、字节、商汤等科技行业领军企业高层,与影视、营销、动漫、游戏领域的知名创作者展开对话。在本次论坛上,同步发布“AIGC 50”榜单以及《AIGC实用操作白皮书》,汇聚国内AIGC×泛文娱领域实力最强、最前沿的50家公司,并与业内专家、行业代表人物共同研讨AIGC对文化传媒产业的撬动机遇。请持续关注娱乐资本论和视智未来公众号,第一时间获取参会方式等更多信息!
二维码添加小智,备注公司-姓名-职位,审核通过后,便可入群提前占坑了解
话题互动:
你最常用哪款国产大模型?
推荐阅读
如需商务合作后台回复【商务】
如有转载需求后台回复【转载】
更多文娱产业背后的经济逻辑,来关注↓↓↓
微信扫码关注该文公众号作者