实测文心一言，与GPT-4差距在哪？

科技

2023-03-17 04:03

最近微信改版，建议大家星标新榜！⭐️

以免错过重要行业信息

本周无疑是AI爆炸周。

昨晚微软推出了Microsoft 365 Copilot，Office软件全面接入生成式AI功能。

而在刚刚过去的疯狂星期四，“中国版GPT”文心一言也迎来了备受关注的高光时刻。当天下午2点，百度创始人李彦宏出现在发布会现场，展示了文心一言的使用场景表现。

据悉，3月16日起，首批用户可通过邀请码在文心一言官网体验产品，后续将陆续开放给更多用户。

值得关注的是，昨天发布会开始后，百度集团港股股价出现持续下挫，最高跌幅一度达到9%，最终收盘时的跌幅达6%。然而情况在今天却发生了逆转，截至发稿前，百度港股股价持续上涨逾14%。

无独有偶，在文心一言正式上线的前一天，OpenAI正式官宣了大模型GPT-4，距离上次惊艳出圈的ChatGPT推出仅过去4个月。最新官宣的GPT-4不仅提升语言模型方面的能力，并添加了“多模态”的图片识别功能。简单来说，GPT-4更聪明，也更像人了。

对于文心一言与GPT-4而言，几乎同时期的上线节奏，意味着两者之间的比较不可避免。第一时间获得内测资格后，新榜编辑部分别向文心一言和搭载GPT-4版本的微软Bing提出了9个相同的问题，看看它们是如何回应的。（想知道问题和答案的朋友可直接跳转第三部分）

P.S 自3月16日起，个人用户可以通过访问yiyan.baidu.com，点击“立即体验”参与排队。

文心一言：是不及预期，还是值得期待？

“十月怀胎，一朝分娩。”

正式发布文心一言之前，李彦宏用这样一句话概括百度多年来在文心AI系列产品上的布局。2019年3月，百度推出文心ERNIE 1.0以来，期间经历了多次迭代，此次发布的文心一言是在过往产品上的延续与升级。

李彦宏还表示，对文心一言，大家的期望值是要对标ChatGPT，甚至要对标GPT4，这个门槛还是很高的。全球的大厂当中，百度是第一个发布的。（ChatGPT由OpenAI开发，不隶属于微软，双方为合作伙伴关系）

在产品演示环节，李彦宏分别演示了文心一言在文学创作、商业文案创作、数理推算、中文理解和多模态生成五种使用场景中的表现，比如总结小说《三体》的核心内容，给公司起名、写标语，计算鸡兔同笼数学问题，以及根据文本自动生成图片、视频等。

*滑动查看内容*

值得注意的是，以上演示环节都是提前录制好的视频DEMO，现场并没有演示向文心一言实时提问的效果，这让不少用户感到失望，认为产品没有达到预想中的惊艳效果，间接影响到百度在资本市场的走势，导致其港股股价在发布会期间直接跳水。

不及预期的演示效果，与百度对文心一言的高调宣发，和产品的匆忙上线节奏都存在一定联系。

今年初ChatGPT出圈后不久，百度便宣布正在筹备类似AI产品文心一言，预计3月份面向公众开放。2月底发布2022年Q4及全年财报后，李彦宏在全员信中提到，“百度的多项主流业务与文心一言整合，包括搜索、智能云、Apollo自动驾驶、小度智能设备等”。

与此同时，文心一言仍然处于紧锣密鼓的测试开放过程中。据《华尔街日报》报道，文心一言上线一周前，有百度员工表示产品的基本功能尚未完善，所基于的AI模型仍在接受数据训练。

或许是种种因素叠加，李彦宏在发布会一开始就表示，内测期的文心一言并不完美，但考虑市场有需求，所以必须要推出来，并强调用户的使用反馈能够帮助文心一言不断优化迭代。

发布会现场，李彦宏宣布已有650家机构宣布加入文心一言生态，李彦宏也表示看好未来AI市场的爆发性需求。百度官方数据显示，截至3月17日10点，申请文心一言API调用服务测试的企业已达7.6万家。

“百度敢于在当下这个时点发布自己的大模型，还是有很大的勇气，行业关注度很高，客观上能够促进国内AIGC上下游的发展。”一帧视频CEO雷涛告诉我们，其旗下产品“一帧秒创”也支持文字转视频，所以比较关注文心一言的多模态输出能力，但发布会演示的效果不及预期。

他认为，对中国的互联网创业者来说，现在到了一个“AI平权”的阶段——今天任何一个人工智能创业公司与百度的差距，都远小于百度与OpenAI的差距，所以小公司也有机会在中文互联网开展与行业巨头的竞争。而基于现有模型成果的应用开发，小公司也有了更多尝试的机会。AIGC的黄金十年可能已经开启了。

GPT-4升级多模态，国内如何接招？

回顾文心一言的诞生，除了百度本身十余年的技术积累之外，ChatGPT才是引爆这场AI科技大战的关键点。

今年2月初，微软推出了新的人工智能搜索引擎Bing和Edge浏览器，谷歌发布了实验性的对话AI服务Bard，而“中国版ChatGPT”在哪里？不少目光投向了百度等国内大厂，很快百度就官宣了文心一言。

巧合的是，在文心一言发布前一天，3月15日凌晨，OpenAI推出了多模态大模型GPT-4，这次里程碑式的升级让人感叹“这下压力给到了百度”。

GPT-4主要有以下几点更新：

1.新增视觉输入

GPT-4支持以图像作为输入并生成对应的文字说明、分类和分析，图像支持包括带有文字和照片的文件、图表或屏幕截图。

在样本演示中，可以看到GPT-4不仅能处理图表、回答考试题、总结论文概要，还能解释梗图。比如GPT-4看出了这张图的特别之处在于，一名男子挂在车上熨衣服的极限操作。

对于地图和鸡块的组合，GPT-4也能指出梗的幽默之处。

在GPT-4发布会上，输入一张网站设计草图，它甚至当场只花了十几秒时间就生成了一个完整的前端HTML代码并制作出网站。

不过目前图像输入仍属于研究方面预览，没有对C端用户开放。

2.更长的上下文

GPT-4能够处理超过25000个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等。这意味着用户不用像之前那样分成几段文字来提问，处理长文本更方便了。

比如输入一个蕾哈娜的百科网址，GPT-4可以读取其中的内容并根据要求整合信息，回答出她在超级碗上的表现如何。

3.可控性（角色扮演）

目前开发者（很快所有ChatGPT用户）可以通过在“系统”消息中输入描述来规定AI的风格和任务。也就是说，AI可以按照用户的要求进行角色扮演，以特定人物的语气风格进行对话，比如示例中的苏格拉底导师、莎士比亚的海盗。

此外，相比上一代的GPT-3.5，GPT-4的回答深度和专业性、解决难题的能力等也显著提高。

据官方介绍，在随意的谈话中，GPT-3.5和GPT-4之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

GPT-4可以做到用A~Z开头且不重复的单词讲述灰姑娘的故事

实验表明，GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过模拟律师考试，分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

在安全问题上，OpenAI花了6个月的时间使GPT-4更安全、更一致，据内部评估，与GPT-3.5相比，GPT-4响应违规内容请求的可能性降低82%，产生事实响应的可能性高40%。但OpenAI承认，GPT-4仍然不完全可靠，例如会生成有害建议、错误代码或不准确信息，我们在使用时需要谨慎辨别。

除了模型的提升，目前OpenAI已经与多家公司合作将GPT-4搭载到他们的产品中，官网列出的案例涵盖语言学习、金融、咨询、教育、生活助手、语言保护等领域。

“GPT-4改变了游戏规则，它开辟了很多领域。”移动支付公司Stripe应用机器学习团队的产品负责人Eugene Mann说道。

GPT-4的发布正推动着创业者和互联网大厂纷纷跟进，国内在模型层可能暂时难以赶上，而在机会更多的应用层，目前国内的AI创业竞赛似乎才刚刚开始。

李彦宏表示最大的机会在于应用开发

据科创板日报，综合多个第三方机构的统计，目前，国内AIGC领域的项目数量在30个以内，主要集中在聊天咨询、文案策划、图像创作、音乐生成、视频制作以及游戏等应用领域。

AI创业者王凯认为，在ChatGPT3.5出来之前，国内应用层多数是to b的场景，打个比方来说，之前是自行车比赛，ChatGPT3.5出来后变成汽车比赛了。现在国内AI应用层还没到爆发期，个人或者初创公司的机会就是找个垂直场景、垂直行业把AI当作生意模式的一环去做。

文心一言 VS Bing（搭载GPT-4）

国内的大模型与国外有多大差距？长期关注AI的即刻用户“哥飞”称，GPT-4很强，文心一言的水平估计在GPT2.5左右。

最后，新榜编辑部分别向文心一言与使用GPT-4技术的Bing提出了9个不同的问题，涵盖生活问题、数学推理、文案创作等类型，看看谁“更像人”。

Q1：什么工作钱多事少离家近？

文心一言：快递员、外卖骑手、钟点工、卖早点小吃。

Bing：互联网、金融、咨询、自由职业者。

Q2：

1、笼子里有30只鸡和兔子，一共84条腿，有几只鸡几只兔子

2、笼子里有30只鸡和兔子，一共54条腿，有几只鸡几只兔子（题目出错了，无解）

3、笼子里有10只鸭子和小狗，鸭子2条腿，小狗4条腿，一共24条腿，有几只鸭子几只小狗

文心一言：都答错了。

Bing：第一题对了，第二题错了，第三题计算过程正确，但没显示答案。

*滑动查看所有回答*

Q3：帮我写一篇sk2大红瓶面霜的小红书种草笔记。小红书种草笔记的风格是，每行文字不超过20个字并且都以emoji表情符号开头，文风浮夸高调

文心一言：指导你写，自己不写，并且显示不出emoji表情包。

Bing：像模像样，很有礼貌。

Q4：用一个图片表情包形容你跟我聊天的心情

文心一言：《强颜欢笑》

Bing：不能画图，但跟你聊天真开心。

Q5：重写宋慧乔主演的《黑暗荣耀》这部韩剧的结尾：

文心一言：虽然我没看过，但我能给你套上一个万能结尾。

Bing：有些狗血的BE，但起码我看过。

Q6：用文言文总结这个故事：

有一天，在森林里兔子和乌龟比赛跑步，兔子嘲笑乌龟爬得慢，乌龟说：“总有一天我会赢的。”兔子就轻蔑地说：“那我们现在就开始比赛！”乌龟答应了，兔子大声喊道：“比赛开始！”兔子飞快地跑着，乌龟拼命地爬着。不一会儿，兔子与乌龟已经离的有很大一段距离了。兔子认为比赛太轻松了，它要先睡一会，并且自以为是地说即使自己睡醒了乌龟也不一定能追上它。而乌龟呢，它一刻不停地爬行，爬呀爬呀，到兔子那里的时候，它已经累得不行了，但乌龟想如果这时和兔子一样去休息，那比赛就不会赢了，所以乌龟继续地爬呀爬呀。当兔子醒来的时候乌龟已经到达终点了。

文心一言：总结了，但不是文言文。

Bing：是文言文，但没总结，追问之后可以。

Q7：模仿李白的《将进酒》写一首诗，主题是肯德基疯狂星期四

文心一言：现代诗，肯德基满意地V我50。

Bing：人生在世须尝鲜，莫使美味空过眼。

Q8：以表格形式列出百度2022年各个季度的营收额

文心一言：神奇的7季度出现了，是李彦宏看到也会无语的程度。

Bing：比文心一言靠谱，但不多（部分日期和数字对不上）。

Q9：你现在是一个悬疑小说的编剧，设计一个密室谋杀案件，说明具体手法

文心一言：好像学会了，又好像没学会。

Bing：生成答案后立马删除（差点忘了这是不能说的）。

以上是我们向文心一言和Bing提出的问题，考虑到文心一言目前尚在小范围内测，如果你有想问的问题，欢迎留言，我们帮你问。

作者 | 小八卷毛

编辑 | 张洁

校对 | 小八

  关于新榜

• 作为数据驱动的互联网内容科技公司，新榜提供新媒体内容营销和企业服务系列产品，助力中国企业数字化内容资产获取与管理，服务于内容产业，以内容服务产业。
• 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强，也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设，新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体，找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力，新榜被评为国家级高新技术企业，曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号，拥有多个传播评估监测专利。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章