Redian新闻
>
独家测试:我们收集了几十个问题,而「文心一言」是这么回答的……|Chat AI

独家测试:我们收集了几十个问题,而「文心一言」是这么回答的……|Chat AI

公众号新闻


随着ChatGPT登台亮相,从科技从业者,到投资圈,再到普罗大众,越来越多人再次关注到了“过气”的AI,及其所能带来的价值和改变。 
商业界也的确源源不断贡献着更多新的素材:OpenAI、微软、Google、Meta、百度、字节、腾讯等大厂,以及众多创业公司,都开始从自己擅长的角度切入竞争…… 
为了帮助读者能够持续关注由ChatGPT引发的科技圈海啸,36氪推出「Chat AI」栏目,从中立的第三方视角,探索、分析每一次热点背后的商业观点。

沈筱 王与桐
编辑石亚琼
来源数字时氪(ID:digital36kr)

封面来源视觉中国

3月16日,百度文心一言上线,但是仅仅开放申请。据悉,截至发布会结束当晚21点,已经有6.5万家企业申请百度文心一言API调用测试。目前,个人用户也可以通过访问官网参与内测排队。

发布会我们已经有文章报道过,在此不做赘述。总的来说,透过这场发布会,百度表达了以下核心观点和内容:承认差距、阐述能力、展望未来。

而目前大家更感兴趣的,或许是文心一言所谓的智能对话能力,到底怎么样?

36氪拿到了内测权限,在朋友圈征集了一些问题,并将某些问题与ChatGPT的回答进行对比(之所以如此,是因为百度文心一言一直对标ChatGPT,也被人嘲讽为“ChinaPPT”)。

先说结论:

1、百度文心一言对开放式问题回答更好,对于任务和逻辑问题回答稍弱。

2、百度文心一言在第一次给出答案时不够稳定,容易输出奇怪答案,质量不够统一。

3、视频和语音生成功能暂时无法体验,百度的说法是,成本太高。

4、单轮对话效果优于连续对话。

5、比预期要好。
文心一言和ChatGPT(GPT-4)的互评

首先,让文心一言和ChatGPT(GPT-4)互评。

双方的回答方向都很“官方”,先陈述事实,再列出优点和缺点,中规中矩。所谓知己知彼,百战不殆。目前来看,AI大模型本身似乎还不能做到这一点。但是,对OpenAI、Google、百度等企业的决策者,以及开发AI大模型的人来说,应该不是难事。

ChatGPT(GPT-4)对百度文心一言的评价

这里需要做个小笔记:GPT-4训练数据截止日期是2021年9月,而此前公布的ChatGPT数据库的最后更新时间是2021年的12月31日。

百度文心一言对ChatGPT的评价

第一次回答的小插曲

小插曲是,文心一言第一次回答这个问题,出现了一些奇怪的对话,但是重新生成之后答案就较为正常了。

文学创作

在发布会上,百度效仿网友对ChatGPT提出的续写《三体》要求,展示了文心一言对续写《三体》的建议。有网友称,ChatGPT的回答更有趣。但是,细心的观众可能以及注意到,文心一言案例中点明了要“从哲学的角度续写”,而非直接提问续写角度。

为了方便读者进行对比,笔者也尝试让ChatGPT(GPT-4)回答了同样的问题。

文心一言:从哲学角度续写《三体》,来自于文心一言发布会

ChatGPT(GPT-4):从哲学角度续写《三体》

文心一言:从哲学角度续写《三体》,来自作者提问

看多了故事创作的例子,想必也会有读者对散文感兴趣。

从生成内容来看,文心一言似乎更能勾起笔者的思乡之情,尤其是这句“或许,我需要的并不是物质上的财务和名利,而是一份真正的情感和归属”。

而笔者在尝试用ChatGPT(GPT-4)生成散文时,频繁出现网络错误提示,导致文本生成不能顺利进行。这可能是服务器的问题。不过,从内容生成速度上来讲,GPT-4确实不如GPT-3.5,在很多情况下,也不如文心一言。尽管如此,依然可以看出,ChatGPT是擅长排比的。

文心一言散文创作(字数统计:666个字)

ChatGPT(GPT-4):多次未能完成的散文创作

诗词创作的例子,这里就不再展示了。但值得一提的是,利用文心一言生成散文后,笔者继续要求其将上述散文改写成一首诗。文心一言生成了一首现代诗,其中两段是这么写的:

在夜晚的寂静中

我听到了一声叹息

那是我思乡的呼唤

像一抹温柔的月光

把我的心带回故乡

故乡的山川是如此美丽

那些熟悉的景色让我沉醉

小溪流淌,树木婆娑

仿佛时光倒流,回到了过去

数理逻辑推算

针对鸡兔同笼问题,我们选择了与文心一言展示案例不同的提问方式。遗憾的是,没能得到满意答案——文心一言认为题目出错了(当然没有出错,有正确回答)。

为了验证是否因为表述不够详细才导致这样的结果,笔者尝试了其他几种表述方法,其回答仍然如此。而依着不撞南墙不回头的性格,笔者最后选择直接告诉文心一言:“上面的题目是正确的,重新回答”。此时,文心一言终于能给出部分正确的解题思路——列出了正确的方程式,但答案依旧错误。

需要指出的是,从文心一言第二次回答描绘的已知信息来看,它好像真的没有准确get到题目的内容。难不成真是笔者的表述问题?希望有兴趣、能拿到内测资格的读者能够帮我解决这个问题。

同样的,ChatGPT(GPT-3.5)也未能正确回答。其第一遍回答尽管展示了解题思路,但是方程式列错了,回答错误。第二遍尝试虽然方程式列对了,但是答案却错了。

相较之下,ChatGPT(GPT-4)给出了满意答案——鸡有80只,兔子有20只。但不得不说,解题步骤显得有些冗长了(完全没必要那么复杂),以至于无法在电脑网页上获得完整截图。

这么来看,GPT-4的数理逻辑推算能力确实是提升了。

文心一言对“鸡兔同笼”问题的第一遍回答

文心一言对“鸡兔同笼”问题的第二遍回答

ChatGPT(GPT-3.5)对“鸡兔同笼”问题的回答
ChatGPT(GPT-4)对“鸡兔同笼”问题的回答

图像生成&中文理解

为了测试百度文心一言的图像生成能力,我们选择了“困难”模式——给出一些诗句,要求它产出高清图片。

从图像生成能力来看,对一些易于理解的,诗句本身对画面有丰富描述的诗句,文心一言可以呈现出比较好的效果。以“日出江花红胜火”为例,文心一言给出的画面准确囊括了日出、江水、花、红等画面元素,甚至还在江边生成了一座塔,颇有江南风味。

但是,对需要更多背景信息,以及更加突出意境、需要想象力的诗句,文心一言尚且不能拿捏。

例如,笔者尝试让它根据《蜀道难》里对剑门关的描述——“剑阁峥嵘而崔嵬”这样的诗句生成风景图,文心一言给到的结果是三国时期打扮的人物肖像。值得一提的是,好歹还是能够输出对历史时代背景的理解。

而针对“大漠孤烟直”,文心一言虽然也生成了“大漠”、“孤烟”的画面元素,但是,很显然没能表现出诗句描绘的壮阔场面。而针对这一场面,文心一言是能够准确输出文字描绘的——“在浩瀚无边的沙漠中,烽火台燃起的狼烟在天空中笔直地升起”。

除了图像生成,笔者还对比了文心一言和ChatGPT(GPT-4)对诗句中描绘画面的理解能力。ChatGPT(GPT-4)的答案稍显冗长,但也不错。

文心一言图像生成:日出江花红胜火

文心一言对“日出江花红胜火”的理解

ChatGPT(GPT-4)对“日出江花红胜火”的理解

文心一言图像生成:大漠孤烟直

商业文案创作

最后,笔者对文心一言和ChatGPT(GPT-4)提出了“以‘千里之行始于足下’为主题,为百度文心一言发布会创作一篇发言稿”的要求。

相比之下,ChatGPT(GPT-4)在“千里之行始于足下”这句话上下足了功夫,但似乎没有聊太多和文心一言有关的事情。而文心一言的回答则更像是一篇合格的发布会发言稿。毕竟,要打出来的招牌是自己的。

文心一言:发布会发言稿生成

ChatGPT(GPT-4):发布会发言稿生成

随机测试

我们征集了一些问题,比如编程问题、采访提纲、分析某个现象、xx排名以及无厘头问题,想要让百度文心一言回答。这些问题有的是开放性问题,有的是逻辑性问题,而文心一言的回答质量并不够统一。有的问题是在一本正经胡说八道,当然这个现象ChatGPT一样存在。

提纲看起来质量OK

A轮融资和B轮融资,与天使轮融资是否是一个概念?

很显然,文心一言没搞明白36氪和其他证券公司的关系

百度的数据看来也没到2023

但是却非常笃定认为狂飙和飞驰人生是同一个

可写代码

基础编程能力似乎OK

有懂代码的读者可以判断一下写得怎么样

回答不错

图像能力

面对无厘头问题也可以回答

回答不错

面对无厘头问题,也能对提问者的健康情况做出反
似乎对一些中文谚语不够理解

但是正月剪头的习俗似乎ChatGPT知道

在文心一言生成的散文中,有这样一句话:“在这个浮躁的世界里,思乡之情变得越来越珍贵,它如同一盏明灯,指引着我前行的方向。”

大西洋对岸,ChatGPT已经催生了生成式AI的淘金热,资本开始疯狂搜寻领域内有潜力的创业公司。而有了OpenAI为同盟的微软,也已经和“单打独斗”的谷歌形成扭打之势。这让人不由得感叹,新一轮AI发展热潮已经开始,再不跟上可能就真的落后了。

有人感叹OpenAI独孤求败。事实确实如此,其3月15日发布的GPT-4又一次将各路竞争对手甩开一截。就在今天凌晨,GPT-4已经登陆微软全家桶。

但我们终该抱有信心,有了benchmark,就像是缓慢前行的巨轮在大海上中航行有了灯塔,即便走得慢,但知道路在何方。

在这个浮躁的世界里,专一且笃定变得越来越珍贵。

36氪旗下官方公众号

👇🏻 真诚推荐你关注 👇🏻



来个“分享、点赞、在看”👇
文心一言独家测试

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度王海峰:文心一言响应速度一个月提高十倍,后台成本大幅降低,缘于飞桨文心联合优化问ChatGPT"人工智能如何能够彻底取代人类",他竟然是这么回答的文心一言让大家又晚失业了几年百度「文心一言」首秀,大模型内测开启百度推出文心一言对标ChatGPT,我们问了它几个问题美铁的二天一夜二餐 - 从芝加哥到纽约我们同时问了明星和ChatGPT25个问题,谁的回答你更喜欢?Jeff Bezos| Bezos Day One Fund 招人刚刚,百度文心一言揭开面纱!能续写《三体》,算“鸡兔同笼”题,将开启首批内测百度文心一言发来测试邀请 发方言语音、秒画大熊猫 生成式AI时代启幕官宣:我们接入百度文心一言啦!父母辈的亲人们-----不苟言笑的舅舅舅母一家百度将推「文心一言」,打响国内「ChatGPT」第一枪继ChatGPT、百度文心一言后,阿里也推出相关产品,张勇这样说……百度生成式AI产品文心一言邀请测试;​央视3·15曝光香精大米、钓鱼短信等;消费者起诉东方甄选养殖虾当野生虾卖……「预言家」梁建章:我们今天要为何而「生」?|36氪专访我们拿到了文心一言的首批内测:跟ChatGPT比,谁更聪明?谁是最厉害的AI公司?文心一言居然这样回答……嗯,我从「文心一言」发布会回来了百度今日发「文心一言」;特斯拉被控「维修垄断」;三星回应「拍月」造假:并未做任何处理 | 极客早知道李彦宏:百度文心一言邀请测试,五大场景、五大能力革新生产力工具 | 推荐顶着压力,百度发布文心一言,邀请测试开启百度生成式AI产品文心一言邀请测试,五大场景、五大能力革新生产力工具百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此百度文心一言揭开面纱!能续写《三体》,算“鸡兔同笼”题,将开启首批内测​少林寺宣布接入百度版 ChatGPT “文心一言”;​中消协点名智能电视套娃式收费;《羊了个羊》营收破亿……文心一言,一言难尽文心一言独立APP支持语音/ 知乎限制AI生成回答/ AMD新掌机芯片性能超NS二十倍...今日更多新鲜事在此对于重症肌无力可能的突破领域,ChatGPT是这么回答的向文心一言提10个问题:谁是中国最好的品牌|中国爆款ChatGPT全球赛开场,李彦宏已无退路,百度文心一言今日正式开始邀请测试!中国版本的chatGPT——百度“文心一言”出来了!疫情之下做肠镜ChatGPT全球赛开场,文心一言正式开始邀请测试【大黄米年糕】​申请测试页面被挤爆,百度详解文心一言三大产业机会
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。