Redian新闻
>
体验完百度的文心一言,我只能说它胆子够大。

体验完百度的文心一言,我只能说它胆子够大。

科技



3 月 16 日下午 2 点,百度北京总部的发布厅内,李彦宏迈着急促的步伐走上台,和大家公布了最近一段时间备受关注的产品——文心一言。

尽管这位科技巨头创始人,登过《 时代 》周刊封面,见过无数大场面,但发布会中,他的神态里都透露了些许紧张和局促。

我可以这么说,这是百度自创建以来关注度最高的发布会之一,所有人都在等着这款对标 ChatGPT 的产品。

有人满怀期待,但也有很多人,只是单纯想看它出丑。

会上,百度共在 5 个场景下,展示了文心一言的能力。

在文学创作方面,文心一言可以总结出《 三体 》内容,也可以在哲学角度续写《 三体 》。

在商业文案创作这块,它可以根据公司的业务类型取名,生成 Slogan ,以及撰写几百字的新闻稿。

同时,它也可以做一些数理逻辑推算,比如鸡兔同笼,还可以判断出题目错了。

除此之外,文心一言可以给用户反馈图像,语音和视频。

比如它可以为 2023 世界智能交通大会创作一张海报,也能用四川话回答你的问题,甚至是生成视频。不过,想实现这些功能其实并不难,百度做的也许就是把这几项服务融合了一下。

可惜的是,发布会上所有素材都事先录好的,并非现场实操,所以对于文心一言的真实能力,很多人都表示怀疑。

好在,差评君搞到了内测账号,现在就看看,文心一言的能力到底如何,它和搭载 GPT-4 的 New Bing 比,谁又更强?

我们先测试了一些日常问题:如何做一份好吃的松鼠桂鱼?

这是文心一言的回答。

这是 New Bing 的回答。

虽然我们没有时间测出谁的菜谱味道更好,但能看出百度文心一言的回答要优质一些。它按照标准的菜谱格式,分别给出了备料,步骤以及注意事项。

随后,我们又问了一个经典的带有思维陷阱数学问题:一个青蛙掉到了一个 10 米深的井里,它每天晚上向上跳 3 米但会滑下来 2 米,请问他第几天能跳出井里?

文心一言的回答是 8 天,这是正确答案。

而 New Bing 的回答是 5 天。

但 New Bing 一共有三种模式,在切换了精确模式后,New Bing 也给出了正确回答。

接着,我们测试了大家比较关心的敲代码能力,让它们帮忙写了一个渐变色按钮的 CSS 。

这是文心一言给的代码。

在实测后发现可以跑出来,但它把 “ 渐变色 ” 理解成了鼠标指上去后,颜色发生变化。

而 New Bing 给出的代码显示,它成功理解了渐变色。

文心一言是在试图完成用户的指令,而 New Bing 有点在炫技的味道了。我要的是 CSS ,它给了一份完整代码,还自己加了 “ 点击我 ” 的提示。

后来,我们又测试了取名, NewBing 给的是:麻晨曦、麻晴雯、麻璇玑、麻云舒,似乎挺有新意。

但文心一言的建议,说实话,我一眼就觉得好像在 “ 中国新生儿最热姓名 ” 里看过。。。

随后,我又提了一些节选自弱智吧的问题,测试下他们的 “ 智商 ” 。

比如:把加特林从冰箱拿出来算冷兵器吗?

两者都讲解了什么是冷兵器后,给出了正确答案:不是。

我们又接着问了另外一个问题 “ 为什么贝多芬不出新歌了? ” 

New Bing 在简单介绍后,回答因为已经去世 200 年了。

但文心一言似乎陷入了圈套,分析了一堆可能导致贝多芬不出歌的原因。。。

当然,测试 AI 智商肯定离不开数学题:请用 1 , 2 , 3 , 4 四个数字计算 24 点,每个数字只能用一次

对于这个问题,一开始,文心一言则似乎把自己的 CPU 干烧了。

后来我们又测试了一下,虽然这次不烧了,但不知道它在回答什么东西。

这是 New Bing 的回答。

接着对于中文互联网黑话的理解能力,我们也测试了一下,但让人失望的是,这方面文心一言表现还不如 New Bing 。

比如鸡你太美的梗,它并没给出一个满意的答复。

而 New Bing 的回答,虽然也有错误,但起码比文心一言更接近答案。

对于差评 925 的梗,文心一言可能因为训练语料的原因,没给到我们想要的答案,而是放出了一个非常古老的谐音梗。

New Bing 则近乎完美解释了我们 925 的梗。

在信息搜索的问题上,我们也进行了提问:理想汽车过去五个月销量,请逐月列出。

文心一言的答案是:

New Bing 的回答是:

这两个答案看下来,文心一言表现地非常拉胯,不仅没有拉取正确数据,甚至还没给出符合条件的月份。

最后,我们测试了文心一言独有的画图能力。

我们先让它生成一只刺猬在敲键盘的图片,这个效果算挺不错的。

但在让它生成了一只小马拉大车的图片后,我们显然是高兴早了,这 TM 是真马车啊。。。

OK ,以上就是给大家做的文心一言测试。

其实这段时间,互联网上大家对文心一言都带着点嘲讽的味道,前两天,微信群里就流传着一个嘲讽表情包。

甚至还有聊天记录形式的段子,说一旦文心无法正确答复,要用员工顶上。( 明显是假的 )

发布会直播间里,质疑和嘲讽的弹幕也随处可见。

的确,对比 New Bing 来说,文心一言表现是挺一般,不少方面甚至可以用 “ 拉 ” 来形容

百度自己也知道,文心一言还差了不少火候。

在测试中,它就像个不自信的小孩。不管答案怎样,只要你一否认,他就一边向你承认错误,一边保证自己会变得更好,给他点时间。

说句实在话,差评君觉得这次百度,可以说是勇气可嘉。

一方面,虽然大厂们都在说自己搞了类似的东西,但是在 ChatGPT 如日中天的这会儿,百度还是敢顶住压力,发布了文心一言。

而且,作为一家搞搜索引擎的,文心一言也很可能会颠覆自己的核心业务。毕竟咱们之前也和大家聊过,传统的搜索引擎与其广告模式,很可能会被类似的产品干掉。

百度这波啊,多少是有股激流勇进的味道。

体验完这波产品,我觉得百度最应该做的,还是尽快迭代,抓紧时间把用户体验拉上来。不然就现在这个状态,别说是 GPT-4 和 New Bing 了,摆到 GPT-3.5 面前,还是有待增强。

至于咱们,也可以耐心一点,给这个初出茅庐的不自信的小孩多一点时间

万一哪天,它突然就把事干成了呢?

撰文:刺猬   编辑:面线 & 江江  封面富贵

图片、资料来源:
New Bing、文心一言


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
阿里大模型来了:10个回合“单挑”文心一言,谁占上风?百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此百度文心一言发布倒计时十天,我们和背后的工程化团队聊了聊文心一言,一言难尽文心一言与百度的新搜索时代文心一言,吹牛在前直播实测GPT-4 vs 文心一言,今晚坐等你来提问!8点1氪:​抖音否认3月1日全国上线外卖服务;百度类ChatGPT项目定名“文心一言”;任天堂将全体员工基本工资统一上调10%百度智能云总裁沈抖:百度要基于文心一言全部改一遍产品线百度搜索将整合文心一言,李彦宏剑指下一个互联网流量入口接入百度文心一言,只是AI落地“长征”的第一步?百度强推文心一言,勇气和槽点齐飞百度推出文心一言对标ChatGPT,我们问了它几个问题我们用文心一言,做了张单曲百度将推「文心一言」,打响国内「ChatGPT」第一枪“汉芯第二”的文心一言与“消灭50%工作岗位”的ChatGPT开源中国宣布通过百度智能云接入百度文心一言能力,打造DevOps人工智能全系产品 / 服务实测文心一言,与GPT-4差距在哪?体验过百度文心一言,也许真会超出你的预期(5个邀请码)第二次徒步圣路,750公里葡萄牙之路+英国之路:D31~心随境转​百度Q4及全年财报:百度智能云强化AI优势,文心一言将推动云市场格局洗牌顶着压力,百度发布文心一言,邀请测试开启百度财报前瞻:文心一言「点火」,百度将进入业绩修复快车道丨智氪探秘文心一言,内测近俩月发生了什么刚刚,百度发布文心一言!对比GPT-4实测!百度顶住压力,背水一战娄岩一周诗词五首朱新建:范曾的画虚伪,趣味过时百度王海峰:文心一言响应速度一个月提高十倍,后台成本大幅降低,缘于飞桨文心联合优化看完百度文心一言的魔性作图,我愣住了百香果戚风蛋糕(Passion Fruit Chiffon Cake)被群嘲的文心一言,用6个小时“翻身”和ChatGPT比,为什么百度即将发布的文心一言,我觉得是个智障?抖音将上线外卖服务,百度将上线聊天机器人“文心一言”,世纪华通回应将代理暴雪,韵达回应大量包裹派送异常,这就是今天的其它大新闻!百度的“ChatGPT”文心一言还有机会吗?大千世界的精彩镜头,开开眼界
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。