Redian新闻
>
一期针对ChatGPT的全面测评:涵盖功能、性能、用户体验 |InfoQ测评室

一期针对ChatGPT的全面测评:涵盖功能、性能、用户体验 |InfoQ测评室

科技

作者 | InfoQ 编辑部  

从去年底至今,由 OpenAI 发布的大规模语言模型 ChatGPT 引发了几乎所有科技领域从业者的高度关注。根据瑞银集团的一份报告,截止 2023 年 1 月末,ChatGPT 仅推出 2 个月,月活用户就突破了 1 亿。

有人将 ChatGPT 称为“最强 AI”,原因在于 ChatGPT 给出的回答反应了它更接近人的思考方式和回答方式,相比过去增强了适应情景的能力。ChatGPT“更接近人的思考方式”也意味着 AI 语言模型的发展由量变走到了质变。

此外,ChatGPT 的大火带涨了 AI 概念股,让业内重新审视了 AI 行业巨大的发展机会。随后,搜索引擎的大战开始了,谷歌 CEO Sundar Pichai 在官方博客上宣布推出谷歌下一代 AI 对话系统 Bard,以此应对 ChatGPT;百度宣布将推出类似 ChatGPT 的产品——文心一言(英文名 ERNIE Bot)将在三月份完成内测,面向公众开放;微软公布了自家搜索引擎 Bing 最新版本,其采用的底层 AI 技术正是 ChatGPT,同时微软还为 Edge 浏览器添加了新的 AI 增强功能,承诺带来前所未有的网络浏览与在线信息查找体验。

为便于各方全面多维了解 ChatGPT 能力,InfoQ 测评室参考中国信息通信研究院联合中国人工智能 产业发展联盟相关标准中的指标要求和评估方法,从功能、性能、用户体验等方面对 ChatGPT 进行了评估,我们一起看看这款应用是不是真如传说中那么强悍吧。

第一部分:基础功能验证
1. 自然语言输入

该部分主要测试了中文、俄语、日语、英语以及网络用语的识别情况,并从中考察 ChatGPT 的上下文联系能力。

结论:总体来说,ChatGPT 应对简单问题的上下文是连贯的,可以理解用户上文所提的问题和下文的补充问答,整体的交互过程是流畅的。但是,其对语言理解的鲁棒性可能没有想象中那么强。一旦掺杂网络用语、口语或者省略一些句子的关键成分,ChatGPT 的理解就可能出现问题。

2. 机器语言输入

鸡兔同笼是非常经典的一道基础编程题,逻辑相对简单。该部分主要希望通过一道基础编程题测试 ChatGPT 在不同编程语言之间切换是否顺畅,以及代码格式、逻辑、注释能力是否具备。

结论:高峰时间段测试容易出现识别错误,低峰测试时代码时准确可运行的。在这个过程中,只要 ChatGPT 对问题的理解没问题,基本就是可行的。对于不明确表达诉求的句子(例如:“我更喜欢 Java” 而不是“帮我切换至 Java 语言”)也可以很好理解。对于一个人工智能助手,ChatGPT 不主动给出判断,只给出建议。如果是复杂的业务开发,需要考虑合适的提问方式,最后给出的代码经过一些调整是可以应用的。

第二部分:基础性能测试

该部分并不是进行压力测试(实际测评过程中多次出现故障,可能是网络原因,也可能是访问流量过大,具体原因不得而知),而是通过一些需要进行大量检索和运算的问题来测试 ChatGPT 在百科检索、数学问答、文学交流、知识推理等方面的能力。

1. 百科检索

结论:针对常规检索就能得到答案的问题,ChatGPT 的回答还是比较全面的。当将 ChatGPT 作为一个实际的“人”来对话时,其给出的答案比强行拟人的效果要好很多。

2. 数学问答

结论:与部分网友之前给出的结论“ChatGPT 是理科生”相似。对于复杂的数学问题,ChatGPT 无法很好地理解题目并完成推理过程。当受到质疑时,ChatGPT 的认错速度极快,认错态度很好,并且分析了错误原因,但是并没有改正错误。

3. 文学交流

结论:相比于数学问答,ChatGPT 在文科上的表现更胜一筹。但是,用户需要认真甄别给出的答案,部分答案看似合理实则离谱,并且有时会给出一些看似“真实”的内容来源链接,但大部分打开后显示内容不存在。

4. 知识推理

结论:对于已经确定的事实和还不确定的理论猜测都有提及,回答相当充分且主次合理、条理清晰,这也是生成式 AI 很重要的特征。

第三部分:用户体验

结论:面对开放性问题,ChatGPT 给出的答案可以给大家带来更多参考价值,但无法作为标准答案直接采纳,趣味性略低。

总体结论

功能体验层面:基本功能都具备,逻辑性强,可以给出看似正确且合理的答案,但对于既定内容的搜索并不能完全保证内容可靠,需要提问者自行判断。目前来看,如果将其与搜索引擎结合,还是需要解决很多问题的。

虽然 ChatGPT 的对话能力来自于 RLHF,即从人类反馈中强化学习,这种模式可能会牺牲上下文学习的能力来换取建模对话历史和增加对话信息量,但实际的体验过程发现简单的多轮对话应对起来还是比较容易的。

在数学问答方面,直接将整个问题(我相信这是大部分用户希望的做法)丢给 ChatGPT,大概率是不会得到正确的答案,但可以将问题拆解成单个小问题,逐层引导 ChatGPT 回答,这种模式会更有助于得到真实的答案。

使用场景层面:目前,已经有一些开发者通过 ChatGPT 来编写简单的代码,但还无法直接处理复杂业务场景下的代码,这可能需要开发者优化提问的方式,将复杂的问题拆解成一个个简单的问题,引导式提问。

在企业级应用层面,已经有一些企业将 ChatGPT 的能力整合到 BI、数据库等系统,用户可以通过自然语言提问获得相关的答案。

此外,目前通过 ChatGPT 生成一些机器可懂的高级词汇,再通过一些文生图的软件生成想要的图片,最终的结果会比直接与文生图软件对话的要优质。

其他需注意事项:在高峰时间段(上午 10:00 到下午 17:00)测试时,ChatGPT 给出错误答案的概率更高;ChatGPT 本质还是 AIGC,更适合便创作类的内容,对于既定事实内容的搜索能力还有待提高。

今日好文推荐

97.5%的技术老大对涨薪这事儿比较乐观|InfoQ 研究中心联合TGO 鲲鹏会发布《中国科技领导者画像研究报告 2023》

被ChatGPT带热的最新技术岗:无需编码,年薪超200万

腾讯QQ空间技术总监、47岁T13级前端专家被裁;GPT-4下周发布,支持视频、更具颠覆性;我国拟组建国家数据局 | Q资讯

马斯克被Twitter脆弱的代码“逼疯”,要求全部重写!网友:重构是空降领导了解当前系统最快的方式?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
关于恢复十年签证的请愿科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师马云现身杭州29秒视频曝光,打脸外媒,发表对ChatGPT的看法很多人担心被ChatGPT取代,我们关心ChatGPT的歧视与遮蔽澳洲处方药降价详解:涵盖哪些药?哪些人受益?何时实施?7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试ChatGPT大更新!联网/插件功能无需排队,Plus用户下周即可体验2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载ChatGPT现象级爆红,音乐APP如何用AIGC颠覆用户体验?InfoQ 2023 年趋势报告:事件驱动架构、深度学习和人工智能、云原生架构和容器化技术人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙97.5%的技术老大对涨薪这事儿比较乐观|InfoQ 研究中心联合TGO 鲲鹏会发布《中国科技领导者画像研究报告 2023》为了全面测评小绿粉,我们每天狂吃5款保健品性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻对ChatGPT的焦虑,可能是人类存在主义的忧伤ChatGPT引领AIGC!Lehigh最新《AI生成内容》全面综述,44页详述GAN到ChatGPT发展历程ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!​美国多所大学针对Chat GPT上线防作弊工具,猫鼠游戏开始?金沙江创投朱啸虎:放弃对ChatGPT的融资幻想,这个赛道更值得期待ChatGPT全新功能公开演示!OpenAI总裁:ChatGPT会重新定义计算机(全文记录)毛家儿女下农村邓家子女走后门集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布22~23岁末年初出行记 2:圣诞日ChatGPT能有意识吗:关于ChatGPT的误解与夸大ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇有妈妈一口气买了5台的风扇,颜值、功能、性价比都很赞!InfoQ 2023 年趋势报告:影响组织文化的两个最大的因素是大裁员和 ChatGPT 等大型语言模型ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道好吃的,好玩的,好看的~反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此你养我小,我养你老ChatGPT升级版!GPT-4 能识图能算税,升级成考霸,华裔AI科学家点评:它可以自己考进斯坦福了飞桨 - 鹏城云脑发行版发布:深度适配文心大模型,提升“AI+ 科研”应用体验 | InfoQ 快讯
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。