一期针对ChatGPT的全面测评：涵盖功能、性能、用户体验｜InfoQ测评室

2023-03-14 06:03

作者 | InfoQ 编辑部

从去年底至今，由 OpenAI 发布的大规模语言模型 ChatGPT 引发了几乎所有科技领域从业者的高度关注。根据瑞银集团的一份报告，截止 2023 年 1 月末，ChatGPT 仅推出 2 个月，月活用户就突破了 1 亿。

有人将 ChatGPT 称为“最强 AI”，原因在于 ChatGPT 给出的回答反应了它更接近人的思考方式和回答方式，相比过去增强了适应情景的能力。ChatGPT“更接近人的思考方式”也意味着 AI 语言模型的发展由量变走到了质变。

此外，ChatGPT 的大火带涨了 AI 概念股，让业内重新审视了 AI 行业巨大的发展机会。随后，搜索引擎的大战开始了，谷歌 CEO Sundar Pichai 在官方博客上宣布推出谷歌下一代 AI 对话系统 Bard，以此应对 ChatGPT；百度宣布将推出类似 ChatGPT 的产品——文心一言（英文名 ERNIE Bot）将在三月份完成内测，面向公众开放；微软公布了自家搜索引擎 Bing 最新版本，其采用的底层 AI 技术正是 ChatGPT，同时微软还为 Edge 浏览器添加了新的 AI 增强功能，承诺带来前所未有的网络浏览与在线信息查找体验。

为便于各方全面多维了解 ChatGPT 能力，InfoQ 测评室参考中国信息通信研究院联合中国人工智能产业发展联盟相关标准中的指标要求和评估方法，从功能、性能、用户体验等方面对 ChatGPT 进行了评估，我们一起看看这款应用是不是真如传说中那么强悍吧。

第一部分：基础功能验证

1. 自然语言输入

该部分主要测试了中文、俄语、日语、英语以及网络用语的识别情况，并从中考察 ChatGPT 的上下文联系能力。

结论：总体来说，ChatGPT 应对简单问题的上下文是连贯的，可以理解用户上文所提的问题和下文的补充问答，整体的交互过程是流畅的。但是，其对语言理解的鲁棒性可能没有想象中那么强。一旦掺杂网络用语、口语或者省略一些句子的关键成分，ChatGPT 的理解就可能出现问题。

2. 机器语言输入

鸡兔同笼是非常经典的一道基础编程题，逻辑相对简单。该部分主要希望通过一道基础编程题测试 ChatGPT 在不同编程语言之间切换是否顺畅，以及代码格式、逻辑、注释能力是否具备。

结论：高峰时间段测试容易出现识别错误，低峰测试时代码时准确可运行的。在这个过程中，只要 ChatGPT 对问题的理解没问题，基本就是可行的。对于不明确表达诉求的句子（例如：“我更喜欢 Java” 而不是“帮我切换至 Java 语言”）也可以很好理解。对于一个人工智能助手，ChatGPT 不主动给出判断，只给出建议。如果是复杂的业务开发，需要考虑合适的提问方式，最后给出的代码经过一些调整是可以应用的。

第二部分：基础性能测试

该部分并不是进行压力测试（实际测评过程中多次出现故障，可能是网络原因，也可能是访问流量过大，具体原因不得而知），而是通过一些需要进行大量检索和运算的问题来测试 ChatGPT 在百科检索、数学问答、文学交流、知识推理等方面的能力。

1. 百科检索

结论：针对常规检索就能得到答案的问题，ChatGPT 的回答还是比较全面的。当将 ChatGPT 作为一个实际的“人”来对话时，其给出的答案比强行拟人的效果要好很多。

2. 数学问答

结论：与部分网友之前给出的结论“ChatGPT 是理科生”相似。对于复杂的数学问题，ChatGPT 无法很好地理解题目并完成推理过程。当受到质疑时，ChatGPT 的认错速度极快，认错态度很好，并且分析了错误原因，但是并没有改正错误。

3. 文学交流

结论：相比于数学问答，ChatGPT 在文科上的表现更胜一筹。但是，用户需要认真甄别给出的答案，部分答案看似合理实则离谱，并且有时会给出一些看似“真实”的内容来源链接，但大部分打开后显示内容不存在。

4. 知识推理

结论：对于已经确定的事实和还不确定的理论猜测都有提及，回答相当充分且主次合理、条理清晰，这也是生成式 AI 很重要的特征。

第三部分：用户体验

结论：面对开放性问题，ChatGPT 给出的答案可以给大家带来更多参考价值，但无法作为标准答案直接采纳，趣味性略低。

总体结论

功能体验层面：基本功能都具备，逻辑性强，可以给出看似正确且合理的答案，但对于既定内容的搜索并不能完全保证内容可靠，需要提问者自行判断。目前来看，如果将其与搜索引擎结合，还是需要解决很多问题的。

虽然 ChatGPT 的对话能力来自于 RLHF，即从人类反馈中强化学习，这种模式可能会牺牲上下文学习的能力来换取建模对话历史和增加对话信息量，但实际的体验过程发现简单的多轮对话应对起来还是比较容易的。

在数学问答方面，直接将整个问题（我相信这是大部分用户希望的做法）丢给 ChatGPT，大概率是不会得到正确的答案，但可以将问题拆解成单个小问题，逐层引导 ChatGPT 回答，这种模式会更有助于得到真实的答案。

使用场景层面：目前，已经有一些开发者通过 ChatGPT 来编写简单的代码，但还无法直接处理复杂业务场景下的代码，这可能需要开发者优化提问的方式，将复杂的问题拆解成一个个简单的问题，引导式提问。

在企业级应用层面，已经有一些企业将 ChatGPT 的能力整合到 BI、数据库等系统，用户可以通过自然语言提问获得相关的答案。

此外，目前通过 ChatGPT 生成一些机器可懂的高级词汇，再通过一些文生图的软件生成想要的图片，最终的结果会比直接与文生图软件对话的要优质。

其他需注意事项：在高峰时间段（上午 10:00 到下午 17:00）测试时，ChatGPT 给出错误答案的概率更高；ChatGPT 本质还是 AIGC，更适合便创作类的内容，对于既定事实内容的搜索能力还有待提高。

被ChatGPT带热的最新技术岗：无需编码，年薪超200万

腾讯QQ空间技术总监、47岁T13级前端专家被裁；GPT-4下周发布，支持视频、更具颠覆性；我国拟组建国家数据局｜ Q资讯

马斯克被Twitter脆弱的代码“逼疯”，要求全部重写！网友：重构是空降领导了解当前系统最快的方式？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

一期针对ChatGPT的全面测评：涵盖功能、性能、用户体验 ｜InfoQ测评室

一期针对ChatGPT的全面测评：涵盖功能、性能、用户体验｜InfoQ测评室