AI医生PK哈佛专家：最新版ChatGPT 以优异的成绩通过了美国医疗执照考试

2023-04-11 00:04

一位哈佛医生兼计算机科学家表示，GPT-4 的临床判断力优于“许多医生”。聊天机器人可以“像我一样”诊断罕见病症“。

Isaac Kohane 博士既是哈佛大学的计算机科学家，也是一名医生，他与两位同事合作测试了GPT-4，其主要目标是：了解 OpenAI 的最新人工智能模型在医疗环境中的表现。

“我非常震惊地发现：AI比我观察过的许多医生都好，”他在即将出版的新书《医学中的 AI 革命》中说道。该书由独立记者Carey Goldberg 和微软研究副总裁 Peter Lee 合著。作者说微软和 OpenAI 没对这本书进行任何编辑监督，尽管微软已经投资了数十亿美元来开发OpenAI 的技术。

在书中，Kohane 说于 2023 年 3 月向付费订阅者发布的GPT-4，在美国医生执照考试中答对了超过 90% 的问题。它比以前的 ChatGPT AI 模型 GPT-3 和 -3.5 正确率好了很多，也比一些有执照的医生考得都好。

而且，GPT-4不仅仅是一个好的应试者和找各种事实和数据的好手，也是一个了不起的翻译。在书中的案例里，它能够为说葡萄牙语的患者翻译出院信息，并将晦涩难懂的技术术语提炼成六年级学生可以轻松阅读的内容。

正如作者用生动的例子解释的那样，GPT-4 还可以为医生提供如何与病人交流的有用建议，提供如何以富有同情心、清晰的语言与患者谈论他们的状况，并且它可以阅读冗长的报告或研究并将它们在眨眼之间总结出要点。该技术甚至可以通过问题来解释其推理，像正常的人类思维一样。

但如果你问 GPT-4 它是如何做到这一切的，它可能会告诉你，它的所有智能仍然“仅限于数据中的模式，并不涉及真正的理解或意图”。当本书作者们问它是否真的可以进行因果推理时，GPT-4就是这样回答的。即使有这些限制，正如 Kohane 在书中发现的那样，GPT-4也可以模仿医生诊断疾病的方式，并取得惊人的，尽管不完美成功。

GPT-4 如何像医生一样进行诊断

Kohane 在书中使用GPT-4 进行了临床思维实验，该实验基于一个真实案例，该案例涉及他几年前治疗的一名新生儿。给机器人一些关于他从体检中收集到的婴儿的关键细节，以及一些来自超声波和激素水平的信息，该机器能够正确诊断出一种叫做先天性肾上腺增生症的疾病，这种罕见疾病在10万人中才有一例。人工智能和这位哈佛医生一样得出了正确诊断。“而我是凭借我多年的学习和经验，才得出的诊断。”Kohane写道。“真是让人既惊叹又害怕。”

“一方面，我正在与计算过程进行复杂的医学对话，”他写道，“另一方面，当我焦虑地意识到数百万家庭将很快获得这种高端的医学专业知识时，我不知道我们将来该如何保证或认证 GPT-4 的建议是安全或有效的。”

GPT-4 并不总是正确的——而且它没有道德底线

GPT-4 并不总是可靠的，书中充满了其失误的例子。它们的范围很广，从简单的笔误，比如误报了机器人刚才正确计算的BMI，到数学错误，比如不准确地“解决”了数独谜题，或者忘记计算方程式中的项的平方。错误通常是微妙的，而AI系统倾向于断言自己是正确的，即使在受到挑战时也是如此。不难想象一个错误的数字或错误的体重会导致严重的处方或诊断错误。

与之前的 GPT 一样，GPT-4 也可以“产生幻觉”——人工智能会编造答案或不服从指令。

当本书的作者问及这个问题时，GPT-4 说“我无意欺骗或误导任何人，但我有时会根据不完整或不准确的数据或假设得出错误结论。我也没有临床判断能力和人类医生或护士的道德责任。”

作者在书中建议了一个潜在的交叉检查是与 GPT-4 开始一个新的会话，并让它“阅读”并用“新的视角”“验证”它自己的工作。这种策略有时可以揭示错误——尽管GPT-4 在出错时有点不愿承认。另一个捕捉错误的建议是命令机器人向您展示它的工作，这样您就可以像老板一样验证它。

作者写道，很明显，GPT-4 有可能解放很多宝贵的临床时间和资源，使临床医生能够更多地陪伴患者，“而不是盯着他们的电脑屏幕”。

但是，“我们必须强迫自己想象一个拥有越来越智能的机器的世界，最终可能在几乎所有方面都超越人类智能。然后认真思考在那样的情况下，我们希望这个世界如何运行。”

本文图文独家翻译编辑自网络。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章