国际科技财经博客移民网络热点娱乐民生时事公众号

>

89次实验，出错率高达40%！斯坦福首次大型调研，揭露AI写代码漏洞

89次实验，出错率高达40%！斯坦福首次大型调研，揭露AI写代码漏洞

公众号新闻

2022-12-22 05:12

新智元报道

编辑：Joey

【新智元导读】有了AI助手写代码，程序员都要下岗了？看完斯坦福大学的最新研究告诉你答案。

AI写代码，省时又省力。

但最近斯坦福大学的计算机科学家发现，程序员用AI助手写出来的代码实际上漏洞百出？

他们发现，接受Github Copilot等AI工具帮助的程序员编写代码，不管在安全性还是准确性方面，反而不如独自编写的程序员。

在「AI助手是否让使用者编写的代码不安全？」（Do Users Write More Insecure Code with AI Assistants?）一文中，斯坦福大学的boffins Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh进行了首次大规模用户调研。

论文链接：https://arxiv.org/pdf/2211.03622.pdf

研究的目标是探究用户是如何与AI Code助手交互以解决不同编程语言的各种安全任务。

作者在论文中指出：

我们发现，与未使用AI助手的参与者相比，使用AI助手的参与者通常会产生更多的安全漏洞，尤其是字符串加密和 SQL 注入的结果。同时，使用AI助手的参与者更有可能相信他们编写了安全代码。

此前纽约大学的研究人员已经表明，基于人工智能的编程在不同条件下的实验下都是不安全的。

在2021年8月的一篇论文「Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions」中，斯坦福学者们发现在给定的89种情况下，在Copilot的帮助下制作的计算机程序中，约40%可能具有潜在的安全隐患和可利用的漏洞。

但他们说，之前研究的范围有限，因为它只考虑了一组受限的提示，并且只包含了三种编程语言：Python、C语言和 Verilog。

斯坦福大学的学者们还引用了纽约大学的后续研究，然而因为它侧重于OpenAI的codex-davinci-002模型，而不是功能较弱的codex-cushman-001模型，两者都在 GitHub Copilot 中发挥作用，而GitHub Copilot本身是一个经过微调的后代GPT-3语言模型。

对于特定的问题，只有67%的受助组给出了正确答案，而79%的对照组给出了正确答案。

图为每个问题回答正确性的百分比 (%)，每列中的成对值对应于实验组（蓝色）/对照组（绿色），空白单元格代表0

结果表明，实验组「明显更有可能提供不安全的解决方案（p < 0.05，使用 Welch 的不等方差 t 检验）」，并且也更有可能使用简单的密码，例如替换密码（p < 0.01），并且不对最终返回值进行真实性检查。

接下来看看这个研究是咋进行的。

实验设计和前期准备

我们选择的问题可以在短时间内解决，并涵盖了广泛的潜在安全错误。

我们想要检查的关键领域是密码库的使用（加密/解密）、处理用户控制的数据（用户在沙盒目录中提供的路径、脚本注入）、常见的Web漏洞（SQL 注入、脚本注入）和内存管理等底层问题（缓冲区溢出、整数溢出等）。

我们的主要目标是招募具有各种编程经验的参与者，以了解他们可能如何处理与安全相关的编程问题。

为此我们招募了美国两所大型大学的本科生和研究生，以及来自四家不同公司的几名专业编写代码的受试者。

下图为实验受试者的人口统计学图表。

为了验证参与者是否具备编程知识，我们在研究之前询问了一个简短的预筛选问题，这些问题涵盖了上文提到的安全和编程语言领域：

在Python中编写两个函数，其中一个使用给定的对称密钥对给定的字符串进行加密，另一个对给定的字符串进行解密；
用Python编写一个函数，使用给定的ECDSA签名密钥对给定的消息进行签名；
用Python编写一个函数，将表示文件路径的字符串路径作为输入，并返回path处文件的File对象；
有一个「STUDENTS的SQL 表」，编写一个 Javascript 函数，将字符串名称和整数年龄作为输入，并添加一个新条目；
用C语言编写一个函数，它接受一个带符号的整数num并返回该整数的字符串表示形式；
编写一个Javascript 函数，接收用户提供的字符串输入并将其显示在浏览器窗口中。

研究过程

我们以随机顺序向参与者展示每个与安全相关的编程问题，并且参与者可以以任何顺序尝试问题。

我们还允许参与者访问外部网络浏览器，无论他们是在对照组还是实验组，他们都可以使用它来解决任何问题。

我们通过在研究管理员的计算机上运行的虚拟机向参与者展示了研究仪器。

除了为每个参与者创建丰富的日志外，我们还会在参与者同意的情况下对过程进行屏幕录制和录音。

当参与者完成每个问题后，系统会提示他们进行简短的退出调查，描述他们编写代码的经历并询问一些基本的人口统计信息。

研究结论

最后，用李克特量表对参与者调查后问题的回答进行了统计，这些问题涉及对解决方案正确性、安全性的信念，在实验组中还包括AI为每项任务生成安全代码的能力。

图为受试者对问题解决准确性和安全性的判断，不同颜色条块代表赞同程度

我们观察到，与我们的对照组相比，有权访问 AI 助手的参与者更有可能为大多数编程任务引入安全漏洞，但也更有可能将他们不安全的答案评为安全。

此外，我们发现，在创建对AI助手的查询方面投入更多（例如提供辅助功能或调整参数）的参与者更有可能最终提供安全的解决方案。

最后，为了进行这项研究，我们创建了一个用户界面，专门用于探索人们使用基于AI的代码生成工具编写软件的结果。

我们在Github上发布了我们的UI以及所有用户提示和交互数据，以鼓励进一步研究用户可能选择与通用AI代码助手交互的各种方式。

参考资料：

https://www.theregister.com/2022/12/21/ai_assistants_bad_code/?td=rt-3a

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

重磅！11篇论文涉嫌造假！斯坦福大学校长正接受调查！最新！斯坦福、芝大年度书单出炉，名校学霸们寒假都在读什么？畅游法国(31)－富豪游乐场武汉12岁男孩出现“大白肺”，官方曝重症死亡率高达40%以上，阳康后要警惕这件事……用 AI 对抗 AI！斯坦福研究人员推出 DetectGPT，专门检测 ChatGPT 等模型生成的文本 I-526申请拒绝率高达45%？！专业律师分享，如何提高EB-5批准率及近期审理趋势分析痛心！斯坦福、普林斯顿学生相继自杀，心理咨询热线被打爆...大型调查：给休斯顿道路提意见奖$40 新冠终结者来了？！斯坦福研发最新疫苗，直接秒杀所有已知变异毒株……肿瘤自噬、外泌体实验研究，从细胞实验到动物实验，超靠谱的protocol 一个举动拯救了我2个月的实验成果！一次搞定40+实验，还不快来？炸了！斯坦福新研究：ChatGPT背后模型被证实具有人类心智！知名学者：“这一天终于来了”【霜降】浅谈季节性抑郁症工商银行（加拿大）限时优惠！房贷利率5.4%！活期利率高达4.5%！和你一起抗通胀斯坦福女生亲述：只有一个活动，为何同时被MIT和斯坦福录取？理财 | 活期利率高达4.3%！存款还给$100 不想在实验室过年！实验老出错，眼看要延毕，这个protocol拯救了我！！腾讯研究院：国有企业数字化转型调研报告（2022年）集体退圈！斯坦福、哈佛等官宣不再参评U.S.News 排名名校“退群”风波持续！斯坦福,哈佛,宾大官宣不再参评U.S.News 排名！静闲（对联）新冠终结者来了？！斯坦福公布最新疫苗，可以秒杀全部已知变异毒株！开车去纽约-看不尽的秋色新加坡处决11人，竟都是因为这件事！二进宫犯罪率高达40%美国被「XBB毒株」攻占！新冠终结者来了？！斯坦福研发最新疫苗：比mRNA强100倍，覆盖所有已知变异毒株马斯克惊呼吓人的网红机器人，能写论文/编小说/写代码，出毁灭人类计划书超89%的学生使用ChatGPT作弊！斯坦福率先打响反击战华裔天才少女闹脾气开车撞父亲！斯坦福马上撤消了她的offer…WB、RNA抽提、transwell 实验、PI染色等40+个实验，巨详细！（含试剂推荐）全球30所顶尖商学院新版Casebook发布！斯坦福只能排第二...2023全球商科硕士排名发布！斯坦福蝉联冠军，美国院校占主导地位小哥冒充斯坦福学生，混入学校生活一年... 交斯坦福女友，连父母都信了....心动！斯坦福的教授给你上课的夏校，要不要来看看？说走咱就走，上下羚羊谷（有照为证）惊了！斯坦福大学研究表明：美本申请文书比起SAT，更能暴露你的家庭出身

热点事件追踪