GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

公众号新闻

2023-08-11 02:08

编辑：桃子好困

【导读】就在刚刚，OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型！

前段时间，抓取平台用户数据风波，Reddit网友吵翻了天。

今天，OpenAI推出了一个网络爬虫工具GPTBot，能够自动抓取网站的数据。

如何使用？

OpenAI在发布的文档中表示，网络爬虫将过滤删除需要付费强访问的来源，同时也会删除个人身份信息（PII）或违反其政策的文本。

GPTBot抓取的数据，被用来训练GPT-4或GPT-5，能够提升未来人工智能系统的准确性和能力。

可通过以下代码识别该工具：

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止GPTBot访问

另一方面，你也可以通过将GPTBot添加到站点robots. txt，来禁止其访问网站。

这意味着，网站所有者必须自愿采取措施，禁止OpenAI对自己的网站访问，不将自己的数据用来训练。

User-agent: GPTBotDisallow: /

自定义GPTBot访问

你还可以通过以下代码，来控制GPTBot对网站部分内容的访问。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

IP出口

对于OpenAI的爬虫，将从OpenAI网站上记录的IP地址块调用网站。

网友热议

OpenAI此举引发了网友对用于训练AI模型的网络爬虫的道德问题的讨论。

「OpenAI甚至没有适度引用。它是在制作衍生作品，却没有引用，从而掩盖了它的事实。」

网友表示，终于有机会阻止OpenAI抓取你的网络数据，来训练模型。

还有人表示，ChatGPT浏览器插件已被移除一段时间，部分原因是它可以访问付费墙后面的内容。

前段时间，OpenAI于7月18日向美国专利局提交了GPT-5的商标申请，暗示着公司正在训练更高级的AI系统。

GPTBot显然将帮助该OpenAI从互联网上收集更多数据来训练这个模型。

参考资料：

https://platform.openai.com/docs/gptbot

最后推荐下ChatGPT前沿玩法圈：

现在价格只有169元，过400人后，马上就会涨价一波，直到涨到原价999。目前加入都是最低价格。

所以如果你真的感兴趣，一定建议这个阶段加入，我们特别推荐，加入知识星球3天内如果不满意，可以无理由退出，然后款项原路返回，你也没损失.

哪怕你进去逛了3天，相关资料打包都拿走了，都是可以的，至少可以让你学习到一些内容。一个人格局要打开。只要你在做有价值的事情，总有人会认可你的。

不到一个月时间，我们输出了100+内容，3大专栏内容更新了58+文章：

不到一个月时间，我们输出了100+内容，3大专栏内容更新了58+文章：

我会把我玩ChatGPT的经验和总结，除了我不会研发ChatGPT，其他诸如Midjourney，GPT Plus，ChatGPT PDF，ChatGPT XMind，ChatGPT PPT 会以专栏的形式在知识星球更新。

最后再说下这个星球能给大家提供什么：

1、ChatGPT的使用方法，最新资讯，商业价值。
2、一些副业思考、创业案例、落地案例分享。
3、探讨未来关于ChatGPT的机遇，帮助大家解决遇到的问题。
4、剖析和拆解ChatGPT不同的前沿玩法。
5、围绕ChatGPT玩法的变现方式和技巧。
6、围绕ChatGPT提高工作效率。
7、第一时间了解ChatGPT最新版本的发布特性和强超能力
8、掘挖ChatGPT玩法，助力们我的事业，工作，和日常生活
9、加入星球的小伙伴，都有两项额外福利，可以免费获得ChatGPT普通号“独享”账号一个，支持改密码。

陆续更新中…

其它福利还在筹划中… 不过，我给你大家保证，加入星球后，收获的价值会远远大于今天加入的门票费用！“早”就是优势，建议大家尽早以便宜的价格加入！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

【导读】就在刚刚，OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。 得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型！

【导读】就在刚刚，OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型！