在人工智能时代,OpenAI的ChatGPT已经成为一种强大的大语言模型(LLM),可以生成类似人类的文本响应。为了增强其能力,ChatGPT 推出了一款名为 GPTBot 的网络爬虫,用于从网站收集数据来训练其人工智能模型。
ChatGPT 的网络爬虫 GPTBot 是一种先进的人工智能 (AI) 驱动的工具,旨在从互联网收集信息。GPTBot 从网站收集文本数据,以提高 OpenAI 语言模型的性能。它旨在抓取不需要付费访问、不收集个人身份信息 (PII) 且不包含违反 OpenAI 政策的文本的网页。GPTBot 首先抓取种子 URL 列表;然后,它会沿着这些页面上的链接抓取新页面,直到达到预定数量的页面或抓取特定数量的文本数据。
通过从其爬取的网站收集和分析大量文本数据,ChatGPT 网络爬虫有助于增强人工智能对人类语言的理解,使其能够生成更准确且与上下文相关的响应。
对于允许 GPTBot 抓取的网站,企业(通常是在无意中)将他们的内容贡献给 OpenAI 现有和未来模型(如 GPT-4 和 GPT-5)的训练和增强,这些模型为 ChatGPT AI 聊天机器人提供动力。
虽然传统的网络爬虫主要由搜索引擎用来对网站进行索引和排名,但 ChatGPT 的网络爬虫有不同的用途。它旨在收集和分析来自各种来源的大量数据,以在其聊天机器人服务的上下文中生成高质量、上下文相关且引人入胜的用户查询响应。
虽然 GPTBot 和其他网络爬虫(例如 Google Bot)都从网站收集数据,但它们的目的不同。Google Bot 对网站进行索引并在搜索结果中对其进行排名,通过增加流量和提高可见性来使网站受益。相比之下,GPTBot 收集数据来训练 ChatGPT 等 AI 模型,这可能不会直接使其爬取的网站受益。
ChatGPT 的网络爬虫是一个系统地浏览网站、收集信息以提高语言模型对世界的理解的程序。与 Google 等搜索引擎使用的传统网络爬虫不同,ChatGPT 的爬虫专注于总结整个网络的数据,而不提供引用。GPTBot 旨在收集信息以增强语言模型的响应,而不增加特定网站的流量。
ChatGPT 总结了整个网络的数据,但不提供引用,这使得追踪信息来源变得困难,并且不提供已爬网网站的反向链接。相比之下,Perplexity AI 提供简短的答案和信息列表,其中包括用户可以找到更详细信息的来源的链接,这可能会将流量带回已爬取的网站。
在决定是否允许 GPTBot 访问您的网站之前,必须权衡风险和收益。
GPTBot 可以通过其用户代理令牌和字符串来识别。用户代理令牌是 GPTBot ,完整的用户代理字符串是:Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko;兼容;GPTBot/1.0;+https://openai.com/gptbot)
要确定 GPTBot 是否正在访问您的网站,可以检查服务器日志中是否有此用户代理令牌和字符串。如果您在日志中发现 GPTBot 实例,则表明 GPTBot 已访问您的网站。
企业可能出于多种原因想要阻止 GPTBot 访问其网站,包括:
如果您认为允许 GPTBot 访问您的网站的风险大于好处,可以使用以下步骤进行阻止:
更新 robots.txt 文件: 向您网站的 robots.txt 文件添加一条规则,以禁止 GPTBot 访问您的网站。为此,可以将以下行添加到网站的 robots.txt 文件中:
User-agent: GPTBot Disallow: /
通过 Google 验证更改: robots.txt 更新后,通过 Google 进行验证,以确保更改不会产生意外后果,例如阻止 Google Bot 爬取。
监控服务器日志: 定期检查服务器日志,以确保 GPTBot 遵守 robots.txt 规则并且不会访问网站。
上述规则限定 GPTBot 不要访问网站的所有部分。如果想阻止 ChatGPT 网络爬虫访问站点的特定部分,请将 Disallow 行中的 / 替换为适当的目录路径。
值得注意的是,阻止 GPTBot 可能不会阻止 ChatGPT 的网页浏览版本或 ChatGPT 插件访问当前网站以向用户转发最新信息。
对于以上问题,使用者不仅要熟悉相关法律法规,还要熟练使用爬虫必要的技术,比如动态IP代理技术,可以解决上述大部分问题,如:
GPTBot 是一款强大的人工智能驱动工具,有可能以多种方式对业务产生重大影响;虽然它可以增强语言模型的能力并为用户提供多样化的信息,但它也引起了对归因、可追溯性和隐私的担忧。通过了解它是什么、它是如何工作的、它的潜在影响以及允许它抓取您的网站的风险和好处,可以就是否接受或阻止这项创新技术做出明智的决定。
以多种方式对业务产生重大影响;虽然它可以增强语言模型的能力并为用户提供多样化的信息,但它也引起了对归因、可追溯性和隐私的担忧。通过了解它是什么、它是如何工作的、它的潜在影响以及允许它抓取您的网站的风险和好处,可以就是否接受或阻止这项创新技术做出明智的决定。