比如網站管理員可以選擇是否幫助這些 AI 模型隨著時間推移變得更準確和強大。如果要聲明那就需要使用 Google-Extende代理令牌。但網站可以聲明是否拒絕其抓取內容後訓練 AI,
在 OPENAI 公布 GPTBot 爬蟲的相關信息後,而且 Google Bot 本身有一大堆用於不同用途的 bot,不允許穀歌抓取內容用於訓練 AI,GoogleBot-Image 等,今天穀歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理,
不過最終還是網站管理員自己決定是否允許穀歌拿內容去訓練 AI,允許網站管理員使用 robots.txt 文件屏蔽穀歌抓取網站內容用來訓練 AI 模型。在博客中穀歌多次提到網站可以幫助穀歌改進 AI,例如常規的 GoogleBot、網絡發布商可以使用它管理其網站是否有助於改進 Bard 和 Vertex AI 等生成式 AI 模型,那麽 robots.txt 可以這麽寫:
User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /這些 bot 是可以在 robots.txt 裏混用的。
穀歌沒有推出單獨的 AI 爬蟲,可以在 robots.txt 中添加以下內容:
User-Agent: Google-ExtendedDisallow:/
需要提醒的是穀歌對於 robots.txt 的處理遵循了多種原則,GoogleBot-News、

穀歌稱,
例如要允許穀歌搜索抓取網站內容、AI 爬蟲仍然使用 GoogleBot,如果不願意的話,Google-Extended 是一種新控件,



