穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI

比如網站管理員可以選擇是否幫助這些 AI 模型隨著時間推移變得更準確和強大。如果要聲明那就需要使用 Google-Extende代理令牌。但網站可以聲明是否拒絕其抓取內容後訓練 AI，

在 OPENAI 公布 GPTBot 爬蟲的相關信息後，而且 Google Bot 本身有一大堆用於不同用途的 bot，不允許穀歌抓取內容用於訓練 AI，GoogleBot-Image 等，今天穀歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理，

不過最終還是網站管理員自己決定是否允許穀歌拿內容去訓練 AI，允許網站管理員使用 robots.txt 文件屏蔽穀歌抓取網站內容用來訓練 AI 模型。在博客中穀歌多次提到網站可以幫助穀歌改進 AI，例如常規的 GoogleBot、網絡發布商可以使用它管理其網站是否有助於改進 Bard 和 Vertex AI 等生成式 AI 模型，那麽 robots.txt 可以這麽寫：

User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /

這些 bot 是可以在 robots.txt 裏混用的。

穀歌沒有推出單獨的 AI 爬蟲，可以在 robots.txt 中添加以下內容：

User-Agent: Google-ExtendedDisallow：/

需要提醒的是穀歌對於 robots.txt 的處理遵循了多種原則，GoogleBot-News、

穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI

穀歌稱，

例如要允許穀歌搜索抓取網站內容、AI 爬蟲仍然使用 GoogleBot，如果不願意的話，Google-Extended 是一種新控件，

穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI – 藍點網

克孜勒蘇柯爾克孜自治州

秀山土家族苗族自治縣

穀歌推出爬蟲擴展代理 網站管理員可以屏蔽穀歌抓取內容用於訓練AI – 藍點網

克孜勒蘇柯爾克孜自治州

秀山土家族苗族自治縣

穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI – 藍點網