Die Künstlichen Intelligenzen von ChatGPT und Google Bard begeistern derzeit viele Nutzer. Trainiert werden die AI-Modelle allerdings mit den Daten von vielen Millionen Websites – und die eigentlichen Autoren und Website-Betreiber wissen davon oft nichtmal etwas.
Nicht jedem Website-Betreiber ist es recht, dass seine Seite zum Trainieren von Künstlichen Intelligenzen gecrawlt wird. Schließlich nutzen die Unternehmen wie ChatGPT, Microsoft oder Google die Inhalte kostenlos, verkaufen sie dann aber an ihre Nutzer weiter oder erstellen damit Inhalte, mit denen die eigene Website auf Google konkurrieren muss.
Wer die Crawler von ChatGPT und Googles Bard blockieren möchte, kann das über die Robots.txt erledigen:
ChatGPT per Robots.txt blockieren
Per Robots.txt kann man einstellen, welche Inhalte ChatGPT auslesen darf und welche nicht. ChatGPT nutzt dabei zwei unterschiedliche User-Strings: Einen für den Crawler, mit dem ChatGPT selbst trainiert wird und einen für die von Drittanbietern entwickelten ChatGPT-Plugins.
Crawler von ChatGPT stoppen
Falls der ChatPGT-Crawler von der gesamten Website ausgeschlossen werden soll, reicht folgende Angabe:
User-agent: GPTBot
Disallow: /
Alternativ kann man aber auch feinere Abstufungen vornehmen und nur einzelne Bereiche ein- bzw. ausschließen. Das würde dann so aussehen:
User-agent: GPTBot
Allow: /blog/
Disallow: /shop/
ChatGPT-Plugins von der eigenen Website ausschließen
Um den Abruf von aktuellen Informationen per ChatGPT-Plugin zu verhindern, muss man demgegenüber einen anderen User-Agent einsetzen. Um die komplette Website vor den Plugins zu schützen, könnte eine Angabe in der Robots.txt so aussehen:
User-agent: ChatGPT-User
Disallow: /
Crawling von Google Bard per Robots.txt stoppen
Auf ähnliche Art und Weise kann man auch die Crawler für Googles Künstliche Intelligenz Bard von der eigenen Website ausschließen. Google fasst die Crawler für Bard und die Cloud-Services von Vertex AI unter einem gemeinsamen User-Agent zusammen. Um diese auszuschließen, kann man folgende Angabe in der Robots.txt hinterlegen:
User-agent: Google-Extended
Disallow: /
Quellen:
Schreibe einen Kommentar