robots.txt für AI-Crawler richtig konfigurieren
Die robots.txt ist die erste Datei, die jeder Crawler besucht — auch AI-Crawler. Sie entscheidet, ob GPTBot, ClaudeBot und Co. deine Website überhaupt lesen dürfen. Eine falsche Konfiguration kann dich komplett unsichtbar machen.
Welche AI-Crawler gibt es?
Die wichtigsten AI-Bots, die aktiv Websites crawlen:
- GPTBot — OpenAI (ChatGPT)
- ChatGPT-User — ChatGPT beim Browsen
- ClaudeBot — Anthropic (Claude)
- anthropic-ai — Anthropics Training-Crawler
- Google-Extended — Google (Gemini)
- PerplexityBot — Perplexity AI
- Bingbot — Microsoft (Copilot)
- meta-externalagent — Meta AI
- DeepSeekBot — DeepSeek
- MistralBot — Mistral AI
- YouBot — You.com
Die ideale robots.txt für AI-Sichtbarkeit
Wenn du maximale Sichtbarkeit willst, sollte deine robots.txt diese Bots explizit erlauben:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://deine-domain.de/sitemap.xml
Häufige Fehler
Der häufigste Fehler: Ein pauschales Disallow: / für alle User-Agents, das versehentlich auch AI-Bots blockiert. Oder: AI-Bots bewusst blockieren in der Annahme, dass das "Daten schützt" — in Wirklichkeit macht es dich nur unsichtbar.
Ein weiterer Fehler: Keine robots.txt haben. Das ist technisch OK (alles erlaubt), aber eine explizite Konfiguration zeigt KI-Systemen, dass du bewusst Zugang gewährst.
Blockieren oder erlauben?
Es gibt gute Gründe, bestimmte AI-Crawler zu blockieren — etwa wenn du nicht willst, dass dein Content für Training verwendet wird. Aber bedenke: Wenn du GPTBot blockierst, wird ChatGPT deine Inhalte nicht kennen und nicht empfehlen können.
Die Entscheidung ist individuell. Wichtig ist, dass sie bewusst getroffen wird — nicht versehentlich durch eine kaputte robots.txt.
So prüfst du deine Konfiguration
Rufe https://deine-domain.de/robots.txt im Browser auf. Prüfe jeden User-agent Block. Oder noch einfacher: Scanne deine Website mit scan8 — die Kategorie "AI Crawler Access" zeigt dir sofort, welche der 11 AI-Bots Zugang haben und welche nicht.