Was ist der Googlebot?
Der Googlebot ist Googles Web-Crawler. Er besucht Webseiten, liest deren Inhalte und füttert damit den Google-Index. Ohne Googlebot-Besuch kein Ranking.
Technisch läuft der Googlebot als verteiltes System auf tausenden Servern. Er nutzt zwei User-Agents: Googlebot Desktop (simuliert Chrome auf Desktop) und Googlebot Smartphone (simuliert Chrome auf Mobilgerät). Seit 2019 ist Mobile-First-Indexing Standard, das heißt die Smartphone-Variante ist die primäre.
Wie der Googlebot Seiten crawlt
Crawling läuft in drei Phasen:
- URL-Erkennung: Google entdeckt URLs über Sitemaps, interne Links, externe Backlinks oder die Google Search Console
- Crawl-Queue: Jede URL bekommt eine Priorität basierend auf PageRank, Änderungshäufigkeit und Crawl-Budget
- HTTP-Request: Der Googlebot ruft die URL ab und speichert den HTML-Response
Crawl-Budget verstehen
Das Crawl-Budget ist keine feste Zahl, sondern ein Zusammenspiel aus Crawl-Rate-Limit (wie schnell Google crawlen darf, ohne den Server zu überlasten) und Crawl-Demand (wie dringend Google die Seite aktualisieren will).
Für kleine Websites unter 10.000 Seiten ist Crawl-Budget kein Thema. Bei großen Shops oder Portalen wird es relevant:
- Vermeidung von Duplicate Content (Facettennavigation, Parameter-URLs)
- Blockierung unwichtiger Pfade via robots.txt
- Schnelle Server-Antwortzeiten (unter 200ms ideal)
- Saubere interne Verlinkung ohne Sackgassen
Rendering: JavaScript und der Googlebot
Seit 2019 nutzt der Googlebot eine aktuelle Chrome-Version (Web Rendering Service). Das bedeutet: JavaScript wird ausgeführt. Trotzdem gibt es Fallstricke:
- Two-Wave-Indexing: HTML wird sofort indexiert, gerenderte Inhalte können verzögert folgen
- Lazy Loading: Bilder und Inhalte, die erst bei Scroll geladen werden, sieht der Googlebot nur wenn sie per Intersection Observer korrekt implementiert sind
- Client-Side Routing: SPAs (React, Vue, Angular) brauchen Server-Side Rendering oder Static Generation für zuverlässige Indexierung
- Timeouts: Google wartet ca. 5 Sekunden auf JavaScript-Ausführung. Langsame Third-Party-Scripts können kritische Inhalte blockieren
robots.txt richtig einsetzen
Die robots.txt steuert, welche Pfade der Googlebot crawlen darf:
- Disallow blockiert das Crawling, nicht die Indexierung. Eine Seite kann trotz Disallow im Index erscheinen (über Backlinks)
- Noindex per Meta-Tag ist der sichere Weg, Seiten aus dem Index zu halten, setzt aber voraus dass die Seite gecrawlt werden darf
- Crawl-delay wird vom Googlebot ignoriert (andere Crawler wie Bingbot beachten ihn)
AI-Crawler: GPTBot, ClaudeBot und Co.
Neben dem Googlebot gibt es seit 2023 eine neue Kategorie: AI-Crawler. Diese sammeln Trainingsdaten für Large Language Models.
Die wichtigsten AI-Crawler
- GPTBot (OpenAI): Crawlt Inhalte für ChatGPT-Training. User-Agent: GPTBot/1.0
- ClaudeBot (Anthropic): Crawler für Claude. User-Agent: ClaudeBot/1.0
- Bytespider (ByteDance): Crawler für TikToks AI-Modelle. Sehr aggressives Crawling-Verhalten
- CCBot (Common Crawl): Open-Source-Crawler, dessen Daten viele AI-Modelle nutzen
AI-Crawler steuern
Du kannst AI-Crawler per robots.txt blockieren:
- User-agent: GPTBot / Disallow: / blockiert OpenAIs Crawler
- User-agent: ClaudeBot / Disallow: / blockiert Anthropics Crawler
- User-agent: CCBot / Disallow: / blockiert Common Crawl
Die Entscheidung hängt von deiner Strategie ab. Wer in AI-Antworten zitiert werden will (GEO-Strategie), sollte AI-Crawler gezielt erlauben und hochwertigen, zitierfähigen Content bereitstellen.
Googlebot vs. AI-Crawler: Unterschiede
- Ziel: Googlebot indexiert für die Websuche, AI-Crawler sammeln Trainingsdaten
- Rendering: Googlebot rendert JavaScript, die meisten AI-Crawler nicht
- Häufigkeit: Googlebot crawlt regelmäßig, AI-Crawler oft einmalig oder sporadisch
- Steuerung: Googlebot beachtet robots.txt und Meta-Tags. AI-Crawler beachten robots.txt, Meta-Tags variieren
- Mehrwert: Googlebot-Crawling führt zu Rankings. AI-Crawler-Crawling führt (potenziell) zu Zitierungen in AI-Antworten
Googlebot-Zugriffe prüfen
Google Search Console
Die Search Console zeigt unter "Einstellungen" > "Crawling-Statistiken" wie oft und wie schnell der Googlebot deine Seite besucht. Achte auf:
- Antwortcodes: Viele 404er oder 5xx deuten auf Probleme hin
- Crawl-Anfragen pro Tag: Ein plötzlicher Abfall kann auf ein robots.txt-Problem hinweisen
- Durchschnittliche Antwortzeit: Über 500ms ist zu langsam
Server-Logs
Für detaillierte Analysen filtere die Access-Logs nach dem User-Agent "Googlebot". So siehst du exakt, welche URLs gecrawlt werden und welche nicht.
Zusammenfassung
Der Googlebot bleibt der wichtigste Crawler für organische Sichtbarkeit. Die richtige Konfiguration von robots.txt, schnelle Ladezeiten und saubere interne Verlinkung sind die Grundlagen. Wer zusätzlich in AI-Antworten sichtbar sein will, muss AI-Crawler verstehen und gezielt steuern. Beides zusammen ist die Grundlage einer modernen SEO- und GEO-Strategie.
