TECHNISCHE SEO - CRAWLING FEHLER

WAS IST DIE ROBOTS.TXT?

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird. Sie gibt Webcrawlern Anweisungen, welche Bereiche der Website sie durchsuchen dürfen und welche nicht. Diese Datei ist ein wichtiger Bestandteil des Robots Exclusion Protocol, das seit 1994 existiert und von den meisten Suchmaschinen (u.a. von Goggle) respektiert wird.

INHALTSVERZEICHNIS:

FUNKTIONSWEISE DER ROBOTS.TXT

Aufbau und Syntax

Die robots.txt-Datei besteht aus einer Reihe von Anweisungen, die aus zwei Hauptkomponenten bestehen: „User-agent“ und „Disallow“. Zusätzlich können „Allow“, „Sitemap“ und andere erweiterte Anweisungen verwendet werden.

User-agent: Identifiziert den Crawler, für den die Anweisungen gelten.
Disallow: Gibt an, welche Seiten oder Verzeichnisse nicht gecrawlt werden dürfen.
Allow: Spezifische Anweisung für Googlebot, um das Crawlen von bestimmten Seiten innerhalb eines ansonsten gesperrten Verzeichnisses zu erlauben.
Sitemap: Verweist auf die Sitemap der Website, um Crawlern die Struktur der Website anzuzeigen .

				
					User-agent: *
Disallow: /private/
Allow: /private/public-file.html
Sitemap: https://www.example.com/sitemap.xml

Der User-Agent

Der User-Agent ist der Name des Webcrawlers, für den die Anweisungen gelten. Durch die Angabe von spezifischen User-Agents können unterschiedliche Anweisungen für verschiedene Crawler festgelegt werden. Der Stern (*) als Platzhalter bedeutet, dass die Anweisungen für alle Crawler gelten.

				
					User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

Disallow

				
					User-agent: *
Disallow: /admin/
Disallow: /login/

Allow

Die Allow-Anweisung wird in Kombination mit Disallow verwendet, um bestimmte Seiten innerhalb eines gesperrten Verzeichnisses dennoch für das Crawlen freizugeben. Diese Anweisung ist besonders nützlich für komplexe Websites.

				
					User-agent: Googlebot
Disallow: /content/
Allow: /content/public/

Sitemap

				
					Sitemap: https://www.example.com/sitemap.xml

ERWEITERTE BEFEHLE UND OPTIONEN

Crawl Delay (keine Google Unterstützung)

Mit der Crawl-Delay-Anweisung kann die Zeitverzögerung zwischen den Anfragen eines Crawlers eingestellt werden. Dies ist nützlich, um die Serverlast zu verringern.

				
					User-agent: *
Crawl-delay: 10

Host

Der Host-Befehl wird verwendet, um anzugeben, welche Version der Website bevorzugt gecrawlt werden soll, insbesondere bei mehrsprachigen oder regionalen Websites.

				
					User-agent: *
Host: www.example.com

Noindex

Einige Suchmaschinen unterstützten die Noindex-Anweisung in der robots.txt-Datei, um anzugeben, dass bestimmte Seiten nicht in den Index aufgenommen werden sollen. Diese Unterstützung wurde jedoch von Google im September 2019 eingestellt. Stattdessen sollte das Meta-Tag „noindex“ verwendet werden.

				
					User-agent: *
Noindex: /private/

ERSTELLUNG UND VERWALTUNG EINER ROBOTS.TXT

Öffnen Sie einen Texteditor: Verwenden Sie einen einfachen Texteditor wie Notepad oder TextEdit.
Schreiben Sie die Anweisungen: Geben Sie die gewünschten Anweisungen für die Crawler ein.
Speichern Sie die Datei als robots.txt: Achten Sie darauf, dass die Datei als „robots.txt“ gespeichert wird.
Hochladen in das Stammverzeichnis: Laden Sie die Datei in das Stammverzeichnis Ihrer Website hoch .

BEISPIELE FÜR VERSCHIEDENE ANWENDUNGEN

Blockierung des gesamten Zugriffs

				
					User-agent: *
Disallow: /

Erlauben des Zugriffs auf die gesamte Website:

				
					User-agent: *
Disallow:

Blockierung eines spezifischen Crawlers:

				
					User-agent: Bingbot
Disallow: /

Vermeidung von Duplicate Content

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden und somit das Crawl-Budget effizienter genutzt wird.

				
					User-agent: *
Disallow: /duplicate-content/

Steuerung des Crawl-Budgets

Durch die gezielte Blockierung von irrelevanten oder wenig wichtigen Seiten können Sie sicherstellen, dass das Crawl-Budget auf die wichtigen Seiten konzentriert wird

				
					User-agent: *
Disallow: /irrelevant-section/

BEST PRACTICES FÜR ROBOTS.TXT

Vermeidung sensibler Daten

Stellen Sie sicher, dass keine sensiblen Informationen oder Seiten in der robots.txt-Datei offengelegt werden. Obwohl die Datei Anweisungen zum Blockieren des Crawling gibt, bleibt sie öffentlich zugänglich.

Testen der Datei

Verwenden Sie Tools wie die Google Search Console, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Das Tool „robots.txt-Tester“ hilft, Syntaxfehler zu identifizieren und zu korrigieren.

Regelmäßige Überprüfung und Aktualisierung

Die robots.txt-Datei sollte regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie den aktuellen Anforderungen und der Struktur der Website entspricht .

Nutzung von Wildcards

Wildcards (z.B. *) können verwendet werden, um Muster zu definieren und mehrere ähnliche URLs zu blockieren.

				
					User-agent: *
Disallow: /temp*

HÄUFIGE FEHLER UND DEREN VERMEIDUNG

I. Fehlerhafte Syntax

Syntaxfehler können dazu führen, dass die Anweisungen in der robots.txt-Datei nicht korrekt interpretiert werden. Verwenden Sie Tools wie den robots.txt-Tester in der Google Search Console, um Fehler zu vermeiden .

II. Blockierung wichtiger Seiten

Vermeiden Sie die Blockierung von Seiten, die für die Indexierung wichtig sind, wie z.B. Hauptkategorien oder wichtige Inhalte. Eine unüberlegte Blockierung kann die Sichtbarkeit Ihrer Website in den Suchergebnissen negativ beeinflussen .

III. Falsche Platzierung der Datei

Die robots.txt-Datei muss im Stammverzeichnis der Website platziert werden. Eine falsche Platzierung, z.B. in einem Unterverzeichnis, wird von den Crawlern nicht erkannt .

IV. Annahme, dass Disallow gleich Noindex ist

Die Anweisung Disallow verhindert das Crawling, jedoch nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, verwenden Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite .

FAQs zur robots.txt

Was ist eine robots.txt?

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird und Anweisungen für Webcrawler enthält, welche Bereiche der Website sie crawlen dürfen und welche nicht.

Warum ist die robots.txt-Datei wichtig?

Die robots.txt-Datei ist wichtig, um das Crawl-Budget effizient zu nutzen, indem irrelevante oder sensible Bereiche der Website vom Crawling ausgeschlossen werden. Sie hilft auch, Serverressourcen zu schonen und das Crawling auf wichtige Seiten zu konzentrieren.

Wie erstelle ich eine robots.txt-Datei?

Um eine robots.txt-Datei zu erstellen, öffnen Sie einen einfachen Texteditor, schreiben die gewünschten Anweisungen (z.B. User-agent, Disallow), speichern die Datei als „robots.txt“ und laden sie in das Stammverzeichnis Ihrer Website hoch.

Was ist eine Sitemap und wie verweise ich darauf?

Eine Sitemap ist eine XML-Datei, die alle wichtigen Seiten einer Website auflistet. Sie können in der robots.txt-Datei auf die Sitemap verweisen, um Crawlern die Struktur der Website zu zeigen.

Kann die robots.txt-Datei die Indexierung einer Seite verhindern?

Die Disallow-Anweisung verhindert nur das Crawlen, nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, sollten Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite verwenden.

Wie teste ich meine robots.txt-Datei?

Sie können Tools wie die Google Search Console verwenden, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Der robots.txt-Tester hilft, Syntaxfehler zu identifizieren und zu korrigieren.

Wie verhindere ich Duplicate Content mit robots.txt?

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden, wodurch das Crawl-Budget effizienter genutzt wird

Kann ich bestimmte Crawler blockieren?

Ja, Sie können bestimmte Crawler blockieren, indem Sie den User-Agent des Crawlers angeben und die entsprechenden Disallow-Anweisungen hinzufügen.

Quellen und weiterführende Artikel

Der Autor: Robert Goese

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos

CRAWLING: ROBOTS.TXT - PASSENDE ARTIKEL

TECHNISCHE SEO – CRAWLING FEHLER

WAS IST DIE ROBOTS.TXT? Die robots.txt-Datei ist eine einfache Textdatei,...