INHALTSVERZEICHNIS:

Strategische SEO Beratung vom erfahrenen Freelancer:

Über die Wichtigkeit von Suchmaschinenoptimierung (SEO) brauchen wir wohl nicht diskutieren. Schnell wird jedoch übersehen, das für jeglichen Erfolg von SEO natürlich auch zahlreiche technische Voraussetzungen (eben der technischen SEO) erfüllt sein müssen, um Inhalte bei  Suchmaschinen ranken zu lassen.

Technische SEO bildet das Fundament einer erfolgreichen SEO-Strategie: Ohne eine solide technische Basis können selbst die besten Inhalte und Backlinks ihre volle Wirkung nicht entfalten. Technische SEO ist ein komplexes, aber unverzichtbares Element der Suchmaschinenoptimierung. Sie stellt sicher, dass eine Website nicht nur von Suchmaschinen richtig verstanden und indexiert wird, sondern auch eine optimale Leistung und Benutzererfahrung bietet. Eine gut umgesetzte technische SEO legt das Fundament für alle weiteren SEO-Maßnahmen und ist entscheidend für den langfristigen Erfolg einer Website in den Suchmaschinen.

Zur technischen SEO gehört u.a. die Crawlbarkeit und Indexierbarkeit der Website zu gewährleisten, die optimierte Informationsstruktur und Seitendarstellung für Mensch und Maschine darzubieten und auch sonst die Belange der User (und damit auch Google) z.B. bei der Schnelligkeit oder Sicherheit der Seite zu berücksichtigen.

Technische SEO ist ein grundsätzlicher, großer und somit sehr wichtiger Teil der Optimierung. Hier können Fehler ausgesprochen starke Folgen haben: So kann Suchmaschinenranking insgesamt verhindert werden, die Usability kann komplett zusammenbrechen

Die User als auch Google können also die Seite bei erfolgter Optimierung schneller finden, durch die verbesserte Informationsstruktur und Informationsdarstellung besser verstehen und einordnen.

Robert Goese – SEO Beratung: Tel. 030 / 53 00 56 01

WAS IST DIE ROBOTS.TXT?

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird. Sie gibt Webcrawlern Anweisungen, welche Bereiche der Website sie durchsuchen dürfen und welche nicht. Diese Datei ist ein wichtiger Bestandteil des Robots Exclusion Protocol, das seit 1994 existiert und von den meisten Suchmaschinen (u.a. von Goggle) respektiert wird.

FUNKTIONSWEISE DER ROBOTS.TXT

Aufbau und Syntax

Die robots.txt-Datei besteht aus einer Reihe von Anweisungen, die aus zwei Hauptkomponenten bestehen: „User-agent“ und „Disallow“. Zusätzlich können „Allow“, „Sitemap“ und andere erweiterte Anweisungen verwendet werden.

  • User-agent: Identifiziert den Crawler, für den die Anweisungen gelten.
  • Disallow: Gibt an, welche Seiten oder Verzeichnisse nicht gecrawlt werden dürfen.
  • Allow: Spezifische Anweisung für Googlebot, um das Crawlen von bestimmten Seiten innerhalb eines ansonsten gesperrten Verzeichnisses zu erlauben.
  • Sitemap: Verweist auf die Sitemap der Website, um Crawlern die Struktur der Website anzuzeigen .
				
					User-agent: *
Disallow: /private/
Allow: /private/public-file.html
Sitemap: https://www.example.com/sitemap.xml
				
			

Der User-Agent

Der User-Agent ist der Name des Webcrawlers, für den die Anweisungen gelten. Durch die Angabe von spezifischen User-Agents können unterschiedliche Anweisungen für verschiedene Crawler festgelegt werden. Der Stern (*) als Platzhalter bedeutet, dass die Anweisungen für alle Crawler gelten.

				
					User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/
				
			

Disallow

Der User-Agent ist der Name des Webcrawlers, für den die Anweisungen gelten. Durch die Angabe von spezifischen User-Agents können unterschiedliche Anweisungen für verschiedene Crawler festgelegt werden. Der Stern (*) als Platzhalter bedeutet, dass die Anweisungen für alle Crawler gelten.

				
					User-agent: *
Disallow: /admin/
Disallow: /login/
				
			

Allow

Die Allow-Anweisung wird in Kombination mit Disallow verwendet, um bestimmte Seiten innerhalb eines gesperrten Verzeichnisses dennoch für das Crawlen freizugeben. Diese Anweisung ist besonders nützlich für komplexe Websites.

				
					User-agent: Googlebot
Disallow: /content/
Allow: /content/public/
				
			

XML Sitemap URL

Die Hinterlassung der URL der XML Sitemap erleichtert Google das Crawlen und die Indexierung der Domain. So können die Webcrawler die Sitemap auch finden, wenn diese nicht bei den einzelnenen Suchmaschinen in z.B. der Google  Search Console, in den Bing- Webmastertools etc. eingereicht worden ist. Hier können auch mehrere Sitemaps angegeben werden bzw. der Link zur Sitemap Index Datei hinterlassen werden.

				
					Sitemap: https://www.example.com/sitemap.xml
				
			

ERWEITERTE BEFEHLE UND OPTIONEN

Crawl Delay (keine Google Unterstützung)

Mit der Crawl-Delay-Anweisung kann die Zeitverzögerung zwischen den Anfragen eines Crawlers eingestellt werden. Dies ist nützlich, um die Serverlast zu verringern.

				
					User-agent: *
Crawl-delay: 10
				
			

Host

Der Host-Befehl wird verwendet, um anzugeben, welche Version der Website bevorzugt gecrawlt werden soll, insbesondere bei mehrsprachigen oder regionalen Websites.

				
					User-agent: *
Host: www.example.com
				
			

Noindex

Einige Suchmaschinen unterstützten die Noindex-Anweisung in der robots.txt-Datei, um anzugeben, dass bestimmte Seiten nicht in den Index aufgenommen werden sollen. Diese Unterstützung wurde jedoch von Google im September 2019 eingestellt. Stattdessen sollte das Meta-Tag „noindex“ verwendet werden.

				
					User-agent: *
Noindex: /private/

				
			

ERSTELLUNG UND VERWALTUNG EINER ROBOTS.TXT

  1. Öffnen Sie einen Texteditor: Verwenden Sie einen einfachen Texteditor wie Notepad oder TextEdit.
  2. Schreiben Sie die Anweisungen: Geben Sie die gewünschten Anweisungen für die Crawler ein.
  3. Speichern Sie die Datei als robots.txt: Achten Sie darauf, dass die Datei als „robots.txt“ gespeichert wird.
  4. Hochladen in das Stammverzeichnis: Laden Sie die Datei in das Stammverzeichnis Ihrer Website hoch ​​.

BEISPIELE FÜR VERSCHIEDENE ANWENDUNGEN

Blockierung des gesamten Zugriffs

				
					User-agent: *
Disallow: /

				
			

Erlauben des Zugriffs auf die gesamte Website:

				
					User-agent: *
Disallow:
				
			

Blockierung eines spezifischen Crawlers:

				
					User-agent: Bingbot
Disallow: /

				
			

Vermeidung von Duplicate Content

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden und somit das Crawl-Budget effizienter genutzt wird.

				
					User-agent: *
Disallow: /duplicate-content/

				
			

Steuerung des Crawl-Budgets

Durch die gezielte Blockierung von irrelevanten oder wenig wichtigen Seiten können Sie sicherstellen, dass das Crawl-Budget auf die wichtigen Seiten konzentriert wird

				
					User-agent: *
Disallow: /irrelevant-section/
				
			

BEST PRACTICES FÜR ROBOTS.TXT

Vermeidung sensibler Daten

Stellen Sie sicher, dass keine sensiblen Informationen oder Seiten in der robots.txt-Datei offengelegt werden. Obwohl die Datei Anweisungen zum Blockieren des Crawling gibt, bleibt sie öffentlich zugänglich​​​​.

Testen der Datei

Verwenden Sie Tools wie die Google Search Console, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Das Tool „robots.txt-Tester“ hilft, Syntaxfehler zu identifizieren und zu korrigieren.

Regelmäßige Überprüfung und Aktualisierung

Die robots.txt-Datei sollte regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie den aktuellen Anforderungen und der Struktur der Website entspricht .

Nutzung von Wildcards

Wildcards (z.B. *) können verwendet werden, um Muster zu definieren und mehrere ähnliche URLs zu blockieren.

				
					User-agent: *
Disallow: /temp*

				
			

HÄUFIGE FEHLER UND DEREN VERMEIDUNG

I. Fehlerhafte Syntax

Syntaxfehler können dazu führen, dass die Anweisungen in der robots.txt-Datei nicht korrekt interpretiert werden. Verwenden Sie Tools wie den robots.txt-Tester in der Google Search Console, um Fehler zu vermeiden .

II. Blockierung wichtiger Seiten

Vermeiden Sie die Blockierung von Seiten, die für die Indexierung wichtig sind, wie z.B. Hauptkategorien oder wichtige Inhalte. Eine unüberlegte Blockierung kann die Sichtbarkeit Ihrer Website in den Suchergebnissen negativ beeinflussen ​​.

III. Falsche Platzierung der Datei

Die robots.txt-Datei muss im Stammverzeichnis der Website platziert werden. Eine falsche Platzierung, z.B. in einem Unterverzeichnis, wird von den Crawlern nicht erkannt .

IV. Annahme, dass Disallow gleich Noindex ist

Die Anweisung Disallow verhindert das Crawling, jedoch nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, verwenden Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite .

FAQs zur robots.txt

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird und Anweisungen für Webcrawler enthält, welche Bereiche der Website sie crawlen dürfen und welche nicht​​​​.

Die robots.txt-Datei ist wichtig, um das Crawl-Budget effizient zu nutzen, indem irrelevante oder sensible Bereiche der Website vom Crawling ausgeschlossen werden. Sie hilft auch, Serverressourcen zu schonen und das Crawling auf wichtige Seiten zu konzentrieren​​.

Um eine robots.txt-Datei zu erstellen, öffnen Sie einen einfachen Texteditor, schreiben die gewünschten Anweisungen (z.B. User-agent, Disallow), speichern die Datei als „robots.txt“ und laden sie in das Stammverzeichnis Ihrer Website hoch​​​​.

Eine Sitemap ist eine XML-Datei, die alle wichtigen Seiten einer Website auflistet. Sie können in der robots.txt-Datei auf die Sitemap verweisen, um Crawlern die Struktur der Website zu zeigen.

Die Disallow-Anweisung verhindert nur das Crawlen, nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, sollten Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite verwenden​​​​.

Sie können Tools wie die Google Search Console verwenden, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Der robots.txt-Tester hilft, Syntaxfehler zu identifizieren und zu korrigieren​​​​.

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden, wodurch das Crawl-Budget effizienter genutzt wird​​

Ja, Sie können bestimmte Crawler blockieren, indem Sie den User-Agent des Crawlers angeben und die entsprechenden Disallow-Anweisungen hinzufügen​​.

Quellen und weiterführende Artikel

Der Autor: Robert Goese
Der Autor: Robert Goese

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos

EEAT - Passende Artikel

Content SEO

Content SEO

Ratgeberartikel zur Content SEO: Die richtige Strukturierung von Texten, optimierte...

Weiterlesen