INHALTSVERZEICHNIS:

Strategische SEO Beratung vom erfahrenen Freelancer:

Robert Goese – SEO Beratung: Tel. 030 / 53 00 56 01

SEO für Kliniken: Die Zielgruppen

I. Der Patient

Heute ist der Patient viel selbstbewußter als noch vor Jahren. Dies ist unter anderem auch dem Internet geschuldet. Hierbei nutzt der Patient das Web regelmäßig zur gesundheitlichen Informationsgewinnung. So

 

KAPAZITÄTEN ANFRAGEN
Sie wollen SEO-Beratung von einem langjährigen SEO-Experten?

Crawling durch den Googlebot

Tipps und Tricks rund um das Crawlen einer Website bei der technischen SEO:

Nach dem Crawl kommt die Indexierung

Indexierung ist der nächste Schritt nach dem Crawlen. Während dieses Prozesses speichert die Suchmaschine die Informationen, die beim Crawlen gesammelt wurden, in einer großen Datenbank – dem Index. Diese Datenbank enthält eine strukturierte Sammlung von Informationen über alle gecrawlten Seiten, die es der Suchmaschine ermöglicht, schnell relevante Ergebnisse auf Nutzeranfragen zu liefern. Es gilt also, die Informationen so darzustellen, dass sie hier schnell und richtig aufgenommen werden bzw. die Einordnung und Relevanzbeurteilung seitens Google & Co.zu erleichtert werden.

Crawling und Indexierung sind also entscheidend für die Funktionsweise von Suchmaschinen. Ohne diese Prozesse könnten sie keine umfassenden und relevanten Suchergebnisse liefern.

KeywordSuchvolumen Monat
krankenhaus in der nähe33.100
klinik in der nähe2.900
reha klinik in der nähe5.400
psychatrie in der nähe27.100
augenklinik in der nähe2.900
Technische SEO: Crawling und Indexierung
Vereinfachte Darstellung der Verarbeitung von Suchanfragen bei Google

Indexierung

Tipps und Tricks rund um die Indexierung der Webseiten durch Google & Co.

"Gecrawlt ist noch lange nicht indexiert"

Altes SEO Sprichwort

WAS IST DIE ROBOTS.TXT?

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird. Sie gibt Webcrawlern Anweisungen, welche Bereiche der Website sie durchsuchen dürfen und welche nicht. Diese Datei ist ein wichtiger Bestandteil des Robots Exclusion Protocol, das seit 1994 existiert und von den meisten Suchmaschinen (u.a. von Goggle) respektiert wird.

Crawl Delay (keine Google Unterstützung)

ERWEITERTE BEFEHLE UND OPTIONEN

Mit der Crawl-Delay-Anweisung kann die Zeitverzögerung zwischen den Anfragen eines Crawlers eingestellt werden. Dies ist nützlich, um die Serverlast zu verringern.

				
					User-agent: *
Crawl-delay: 10
				
			

Host

Der Host-Befehl wird verwendet, um anzugeben, welche Version der Website bevorzugt gecrawlt werden soll, insbesondere bei mehrsprachigen oder regionalen Websites.

				
					User-agent: *
Host: www.example.com
				
			

Noindex

Einige Suchmaschinen unterstützten die Noindex-Anweisung in der robots.txt-Datei, um anzugeben, dass bestimmte Seiten nicht in den Index aufgenommen werden sollen. Diese Unterstützung wurde jedoch von Google im September 2019 eingestellt. Stattdessen sollte das Meta-Tag „noindex“ verwendet werden.

				
					User-agent: *
Noindex: /private/

				
			

ERSTELLUNG UND VERWALTUNG EINER ROBOTS.TXT

  1. Öffnen Sie einen Texteditor: Verwenden Sie einen einfachen Texteditor wie Notepad oder TextEdit.
  2. Schreiben Sie die Anweisungen: Geben Sie die gewünschten Anweisungen für die Crawler ein.
  3. Speichern Sie die Datei als robots.txt: Achten Sie darauf, dass die Datei als „robots.txt“ gespeichert wird.
  4. Hochladen in das Stammverzeichnis: Laden Sie die Datei in das Stammverzeichnis Ihrer Website hoch ​​.

BEISPIELE FÜR VERSCHIEDENE ANWENDUNGEN

Blockierung des gesamten Zugriffs

				
					User-agent: *
Disallow: /

				
			

Erlauben des Zugriffs auf die gesamte Website:

				
					User-agent: *
Disallow:
				
			

Blockierung eines spezifischen Crawlers:

				
					User-agent: Bingbot
Disallow: /

				
			

Vermeidung von Duplicate Content

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden und somit das Crawl-Budget effizienter genutzt wird.

				
					User-agent: *
Disallow: /duplicate-content/

				
			

Steuerung des Crawl-Budgets

Durch die gezielte Blockierung von irrelevanten oder wenig wichtigen Seiten können Sie sicherstellen, dass das Crawl-Budget auf die wichtigen Seiten konzentriert wird

				
					User-agent: *
Disallow: /irrelevant-section/
				
			

BEST PRACTICES FÜR ROBOTS.TXT

Vermeidung sensibler Daten

Stellen Sie sicher, dass keine sensiblen Informationen oder Seiten in der robots.txt-Datei offengelegt werden. Obwohl die Datei Anweisungen zum Blockieren des Crawling gibt, bleibt sie öffentlich zugänglich​​​​.

Testen der Datei

Verwenden Sie Tools wie die Google Search Console, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Das Tool „robots.txt-Tester“ hilft, Syntaxfehler zu identifizieren und zu korrigieren.

Regelmäßige Überprüfung und Aktualisierung

Die robots.txt-Datei sollte regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie den aktuellen Anforderungen und der Struktur der Website entspricht .

Nutzung von Wildcards

Wildcards (z.B. *) können verwendet werden, um Muster zu definieren und mehrere ähnliche URLs zu blockieren.

				
					User-agent: *
Disallow: /temp*

				
			

HÄUFIGE FEHLER UND DEREN VERMEIDUNG

I. Fehlerhafte Syntax

Syntaxfehler können dazu führen, dass die Anweisungen in der robots.txt-Datei nicht korrekt interpretiert werden. Verwenden Sie Tools wie den robots.txt-Tester in der Google Search Console, um Fehler zu vermeiden .

II. Blockierung wichtiger Seiten

Vermeiden Sie die Blockierung von Seiten, die für die Indexierung wichtig sind, wie z.B. Hauptkategorien oder wichtige Inhalte. Eine unüberlegte Blockierung kann die Sichtbarkeit Ihrer Website in den Suchergebnissen negativ beeinflussen ​​.

III. Falsche Platzierung der Datei

Die robots.txt-Datei muss im Stammverzeichnis der Website platziert werden. Eine falsche Platzierung, z.B. in einem Unterverzeichnis, wird von den Crawlern nicht erkannt .

IV. Annahme, dass Disallow gleich Noindex ist

Die Anweisung Disallow verhindert das Crawling, jedoch nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, verwenden Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite .

FAQs zur robots.txt

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website abgelegt wird und Anweisungen für Webcrawler enthält, welche Bereiche der Website sie crawlen dürfen und welche nicht​​​​.

Die robots.txt-Datei ist wichtig, um das Crawl-Budget effizient zu nutzen, indem irrelevante oder sensible Bereiche der Website vom Crawling ausgeschlossen werden. Sie hilft auch, Serverressourcen zu schonen und das Crawling auf wichtige Seiten zu konzentrieren​​.

Um eine robots.txt-Datei zu erstellen, öffnen Sie einen einfachen Texteditor, schreiben die gewünschten Anweisungen (z.B. User-agent, Disallow), speichern die Datei als „robots.txt“ und laden sie in das Stammverzeichnis Ihrer Website hoch​​​​.

Eine Sitemap ist eine XML-Datei, die alle wichtigen Seiten einer Website auflistet. Sie können in der robots.txt-Datei auf die Sitemap verweisen, um Crawlern die Struktur der Website zu zeigen.

Die Disallow-Anweisung verhindert nur das Crawlen, nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, sollten Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite verwenden​​​​.

Sie können Tools wie die Google Search Console verwenden, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Der robots.txt-Tester hilft, Syntaxfehler zu identifizieren und zu korrigieren​​​​.

Durch die richtige Konfiguration der robots.txt-Datei können Sie sicherstellen, dass doppelte Inhalte nicht gecrawlt werden, wodurch das Crawl-Budget effizienter genutzt wird​​

Ja, Sie können bestimmte Crawler blockieren, indem Sie den User-Agent des Crawlers angeben und die entsprechenden Disallow-Anweisungen hinzufügen​​.

Quellen und weiterführende Artikel

Der Autor: Robert Goese
Der Autor: Robert Goese

Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.

SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.

Mehr Infos

Mehr SEO Beratung