So richten Sie die Robots.txt für Ihre Site richtig ein

Wenn Sie eine Website betreiben 10 Möglichkeiten zum Erstellen einer kleinen und einfachen Website ohne Overkill 10 Möglichkeiten, eine kleine und einfache Website ohne Overkill zu erstellen WordPress kann ein Overkill sein. Wie diese anderen ausgezeichneten Dienste beweisen, ist WordPress nicht das A und O für die Erstellung von Websites. Wenn Sie einfachere Lösungen wünschen, gibt es eine Vielzahl von Möglichkeiten. Lesen Sie mehr, Sie haben wahrscheinlich von einer robots.txt-Datei (oder der “Roboter-Ausschlussstandard”). Unabhängig davon, ob Sie dies getan haben oder nicht, ist es an der Zeit, etwas darüber zu erfahren, denn diese einfache Textdatei ist ein entscheidender Teil Ihrer Website. Es mag unbedeutend erscheinen, aber Sie könnten überrascht sein, wie wichtig es ist.

Werfen wir einen Blick darauf, was eine robots.txt-Datei ist, was sie tut und wie man sie richtig für Ihre Site einrichtet.

Was ist eine robots.txt-Datei??

Um zu verstehen, wie eine robots.txt-Datei funktioniert, müssen Sie etwas über Suchmaschinen wissen. Wie funktionieren Suchmaschinen? Wie funktionieren Suchmaschinen? Für viele ist Google das Internet. Es ist wohl die wichtigste Erfindung seit dem Internet. Und während sich Suchmaschinen seitdem stark verändert haben, sind die zugrundeliegenden Prinzipien immer noch dieselben. Weiterlesen . Die kurze Version ist, dass sie aussenden “Crawler,” Dies sind Programme, die das Internet nach Informationen durchsuchen. Sie speichern dann einige dieser Informationen, damit sie später darauf hingewiesen werden können.

Diese Crawler, auch bekannt als “Bots” oder “Spinnen,” Finden Sie Seiten von Milliarden von Websites. Suchmaschinen geben ihnen Anweisungen, wohin sie gehen sollen, aber einzelne Websites können auch mit den Bots kommunizieren und ihnen mitteilen, welche Seiten sie betrachten sollen.

Meistens machen sie eigentlich das Gegenteil und sagen ihnen, welche Seiten sie haben sollte nicht schauen Sie sich an. Dinge wie Verwaltungsseiten, Backend-Portale, Kategorien- und Tag-Seiten und andere Dinge, die Websitebesitzer nicht in Suchmaschinen angezeigt werden möchten. Diese Seiten sind für Benutzer weiterhin sichtbar und für jeden zugänglich, der über eine Berechtigung verfügt (meistens alle)..

Indem sie den Spinnen sagt, dass sie einige Seiten nicht indizieren sollen, tut die Datei robots.txt jedem einen Gefallen. Wenn Sie gesucht haben “Gebrauch machen von” Möchten Sie, dass unsere Verwaltungsseiten in einer Suchmaschine in den Rankings hoch angezeigt werden? Nein, das würde niemandem helfen, also sagen wir den Suchmaschinen, sie nicht anzuzeigen. Es kann auch verwendet werden, um zu verhindern, dass Suchmaschinen Seiten auschecken, die ihnen möglicherweise nicht dabei helfen, Ihre Website in Suchergebnissen zu klassifizieren.

Kurz gesagt, robots.txt teilt Web-Crawlern mit, was zu tun ist.

Kann Crawler robots.txt ignorieren?

Ignorieren Crawler die robots.txt-Dateien? Ja. In der Tat viele Crawler tun ignoriere es. Im Allgemeinen sind diese Crawler jedoch keine seriösen Suchmaschinen. Sie stammen von Spammern, E-Mail-Harvestern und anderen Arten automatisierter Bots, die im Internet unterwegs sind. Es ist wichtig, dies zu beachten - Die Verwendung des Roboter-Ausschlussstandards zum Abhalten von Bots ist keine wirksame Sicherheitsmaßnahme. In der Tat könnten einige Bots Start Mit den Seiten sagen Sie ihnen, dass sie nicht weitergehen sollen.

Suchmaschinen tun jedoch so, wie es in Ihrer robots.txt-Datei angegeben ist, solange sie korrekt formatiert ist.

So schreiben Sie eine robots.txt-Datei

Es gibt einige verschiedene Teile, die in eine Standarddatei für den Roboterausschluss aufgenommen werden. Ich werde sie hier einzeln zerlegen.

Benutzeragentenerklärung

Bevor Sie einem Bot mitteilen, auf welchen Seiten er nicht schauen soll, müssen Sie angeben, mit welchem Bot Sie sprechen. In den meisten Fällen verwenden Sie eine einfache Deklaration “alle Bots.” Das sieht so aus:

User-Agent: *

Das Sternchen steht für “alle Bots.” Sie können jedoch Seiten für bestimmte Bots angeben. Dazu müssen Sie den Namen des Bots kennen, für den Sie Richtlinien festlegen. Das könnte so aussehen:

User-Agent: Googlebot [Liste der Seiten, die nicht gecrawlt werden sollen] User-Agent: Googlebot-Image / 1.0 [Liste der Seiten, die nicht gecrawlt werden] User-Agent: Bingbot [Liste der Seiten, die nicht gecrawlt werden]

Und so weiter. Wenn Sie einen Bot entdecken, der Ihre Site überhaupt nicht crawlen soll, können Sie dies auch angeben.

Um die Namen von Benutzeragenten zu ermitteln, besuchen Sie useragentstring.com.

Seiten werden nicht zugelassen

Dies ist der Hauptteil Ihrer Roboter-Ausschlussdatei. Mit einer einfachen Deklaration weisen Sie einen Bot oder eine Gruppe von Bots an, bestimmte Seiten nicht zu crawlen. Die Syntax ist einfach. So verbieten Sie den Zugriff auf alles in der “Administrator” Verzeichnis Ihrer Site:

Nicht zulassen: / admin /

Diese Zeile würde verhindern, dass Bots Ihre Website / Admin, Ihre Site / Admin / Login, Ihre Site / Admin/files/secret.html und andere Elemente, die unter das Admin-Verzeichnis fallen, crawlen.

Um eine einzelne Seite nicht zuzulassen, geben Sie sie einfach in der Zeile nicht zulässig an:

Nicht zulassen: /public/exception.html

Jetzt die “Ausnahme” Seite wird nicht gezeichnet, aber alles andere in der “Öffentlichkeit” Ordner wird.

Um mehrere Verzeichnisse oder Seiten einzuschließen, listen Sie sie einfach in nachfolgenden Zeilen auf:

Nicht zulassen: / private / Nicht zulassen: / admin / Nicht zulässig: / cgi-bin / Nicht zulässig: / temp /

Diese vier Zeilen gelten für den Benutzeragenten, den Sie oben im Abschnitt angegeben haben.

Wenn Sie verhindern möchten, dass Bots eine Seite auf Ihrer Website anzeigen, verwenden Sie Folgendes:

Nicht zulassen: /

Einstellen verschiedener Standards für Bots

Wie wir oben gesehen haben, können Sie bestimmte Seiten für verschiedene Bots angeben. Wenn Sie die beiden vorherigen Elemente kombinieren, sieht das so aus:

Benutzeragent: googlebot Nicht zulassen: / admin / Nicht zulassen: / private / Benutzeragent: bingbot Nicht zulassen: / admin / Nicht zulassen: / private / Nicht zulässig: / secret /

Das “Administrator” und “Privatgelände” Abschnitte werden auf Google und Bing nicht sichtbar sein, aber Google wird das sehen “Geheimnis” Verzeichnis, während Bing nicht.

Sie können allgemeine Regeln für alle Bots mithilfe des Stern-Benutzeragenten festlegen und anschließend in den folgenden Abschnitten spezifische Anweisungen für Bots angeben.

Alles zusammenfügen

Mit dem oben genannten Wissen können Sie eine vollständige robots.txt-Datei schreiben. Starten Sie einfach Ihren bevorzugten Texteditor (wir sind Fans von Sublime 11 Sublime Text Tips für Produktivität und einen schnelleren Workflow. 11 Sublime Text Tips für Produktivität und einen schnelleren Workflow. Sublime Text ist ein vielseitiger Texteditor und ein Goldstandard für viele Programmierer Die Tipps konzentrieren sich auf effizientes Codieren, aber allgemeine Benutzer werden die Tastenkombinationen zu schätzen wissen. Weitere Informationen finden Sie hier und Sie können den Bots mitteilen, dass sie in bestimmten Bereichen Ihrer Website nicht erwünscht sind.

Wenn Sie ein Beispiel für eine robots.txt-Datei sehen möchten, gehen Sie einfach zu einer beliebigen Site und fügen Sie sie hinzu “/robots.txt” bis zum Ende. Hier ist ein Teil der Riesenfahrräder robots.txt-Datei:

Wie Sie sehen, gibt es einige Seiten, die nicht in Suchmaschinen angezeigt werden sollen. Sie haben auch ein paar Dinge aufgenommen, über die wir noch nicht gesprochen haben. Sehen wir uns an, was Sie sonst noch in Ihrer Roboter-Ausschlussdatei tun können.

Ihre Sitemap finden

Wenn Ihre robots.txt-Datei den Bots wo sagt nicht Ihre Sitemap verhält sich umgekehrt. So erstellen Sie eine XML-Sitemap in 4 einfachen Schritten So erstellen Sie eine XML-Sitemap in 4 einfachen Schritten Es gibt zwei Arten von Sitemaps: HTML-Seiten oder eine XML-Datei. Eine HTML-Sitemap ist eine einzige Seite, auf der Besucher alle Seiten einer Website angezeigt werden. In der Regel finden Sie Links zu diesen… Read More und hilft ihnen bei der Suche, wonach sie suchen. Und während Suchmaschinen wahrscheinlich bereits wissen, wo Ihre Sitemap ist, schadet es nicht, sie erneut zu informieren.

Die Deklaration für einen Sitemap-Speicherort ist einfach:

Sitemap: [URL der Sitemap]

Das ist es.

In unserer eigenen robots.txt-Datei sieht es so aus:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Das ist alles dazu.

Einstellen einer Crawl-Verzögerung

Die Durchforstungsverzögerung gibt bestimmten Suchmaschinen an, wie oft sie eine Seite auf Ihrer Website indizieren können. Es wird in Sekunden gemessen, obwohl einige Suchmaschinen es etwas anders interpretieren. Einige sehen eine Durchforstungsverzögerung von 5 als Hinweis darauf, dass sie nach jedem Durchsuchen fünf Sekunden warten müssen, um den nächsten einzuleiten. Andere interpretieren es als eine Anweisung, nur alle fünf Sekunden eine Seite zu crawlen.

Warum sollten Sie einem Crawler sagen, dass er nicht so viel wie möglich crawlen soll? So bewahren Sie die Bandbreite 4 Möglichkeiten, Windows 10 verschwendet Ihre Internet-Bandbreite 4 Möglichkeiten, Windows 10 verschwendet Ihre Internet-Bandbreite Verliert Windows 10 Ihre Internet-Bandbreite? Hier erfahren Sie, wie Sie dies überprüfen und wie Sie es stoppen können. Weiterlesen . Wenn Ihr Server Schwierigkeiten hat, mit dem Datenverkehr Schritt zu halten, können Sie eine Durchforstungsverzögerung einrichten. Im Allgemeinen müssen sich die meisten Leute nicht darum kümmern. Große, stark frequentierte Websites möchten jedoch möglicherweise etwas experimentieren.

So legen Sie eine Crawl-Verzögerung von acht Sekunden fest:

Crawl-Verzögerung: 8

Das ist es. Nicht alle Suchmaschinen werden Ihrer Anweisung folgen. Aber es tut nicht weh zu fragen. Wie bei der Nichtzulassung von Seiten können Sie unterschiedliche Durchforstungsverzögerungen für bestimmte Suchmaschinen festlegen.

Laden Sie Ihre robots.txt-Datei hoch

Nachdem Sie alle Anweisungen in Ihrer Datei eingerichtet haben, können Sie sie auf Ihre Website hochladen. Stellen Sie sicher, dass es sich um eine reine Textdatei handelt, die den Namen "robots.txt" hat. Laden Sie ihn dann auf Ihre Website hoch, damit Sie ihn unter yoursite.com/robots.txt finden.

Wenn Sie ein Content-Management-System verwenden 10 Die beliebtesten Content-Management-Systeme online 10 Die beliebtesten Content-Management-Systeme online Die Zeiten, in denen handcodierte HTML-Seiten und das Beherrschen von CSS vorüber sind, sind lange vorbei. Installieren Sie ein Content-Management-System (CMS), und innerhalb weniger Minuten können Sie eine Website mit der ganzen Welt teilen. Lesen Sie mehr wie WordPress. Es gibt wahrscheinlich einen bestimmten Weg, um dies zu tun. Da dies in jedem Content-Management-System unterschiedlich ist, müssen Sie die Dokumentation Ihres Systems konsultieren.

Einige Systeme verfügen möglicherweise über Online-Schnittstellen zum Hochladen Ihrer Datei. Kopieren Sie dazu einfach die Datei, die Sie in den vorherigen Schritten erstellt haben.

Denken Sie daran, Ihre Datei zu aktualisieren

Der letzte Ratschlag, den ich gebe, ist, gelegentlich über die Roboterausschlussdatei zu schauen. Ihre Site ändert sich, und Sie müssen möglicherweise einige Anpassungen vornehmen. Wenn Sie eine merkwürdige Änderung Ihres Suchmaschinenverkehrs feststellen, sollten Sie auch die Datei auschecken. Es ist auch möglich, dass sich die Standardnotation in der Zukunft ändern kann. Wie alles andere auf Ihrer Website, lohnt es sich, dies gelegentlich zu überprüfen.

Auf welchen Seiten schließen Sie Crawler auf Ihrer Website aus? Haben Sie einen Unterschied im Suchmaschinenverkehr festgestellt? Teilen Sie unten Ihre Ratschläge und Kommentare mit!

« So kopieren Sie Text direkt aus einem Windows-Dialogfeld So begegnen Sie Datenverletzungen 3 Einfache Möglichkeiten, Ihre Daten zu schützen »