Express-Anfrage

SEO-ProfisNews Logfile-Analyse

Logfile-Analyse

Bisher keine Bewertungen vorhanden

So werten Sie aus was Google crawlt

Welche Seiten und wie häufig besucht Besucht Google eigentlich auf Ihrer Webseite? Nicht einmal mit der Google Search Console lässt sich diese Frage vollständig beantworten. Denn um das herauszufinden, müssen Sie sich durch Ihre Logfiles graben.

 

Warum sollten Sie Logfiles auswerten?

Um Weltweit alle Webseiten zu erschließen und Indexieren zu können, nutzt Google sogenannte Crawler. Das kostet seht viele Ressourcen und ist sehr aufwendig. Für jede Domain gibt es daher ein individuell bestimmtes Crawl-Budget. Deswegen ist es kein gutes Signal wenn bei den gecrawlten Seiten unwichtige, minderwertige oder auch fehlerhafte Seiten dabei sind. Dazu kommt noch, dass Ihre wichtigen und guten Seiten seltener besucht werden.
Sie können in der Google Search Console zwar sehen, wie viele URLs Google gecrawlt hat, doch welche genau das waren wird Ihnen dort nicht angezeigt.  Sie sehen nicht den kompletten Abdeckungs-Report, sondern nur ein Teil. Sie müssen Ihre Logfiles auswerten, um genau herauszufinden, wie gesund Ihre Seite ist.

 

Was ist ein Logfile überhaupt?

Dateien die auf dem Server einer Seite automatisch gespeichert werden, genau das sind Logfiles. In den Access Logs sehen Sie jede Anfrage an den Server, auch die des Googlebots. Einen Datei kann je nach der Anzahl der Seitenaufrufe, ziemlich groß sein. Daher werden diese oftmals bereits nach wenigen Wochen automatisch wieder gelöscht. Sie sollten daher, regelmäßig die Daten herunterladen oder sichern.
Eine Log-Datei enthält aneinandergereiht jede Menge identisch aufgebaute Zellen. Was genau in einer Zelle zu finde ist sehen Sie hier:

    • IP des Aufrufenden
    • Zeitpunkt des Aufrufs
    • URI, also den Pfad der aufgerufenden Seite
    • Protokoll
    • Status Code, also die Antwort des Servers
    • Übertragene Bytes 
    • User Agent

Eine Zeile sieht dann beispielsweise so aus:

65.245.125.456 – – [28/Dez/2018:02:26:03 +0200] ,,Get /logfile-analyse HTTP/1.0″ 200 25527 ,,-”
,,Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Da die IP in Logfiles, gespeichert wird, sind diese auch datenschutzrechtlich relevant. Die IP in den Logfiles sollte anonymisiert werden, damit in Sachen DSGVO alles sicher ist. Das lässt sich ganz leicht umsetzten, der letzte Zeichenblock mit einem Skript muss durch eine 0 ersetzt werden.

 

Wie genau sehen Sie, was Google auf Ihrer Seite crawlt?

Der Googlebot lässt sich über den User Agent, der bei jedem Aufruf mitgeliefert wird, identifizieren. Der typische Googlebot heißt: ,,Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”. Seit dem Mobile Index crawlt der ,,Googlebot Smartphone” noch häufiger. Wenn er möchte, kann aber jeder mit diesem User Agent crawlen. Das bedeutet, das nicht jeder User Agent ,,Googlebot” auch tatsächlich ein Crawler von Google ist. Dadurch ist es sinnvoll, sich allein auf den User Agent zu verlassen.

 

Wie können Sie den Googlebot verifizieren?

In der Regel crawlt Google von IPs aus, die mit 66.249 beginnen. Dank dieser IP Ränge lasst sich der Zugriff als echter Googlebot verifizieren. Wenn Sie aber auf Nummer sicher gehen wollen, können Sie die täglichen Googelbot-Zugriffen mit den offiziellen Zahlen aus der Google Search Console vergleichen.

 

Wie werden die Logfiles überhaupt ausgewertet?

Sie könnten jetzt natürlich anfangen, die riesigen Dateien zu entpacken, die einzelnen Elemente als Spalten in Excel aufzubereiten und die entsprechenden Googlebot-Zeilen herauszufiltern. Da dies viel zu lange dauern würde, wurden extra dafür Tools entwickelt.
Ein beliebtes Tool ist Screaming Frog Log File Analyser Dort werden die komprimierten Logfiles einfach per Drag & Drop eingefügt und das Tool filtert dann automatisch alle Suchmaschinen-Bots heraus.
Dafür gibt es aber auch diverse andere Tools. Weitere beliebte Lösungen sind das sogenannte ELK-Stack, bestehend aus den Open-Source-Lösungen Elasticsearch, Logstash und Kibana. 

 

Die Praxis

Die Theorie hinter den Logfiles ist ja schön und zu gut, aber welche Schlüsse und Maßnahmen können Sie aus den vielen Daten ableiten? Mit den folgenden zwei beispielen, möchte ich das etwas klarer machen:
Beispiel 1: Eine Logfile-Analyse hat gezeigt, dass Google enorm viele URLs mit Parametern crawlte. Als simple Maßnahme wurde in der Parameterbehandlung angegeben, dass Google keine URLs crawlen soll. Das Ergebnis konnte man dann in den Logfiles sehen, denn ein Jahr später crawlte Google nur noch eine Handvoll der ungewollten Parameter-URLs.
Beispiel 2: Nach einem Rankingabsturz in zwei Ländern konnte man in den Crawls und auf den wichtigsten Landingpages keine Fehler entdecken. Also hat man sich die Logfiles angesehen. Dort wurde dann fest gestellt, dass der Großteil der gecrawlten URLs ein Parameter enthielt. All diese Parameter-URLs waren ungewollte Seiten. Es stellte sich heraus, dass die Canonicals dieser Seiten auf sich selbst verwiesen,obwohl es sich um Duplicate Content handelte und sie auf die Seite ohne Parameter hätte verweißen müssen. Da die von Google gecrawlten Seiten nicht verlinkt waren, konnten keine SEO-Tools die fehlerhaften und doppelten Seiten finden. Als Konsequenz wurde dann aus den Canonicals die Parameter entfernt und die Rankings waren plötzlich wieder da.

 

Wie können Sie aus Logfiles Maßnahmen ableiten?

Am Anfang standen viele wegen der Masse an Daten, wie der Ochs vorm Berg. Daher habe ich hier ein paar Ansätze für Sie, was Maßnahmen aus den Erkenntnissen aus Ihren Logfiles sein können:

  • Seitenart: Werden Seitenregionen oder Seitenarten gecrawlt, die eigentlich eher unwichtig sind? Dann sollten Sie diese in der robots.txt sperren und die Links dorthin entfernen.
  • Status Codes:
    – Crawlt Google viele 404-Seiten häufiger? Waren diese früher einmal relevant, ist es womöglich sinnvoll, diese weiterzuleiten.
    – Crawlt Google bestimmte 301-Weiterleitungen häufig? Falls diese noch intern verlinkt werden, sollten Sie diese Links korrigieren.
  • Statische URLs: Werden statische Ressourcen wie Schriften und Skript sehr häufig gecrawlt? Falls ja, dann solltest du womöglich deren Http-Header anders konfigurieren.
  • Beim Relaunch: Werden nach dem Relaunch URLs gecrawlt, die bisher nicht gecrawlt wurden? Sollte das der Fall sein, solltest du sofort prüfen, ob diese URLs absichtlich entstanden sind.

Wann sollten Sie Logfiles nutzen?

Die Logfiles bilden ein sehr ehrliches Bild der Gesundheit der Seite ab. Gerade bei sehr großen Seiten ist die Analyse der Logfiles enorm wichtig, denn auf solchen Seiten ist die Crawlingsteuerung besonders wichtig. Bei kleineren Seiten oder Seiten die sich momentan noch im Aufbau finden, ist es sinnvoller erst etwas später einen Blick in die Logfiles zu werfen. Ab dann sollte man diese auch regelmäßig überprüfen – zumindest aber nach größeren Veränderungen.

 

Wollen Sie jetzt noch mehr über SEO lesen? Dann lesen Sie sich doch einfach unseren Beitrag über Zielsetzung in der Suchmaschinenoptimierung durch.

Diesen Beitrag bewerten

Share