Logfiles: Auf Spurensuche im Internet

von Fries Websolutions

Wenn man seine Logfiles einmal genauer analysiert, dann bekommt auch aussagekräftige Ergebnisse von seinen Kunden im Web. Und wenn man die dann richtig einsetzt, wird die Logfile-Analyse zu einem wichtigen Marketingtool für den Web-Erfolg. So ermittelt man die Zielgruppen und damit kann das Webangebot so optimiert werden.

Denn jeder Hit wird aufgezeichnet, dabei wird auch die IP des Besuchers gespeichert, und der verwendete Browser wird damit ermittelt. Logfiles sind die Speicherplätze aller Benutzerdaten, dabei wird jede Anfrage an den Server genau protokolliert und abgespeichert. Hat man Zugriff auf diese Statistiken, so erfährt man viel über die Entwicklung des Besucherstroms und man kann  so auch die Zielgruppe ermitteln. Logfiles findet man meist im selben Verzeichnis wie der ROOT selbst, dabei handelt es sich um einfache Textdateien, die aber mit jedem Editor ausgelesen werden können.

Da jeder Aufruf an den Server protokolliert wird, kann man so bestimmen, wo der Besucher herkam, welchen Browser er benutzt  und welche Seiten er sich angesehen hat. weil jeder Aufruf  im Logfile einer Zeile steht.

Die Zeile beschreibt den kompletten Aufruf einer Seite, der "Code" erscheint eigentlich ungeordnet, doch er besteht aus einer festen Struktur. Sie besteht aus der IP-Adresse des Rechners, von der dieser Aufruf getätigt hwurde, denn die IP-Adresse ist eine wandelnde Nummer. Denn mit jeder neuen Internetverbindung erhält der Computer, das hängt vom jeweiligen Internetanbieter ab, eine neue IP-Adresse aus einem Pool, doch diese IP-Adresse ist innerhalb dieser Session nur einmalig und erlaubt so die Kommunikation zwischen den verschiedenen Rechnern.

Nach der IP-Adresse folgt ein ein Bindestrich und weiter geht es mit näheren Informationen zum Aufruf der Seite. Jetzt werden Datum und Uhrzeit in eckigen []-Klammern angezeigt, diese Angabe folgt dem amerikanischen Standard bei Tag/Monat/Jahr. Durch Trennung mit einem Doppelpunkt, ist der genaue Zeitpunkt des Aufrufs im GMT Zeitformat (Greenwich Mean Time) angezeigt. Dabei legt die Methode GET fest, dass die Daten vom Server an den Client gesendet werden und nach dieser Angabe folgt das Protokoll, mit welchem die Daten kodiert wurden, hier also das HTTP-Protokoll.

Dabei kann es vorkommen, das in den Logfiles auch ein HEAD, als Methode auftaucht. Denn diese Methode wird überwiegend von den Suchmaschinen verwendet, die aber nur Daten, zu der angeforderten Datei erhalten. Das kann auch nur das letzte Änderungsdatum des Dokumentes sein und mit diesem Datum wird festgelegt, ob diese Seite neu indexiert wird. Hat man die Methode und das Protokolls angelegt, kommt der Rückgabecode des Servers. Ist der Seitenaufruf geglückt, dann wird als Rückgabecode 200 zurückgegeben und hier noch eine Übersicht zu weiteren Rückgabecodes:

200 OK
Der Request wurde erfolgreich durchgeführt.

204 No Content
Das angeforderte Dokument enthält keine Daten.

206 Partial Content
Die Übertragung wurde unterbrochen. Das kann vom Browser aus geschehen sein, oder bei einem Update der Seite.

300 Multiple Choices
Es sind mehrere, oder ähnliche Dateien vorhanden. Der Server kann die Datei nicht eindeutig ermitteln und bietet dabei mehrere Auswahlmöglichkeiten.

301 Moved Permanently
Die Datei wurde an einen anderen Ort verschoben.

304 Not Modified
Die Datei wird komplett aus dem Cache (Server und/oder Client Seitig) geladen.

400 Bad Request
Der Webserver "versteht" Ihre Anfrage nicht.

401 Unauthorized
Sie sind nicht autorisiert, diesen Bereich zu betreten.

403 Forbidden
Der Zugriff auf die angeforderte Datei wird verweigert

404 Not Found
Die Datei wurde nicht gefunden (ist nicht vorhanden), oder der URL wurde falsch eingegeben.

500 Internal Server Error
Ein unbekannter Server Fehler ist aufgetreten. Oftmals entstehen diese durch falsche Anwendung von .htaccess Dateien oder durch Fehler im CGI.

503 Service Unavailable
Der Server kann die Anfrage zeitweilig nicht bearbeiten, z.B. bei Wartungsarbeiten.

Bei dem Rückgabecode erfolgt eine Zahl, die übertragene Datenmenge in Bytes genau angibt, denn diese Zahl entspricht der Dateigröße. Dann folgt der URL zu dem Dokument, die aufgerufen wurde, der URL hat einen Root, also war es ein direkter Request. Auf der URL folgt die URL, der Seite, auf die der Besucher zuletzt besucht hat, aber bei einer direkten Anfrage entfällt diese Angabe. Aber bei einer indirekten Anfrage, wenn zum Beispiel über einen Link zu einer anderen Seite kommt, dann steht hier die URL der Seite, von der man gekommen ist, das ist dann die Referer-Seite.

Als nächstes folgen Angaben über Informationen zu dem Client bzw. zu dem System, von der dieser Aufruf getätigt wurde. Diese Angaben erstrecken sich von dem verwendeten Browser, bis zu dem Betriebssystem. Doch kommt der Request von einem Spider, oder von einem Robot, dann steht auch dort der Name, des jeweiligen Spider oder Robots.

Jeder Hit wird nach so einem, oder ähnlichen Muster aufgebaut, deshalb ist auch die Analyse fast zu einem Kinderspiel geworden.. Es  gibt Analyse-Programme oder auch Skripte, die jetzt jeden Hit auslesen, und ihn in seine Bestandteile auseinander legen, um ihn dann, in einer guten und übersichtlichen Statistik wieder zusammen gesetzt werden. Sehr komplexe Statistiksysteme ermitteln auch noch mit JavaScript, um von den Besucher seiner Seite, noch mehr Daten, wie unter anderem, seine Bildschirmauflösung genau zu erhalten. Hiermit können wir leicht herausfinden, mit welcher Besuchergruppe wir eine Seite optimieren werden.

 

 
   Anzeigen

Navigation:    Webdesign - Programmierung - Web Grafiken - Software Guides - Tools - Templates - Schriftarten - Seminare - IT News
Partner:   Template OK - PCopen - SITEopen - PCopen Schweiz - HTMLopen Schweiz - VirtualUniversity.ch - WEB-SET.com - YesMMS - Job und Karriere