21.05.2001 - Martin Klossek
Seminar „WWW und Datenbanken“ - SS2001
Web Log Mining
 Im World Wide Web werden täglich
unzählbar viele Dateien von Servern
an Arbeitsplatzrechner geliefert...
Webserver
21.05.2001
Web Log Mining - Martin Klossek
2
Web Log Mining
 Die Webserversoftware protokolliert
dabei jede gelieferte Datei wie
 statische + dynamische Htmlseiten
 Bilder (.png, .gif, .jpg, ...)
 Java-Applets, Flash, ...
 Speicherung
der Zugriffe in
Logdatei
21.05.2001
Web Log Mining - Martin Klossek
3
Web Log Mining
 Erzeugte Logfiles werden sehr groß!
 Auswertung und Visualisierung
 Informationen wie





21.05.2001
# Zugriffe pro Monat / Woche / Tag
# Zugriffe pro Datei / Seite
Zugreifende Rechner
Browsertypen
...
Web Log Mining - Martin Klossek
4
Web Log Mining
eCommerce
21.05.2001
Web Log Mining - Martin Klossek
5
Web Log Mining
 Komplexe Sites wie Portale und
Online-Shops verlangen Informationen
über ihre Besucher
 Können Logfiles mehr als nur die
bloßen Verbindungsdaten lieferen?
Ja! ...mit Web Log Mining
21.05.2001
Web Log Mining - Martin Klossek
6
Web Log Mining
 Web Log Mining beantwortet Fragen
von Websitebetreibern
 Wer besucht meine Website? Wer kauft
dort ein (bei Online-Shops!)?
 Welche Seiten werden in einer Session
zusammen besucht?
 Welche Seiten werden nacheinander
besucht (Sequenz)?
21.05.2001
Web Log Mining - Martin Klossek
7
Web Log Mining
 oder auch folgende Fragen
 Welche Werbemaßnahmen, welche
Banner sollte ich einsetzen?
 Wie unterscheiden sich Käufer von NichtKäufern (eCommerce)?
 Verhalten sich registrierte Benutzer
anders als anonyme?
 Wie erhöhe ich die Anzahl meiner
Besucher und Kunden?
21.05.2001
Web Log Mining - Martin Klossek
8
Übersicht
1.
2.
3.
4.
Motivation
Begriffsabgrenzung DataMining
Domäne Web Log Mining
Prozess des Web Log Mining
unterstützt durch Fallbeispiele
5. Ausblick
21.05.2001
Web Log Mining - Martin Klossek
9
Data Mining
 Data Mining is
 data and discovery driven
 not: confirmation or verification driven
Information
Daten
Data Mining
Muster
Regeln
21.05.2001
Web Log Mining - Martin Klossek
10
Data Mining
 Data Mining Software analysiert Daten
und liefert Regeln und Muster
 Mustererkennung
 Hypothesenfindung
 Statistiksoftware bietet
 Mittel zum Bestätigen von Hypothesen,
die Sachverständige aufgestellt haben
21.05.2001
Web Log Mining - Martin Klossek
11
Data Mining
 Einige Verfahren sind




Assoziationsanalyse
Sequenzanalyse
Clusteranalyse
Entscheidungsbäume
 Allgemein sind Methoden des
„Maschinellen Lernens“ nutzbar
(beispielsweise Neuronale Netze)
21.05.2001
Web Log Mining - Martin Klossek
12
Data Mining
 Anwendungen von Data Mining haben
spezifischen Kontext, der mit
Domänenwissen bezeichnet wird
 Beachte: Data Mining und hier im
speziellen Web Log Mining sind nicht
standardisiert, sondern anwendungsund fragenabhängig...
21.05.2001
Web Log Mining - Martin Klossek
13
Übersicht
1.
2.
3.
4.
Motivation
Begriffsabgrenzung DataMining
Domäne Web Log Mining
Prozess des Web Log Mining
unterstützt durch Fallbeispiele
5. Ausblick
21.05.2001
Web Log Mining - Martin Klossek
14
Webserver Architektur
Anfragen
Daten
Logfiles
Webserver
- Requestobjekt
- Client-Infos
- Cookies
Protokoll
- Dateien
- Status
- Cookies
21.05.2001
Web Log Mining - Martin Klossek
Dateien
Skripte
Datenbank
15
Protokollierung
Protokoll
Logfiles
 Verschiedene Webserver am Markt






Apache
Internet Information Server
Netscape iPlanet
NCSA
http://www.netcraft.com
CERN
...
 Aber: Ein Format für Logdateien
21.05.2001
Web Log Mining - Martin Klossek
16
Format Logfiles
Protokoll
Logfiles
 Common Log Format
 ascii-Datei
 jede Zeile entspricht einer Anfrage an den
Webserver
 verschiedene Felder beschreiben die
Anfrage
IP rfc931 authuser Datum requeststring
21.05.2001
Web Log Mining - Martin Klossek
...
17
Format Logfiles
Protokoll
Logfiles
 Felder sind...
IP
rfc931
z. B. 141.2.114.129
authuser
z. B. [21/May/2001:17:02:22 +0100]
... “requeststring“
z. B. "GET /start.php3 HTTP/1.1"
21.05.2001
[Datum] ...
statuscode
bytes
z. B. 202, 304 oder 404...
Web Log Mining - Martin Klossek
18
Format Logfiles
Protokoll
Logfiles
 Im Extended Log Format erweitert
um die Felder
 Referrer
 Die im Browser zuvor angezeigte URL, z. B.
"http://www.stormzone.de/uni/future.html"
 user_agent
 Der Browserstring des Clients, z. B.
"Mozilla/4.0 (compatible; MSIE 5.01;
Windows 98)"
21.05.2001
Web Log Mining - Martin Klossek
19
Transaktionen
 Jede Zeile im Logfile stellt eine
Anfrage an den Webserver dar
 Eine Anfrage besteht dabei aus
 Html-Datei / Skript
 Grafikdateien, Stylesheets, Applets, ...
 Eine Transaktion ist der Abruf einer
Folge von Seiten...
21.05.2001
Web Log Mining - Martin Klossek
20
Session
 Menge von Anfragen eines Besuchers
in einer begrenzten Zeitspanne wird
als Session bezeichnet
 Charakterisiert durch
 IP
 Uhrzeit
SessionBenutzerA,2001-05-21
= { index.html, seite1.html, seite2.html, ... }
21.05.2001
Web Log Mining - Martin Klossek
21
Session
 Problem: Datensätze nicht immer
eindeutig, daher zur Unterscheidung:
 Begrenzung der Session auf ca. 25
Minuten oder Inaktivitätsspanne
 Identifizierung über Sessionkeys in URL
oder Cookies, beispielsweise
https://ssl.moneyshelf.com/DE/de/functions/Cash/
cashAllAccounts.jhtml;$sessionid$P4AB000FXLO
PKCQCECCSFFIKAIQIIIV0
21.05.2001
Web Log Mining - Martin Klossek
22
Weitere Daten
 Für weitere Analysen ist Anreicherung
der Daten sinnvoll, beispielsweise
 Benutzerdaten
aus Formularen
 Demographische
Datenbanken
21.05.2001
Web Log Mining - Martin Klossek
23
Übersicht
1.
2.
3.
4.
Motivation
Begriffsabgrenzung DataMining
Domäne Web Log Mining
Prozess des Web Log Mining
unterstützt durch Fallbeispiele
5. Ausblick
21.05.2001
Web Log Mining - Martin Klossek
24
Prozess Web Log Mining
 Aufgabenstellung:
 Gegeben sind Logdaten einer Website
 Ziel: Gewinnen neuer Informationen
 Hier: Einige Ergebnisse aus einem
Web Log Mining Projekt
 Allgemein: Je nach Fragestellungen
variieren die verwendeten Analysen
21.05.2001
Web Log Mining - Martin Klossek
25
Prozess Web Log Mining
Aufbereitung
Bereinigung
Anreicherung
1
2
Mustererkennung
Bewertung
3
21.05.2001
Integration
in laufendes
System
Web Log Mining - Martin Klossek
4
26
Datenaufbereitung
 Übertragen der Daten aus Logfiles in
Format, das für die eingesetzte Data
Mining Software lesbar ist
 Auswahl der relevanten Felder im Logfile
 Speicherung in Datenbank
 Extraktion von Transaktionen und
Sessions
21.05.2001
Web Log Mining - Martin Klossek
27
Datenaufbereitung
 Entfernen von redundanten und
überflüssigen Daten falls möglich
 Entdecken und Entfernen von
Ausreißern - falls möglich
 Anreichern der Logdaten mit Daten
aus Personendatenbank – falls
vorhanden und den Fragestellungen
entsprechend
21.05.2001
Web Log Mining - Martin Klossek
28
Mustererkennung
 Zu Beginn wurden einige Fragestellungen vorgestellt. Schauen wir
uns einige näher an
1. Welche Seiten wurden in einer Session
zusammen besucht?
2. Clickstreams der Besucher
3. Gruppen von Besuchern ähnlichen
Verhaltens?
4. Unterschiede zwischen Käufern und
Nichtkäufern?
21.05.2001
Web Log Mining - Martin Klossek
29
Assoziationsanalyse
 Welche Seiten wurden in einer
Session zusammen besucht?
 Assoziationsanalye
 Erzeugt Regeln der Form
Prämisse
Konsequenz
„wenn A.html“
„dann B.html“
A.html  B.html0,9; 0,2
21.05.2001
Mit Konfidenzfaktor conf
und Supportfaktor sup
Web Log Mining - Martin Klossek
30
Assoziationsanalyse
 Die gefundenen Regeln geben
Aufschluß darüber, wie sich die
jeweiligen Seiten ergänzen
 Umgestaltung der Website denkbar,
so dass von Seite A auf Seite B und
umgekehrt verwiesen wird...
 ...je deutlicher Support- und
Konfidenzfaktor für diese Regel
21.05.2001
Web Log Mining - Martin Klossek
31
Assoziationsanalyse
21.05.2001
Web Log Mining - Martin Klossek
32
Assoziationsanalyse
Visualisierung von Regeln
mit conf + sup-Faktor
21.05.2001
Web Log Mining - Martin Klossek
33
Sequenzanalyse
 Clickstreams der Besucher
 Die Assoziationsanalye sagt nichts über
die Reihenfolge der Seitenabrufe aus,
dazu die:
 Sequenzanalyse (hier Pfadanalyse)
 Finden von Regeln für nacheinander
besuchte Seiten mit Häufigkeit
A.html  D.html F.html B.html0,05
21.05.2001
Web Log Mining - Martin Klossek
34
Sequenzanalyse
 Gewinnen von Erkenntnissen über die
Reihenfolge der Informationssuche
von Besuchern ( Siteoptimierung!)
A
D
E
G
B
C
F
21.05.2001
„clickstreams“
Web Log Mining - Martin Klossek
35
Sequenzanalyse
„clickstreams“
Häufigkeiten
Ergebnisse einer Sequenzanalyse
(unter Zusammenfassung von
Seiten zu semantischen Gruppen)
21.05.2001
Web Log Mining - Martin Klossek
36
Clusteranalyse
 Suche nach Gruppen von Besuchern
mit ähnlichen Verhalten
 Clusteranalyse
 Bilden von Clustern mit
 homogenen Merkmalen im Cluster
 hoher Heterogenität zwischen den Clustern
 Dabei werden die Merkmale aller Objekte
miteinander über ein Proximitätsmaß
verglichen (z. B. Euklidische Norm)
21.05.2001
Web Log Mining - Martin Klossek
37
Clusteranalyse
 Reine Logdaten bieten nur Pfade,
Verweildauer und technische Details
(wie Browsertyp) als Merkmale an
 Sinnvoll daher bei Logdaten von
registrierten Benutzern mit
Personeninformationen
 Im folgenden ein Beispiel mit
Anreicherung durch Personendaten
21.05.2001
Web Log Mining - Martin Klossek
38
Clusteranalyse
Datenbank mit Personendaten
21.05.2001
Web Log Mining - Martin Klossek
39
Clusteranalyse
Gefundene Cluster
21.05.2001
Web Log Mining - Martin Klossek
40
Clusteranalyse
Cluster: „Männer über 38
wohnhaft in Region 4
Mögen eCommerce“
21.05.2001
Web Log Mining - Martin Klossek
41
Clusteranalyse
 Mit Hilfe der Clusteranalyse und
angereicherten Logdaten lassen sich
also Angaben über die Art der
Besucher der Website machen
 Denkbar: „Automatische
Personalisierung“, um Besuchern des
gleichen Clusters ähnliche
Informationen anzubieten!
21.05.2001
Web Log Mining - Martin Klossek
42
Entscheidungsbäume
 Online-Shop: Unterscheidung
zwischen Käufern und Nichtkäufern?
 Entscheidungsbäume
 Hier Segmentierung der um Personendaten angereicherten Logdaten, um
Käufer von Nicht-Käufern zu
unterscheiden
 Ableiten von Regeln zur Vorhersage des
Kaufverhaltens von Besuchern
21.05.2001
Web Log Mining - Martin Klossek
43
Entscheidungsbäume
Kauf wahrscheinlich bei:
„Keine Requests Information/Fun, mehr
als 5 Requests von Communication“
21.05.2001
Web Log Mining - Martin Klossek
44
Übersicht
1.
2.
3.
4.
Motivation
Begriffsabgrenzung DataMining
Domäne Web Log Mining
Prozess des Web Log Mining
unterstützt durch Fallbeispiele
5. Ausblick
21.05.2001
Web Log Mining - Martin Klossek
45
Ausblick
 Beobachtungen und Vermutungen
 Für große Sites ist Web Log Mining
unerläßlich, um
 Bannerwerbung optimal zu platzieren
 Personalisierung zu ermöglichen und so
vermutlich den Umsatz zu steigern
(Kundenbindung contra Kundenaquise!)
 Streuverluste durch one2one-Marketing zu
verringern
21.05.2001
Web Log Mining - Martin Klossek
46
Ausblick
 Interessante Möglichkeiten
 Standardisierung von Web Log Mining
Verfahren
 Integration in
Serversoftware
– siehe Microsoft
Commerce Server
21.05.2001
Web Log Mining - Martin Klossek
47
Ausblick
 sowie zu überlegen...
 Verbindung von Web Content und Web
Log Mining?
 Optimierung und Weiterentwicklung von
Analyseverfahren
 Aber auch: Datenschutzrechtliche
Begrenzungen!
21.05.2001
Web Log Mining - Martin Klossek
48
Fazit
„Web Log Mining“ ist kein Hypethema
sondern ein aus wirtschaftlichen
Erfordernissen enstandenes Verfahren
zur Analyse von Verbindungsdaten,
das Anwendung findet.
21.05.2001
Web Log Mining - Martin Klossek
49
Kontakt
 Kontakt:
 [email protected]
 Folien und Ausarbeitung in
verschiedenen Formaten unter
 http://www.stormzone.de/uni/
Hauptstudium/seminare/wwwdb/list.php3
21.05.2001
Web Log Mining - Martin Klossek
50
Das war‘s
21.05.2001
Web Log Mining - Martin Klossek
51

mit Web Log Mining