Automatische Klassifikation
= Zuordnung von Dokumenten zu bereits vorher
festgelegten Klassen
Zielsetzung:
• Dem Nutzer Informationen über inhaltlich
ähnliche Dokumente geben
• Browsing in der Ergebnismenge erlauben
02.12.2015
Spree/Worg2/LE 10
Anwendungsbeispiel Spamerkennung
Wie kann ein Programm automatisch erkennen, ob es sich bei
diesen beiden Mails um Spam handelt?
Mail a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu
wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra
nach.
Mail b
Hi,
Today we announce the selling of our new Viagra pills that allow you
to enjoy Sex again. Order now
02.12.2015
Spree/Worg2/LE 10
Zwei Verfahren
1. Einfacher Merkmalsabgleich zwischen
Klassifikation und Dokument
2. ‚Lernende Verfahren‘ der automatischen
Klassifikation anhand von Trainingsdokumenten
02.12.2015
Spree/Worg2/LE 10
1.Einfacher Merkmalsabgleich zwischen
Klassifikation und Dokument
1. Merkmale eine Klassifikation werden festgelegt
•
Merkmale können einer Klasse zugeordnete Wörter sein
•
In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit
durch die Terme Reisen, Spiel, Hobby, Wohnen definiert
2. Das Vorkommen bestimmter Terme im Dokument wird mit dem
Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen
verglichen
3. Dies kann über die Bildung von Skalarprodukten zwischen den
Dokumentvektoren (bestimmt über die Deskriptoren) und den
Vektoren der Klassen (bestimmt über die Klassenbeschreibungen)
geschehen
02.12.2015
Spree/Worg2/LE 10
Zwei Phasen der Klassifikation von
Dokumenten
(Quelle: Robert Hoffmann: http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_8.htm>
02.12.2015
Spree/Worg2/LE 10
Vereinfachtes Beispiel:
Zuordnung von Dokumenten zu einer Klasse
Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage
Klasse/
Attribut
SPAM
Kein Spam
Viagra
Sehr geehrte
Sex
Hochachtungsvoll
selling
wissenschaftlich
buy
Hausarbeit
pills
Referat
Dok a
Dok b
Sehr geehrte Frau Spree,
Hi,
Hiermit reiche ich Ihnen meine
Hausarbeit über das Referat zu
wissenschaftlichen Erkenntnissen
zur Wirkungsweise von Viagra nach.
Today we announce the selling of
our new Viagra pills that allow you
to enjoy Sex again.
02.12.2015
Spree/Worg2/LE 10
Vereinfachtes Beispiel:
Zuordnung von Dokumenten zu einer Klasse
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der
Ähnlichkeit durch Bildung des Skalarproduktes
SPAM
A
B
Kein SPAM
a b
Viagra
1
1
Sehr geehrte
1 0
sex
0
1
Hochachtungsvoll
0 0
selling
0
1
wissenschaftliche
1 0
buy
0
0
Hausarbeit
1 0
pills
0
1
Referat
1 0
Skalarprodukt:
Klasse/Dok
1
4
4 0
Dok a
Dok b
Sehr geehrte Frau Spree,
Hi,
Hiermit reiche ich Ihnen meine Hausarbeit
über das Referat zu wissenschaftlichen
02.12.2015 zur Wirkungsweise von Spree/Worg2/LE 10
Erkenntnissen
Viagra nach.
Today we announce the selling of
our new Viagra pills that allow you
to enjoy Sex again.
Vereinfachtes Beispiel:
Zuordnung von Dokumenten zu einer Klasse
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der
Ähnlichkeit durch Bildung des Skalarproduktes
SPAM
A
B
Kein SPAM
a b
Viagra
1
1
Sehr geehrte
1 0
sex
0
1
Hochachtungsvoll
0 0
selling
0
1
wissenschaftliche
1 0
buy
0
0
Hausarbeit
1 0
pills
0
1
Referat
1 0
Skalarprodukt:
Klasse/Dok
1
4
4 0
Mail a ist :
Mail b:
= 20% Spam
= 0% kein Spam
= 80% kein Spam
= 80% Spam
 Einordnung kein Spam
02.12.2015
Spree/Worg2/LE 10
Einordnung Spam
2. Lernende Verfahren der automatischen
Klassifikation
• Voraussetzung:
– Bestand von Trainingsdokumenten, die intellektuell Klassen
zugeordnet wurden, ist vorhanden
• Vorgehen
– Analyse der Trainingsdokumente
– Ermittlung der Eigenschaften der Dokumente, die bereits einer
Klasse zugeteilt wurden
• Eigenschaften sind häufig das Vorkommen und Gewicht
bestimmter Indextermini in den Dokumenten
– Berechnung der Wahrscheinlichkeit, dass ein bestimmtes
Dokument, in dem das Wort x vorkommt, der Klasse y
zugeordnet wird
02.12.2015
Spree/Worg2/LE 10
Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in
Klassen
Berechnung der Relation Z / Naiver Bayes Algorithmus:
• Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl
der Dokumente, in denen x vorkommt
Beispiel automatische Erkennung von Spam emails:
Im Trainingsbestand sind 8 Dokumente mit Wort „Viagra “ der
Klasse Spam zugeteilt.
Viagra kommt insgesamt in 10 emails vor.
= 8/10 -> 0,8
Die Wahrscheinlichkeit, dass ein Dokument mit „Viagra “
der Klasse Spam zugeordnet wird, liegt bei 0,8
2 Dokumente mit „Kuss“ sind der Klasse Spam zugeteilt.
„Kuss“ kommt in 50 Dokumenten vor.
02.12.2015
=2/50 ->0,04
 Die Wahrscheinlichkeit, dass ein Dokument mit „Kuss “
der Klasse Spam
zugeteilt wird,
liegt nur bei 0,04
Spree/Worg2/LE
10
02.12.2015
Spree/Worg2/LE 10
Zu Hause
Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach.
1. Notieren Sie Verständnisfragen
2. Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid
ist
3. Bereiten Sie Step 4 so vor, dass Sie den Prozess der
automatischen Klassifikation in einem Flussdiagramm darstellen
können
02.12.2015
Spree/Worg2/LE 10

Automatische Klassifikaton