Automatische Akquisition linguistischen Wissens
Vollautomatisches bestimmen von Relationen
1. Anforderungen
•
•
Welches Wissen und welches nicht
Komplexitätsprobleme
2. Syntaktische Relationen
•
Grammar induction
3. Semantische Relationen
•
•
Hyperonyme, meronyme
Referat: Weeds 03 und 04 papers
WS 05/06
Automatische Akquisition linguistischen Wissens
1
1.1. Anforderungen
• Welche Art Wissen könnte überhaupt (wirklich vollautomatisch)
extrahiert werden und welche nicht?
• Domänenunabhängig gibt es stets Synonyme, Meronyme und
Hyperonyme.
– Aber welche genau, ist Domänenabhängig
– Welche Relationen gibt es noch?
• Domänenabhängig gibt es spezielle Relationen, die in anderen
Domänen keinen Sinn ergeben, bzw. nicht existent sind
– Chemische Stoffe in Medizin haben Relation des Reagierens oder Nichtreagierens miteinander, welche z.B. Endo- oder Exoterm sein kann.
• Idealerweise Algorithmus derart allgemein, dass alle „findbaren“
Relationen gefunden werden
• Findbar: Durch eigenen Sprachgebrauch, bzw. sprachl. Strukturen
markiert
– Beispiel die chemischen Strukturen sind einach an Morphologie erkennbar
WS 05/06
Automatische Akquisition linguistischen Wissens
2
1.2. Komplexitätsprobleme
• Theoretisch wäre es möglich, Evaluierung zu definieren und
anschließend alle Möglichkeiten von Features und Clusterverfahren
durchprobieren.
– Analyse des generierten Verfahren ergäbe dann „verstehen“ des
erwünschten Phänomens.
• Demgegenüber steht allerdings, dass selbst eine der Möglichkeiten auf
modernen PCs Wochen dauern kann, d.h. auch Mit Hilfe des
Moorschen Gesetzes lässt sich voraussehen, dass das keine gute
Lösung.
– Clustern von 100K Wörtern unter Ausnutzung von Features:
• Nachbarschaftskookkurrenzen (nur links, nur rechts, beides) (eher
syntaktisch)
• Mit Fenstergrösse (gemischt)
• Satzkookkurrenzen (eher semantisch?)
• Partielle Satzstrukturen (grammatische Strukturen?)
• Mit verschiedenen Clusterverfahren, Parametereinstellungen usw.
WS 05/06
Automatische Akquisition linguistischen Wissens
3
2.1. Syntaktische Strukturen
• Extraktion syntaktischer Strukturen (was über reines
Wortklassentagging hinausgeht) schon dadurch schwierig, weil
Ziel unklar
–
–
–
–
Sollen Dependenzstrukturen gefunden werden?
Oder Kontextfreie Grammatik?
Oder lediglich Subjekt- Objekt (also vereinfachte Dependenz)
Oder vielleicht das, was extrahierbar ist und Arbeit besteht dann
darin, die extrahierten Strukturen zu verstehen?
• Ausserdem unklar, in welche Sorten von Datenstrukturen
überhaupt abgebildet werden soll
– Reichen bereits einfache Terminalregeln?
– Oder Bäume?
– Oder müssen es komplexe Graphen sein?
WS 05/06
Automatische Akquisition linguistischen Wissens
4
2.2. Grammar Induction
• Grammar Induction [..] can be formulated as the task of
discovering common structures in examples which are supposed
to be generated by the same process. (Pierre Dupont)
– Auch genannt automata induction oder grammatical inference
• Allerdings wird darunter meist das Lernen von z.B. einem sehr
konkreten DFA von gelabelten Daten verstanden.
–
–
–
–
–
–
–
WS 05/06
4456 2 (4456 String, 2 Zeichen im Alphabet)
Akzeptiert/nichtAkzepiert Laenge <und dann string>
1 11 0 0 1 0 0 0 0 0 1 0 0
0 15 0 0 0 0 0 1 1 1 0 1 0 0 0 1 1
1 12 1 1 0 0 1 1 0 1 0 1 0 0
0 14 0 1 1 1 1 1 0 1 1 1 0 0 1 0
Zu dem allen ist auch noch Anzahl der Zustände des DFA bekannt
Automatische Akquisition linguistischen Wissens
5
2.4. Aktueller Stand
• Sehr einfache Beispiele von DFA können gelernt werden,
Anwendbarkeit auf Sprache bislang jedoch sehr fragliche
• Forschung findet auf sehr formalem Level statt (Automatische
und Sprachen, Logiktheorie)
• Einige andere Projekte vielversprechend
– z.B. GraSp von Henrichsen, in welchem versucht wird, zunächst
Kategorien herzuleiten durch Clustern und auf diesen Kategorien
wieder zu clustern. Ergebinsse allerdings bislang noch etwas
kryptisch
WS 05/06
Automatische Akquisition linguistischen Wissens
6
3.1. Semantische Strukturen
• Es ist fraglich, ob so genannte semantische Strukturen überhaupt
Strukturen sind, in dem Sinne als dass sie in allen Sprache mehr
oder weniger „gleich“ vorkommen
– Intuitiv ist es klar, dass es Antonyme wohl in jeder Sprache gibt,
ebenso wie Über- und Unterbegriffe
– Es gibt auch aus der formalen Semantik Formalismen, diese zu
beschreiben, welche allerdings wieder ein intuitives Verständnis
von Sprache oder der Welt voraussetzen
• Bsp. Merkmalsemantik: Mann -> +lebendig Leiche -> lebendig
• Allerdings, was ist ‘lebendig’ und wie findet man dieses?
• “Semantische Strukturen” könnten allerdings auch als
zweiwertige Wortklassen verstanden werden:
– Prädikat Substantiv(Berg)=1
– Prädikat Antonym(hoch,tief)=1
WS 05/06
Automatische Akquisition linguistischen Wissens
7
3.2. Beobachtbarkeit
• Eine andere Frage ist, ob sich diese “Strukturen” auch wirklich
an der Oberfläche der Sprache direkt oder indirekt beobachten
lassen
– Woran erkennt man in dem Beispiel ‘Ein hoher Berg und ein tiefes
Tal.’ die Antonyme? Für Computer sieht das doch eigentlich in
diesem Sinne so aus:
• Ein xxx Berg und ein yyy Tal.
– Durch indirekte Beobachtungen Wissen dass gleiche Wortklasse
– Weiterhin als modifizierer vor einer Gruppe von Wörtern, die evtl.
irgend etwas gemeinsam haben
• Auf der einen Seite Berg, Baum, Turm, usw.
• Auf der anderen Seite Tal, Fluss, Meer, usw.
– Vielleicht genügt das bereits, um herauszufinden, dass das zwei
einander widersetzliche Adjektive sind?
WS 05/06
Automatische Akquisition linguistischen Wissens
8
3.3. Ober- und Unterbegriffe
• Idee basiert auf zwei Voraussetzungen:
– Wenn ein Wort wi ein Kohyponym von wj ist, dann werden sie
auffällig oft miteinander vorkommein und ähnliche globale
Kontexte besitzen
– Wenn ein Wort wi Oberbegriff von wj ist, dann werden sie zwar
selten miteinander auftreten, jedoch ähnliche globale Kontexte
besitzen
• Beispiel:
– The cat eats the mouse. The dog hunts the cat. The cow gives
milk. The cat, the dog, mouse and even the cow are all mammals.
• Das kann auch visualisiert werden.
– X-Achse als Ähnlichkeit der globalen Kontexte
– Z-Achse gemeinsames Auftreten
WS 05/06
Automatische Akquisition linguistischen Wissens
9
3.4. Elefantenbeispiel
WS 05/06
Automatische Akquisition linguistischen Wissens
10
3.5. Reales Beispiel
WS 05/06
Automatische Akquisition linguistischen Wissens
11
3.6. Automatisch verifizierte Beispiele
Inputword
Hyperonym
Cohyponyms
Elefant
Tier
Affe, Elefant, Giraffe, Löwe, Rüssel
Typhus
Krankheiten
Gelbfieber, Hepatitis A, Tetanus, Cholera, Fleckfieber,
Ruhr, Typhus
Gelbfieber
Erkrankungen
Gelbfieber, geimpft, Impfung, Cholera, impfen, Typhus,
Malaria
Tschechisch
Fremdsprachen
Russisch, Französisch, Polnisch, Chinesisch, Englisch,
Tschechisch
Hockey
Sportart
Fechten, Rugby, Turnen, Karate, Volleyball, Basketball,
Sportarten
Singapur
Asien
Jakarta, Thailand, Südkorea, Indonesien, Pte, Singapur,
Malaysia
Yen
Tokio
Geschäftsjahr, NTT, NEC, Fujitsu, US-Währung,
Sumitomo, Ortszeit
WS 05/06
Automatische Akquisition linguistischen Wissens
12
3.7. Probleme mit derartigen Ansätzen
• Semantische Strukturen sind deutlich komplexer als
syntaktische oder solche auf niedrigeren sprachlichen Ebenen
• Offenbar sollten erst Teile des Problems gelöst werden, bevor
nächstkomplexes Thema (erfolgreich) in Angriff genommen
werden kann
– Hier ist nicht bekannt, bei welchem Wort es überhaupt Sinn macht
(Wortklassen)
– Richtung unbekannt (nicht einfach Frequenz)
– Morphologische Information nicht genutzt (Elefant-en, Tier-e)
– Meronyme spielt ähnliche Rolle wie Kohyponymie, wird dafür
aber „Zoo“ statt „Tier“ präferieren
• Ist Zoo und Elefant Teil-von?
– Ambiguitätsprobleme
– Wortähnlichkeit auf anderen Kontexten?
WS 05/06
Automatische Akquisition linguistischen Wissens
13
WS 05/06
Automatische Akquisition linguistischen Wissens
14
WS 05/06
Automatische Akquisition linguistischen Wissens
15
WS 05/06
Automatische Akquisition linguistischen Wissens
16

11. Vorlesung: Mining konkreter Relationen