Ralph Grishman
„Information Extraction: Techniques and Challenges“
Referat von Felix Jungermann
12.11.2002
Ralph Grishman – „Information Extraction: Techniques and Challenges“
1. Einleitung
1.1 Über den Artikel
- Autor Ralph Grishman
- Professor an der Universität von New York
- Mitbegründer des Proteus Projekts
- Verfasst im Jahr 1997
12.11.2002
-2-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
1.2 Was versteht man unter I.E.?
- Gezielt Informationen aus grossen Textbeständen
- Identifikationen von Ereignissen und Beziehungen
- Strukturierte Repräsentation (ähnlich Datenbank)
- Grosses Interesse durch MUC
- MUC-3: Terrorismus
- Wer, was, wann, wo, mit welchen Folgen?
12.11.2002
-3-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
19 March – A bomb went off this morning near a power tower in San
Salvador leaving a large part of the city without energy, but no
casualties have been reported. According to unofficial sources, the bomb
– allegedly detonated by urban guerrilla commandos – blew up a power
tower in the northwestern part of San Salvador at 0650 (1250 GMT).
INCIDENT TYPE
bombing
DATE
March 19
LOCATION
El Salvador: San Salvador (city)
PERPETRATOR
urban guerrilla commandos
PHYSICAL TARGET
power tower
HUMAN TARGET
EFFECT ON PHYSICAL TARGETdestroyed
EFFECT ON HUMAN TARGET
no injury or death
INSTRUMENT
bomb
12.11.2002
-4-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Andere MUC: JointVentures oder Positionswechsel
- Keineswegs volles Textverständnis
- Volles Textverständnis = alle Informationen
- I.E. : Bestimmung von Semantik der Ausgabe
12.11.2002
-5-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
1.3 Wieso besteht Interesse an I.E.?
- Viele Informationen NUR in natürlichsprachlichen
Texten
- Aktuelle Möglichkeiten: Textarchiv, Internet
- Aktuelle Möglichkeiten stossen auf Grenzen!
- Grosse Vorteile bei Verarbeitung techn. Texte
- Beispiel Krankenblatt
12.11.2002
-6-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Effizienz immer noch schlecht!
- Systeme mit schlechter Performanz trotzdem
von Vorteil
- Informationen müssen „gut“ vorliegen, damit
aktuelle Systeme gut arbeiten
12.11.2002
-7-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
2. I.E. am Beispiel MUC
- Erhalt des „training corpus“
- Systeme werden bearbeitet
- Abgabe des „test corpus“
- Vergleich zwischen „answer key“ und „test corpus“
- precision und recall ( F-Note = (2*p*r)/(p+r) )
12.11.2002
-8-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3. Grundlegende Techniken der I.E.
3.1 Einführung
- Prozess besteht aus zwei grundlegenden Teilen
- Lokale Textanalyse
- Analyse der erarbeiteten Bestandteile
- Fakten ins Ausgabeformat konvertieren
12.11.2002
-9-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Fakten werden mithilfe von Mustern extrahiert
- Muster dürfen keinen konkreten Wortstücken
oder -abfolgen entsprechen
- Daher: Strukturierung der Eingabe!
- Lexikalische Analyse
- Namenserkennung
- Syntaxanalyse
12.11.2002
-10-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3.2 Mustererkennung und Strukturaufbau
- Beispiel:
Sam Schwartz retired as executive vice president
of the famous hot dog manufacturer,
Hupplewhite Inc.
He will be succeeded by Harry Himmelfarb.
12.11.2002
-11-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Um endgültiges template zu generieren, benötigt
man semantische Strukturen
- „entity“
- „event“
- Diese werden aus der Syntax extrahiert
12.11.2002
-12-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3.3 Lexikalische Analyse
- Zerlegung des Textes in Sätze
- Worte der Sätze werde im Lexikon
„nachgeschlagen“
- Proteus benutzt „Complex Syntax dictionary“
und andere Lexika
12.11.2002
-13-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3.4 Namenserkennung
- Erkennung echter Namen sowie anderer spezieller
Formen, wie z.B. Datumsangaben
- Verschiedene Merkmale für Namenserkennung
- Personennamen <> Firmennamen
- Firmenlexikon ist hilfreich!
12.11.2002
-14-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Das Beispiel momentan:
[name type: personSam Schwartz] retired as executive vice president
of the famous hot dog manufacturer,
[name type: companyHupplewhite Inc.]
He will be succeeded by [name type: personHarry Himmelfarb].
- Erkennen von Aliasnamen
- Aliasnamen sind hilfreich als Referenz für Namen
12.11.2002
-15-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3.5 Syntaktische Struktur
- Komplette Syntaxidentifikation ist problematisch
- Einige Systeme bilden komplette Syntaxstrukturen
- Proteus (und andere) gehen Kompromisse ein:
- Substantive und linke nähere Bestimmung
- Prädikatgruppen mit Hilfsverben
12.11.2002
-16-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Das Beispiel unterteilt in Substantiv- (ng) und
Prädikatgruppen (vg) :
[ng entity: e1 Sam Schwartz] [vg retired] as [ng entity e2 executive
vice president] of [ng entity: e3 the famous hot dog
manufacturer], [ng entity: e4 Hupplewhite Inc.] [ng entity: e5 He] [vg
will be succeeded] by [ng entity: e6 Harry Himmelfarb].
- Informationen der Gruppen werden noch
untersucht
12.11.2002
-17-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Für jede Substantiv-Gruppe wird eine sogenannte
semantische entity erstellt
entity
entity
entity
entity
entity
entity
e1
e2
e3
e4
e5
e6
12.11.2002
type:
type:
type:
type:
type:
type:
person
position
manufacturer
company
person
person
name: „Sam Schwartz“
value: „executive vice president“
name: „Hupplewhite Inc.“
name: “Harry Himmelfarb”
-18-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Grössere Substantiv-Gruppen werden gebildet
- Verbindung von zwei Gruppen
- Entity enthält dann hinzugefügte Informationen
- Aufstellen der isa-Hierarchie
12.11.2002
-19-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Es ergibt sich folgende Markierung für das
Beispiel:
[ng entity: e1 Sam Schwartz] [vg retired] as [ng entity e2 executive
vice president of the famous hot dog manufacturer
Hupplewhite Inc.] [ng entity: e5 He] [vg will be succeeded] by [ng
entity: e6 Harry Himmelfarb].
12.11.2002
-20-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Nun ergeben sich die entities wie folgt:
entity e1
entity e2
entity e3
entity e5
entity e6
12.11.2002
type: person
type: position
name: „Sam Schwartz“
value: „executive vice president“
company: e3
type: manufacturer name: „Hupplewhite Inc.“
type: person
type: person
name: “Harry Himmelfarb”
-21-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
3.6 Szenario-Mustererkennung
- Bis jetzt Vorbereitung für Szenario-Mustererkenn.
- Dem zu untersuchenden Positionswechsel liegen
zwei Muster zugrunde:
- person retires as position
- person is succeeded by person
12.11.2002
-22-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Ereignis-Klauseln (events) werden aufgestellt
[clause event: e7 Sam Schwartz retired as executive vice president
of the famous hot dog manufacturer Hupplewhite Inc.] [clause
event: e8 He will be succeeded by Harry Himmelfarb.]
12.11.2002
-23-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Nun werden die events zusätzlich verzeichnet:
entity e1
entity e2
entity e3
entity e5
entity e6
name: „Sam Schwartz“
value: „executive vice president“
company: e3
type: manufacturer name: „Hupplewhite Inc.“
type: person
type: person
name: “Harry Himmelfarb”
event e7
event e8
type: leave-job
type: succeed
12.11.2002
type: person
type: position
person: e1
person: e6
-24-
position: e2
person2: e5
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Pronomen werden geprüft
- Verbindungen des Pronomens werden auf eine
eine kurz zuvor benutzte entity des Typs
person übertragen
12.11.2002
-25-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Also folgt:
entity e1
entity e2
entity e3
entity e6
name: „Sam Schwartz“
value: „executive vice president“
company: e3
type: manufacturer name: „Hupplewhite Inc.“
type: person
name: “Harry Himmelfarb”
event e7
event e8
type: leave-job
type: succeed
12.11.2002
type: person
type: position
person: e1
person: e6
-26-
position: e2
person2: e1
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Weiteres Nutzen der isa-Hierarchie
- Über mehrere Sätze verstreute Informationen
müssen kombiniert werden
- Schlussfolgerungen über Informationen
- Was impliziert zum Beispiel „succeed“?
12.11.2002
-27-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
-Beispiele:
Sam was president. He was succeeded by Harry.
Sam will be president; he succeeds Harry.
- leave-job(X-person, Y-job) & succeed(Z-person, X-person)
-> start-job(Z-person, Y-job)
- start-job(X-person, Y-job) & succeed(X-person, Z-person)
-> leave-job(Z-person, Y-job)
...
event e7
event e8
event e9
12.11.2002
type: leave-job
type: succeed
type: start-job
person: e1
person: e6
person: e6
-28-
position: e2
person2: e1
position: e2
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
4. Probleme im Aufbau
4.1 Partielle oder vollständige Analyse
- Frühere Systeme führten komplette syntaktische
Analysen durch
- Man benötigt jedoch nur Struktur in Hinsicht aufs
Szenario!
12.11.2002
-29-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Proteus arbeitet mit Metaregeln
- subject=company verb=hired object=person
Beispiel-Syntaxbaum
12.11.2002
-30-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
- Folgende Strukturen sind denkbar:
v ng1 ng2?
ng1 v ng2
ng2 v ng1
etc.
- Diese werden dann von dem System erstellt:
hired company person?
company hired person
person was hired by company
person, who was hired by company
person, hired by company
etc.
- Aktuelle Systeme arbeiten mit Werten um 80%
(mit handgeklammerten Texten trainiert!!!)
12.11.2002
-31-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
4.2 Portabilität
- Umstellen der Systeme ist problematisch!
- Umstellen muss leichter und automatisiert werden
- AutoSlog für MUC-4
- Systeme mithilfe ML wurden entwickelt
- Viele Beispiele <> wenige bearbeitete Beispiele
- Proteus arbeitet mit interaktivem Tool
12.11.2002
-32-
Felix Jungermann
Ralph Grishman – „Information Extraction: Techniques and Challenges“
4.3 Performanz-Probleme
- MUC-6: beste Systeme erreichten F von nur 51-56
- Ähnliches Design
- Mittlerer Level schnell zu erreichen
- Steigerungen „sehr teuer“
- Unwissen über aktuelles Szenario
- Je mehr Extraktionen, umso besser
12.11.2002
-33-
Felix Jungermann

ppt