PG-402 Wissensmanagement:
Ontologiebasierte
Wissensextraktion
WS2001/2002
Klaus Unterstein
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
1
Verlauf
•
•
•
•
•
•
•
20.10.2001
Begriffsklärung
Ontologiebasierte Wissensextraktion
Methoden
Vor- und Nachteile im Vergleich
Bewertung der Ansätze
Praxis/Trends
Schlußwort
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
2
Begriffsklärung
• Ontologie(n)
• (Wissens-) Extraktion
• Ontologiebasierte Wissensextraktion (OWE)
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
3
Ontologie(n)
1.
2.
3.
4.
5.
6.
Definition
Motivation
Zweck
Beschreibung
Einsatz
Bewertung
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
4
Ontologie(n) - Definition
Was ist eine Ontologie ?
Definition (Gruber):
„An ontology is a formal, explicit specification of
a shared conceptualization.“ [1993]
Eine Ontologie beschreibt explizit eine formale,
verteilte Konzeptualisierung eines bestimmten,
uns interessierenden Bereichs.
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
5
Ontologie(n) – Motivation (1)
(allgemein)
Warum benutzen wir Ontologien ?
• Anzahl gespeicherter Informationsquellen
wachsen
• Zugriff, Finden und Zusammenfassen von
Informationen immer schwieriger
• Große Lücke zwischen Konzeptualisierung
der Informationen und gespeicherte Form
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
6
Ontologie(n) - Motivation (2)
(spezieller Zweck)
Warum benutzen wir Ontologien ? (Fortsetzung)
• Kommunikationshilfe zwischen Mensch und Maschine, was
den Austausch von Semantik UND Syntax unterstützen soll
• Knowledge sharing und Wiederverwendung
• Zur Festlegung bestimmter Begriffe (Eindeutigkeit)
• Sie erzwingen eine wohldefinierte Semantik auf solche
Konzeptualisierungen
• Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die
Leistung von Informations-Extraktions-Systemen zu erhöhen
• Formalisierung von implizit vorhandenem Wissen
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
7
Ontologie(n) - Motivation (3)
Semiotisches Dreieck
Begriff
erweckt
Symbol
bezieht sich auf
Ding
steht für
[Odgen, Richards, 1923]
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
8
Ontologie(n) - Motivation (4)
Semiotisches Dreieck
Begriff
Ontologie
legt fest
erweckt
Symbol
bezieht sich auf
steht für
Ding
[nach: S. Staab, 2001]
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
9
Ontologie(n) – Beschreibung (1)
Eine Ontologie wird beschrieben durch:
• Eine Menge von Zeichenketten, die die
lexikalen Einträge L für Konzepte und
Relationen beschreiben
• Eine Menge von Konzepten C
• Eine Taxonomie von Konzepten (bei
einigen Definitionen Heterarchie) HC
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
10
Ontologie(n) – Beschreibung (2)
(Fortsetzung)
• Ein Satz an nicht-taxonomischen Relationen R
(beschrieben durch ihre Domain)
• Relationen F und G, die Konzepte und Relationen
verknüpfen
• Die Taxonomie der Relationen (bzw. Heterarchie
HR) (optional)
• Axiome A, die weitere Constraints der Ontologie
beschreiben und es erlauben, implizite Fakten
explizit zu machen (optional)
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
11
Ontologie(n) - Zweck
Ontologien beschreiben:
• Domain-relevante Konzepte
• Beziehungen zwischen den Konzepten
• Axiome für die Konzepte und Beziehungen
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
12
Ontologie(n) - Einsatz
Einsatz von Ontologien in Informations-ExtraktionsSystemen zur:
• Integration von Informationen aus heterogenen
Quellen
• Extraktion weiterer Fakten durch „Schliessen“
(Inferenz)
• Generierung verschiedener Ziel-Strukturen zur
Informationsspeicherung
• Einfache Anpassung/Änderung während der
Laufzeit
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
13
Ontologie(n) – Bewertung
Vorteile:
• Einfaches Prinzip
• Betrachtung relevanter
Bereiche (Fokussierung)
• Vorteile durch Nutzung
von Semantik und
Hintergrundwissen
• Dynamische Entwicklung
(siehe Such-Maschine)
• Semi-automatische
Ansätze
20.10.2001
Nachteile:
• (bisher) manuelle Erstellung
• Zeitliche Erstellung
• Problematik: Vollständigkeit
vs. Minimalität
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
14
(Wissens-) Extraktion
•
•
•
•
Definition
Extraktion von Informationen
Verschiedene Quellen (DB, WWW, Mail...)
Verschiedene Datenformate (HTML, XML,
unstrukturierter Text,...)
• Verschiedene Extraktions-Methoden
(Anwendung abhängig vom Datenformat)
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
15
Wissensextraktion
Eine mögliche Definition:
Der Prozeß, in dem Information automatisch
aus textuellen Dokumenten in eine zur
Speicherung in Datenbanken geeignete
Form generiert wird. [J. M. Lawler, 1998]
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
16
Ontologiebasierte
Wissensextraktion:
Was ist ontologiebasierte Wissensextraktion
(kurz: OWE) ?
Die Verwendung von Ontologien zur
Unterstützung des
Wissensextraktionsprozesses auf
verschiedene Weisen.
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
17
OWE
1. Allgemein
2. Informationsextraktion und Integration
mittels Ontologien
3. Klassifikationskriterien
4. Verfahren
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
18
OWE - Allgemein
• Verwendung von Ontologien im
Extraktionsprozeß
• Wahl der Ontologie abhängig vom
Anwendungsbereich
• Flexible Extraktion abhängig von Ontologie
• Extraktionsprozeß liefert Informationen für die
semantische Annotation der Texte
• Annotation liefert als Nebenprodukt die
Klassifikation der Daten, die dadurch direkt
integriert werden können
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
19
Informationsextraktion & Integration
mittels Ontologien
Strukturiert:
DB`s
Semistrukturiert:
XML
HTML
DB
QUELLEN
Unstrukturiert:
Dokumente
Ontologie(n)
[nach S. Staab, 1999]
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
20
OWE - Klassifikationskriterien
• Autonomie-Grad
- manuell (durchführbar, aber zeit-intensiv)
- semi-automatisch (aktueller Stand)
- automatisch (Zukunftsvision)
• Verwendete Methoden
• Verschiedene Verfahren
- Bottom-up
- Top-down
- Merging & Mapping
• Eingabedaten (Strukturiertheit)
• Extraktion on-demand vs. Vorab-Extraktion
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
21
Semi-automatischer OntologieAneignungs-Prozeß (allgemein)
Evaluation
Quellenwahl*
Relationen
Lernen
Konzept
Lernen
= Startzustand
20.10.2001
Domain
Fokussierung
[J. Kietz,2000]
*=mögliche Quellen wären: Ontologien,
Texte, semi-strukturierte Informationen
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
22
Methoden
• NLP:
(z.B. SMES):
- morphologische Analyse (Stamm)*
- Semantik-Analyse
- Erkennung benannter Entitäten*
- Nutzung domain-spezifischer Informationen
• Text-Clustering:
- Reduktion der Text-Dimension durch NLP
- Clusterbildung (iterativ)
- Klassifikation anhand der Cluster
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
23
Methoden
• Muster-Abgleich
• Induktive Verfahren
- Erkennung/Klassifikation unbekannter
Konzepte
- Erkennung von Relationen zwischen
Konzepten
• Inferenz (mit Description Logic)
• Statistik
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
24
KDT - Beispiel-Architektur
Quellen
(HTML, Text,...)
Preprocessing (z.B. NLP)
Clustering
XMLDokumente
20.10.2001
XMLDTD
[H. Graubitz, 2001]
Postprocessing
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
25
Vor- und Nachteile im Vergleich
• NLP
+ orientiert sich an Sprache, Lexika
- viele Heuristiken, manuelle Regelerstellung
• Text-Clustering
+ iterative automatisierte Variante
- Einschränkung auf eine Domain, Erklärbarkeit
• Muster-Abgleich
+ allgemein anwendbar
- viele Heuristiken, manuelle Regelerstellung
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
26
Vor- und Nachteile im Vergleich
• Induktive Verfahren
+ Automatisierung
- Erlernen der Regeln kompliziert
• Inferenz (mittels Description Logic)
+ Ableitung von weiteren Regeln durch Inferenz
& unvollständige/fehlerhafte Daten sind nutzbar
- verschiedene Standards
• Statistik
+ schnell, zuverlässig, bereits bekannt
- manchmal absurde Ergebnisse, Verständlichkeit
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
27
Bewertung der Ansätze
Einzelne Anwendung einer Methode ist nicht
optimal. Kombination mehrer Methoden,
um die Stärken zu kombinieren und
Nachteile einzelner Verfahren zu mildern.
Kombination von Text-Clustering und NLP
hat sich in einigen Situationen bewährt.
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
28
OWE - Verfahren
Prozeß-Schritte (allgemein):
• Import/Wiederverwendung/Konvertierung
von Ontologien (optional)
• Extraktion von Daten (bottom-up; top-down)
• Pruning (Beschneidung)
• Refining (Veredelung)
• Verifikation/Evaluation
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
29
Ontologie-Lernen: Prozeß-Schritte
Application data
Ontology
Learning
Prune
Extract
Import &
Reuse
= Beginn
20.10.2001
Refine
Apply
Tools
[A. Mädche, 2001]
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
30
OWE – Verfahren (Bottom-up)
Angefangen wird mit einem Datensatz, aus
dem eine Ontologie erstellt wird, die die
Daten strukturiert.
Genauer:
1. Verwendung von zwei Text-Sammlungen
(domain-spezifische vs. allgemeine)
2. Statistische Erfassung (Wörter,
Häufigkeit,...)
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
31
OWE – Verfahren (Bottom-up)
3. Dimensionsreduktion (NLP, Stammbildung,
...)
4. Erstellung eines domain-spezifischen
Lexikons (Konzepte)
5. Anwendung heuristischer Verfahren zur
Relationserstellung (semantische Analyse)
6. Pruning
7. Refining
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
32
OWE – Verfahren (Top-down)
Anfangs hat man bereits eine allgemeine Ontologie,
die dann im Verlauf durch bereichsbezogene
Daten an den interessierenden Bereich angepaßt
wird. (Domain-Fokussierung)
Genauer:
1. Wahl einer (allgemeinen) Ontologie und
domain-spezifischen Quellen (Import)
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
33
OWE – Verfahren (Top-down)
2. Anwendung heuristischer Verfahren zur
Konzept- und Relationsextraktion.
3. Erweiterung der bestehenden Ontologie durch
gefundene Konzepte und Relationen
(Fokussierung)
4. Pruning
5. Refining
Wahl der Kern-Ontologie hat starke Auswirkungen
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
34
Wissensextraktion – „Top Down“Beispiel (allgemein)
SMES
IE System
annotierte Domain Texte
AneignungsAlgorithmen
Domaintexte
Statistik
Maschinelles Lernen
Domain KernLexikon ontologie
Domain erweiterte
Lexikon Ontologie
[A. Mädche, 1999]
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
35
Architektur für Ontologie – Lernen
Text & Processing
Management
Text Processing
Server
Lexical
DB
Ontology Learning &
Pruning Algorithms
Domain
Ontology
Stemming
POS tagging
Domain
lexicon
Chunk parsing
Information Extraction
20.10.2001
Multi Strategy
Learning Result Set
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
Tools
[J. U. Kietz, 2000]
36
OWE - Verfahren
Merging:
Zusammenführung von Ontologien zur
Konstruktion einer neuen Ontologie.
Mapping:
Erstellung von Regeln, die Entsprechungen
aus den Ontologien zuordnen.
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
37
Praxis und Trends
• Vereinfachung in der Entwicklung fördert
Verbreitung
• Verbesserung der Extraktionsfähigkeiten
• Automatisierung des kompletten Prozesses
• Steigende Integration und Verwendung von
Ontologien in vielen Bereichen
• Semantic Web und Knowledge-Portale sind
wichtige Gebiete
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
38
Schlußwort
• Hilfreiche Technik, die auf spezielle Bereiche
zugeschnitten wird
• Anpassung an Aufgabenstellung durch Änderung der
Ontologie
• Unterschiedliche Ansätze zur Extraktion
• Verschiedene Methoden aus vielen Bereichen
(Maschinelles Lernen, Assoziationsregeln, Clustering,...).
Profitiert aus Erfolgen aus jedem dieser Bereiche
• Mißbrauch
• Verkettung vieler Verfahren, Komplexität, Aufwand
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
39
Literaturangaben
[OBE98] D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based
Extraction and Structuring of Information from Data-Rich Unstructured
Documents in CIKM'98.
[OBI'99] A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and
Integration in DGfS/CL'99.
[SOAC] J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology
Acquisition from a corporate Intranet in EKAW‘2000.
[STDS] H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of DomainSpecific Text Documents with DIAsDEM in DBFusion 2001.
[OBTC] A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI‘2000.
[LOSW] A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in
ECML/PKDD2001.
[DLOE] A. Todirascu. Using Description Logics for Ontology Extraction in Ontology
Learning 2000 at ECAI2000.
 Danke! 
20.10.2001
PG-402 Wissensmanagement:
Ontologiebasierte Wissensextraktion
40

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion