Datenqualität
Seminar Informationsintegration
und Informationsqualität
TU Kaiserslautern SS 2006
Lehrgebiet Datenverwaltungssysteme
Siegfried Wirth
14.07.2006
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Bedeutung der Datenqualität

Heterogene Informationssysteme

Datenquellen sind




autonom
heterogen
verteilt
Beispiele



Metasuchmaschinen
Gen-Datenbanken
Börsenkurse
Verarbeitung von Anfragen

Auswahl von Datenquellen



Relevante Datenquellen finden
Integration zu einem guten Ergebnis
Auswahl der besten Quellen



Beschreibung von Güte / Qualität
Begriff der Datenqualität
Beurteilung von Datenqualität
Architekturmodell
Integrierte Schema
View
auf
Wrapper modellieren
Datenquellen als relationale
Schemata
Heterogene Datenquellen
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Qualitätskriterien




Inhaltsbezogene
Technische
Intellektuelle
Präsentationsbezogene
Inhaltsbezogene

Eigenschaften der Daten in der Datenquelle



Genauigkeit: Anteil von Daten ohne Datenfehler
Vollständigkeit: Verhältnis von Not-Null-Werten
zu allen Werten in der Anwendungsdomäne
Relevanz: Wie gut sind die Daten im Bezug auf
die Anforderungen des Nutzers
ID
Name
Geburtsdatum
Alter
Telefon
PLZ
14
Müller
24.11.1966
18
0640390070
35398
19
Meier
24.12.1956
50
0999999
67663
14
Schmidt
18.18.1986
20
06303412314
67662
Technische

Hard- und Software des Mediators, der
Wrapper, des Netzwerks und aller sonstigen
Komponenten des Informationssystems

Verfügbarkeit: Wahrscheinlichkeit, dass die
Datenquelle auf eine Anfrage antwortet




Statistische Wahrscheinlichkeit
Komplexe Schwankungen
Latenzzeit: Zeit bis zum Erhalt der ersten Werte
Aktualität: Durchschnittliches Alter der Daten
Intellektuelle (1)

Subjektive Einstellungen und
Meinungen über Datenquellen

Reputation: „Guter Ruf“ der Datenquelle


Bekannte Forschungsinstitute
Interne Datenquellen
Intellektuelle (2)

Objektivität: Unverfälschte und
unbeeinflusste Daten


Schwer festzustellen, falls nicht angegeben
Beispiel: Beeinflusstes Ranking in
Suchmaschinen
Präsentationsbezogene (1)

Merkmale konkret gelieferter
Datensätze

Verständlichkeit: Adäquate Darstellung



In Mediator-Wrapper-Architektur immer
relationales Schema
Präsentation der Datenquelle verdeckt
Ausnahme z.B. bei Bildern, Texten
Präsentationsbezogene (2)

Datenmenge: Größe des gelieferten
Suchergebnisses
Anwendung

Qualitätskriterien müssen für jede
Anwendung spezifisch interpretiert werden


Für jede Anwendung muss eine sinnvolle
Auswahl getroffen werden


Beispiel: Aktualität in Tagen oder Sekunden,
Definition von Null-Werten
Beispiel: Reputation bei Suchmaschinen
unwichtig, Relevanz sehr wichtig
Beides zusammen definiert n-dimensionalen
Raum von Qualitätsvektoren
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Klassen von Qualitätsdaten
Reputation
Latenzzeit
Genauigkeit
Datenerhebung (1)

Subjektive Qualitätskriterien


Können nur durch den Nutzer festgelegt werden
Angabe auf Skalen durch einfach Formulare


Es gibt keine natürlichen Einheiten, daher meist von
1 (sehr schlecht) – 10 (sehr gut)
Anfragespezifische




Hängen von der konkreten Anfrage ab
Können vor Bearbeitung nur geschätzt werden
Datenerhebung während der Anfragebearbeitung zur
Verbesserung der Statistik
Beispiel: Eine sehr komplexe Anfrage aus alten Daten hat
längere Latenzzeit, als Abfrage eines Wertes, der im
Cache vorhanden ist
Datenerhebung (2)

Objektive




Können objektiv festgestellt werden
Prinzipiell sind Datenquellen in der Lage dazu
Angaben zu machen
Zumeist Datenerhebung durch Stichproben,
Hochrechnungen
Aktualisierung der Daten


Bei starken Qualitätsänderungen (der
autonomen Datenquellen) müssen die Werte
aktualisiert werden
Regelmäßige Stichproben erforderlich
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Qualitätsmodell (1)

Mathematische Modellierung der Qualität



Beurteilung der Datenquellen auf Grund der
erhobenen Qualitätswerte
Ordnung auf dem n-dimensionalen Raum der
Qualitätsvektoren festlegen
Vergleich von Datenquellen gemäß ihrer
Datenqualität
Qualitätsmodell (2)

Beispiel: Suchmaschinen

Relevanz und Aktualität
Prozent
1
2
3
[0,5…0,999]
Positives K.
Relevanz
0,5
0,75
0,9
0, 1, 2,…, 50
Negatives K.
Aktualität
3
10
5
Tage
Qualitätsmodell (3)

Skalierung


1
2
3
Abbildung der einzelnen Werte auf [0…1]
Berücksichtigung positiver und negativer
Qualitätskriterien
Relevanz
0
0,65
1
Aktualität
1
0
0,71
SAW-Methode (1)

Bewertung von Datenquellen



Berechnung eines Gesamtwertes in [0…1] für jede
Datenquelle
Berücksichtigung der Wichtigkeit der einzelnen
Kriterien durch entsprechende Gewichtung auf Skala
0 (nicht wichtig) – 10 (sehr wichtig)
Single Additive Weighting (SAW)


Nutzer gibt Gewichtung vor
Einfache Berechnung auf Basis der skalierten Werte
SAW-Methode (2)

Gewichtung


Aktualität: 3 = weniger wichtig
Relevanz: 9 = sehr wichtig
*0,75
1
2
3
Relevanz
0
0,65
1
+
Legt Ordnung
fest
*0,25
Aktualität
1
0
0,71
0,25
0,47
0,93
DEA-Methode (1)

Data Envelopment Analysis (DEA)


Keine Angabe von Wichtigkeiten durch
den Nutzer
Optimierungsproblem mit den
Gewichtungen als zu optimierenden
Parametern
DEA-Methode (2)

Beispiel in 2-D
DEA-Methode (3)


Analog für mehr Dimensionen
Komplexere Berechnung



Unterteilt Datenquellen in „gute“ und „schlechte“
Datenquellen


Mit Methoden aus der Optimierung Komplexität
beherrschbar
Schwieriger zu verstehen
Keine Ordnung auf dem Raum der Qualitätsvektoren
Probleme berücksichtigen:

Viele Qualitätskriterien bei wenigen Datenquellen führt mit
hoher Wahrscheinlichkeit zu (fast) nur „guten“ Datenquellen

Jede Datenquelle, die in irgendeiner Dimension die beste ist, ist
„gut“
Übersicht





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration
Integration
Firmenname
Firmenprofil
Aktienwert
Entwicklung
Reduziere Komplexität


Schlechte Datenquellen nicht
betrachten
Nutze DEA-Methode zur Reduktion
Berechne Anfragepläne
Firmenname
Firmenprofil
Aktienwert
Entwicklung
Bewerte Anfragepläne

Bewerte nicht mehr Datenquellen,
sondern komplette Anfragepläne
0,5
9s
Skalierung
0,7
SAW
0,56
0,7
Erreichbarkeit
9s
9s
Latenzzeit
0,8
2s
0,9
3s
Merge-Funktionen

Berechne Qualitätswert nach einem Join
aus Werten an den eingehenden Kanten

Qualitätswert unabhängig von Reihenfolge



Assoziativität
Kommutativität
Unterschiedliche Funktionen



Erreichbarkeit: Produkt
Latenzzeit: Maximum
…
Anfragebearbeitung



Reduziere Komplexität
Berechne und bewerte die
Anfragepläne
Führe die N besten Pläne aus
Zusammenfassung





Motivation und Architekturmodell
Qualitätskriterien
Erhebung von Qualitätsdaten
Bewertung von Datenquellen
Qualitätsgetriebene Integration

PPT