Simulation der Datenbereitstellung im DWH
Thema Nr. 2 für ANS08-Seminar am 08.02.2007
Gruppe: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
Themen
1. Aufgabenstellung
2. Vorüberlegungen der Gruppe
3. Vorgehen:
• Datenübernahme
• Transformation
• Bereinigung
• Harmonisierung
• Verdichtung
4. Das Data Warehouse (DWH)
Seite 2
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007
[1.] Aufgabenstellung
 Simulation der Datenbereitstellung im DWH:
 Basis: Excel Tabelle
„03_Ausgangsdaten_Versicherungsunternehmen.xls“
 Unternehmen: Im Aufbau befindliches Versicherungsunternehmen
mit 4 Produkten, die bundesweit an Berufstätige verkauft werden
 Ergänzung der Daten, um Mängel bei Datenübernahme zu
simulieren
 Aufbau einer Präsentation, die alle Schritte simuliert
 Definition von Qualitätsanforderungen (inkl. Automatisierung)
 „Sinnvolle“ Strukturierung der Daten im DWH
 Erstellung einer kurzen Präsentation zur Darstellung des
Vorgehens
Seite 3
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007
[2.] Vorüberlegungen der Gruppe
 Granularität:
(hoher Detaillierungsgrad = geringe Granularität vs. niedriger Detaillierungsgrad = hohe Granularität)
 Rohdaten haben bereits eine hohe Granularität (z.B. keine Einzelkundendaten)
 Eine weitere Verdichtung vor der Auswertung erscheint nicht sinnvoll
 Partitionierung:
(horizontale/zeilenweise vs. vertikale/spaltenweise Zerlegung der Datenbestände)
 Vertikale Partitionierung wird auf die Tabelle „Bevölkerung“ angewendet
 Horizontale Partitionierung wird nicht benötigt
 Denormalisierung:
(Rückgängigmachung von Übergängen in höhere Normalformen)
 Musste nicht vorgenommen werden
 Externe Daten:
(Quellen wie Texte, Grafiken, Bilder, …)
 Daten der Statistischen Ämter werden in jeweils separaten Tabellen abgelegt
Seite 4
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007
[3.] Vorgehen - Datenübernahme
 Initiales Füllen:
 Reinladen aller Daten, nach der Transformation u. Bereinigung
 Zyklische Aktualisierung:
 Bei der Aktualisierung werden lediglich die Datensätze aus den
neuen Monaten oder Jahren in den jeweiligen Tabellen hinzugefügt
Zu aktualisierende Tabellen sind
monatlich: Umsatzdaten
jährlich:
Daten der Statistischen Ämter
 Altdaten bleiben bestehen
 Aktualisierung erfolgt zur Zeit noch manuell über externen
File-Import
Seite 5
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007
[3.] Vorgehen - Transformation
 Bereinigung:
 Entsprechende Makrofunktionen kurz beschreiben
 Anpassung der Tabellenstrukturen an Datenbankstruktur
 z.B. Zellenverbindungen aufheben, keine Überschriften für mehrere Spalten
gültig (Stichtag)
 Harmonisierung:
 Entsprechende Makrofunktionen kurz beschreiben
 Primärschlüssel Bundesland in den Statistik-Tabellen
 Zusammengesetzter Schlüssel in Tabelle Umsätze (Produkt, BL-ID, Jahr,
Monat)
 Dimensionen vereinheitlichen (Datumsformate)
 Verdichtung/Anreicherung:
 Eine Abfrage gilt es zu erstellen:
Anzahl Erwerbstätiger pro km² und Umsatz im jeweiligen
Bundesland
Seite 6
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007
[4.] Das Data Warehouse (DWH)
 Operative Ausgangsdaten
 Datentransformation
 Datenstruktur und -import Data Warehouse
 Abfragen
Seite 7
Gruppe 2: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
08.02.2007

Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe