Interessierende Objekte
in der Bioinformatik:
Molekularbiologische Grundlagen
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-1
Ein kleiner Exkurs in die Molekularbiologie:
Vom Gen zum Phän
DNA
Pflanze
(Organismus)
Transkription:
Ergebnis ist
Boten-RNA
Vorlesung Einführung in die Bioinformatik - Grundlagen
Faltung 
Sekundär-und
Tertiär-Struktur
Translation:
Ergebnis ist
Aminosäuresequenz 
Protein in Primärstruktur
U. Scholz & M. Lange
Folie #1-2
Ein kleiner Exkurs in die Molekularbiologie:
Vom Gen zum Phän
DNA:
ATGACGT
GCCGTACGGTTG
CAGTACGTATCA
CGTACATGACATC
CGGAATCTTACAA
GTACATAAACAG
TCTACAAGCTCC
GGATCAA
Protein:
Vorlesung Einführung in die Bioinformatik - Grundlagen
Pflanze
(Organismus)
ADQLTEE
QIAEFLFDKD
KEAFSLFDLFDKDKD
GDGTILFDKDTTLFD
DTVMRSLGLFDKDQ
NPTLFDKDEAELQD
NLFDLFDKDKDEL
KDDLFDKDL
U. Scholz & M. Lange
Folie #1-3
Ein kleiner Exkurs in die Molekularbiologie:
Der Genetische Code
Jeweils 3
zusammenhängende
Nukleotide
codieren eine
Aminosäure!
4³ = 64
aber nur 20
Aminosäuren in
Organismus!
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-4
Ein kleiner Exkurs in die Molekularbiologie:
Translation
1
1. Anfang einer
2. Anfügen
Met
Polypeptidkette
Met
der zweiten
Aminosäure
1
2
Leu
Anticodon
Met - tRNA
Leu - tRNA
Ribosom
Bewegungsrichtung
des Ribosoms
UAC
mRNA
Ribosom
GAU
mRNA
AUUGACAUGCUAGCCAUAGCG
AUUGACAUGCUAGCCAUAGCG
Startcodon
zweites
Codon
3. Anfügen
1
der dritten
Aminosäure
Met
Leu
wachsende Polypeptidkette
2
Ala
3
Ala - tRNA
Ribosom
CGG
mRNA
AUUGACAUGCUAGCCAUAGCG
drittes Codon
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-5
Ein kleiner Exkurs in die Molekularbiologie:
Von der DNA bis zum Stoffwechselweg
Gen 1
Gen 2
DNA
Transkription
mRNA
Translation
Enzyme
Katalyse
Stoffwechselweg
...
Substanz A
Substanz B
Vorlesung Einführung in die Bioinformatik - Grundlagen
Produkt
U. Scholz & M. Lange
Folie #1-6
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-7
GGTCCTCCTCTCGGCCTGCTTTATCCTGCCTCCCCCTTCTCCTCTCCACCTGCTAGATCTAGAGTAGCTCCTAAGCCCACGAAAACCC
CGCCGCGAGATCTGCGCATCTCGCAACACCACCACCATGGCGGCGCCGCGCGTCCTCCTCCTCCTCGCCGCCGCGGCCCTCCTCTCCG
TCTCCTCCCTCGGAGACGCTTCGGGCGATGGCCCCCGCGGGCGCAAGCTGCTGGTGCTCGTCGACGATCTGGCCGTCCGCTCCTCCCA
CTCGGCCTTCTTCGGCTCGCTCCAGGCCCGCGGGCTAGATCTGGAGTTCCGCCTCGCGGACGACCCCAAGCTCTCGCTCCACCGCTAC
GGTCAGTACCTCTACGACGGCCTCGTCCTCTTCGCCCCGTCGACCCCGCGCTTTGGCGGATCGGTGGACCAGAACGCTGTTCTGGAGT
TCATCGATGCTGGGCACGACATGATTCTGGCAGCAGATCATTCGGCTTCTGATCTGATCCGCGGCATCGCAACCGAGTGTGGGGTTGA
TTTTGATGAGGACCCGGAAGCGATGGGTTATTGACCACATTAATTATGCCTCCAACTGGAGTCTGAAGGGGGGATCACAACCTTTTAC
TGCGGAAAGNACAAGGATGAGCTCATCAAGAACGCTGCCTACATTGNCACCCCTGGAAAGGGTATTCTTGCTGCTGACGAGTCCGCTA
CTGTCACTGACAGCCTCAGGTCACTCGAAGCAAGGTTAGCTAGCTAGCACGCAGTGAGCGATGGCGGNCGCGGCGACCATGGCGCTCT
CCTCCCCGGCGATGGCCGGCACCCCGGTGAAGGCCTCCAGGGCGGCGCCCTTCGGCGAGGGCCGCATCACCATGCGCAAGACGGCGGG
CAAGCCCAAGGTGGCGGCGTCCAGCANCCCGTGGTACGGCTCCGACCGCGTGCTCTACCTCGGCCCGCTCTNCGGCGACCCCCCGAGC
TACCTCACCGGCGAGTTCCCCGGCGACTACGGCTGGGACACCGCGGGGCTGTCCGCCGACCCCGAGACCTTCNCCAAGAACCGTGAGC
TGGAGGTCATCCACTGCCGCTGGGCCATGCTCGGCGCGCTCGGCTGCGTCTTCCCCGAGCTGCTCGCCCGCAACGGCGTCAAGTTCGG
CGAGGCCGTGTGGTTCAAGGCCGGCTCCCAGATCTTCAGCGAGGGCGGCCTCGACTACCTCGGCAACCCCAGCCTCGTCCACGCCCAG
AGCATCCTCGCCATCTGGGCCTGCCAGGTGGTGCTCATGGGCGCCGTCCGAGGGCTACCGCGTCGCCGGCGGCCCGCTCGGCGAAGAT
CGTCGACCCGGCTCTACCCCGGCGGCAAGCTTCGACCCCCTGGGCCTCGCCCGAGGGACCCCGAGGCCTTCGGGGGTGACCATCCTGG
CGCCCGTCAAGTCGCCCAACACGGACGGCATCAGTCGTCTCCGGCGACGACTGCGTGGCCATCAAGAGCGGCTGGGACGAGTACGGNA
TCNCCGTCGGCATGCCCAGCGAGCACATCTCGGTGCGCCGCCTCACCTGCGTGTCCCCGACCAGCGCGGTGATCGCGCTCGGCAGCAG
AGATGTCGGGCGGCATACGGGACGTGCGCGCCGAGGACATCACCGGGCTGACTGGACGCCCCTTCAGGGTGTTCAGCCTCGACACGGG
GCGGCTGAACCCAGAGACATACCAACTCTTCGACAAGGTGGAGAAGCACTACGGTATCCACATCGAGTACATGTTCCCGGACCAAGGG
CCTCTTCTCTTTCTACGAGGACGGACACCAGGAGTGCTGCAGGGTGAGGAAGGTTCGGCCATTGAGGAGGGCCCTCAAGGGCCTCAAG
GCCTGGATCACCGGGCAGCGGAAGGACCAGTCCCCTGGCACCAGGGCGAGCATCCCTGTTGTTCAGGTTGATCCGTCATTTGAAGGGC
TGGATGGTGGAGCTGGTAGCTTGATCAAGTGGAACCCTGTGGCTAATGTGGATGGCAAGGATATCTGGACCTTCCTCAGGACCATGGA
TGTCCCTGTGAACACCCTGCATGCTCAAGGCTACGTCTCCATTGGGTGCGAGCCGTGCACCAGGCCCGTGTTGCCGGGGCAGCACGAG
AGGGAAGGGAGGTGGTGGTGGGAGGACGCCACGGCCAAGGAGTGCGGTCTCCACAAGGGTAACATCGACAAGGAAGGTCAAGACACCC
AAGGTCNGGCGTCAACGNCAACGGCTCGGCTGAGGCCAGTGCCCCAGACATCTTCCAGAGCCAGGCAATCGTCAATCTCACCCGTCCC
GGGATCGAGAACGGTGATTTGAGAATTCCAGCATCTTTCTGTGGTGTACTTGGTTTCCGGTCTTCTCATGGGGTTGTGTCTACTCTTG
GGACCTTACCGAACTCACATAGCCTAGATACCATTGGATGGCTTGCACGAGATCCTCATATACTTAGTCGTGTTGGAGATGCTCTGTT
ACCCGTTGCTGCATGTGGACTTAAGGGGAAACTGAGGCCAGTGCCACGTTATGGCAGTA
~2000 Nukleotide
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-8
Genomgrößen
Virus-Genom
5*
2.000
=
10.000
150 *
2.000
=
3.000.000
60.000 *
2.000
=
120.000.000
menschliches Genom
1.500.000 *
2.000
=
3.000.000.000
Gersten-Genom
2.500.000 *
2.000
=
5.000.000.000
60.000.000 *
2.000
= 120.000.000.000
Bakterien-Genom
Kleinstes Pflanzengenom
(Arabidopsis Thaliana)
größtes Pflanzengenom
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-9
Grundlagen aus dem Bereich
Informatik
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-10
Computer und Betriebsysteme


wichtigstes Werkzeug der Bioinformatik: Computer
verschiedene „Kategorien“:
- Personalcomputer
- Großrechner
- …

Betriebssysteme:
- Windows
- MacOS
- Unix (Solaris, Linux)


Frage: Was ist relevant für Bioinformatik?
Plattformübergreifende Lösungen bzw. Programmiersprachen:
-
Java
Perl
Python
…
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-11
Internet und WWW










Internet basiert auf militärischer Entwicklung in USA
ARPANET: Ausfall eines Teils des Netzwerkes führt nicht zum Totalausfall
-> Vorgänger des Internets
Kommunikationsprotokolle TCP/IP Namenspaten für Internet
Internet = über TCP/IP verbundene Netzwerke
Entwicklung des WWW 1990/91 durch Tim Berners-Lee (CERN)
WWW ist nur ein Angebot (Service) im Internet!!!
Moderne Browser (IE, Netscape, Firefox) sind Programme zur Nutzung
des Service WWW
Primärziel bei Konzeption und Entwicklung: wissenschaftlicher
Datenaustausch
wichtige Rolle auch in der Bioinformatik!
Parallelität zwischen modernen Methoden im Labor (z.B. DNASequenzierung) und Verbreitung der Angebote im WWW zur
Bereitstellung von Informationen!!!
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-12
Internet - Struktur






Vorlesung Einführung in die Bioinformatik - Grundlagen
Verbindung vieler
Netze
gemeinsames
Protokoll
keine gemeinsame
Steuerung
jeder trägt bei
stabil durch
Redundanz
unpolitisch
U. Scholz & M. Lange
Folie #1-13
Vergleich: Was ist ein LAN?
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-14
Physikalische Anbindung an das Internet

privater Bereich:

Anstieg der
Übertragungskapazität
- analoges Modem
- ISDN =Integrated Services Digital Network
- (asynchrones) DSL = Digital Subscriber Line
„Steckdose“ oder Kabelanschluss
Satellit
WLAN
…
Unternehmen bzw. Forschungseinrichtungen:
- Standleitungen zu DFN oder anderen Anbietern
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-15
Logische Anbindung an das Internet

Serviceanbieter:
- Vermittlung zwischen Kunden und Internet
- Standleitung ans Internet

2 Gruppen mit fließendem Übergang
- Internet Service Provider
- Content Provider

Beipiele:
-
AOL
T-Online
Freenet
Arcor
1&1
Alice
…
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-16
Internet Services

Email:
!?

News
- schwarzes Brett

FTP
- textbasiert, runterladen der Dateien

SSH und SCP
- Verschlüsselung

World Wide Web
- kein runterladen notwendig
- Navigation durch Hyperlinks
- URL = Uniform Ressource Locator
Beispiel: http://pgrc.ipk-gatersleben.de/fhanhalt/index.php
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-17
Die Benutzung von Unix
Aussage:
Linux-Kenntnisse sind elementar, um moderne
Bioinformatik Werkzeuge (wie z. B. BLAST) im
Hochdurchsatz effizient anwenden zu können!!!
Empfehlung:
Teilnahme an einem Linux-Kurs oder Installation einer
entsprechenden Distribution auf eigenem PC!
-> Erhöhung der Chancen im Beruf!!!!
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-18
Daten und Informationen
Daten:
Daten sind Gebilde aus Zeichen oder kontinuierliche Funktionen,
die aufgrund bekannter oder unterstellter Abmachungen
Information(en) darstellen, vorrangig zum Zweck der
Verarbeitung oder als deren Ergebnis. ... In der Informatik
versteht man beispielsweise unter Daten alles, was sich in
einer für einen Computer erkennbaren Weise codieren lässt.
[M. G. Zilahi-Szabó, Herausgeber. Kleines Lexikon der Informatik.München, Oldenbourg, 1995.]
Informationen:
Informationen sind aus Daten geschlussfolgerte Fakten bzw.
deren Interpretationen.
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-19
Datenbanken etc.
[G. Saake, I. Schmitt und C. Türker.
Objektdatenbanken — Konzepte, Sprachen, Architekturen. International Thomson Publishing, Bonn, 1997.]
Datenbank:
Eine Datenbank ist eine strukturierte Sammlung von Daten, welche Fakten
über spezielle Anwendungen eines modellierten Ausschnittes der Realwelt
repräsentiert, die dauerhaft (persistent) und weitgehend redundanzfrei
gespeichert wird.
Datenbank-Management-System:
Die Software, die eine Sammlung von Programmen bereitstellt, welche das
anwendungsabhängige Erzeugen, Ändern und Löschen einer Datenbank
ermöglicht, wird als
Datenbank-Management-System (DBMS) bezeichnet.
Datenbanksystem:
Unter einem Datenbanksystem (DBS) wird stets die Kombination eines
Datenbank-Management-Systems mit einer oder mehreren, unterscheidbaren
Datenbanken verstanden.
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-20
Datenbanken
Anwendung 1
...
Anwendung n
DBMS
Datenbank
...
DBS
Vorlesung Einführung in die Bioinformatik - Grundlagen
Aufgaben:
1.
Integration
2.
Operationen
3.
Katalog
4.
Nutzersichten
5.
Konsistenzüberwachung
6.
Datenschutz
7.
Transaktionen
8.
Synchronisation
9.
Backup und Recovery
[E. F. Codd. Relational Database:
A Practical Foundation for Productivity.
Communications of the ACM,
25(2):109–117, Februar 1982.]
U. Scholz & M. Lange
Folie #1-21
Informationssystem
persistente Speicherung der Informationen
 Wiedergewinnung der Informationen basierend auf verschiedenen
Abfragekriterien
 anwendungsspezifische Auswertung und Aufbereitung der
gespeicherten Informationen
 integritätserhaltende Änderungsoperationen
 Integration von zusätzlichen Informationsquellen:
- externe Datenquellen
- Informationszugriff über das WWW
- kooperierender Zugriff
- …
 Modellierung von Nutzerschnittstellen und Nutzerführung
 Verteilungsaspekte
Bestandteil jedes Informationssystems ist ein DBS!!!

Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-22
Datenquelle und Flat-File
Datenquelle:
Eine Datenquelle besteht aus mindestens einem Computer
(rechentechnische Einheit), auf dem Daten gespeichert sind und auf die über
bestimmte Schnittstellen zugegriffen werden kann.
Flat-File:
Ein Flat-File ist eine Datei, die eine bestimmte, implizite Struktur besitzt. Ist
ein Flat-File auf einem Rechner verfügbar, so wird diese Kombination auch
als Datenquelle verstanden.
Beispiel:
ENTRY
NAME
CLASS
SYSNAME
EC 2.1.3.3
Ornithine carbamoyltransferase
Citrulline phospharylase
Ornithine transcarbamylase
Transferases
Transferring one-carbon groups
Carboxyl- and carbamoyltransferases
Carbamoyl-phosphate:
L-ornithine carbamoyltransferase
...
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-23
Datenintegration und Informationsfusion
Datenintegration:
Die Datenintegration hat das Ziel, die Redundanz zu vermeiden
und sie erfordert die einheitliche Verwaltung aller von
Anwendungen bzw. von Anwendern benötigten Daten.
Informationsfusion:
Sie charakterisiert einen Prozess, dessen Aufgabe es ist, Daten
oder Informationen aus verschiedenen, zum Teil heterogenen
Datenquellen zu kombinieren, zu verdichten, zu interpretieren
und daraus Informationen einer neuen Qualität abzuleiten.
[G. Saake und A. Heuer. Datenbanken — Implementierungstechniken. MITP-Verlag, Bonn, 1999.]
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-24
Datenintegration und Informationsfusion:
Beispiel
Datenquelle A
Datenquelle B
Möglichkeit 1
Möglichkeit 2
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-25
Ansätze zur Datenintegration: Klassifikation
Systeme zur
Datenintegration
Kopieren der Daten
Verteilte Anfragebearbeitung
Materialisierte
Integration
Strukturierte
Anfragen
Unstrukturierte
Anfragen
(Semi-)
strukturierte
Daten
Updates,
Transaktionen
Data
Warehouses
(Meta-)
Suchmaschinen
Vorlesung Einführung in die Bioinformatik - Grundlagen
Föderierte DBS
LeseOperationen
Mediatoren
U. Scholz & M. Lange
© Kai-Uwe Sattler, Magdeburg 2003
Virtuelle
Integration
Folie #1-26
Ausgewählte Möglichkeiten
zur Datenintegration
1.
Hypertextnavigation
[P. D. Karp. A Strategy for Database Interoperation. Journal of Computational
Biology, 2(4):573–586, 1995.]
2.
Föderiertes Datenbanksystem
[A. P. Sheth und J. A. Larson. Federated Database Systems for Managing
Distributed, Heterogeneous, and Autonomous Databases. ACM Computing
Surveys, 22(3):183–236, September 1990.]
[S. Conrad. Föderierte Datenbanksysteme: Konzepte der Datenintegration.
Springer-Verlag, Berlin/Heidelberg, 1997.]
3.
Mediator
[G. Wiederhold. Mediators in the Architecture of Future Information Systems.
IEEE Computer, 25(3):38–49, März 1992.]
4.
Multidatenbanken
[P. D. Karp. A Strategy for Database Interoperation. Journal of Computational
Biology, 2(4):573–586, 1995.]
5.
Data Warehouse
[W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, Inc., 2. Auflage, 1996.]
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-27
WWWServer
Datenquelle 1
WWWServer
WWWServer
Datenquelle 2
Datenquelle n
Keine echte
Datenintegration!
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
© Jacob Köhler, Bielefeld 2003
Hypertextnavigation
Folie #1-28
© Höding, Türker, Janssen, Sattler, Conrad, Saake, Schmitt, Magdburg 1995
Föderiertes Datenbanksystem (FDBS)
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-29
Föderiertes Datenbanksystem (FDBS)








Zusammenfassung von mehreren DBS
Bezeichnung als Komponenten-DBS (KDBS)
Aufrechterhaltung der Autonomie aller KDBS
zuerst KDBS immer echtes Datenbanksystem
später auch Anbindung von Dateien als Datenquellen
wesentlicher Bestandteil ist Föderierungsdienst
Aufgabe: Zugriffssteuerung für globale Anwendungen
aber: einige Probleme!!!
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-30
Mediator
Anwendung I
Anwendung II
Anwendung III
Mediator D
Mediator B
Datenquelle 1
Datenquelle 2
Vorlesung Einführung in die Bioinformatik - Grundlagen
Mediator C
© Wiederhold 1992
Mediator A
Datenquelle 3
U. Scholz & M. Lange
Folie #1-31
Mediator







Einführung als Alternative zu FDBS
Grund: schwieriger Entwurf von großen föderierten
Schemata
Einsatz von kleinen Vermittlern
Mediator: abgeschlossene Softwaremodule mit definierten
Schnittstellen
keine generelle Verwaltungssoftware
(wie Föderierungsdienst)
-> viele einzelne Module
Besonderheit: kaskadierende Mediatoren
Entwicklung von integrierten Schemata in jedem Mediator
-> mehre kleinere Schemata
-> Einbindung neuer Datenquellen einfacher
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-32
Multidatenbanken
Anwendungen
Anfrage wird in
Anwendungen spezifiziert
Ergebnis wird zu den
Anwendungen zurückgeliefert
Anfrageverarbeitung und
Ergebniskomposition
Treiber 1
Treiber 2
Datenquelle 1
Datenquelle 2
Vorlesung Einführung in die Bioinformatik - Grundlagen
...
...
Treiber n
Datenquelle n
U. Scholz & M. Lange
Folie #1-33
Multidatenbanken





in DB-Literatur taxonomisch über FDBS, aber in
Bioinformatik gleichberechtigter Ansatz!
Einsatz einer geeigneter Anfragesprache:
Multidatenbankanfragesprache
dadurch Definition des verteilten Zugriffs auf Datenquellen
Formulierung komplexer Anfragen zur Spezifikation der
Informationen und der Datenquelle
Realisierung des Zugriffs durch datenquellen-spezifische
Treiber
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-34
Data Warehouse
Anwendungen
Data Warehouse
Data Warehouse
Datenbank
Treiber 1
Treiber 2
Datenquelle 1
Datenquelle 2
Vorlesung Einführung in die Bioinformatik - Grundlagen
...
...
Treiber n
Datenquelle n
U. Scholz & M. Lange
Folie #1-35
Data Warehouse





Transformation des Inhalts heterogener Datenquellen:
- Überführung der Datenquellenschemata in
gemeinsames Datenmodell
- Modellierung eines integrierten Schema
(Probleme ähnlich wie bei FDBS)
- Einbindung neuer Datenquellen immer neue
Modellierung notwendig
Import dieses Resultats in die Data Warehouse Datenbank
Realisierung des physischen Zugriffs über Treiber
(spezifische Softwaremodule)
durch Import Verlust der Autonomie des Datenquellen
(KDBS)
eine monolithische Datenbank
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-36
Data Warehouse




Arbeit auf Kopie der Originaldaten
Vorteil in Bezug auf Verfügbarkeit
Nachteil bei Änderung der Originaldaten
-> neuer Import
laut Definition:
- Nicht-Flüchtigkeit
Abschwächung -> Ändern oder Löschen zulassen
- historische Datensammlung
Abschwächung -> keine Zeitreihenanalysen

ein Zweck zum Aufbau eines Data Warehouses:
Informationsfusion
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-37
Data Warehouse: Charakteristika

Fachorientierung (subject oriented):
Zweck des Systems ist nicht die Erfüllung eienr Aufgabe z.B.
Personaldatenverwaltung), sondern Modellierung eines spezifischen
Anwendungsziels

Integrierte Datenbasis (integrated):

Nichtflüchtige Datenbasis (non-volatile):
Abschwächung!
stabil, persistent!
Daten im DW werden nicht mehr entfernt oder geändert!

Historische Daten (time variant):
Abschwächung!
Vergleich der Daten über Zeit möglich (Zeitreihenanalysen)
Speicherung über längeren Zeitraum
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
© Eike Schallehn, Magdeburg 2003
Verarbeitung von Daten aus mehren verschiedenen Datenquellen
(intern oder extern)
Folie #1-38
© Eike Schallehn, Magdeburg 2003
Data Warehouse: Beispiel-Szenario (I)
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-39
Data Warehouse: Beispiel-Szenario (II)
Anfragen:

Wie viele Flaschen Bier wurden letzten Monat verkauft?
Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?
Wer sind unsere Top-Kunden?
Von welchen Lieferanten beziehen wir die meisten Kisten?
Probleme:
- Nutzung externer Quellen (Kundendatenbank,
Lieferantendatenbank, ...)
- Daten mit historischen Bezug
Vorlesung Einführung in die Bioinformatik - Grundlagen
© Eike Schallehn, Magdeburg 2003

U. Scholz & M. Lange
Folie #1-40
Data Warehouse: Ergebnis(-Würfel)
© Eike Schallehn, Magdeburg 2003
Welche Umsätze sind in
den Jahren 1998 und
1999 in den Abteilungen
Kosmetik, Elektro und
Haushaltwaren in den
Bundesländern SachsenAnhalt und Thüringen
angefallen?
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-41
© Eike Schallehn, Magdeburg 2003
Data Warehouse: Ergebnis(-Bericht)
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-42
Plant Data Warehouse am IPK (I)
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-43
Plant Data Warehouse am IPK (II)


Anfragen:
- Wie viele Genbank-Samenproben wurden im letzten Monat
verschickt?
- Welche Genbank-Accessions wurden im letzten Jahr erfolgreich
innerhalb von IPK-Projekten eingesetzt?
- Wer sind unsere „Top-Kunden“ unter den Züchtungsunternehmen?
- Mit welchen Substanzen (z.B. Enzymen) von welchen Lieferanten
wurden die meisten Marker experimentell nachgewiesen und
erfolgreich kartiert?
Probleme:
- Nutzung verschiedener Quellen (GBIS, CR-EST, MOMA, FLAREX, ...)
- Daten mit historischen Bezug
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-44
Bioinformatik in der modernen Biotechnologie
Research Group
with Special
Queries
Internet
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-45
Relationenmodell &
Entity-RelationshipModellierung
QUELLE:
Thoralf Töpel: Web-basierte Informationssysteme in der
molekularen Bioinformatik, Vorlesung, SoSe 05
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-46
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-47
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-48
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-49
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-50
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-51
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-52
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-53
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-54
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-55
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-56
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-57
Vorlesung Einführung in die Bioinformatik - Grundlagen
U. Scholz & M. Lange
Folie #1-58

002 - IPK Gatersleben