Datenauswertung von Microarrays
Genexpressionsanalyse
Stefan Röpcke
Berlin, 29. 6. 2004
Auf der zweiten Folie ist das Merkblatt eingefügt.
Am Ende finden Sie noch weitere Folien (aus anderen Vorträgen).
Zusätzliche Informationen finden Sie auf der Lecture-Seite der Abteilung Vingron.
(lectures.molgen.mpg.de/Microarray_WS0304)
Viel Erfolg für die Prüfung !
Merkblatt
Prüfungstermin: 26. 7. 2004 (genauere Informationen bei der nächsten Veranstaltung)
Blockveranstaltung (Teilnahme ist Pflicht): Dienstag 6. Juli oder Donnerstag 8. Juli um 9.00
Uhr, Vorstellung aktueller Forschungsprojekte in der Abteilung Ropers am MPI
Kontrollfragen zum Thema Genexpressionsanalyse
Die Kontrollfragen sollen Ihnen Anhaltspunkt zum Lernen sein. Als Grundlage gelten
Kapitel 10 und 19. Der t-Test wird als bekannt vorausgesetzt.
1.
Erklären Sie die Grundprinzipien und die wichtigsten Unterschiede folgender
Techniken der Genexpressionsanalyse: DNA-Microarrays (gespottet), OligonukletidMicroarrays (Affymetrix), SAGE (serial analysis of gene expression)
2.
Welche Störgrössen oder Fehler können durch wiederholte Messungen der gleichen
RNA-Probe auf unterschiedlichen Arrays identifiziert werden?
3.
Expressionsdaten müssen in der Regel normiert werden. Was ist das Ziel der
Normierung der Expressionswerte zweier Arrays gegeneinander?
4.
Stellen Sie sich vor, Ihnen wird ein Datensatz mit folgenden Charakteristika
vorgelegt: Datenmatrix (5000x35) mit 20 Arrays von Tumorproben, 15 Arrays von
Normalproben, 5000 Gene wurden gemessen. Sie möchten mit Hilfe des t-Tests
Gene identifizieren, die differenziell zwischen Tumor- und Normalprobenn
exprimiert sind.
1.
Was müssen Sie im Vorfeld prüfen (Voraussetzungen des t-Tests), um
interpretierbare p-Werte zu erhalten?
2.
Worauf müssen Sie bei der Interpretation des p-Wertes achten, wenn Sie die tStatistik für alle 5000 Gene berechnen?
Übersicht
Datenanalyse von Oligo-Arrays
Normalisierung, Verdichtung, Datenverwaltung
Krebsforschung
Entdeckung differenzieller Gene im Bronchialkarzinom
Entdeckung von Antisense-Transkripten
Zusammenhang zwischen Struktur und
Expression von Genen
Oligo-Array-Experiment
Extraktion der
poly-A-RNA
Amplifikation
und Markierung
der RNA
Fragmentierung
Hybridisierung
Färbung
Datenanalyse für Oligonukleotid-Arrays
Oligopaar
Feature
Oligoset [Gen]
PM
MM
1. Feature Normalisierung
Offset Subtraktion
Median-Zentrierung
2. Detektionsscore
Wilcoxon-Teststatistik -> p-Wert
Hypothese (H1): PM > MM
Datenverdichtung
AvgDiff-Methode (Affymetrix)
PM – MM als Intensität
PM - Perfect Match
MM - Mismatch
3. Repräsentative Intensität
PMQ-Methode:
3. Quartil der PM-Intensitäten
Strukturierte Speicherung
Relationales Datenbanksystem
Lade- und Auswerteroutinen
PMQ-Methode im Vergleich zu AvgDiff
8 Array-Experimente mit RNA der Zelllinie RT4
PMQ-Methode
AvgDiff-Methode (Affymetrix)
2000
Häufigkeit
Häufigkeit
2000
1000
1000
0
0
-4
-2
0
2
4
-8
-4
0
4
Relative Unterschiede der Intensitäten, logarithmiert (ln) und normiert
PMQ-Methode – robustes Verfahren bei starken Qualitätsschwankungen
der Arrays und der RNA
8
Übersicht
Datenanalyse von Oligo-Arrays
Normalisierung, Verdichtung, Datenverwaltung
Krebsforschung
Entdeckung differenzieller Gene im Bronchialkarzinom
Entdeckung von Antisense-Transkripten
Zusammenhang zwischen Struktur und
Expression von Genen
Expressionsanalyse in der Krebsforschung
Am Beispiel des Bronchialkarzinoms
Proteinexpression
Genexpression
Differenzielle
Proteinexpression
Differenzielle
Genexpression
Phänotyp
Kandidatengen: differenziell exprimiert in Tumorzellen
für Diagnostik und Therapie
Datensätze
Publikationen in PNAS
2001
Garber et al.
Bhattacharjee et al.
Technologie
cDNA-Array
Brown/Botstein, Stanford
Oligonukleotid-Array
Affymetrix HG-U95Av2
Array Charakteristik
~24 000 Spots
~12 000 Oligsets
Gewebetypen
Adenokarzinom 41
Plattenepithelkarzinom 16
Normal 5
Andere 10
Adenokarzinom 139
Plattenepithelkarzinom 21
Normal 17
Andere 26
Replikate
11
36
Hybridisierung
Mit einer Referenzprobe
(Mix von 11 Zelllinien)
Eine RNA-Probe pro Array
Vergleichende Analyse - Überblick
cDNA-Array
Oligo-Array
Filtern
Normierung (LOESS), Logarithm. (ln)
Normierung (LOESS), Logarithm. (ln)
LogSignal
Validierung an Replikaten
LogRatio [Bsp. log(T/N)]
Validierung an Replikaten
Sequenzabgleich
3644
LogSignal Tumor
LogSignal Normal
LogRatios Tumor
versus Normal
t-Teststatistik
Vergleich der
Mittelwerte pro Gen
Vergleich der
Resultate
LogSignal Tumor
LogSignal Normal
LogRatios Tumor
versus Normal
t-Teststatistik
Validierung der Normalisierung
an Hand von Replikaten
cDNA-Array-Daten, normalisiert
grün: höchsten 10%
blau: niedrigsten 10%
Regressionskurve
4
AD1.NL1
-4 0
4
-4 0
4
LogRatio: log( PK / AD )
0
-3
4
AD2.NL1
AD2.NL2
0
PK2.AD2
AD1.NL2
-3
4
PK2.AD1
LogRatio: log( AD / NL )
-4 0
4
PK1.AD2
-4 0
LogRatio: log( PK / AD )
PK1.AD1
Oligo-Array-Daten, normalisiert
-3
0
4
-3
0
4
LogRatio: log( AD / NL )
NL: normales Lungengewebe, PK: Plattenepithelkarzinom AD: Adenokarzinom
Vergleich des Einflusses
der Technologie und des Gewebetyps
0
2
-2
2
cDNA-Array Expression
2
0
2
Oligo-Array
0
Tumor, LogSignal
0
2
Normal
-2
0
2
-2
0
cDNA-Array
-2
Tumor, LogSignal
0
-2
-2
-2
Oligo-Array Expression (LogSignal)
2
Tumor
-2
0
2
Normal, LogSignal
Vergleich der errechneten differenziellen
Expression zwischen den Array-Plattformen
Verteilungen aller LogRatio-Werte (T/N)
für das Beispielgen sparcl1
*
*
**
***
*
T
x
x
x
x
x
x
x
Häufigkeit
Intensität (LogSignal)
Schema
2363 (139X17)
205 (41X5)
N
pro Gen:
jede T- gegen
jede N-Probe
LogRatio: log( T/N )
Für 134 von 799 Genen überlappt der Interquartilsbereich nicht.
Kriterium für differenzielle Expression
t-Testsstatistik
Schwelle: p-Wert < 0.05
Mittleres LogRatio
Schwelle: unter den 10% kleinsten oder grössten
Korrelation der mittleren LogRatios
Beste Konkordanz in den Extrema
Plattenepithelkarzinom
versus normale Lunge
Adenokarzinom
versus normale Lunge
2
2
1
1
0
0
-1
-1
-2
-2
Mittleres LogRatio Oligo-Arrays
> 0: höher im Tumor, < 0: niedriger im Tumor
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
Mittleres LogRatio - cDNA-Arrays
ROTE Punkte: differenzielle Gene in einem der Datensätze
2
3
Differenziell exprimierte Gene
Oligo-Array, PEK
401
387
Oligo-Array, ADK
417
404
cDNA-Array, PEK
287
355
cDNA-Array, ADK
352
385
PEK
99
162
ADK
81
136
PEK: Plattenepithelkarzinom
ADK: Adenokarzinom
Zwei differenzielle Gene als Beispiele
Repräsentative Intensität
Zahl der Gene
Hoch in
T
N
Normale
Lungenproben
Plattenepithelkarzinomproben
Tetranectin
PLAU
Übersicht
Datenanalyse von Oligo-Arrays
Normalisierung, Verdichtung, Datenverwaltung
Krebsforschung
Entdeckung differenzieller Gene im Bronchialkarzinom
Entdeckung von Antisense-Transkripten
Zusammenhang zwischen Struktur und
Expression von Genen
Entdeckung von Antisense-Transkripten
Fragment
2 Oligosets:
Sense, Antisense
Genomische Sequenz
21 (102) Gene zeigen Antisense-Expression in 76 (310) Experimenten
(B)
(A)
DC13
Northern-Blot
Validierung
3/4 positiv
kb
9,5
7,5
4,4
2,4
1,35
0,24
Sense
MTN1
MTN2
MTN1
MTN2
Antisense
Zusammenhang zwischen
Genstruktur und -expression
Violett: Intron-enthaltende Gene
Mittleres Expressionssignal
90% Perzentil
75% Perzentil
500
1‘000
5‘000
Genlänge (logarithmische Skala, loge)
Ergebnisse
1. Robustes Verfahren zur Auswertung von Oligo-Arrays
2. Anwendbarkeit für die Krebsforschung
3. Technische Varianz dominiert Probenvarianz
4. Antisense-Transkripte – weit häufiger als erwartet
5. Hoch exprimierte Gene sind im Mittel kürzer.
Datenanalyse
Berechnung eines repräsentativen Expressionswertes und einer Signifikanz
Probe Pair
Feature
Gesättigter Wert
PM
MM
Wilcoxon test
• nicht-parametrisch
• gepaart
• Testet PM > MM
75% Perzentil der PM-Intensitäten
Komplexe Methoden in der Expressionsanalyse
Clusteranalyse – Data Mining
Diskriminanzanalyse
Lassen sich die Gewebeproben gruppieren ? Worin unterscheiden sich Probengruppen
Gene
Gewebeproben
Tumor
A
B
1 2 3 4 5 6 7
8
:
123…
8
Farbkodierung
hoher Wert
niedriger Wert
H
A
B
Normal
ODER
C
GeneD
E
F
G
UND
H
Entscheidend: Definition der Ähnlichkeit
Gesucht:
konsistent hoch- bzw. runterregulierte
Gene
Entscheidend: ausreichende Probenzah
Literaturdaten: Cluster von Zelllinienexperimenten
Scherf et al: „A gene expression database for the molecular pharmacology of
cancer“, Nature Genetics, march 2000
Konservative Interpretation der Resultate
Clusteranalyse – Data Mining
Diskriminanzanalyse
Lassen sich die Gewebeproben gruppieren ? Worin unterscheiden sich Probengruppen
Tumor Normal
1 2 3 4
Gewebeproben
1 2 3 4
A
B
Gene
C
D
1
Ähnlichkeitsgraph
3
2
4
-> Hierarchisches Clustern nicht sinnvoll
A
B
C
D
E
F
G
H
I
J
K
L
Gesucht:
konsistent über- bzw.
unterexpremierte Gene
Zu geringe Probenzah
führt zu hoher Rate an
falsch-positiven.

PowerPoint