‘Omics’
- Analysis of high
dimensional Data
Achim Tresch
Computational Biology
Programm
Datenexploration
Messskalen
Nominal-, Ordinal-, Relativ-, and Absolutskala
Univariate Daten
Lage- Streu- und Schiefemaße
Barplot, Boxplot, Histogramm, Dichteplot
Bivariate Daten
Odds ratio, Korrelation
Kreuztabelle, Scatterplot, MA-Plot, QQ-plot
⊆ Grundgesamtheit
…
Stichprobe
Fälle (Samples,
Beobachtungseinheiten)
Merkmale (Variablen)
Was sind „Daten“?
Ausprägungen eines Merkmals
3
Datenexploration
Begriffe:
Sample, Fall, Beobachtungseinheit
Jedes Individuum, an dem Beobachtungen gemacht
werden
(typischerweise die Zeilen einer Datenmatrix)
Merkmal, Variable
Jede an den Beobachtungseinheiten erhobene Eigenschaft
(typischerweise die Spalten einer Datenmatrix)
Ausprägung (einer Variablen)
Jeder mögliche Merkmalswert einer Variablen
Stichprobe
Menge aller untersuchten Samples
Grundgesamtheit
Alle potenziellen Samples
(die Menge an Individuen, über die etwas herausgefunden
werden soll)
Problem:
Die Variablen, die man messen will, müssen
vernünftig auf einen „Wert“ abgebildet werden.
Dies ist nicht immer leicht, z.B. bei Zellform,
evolutionäre Fitness, Stressresistenz, Intelligenz,
Schmerz, Risikoaversion, Sozialstatus.
85% glänzenderes Haar!
Wie beschreibt man Daten?
Dies hängt vom Skalenniveau ab!
Kategoriale Variablen
besitzen nur endlich viele Ausprägungen, z.B.
ja/nein; männlich/weiblich;
rot/grün/blau; Verumgruppe/Placebogruppe
Spezialfall: Binäre (=dichotome) Variablen
besitzen nur zwei Ausprägungen
Nominale Daten: Ausprägungen ohne Ordnung
Bsp.: Zelltyp [wildtyp, Mutante1, Mutante 2]
Ordinale Daten: Ausprägungen mit inhaltlicher Ordnung
Bsp.: Zellstadium (G1, S, G2, M), Schulnote (1,2,…,6)
Kontinuierliche (stetige) Variablen
können Werte in einem Zahlenintervall
annehmen, z.B.
Konzentration [mMol], Kosten [€]
6
Datenexploration
Hauptlernziele:
• Sinnvolle Erfassung von Daten (Tabellen erstellen)
• Graphische Aufbereitung von Daten
• Interpretation von Graphiken und Statistiken
• Kritikfähigkeit beim Umgang mit Zahlen/Daten
Anwendung:
• Analyse eigener Daten
• Lesen von Fachpublikationen
Datenexploration (univariat)
Häufigkeitstabelle (contingency table)
Beispiel: Blutgruppe im ABO-System, n = 188 Patienten
Ausprägung
A
B
AB
0

Absolute Häufigkeit
83
20
10
75
188
5%
40%
100%
Relative Häufigkeit
44% 11%
Wichtig und immer anzugeben: absolute Häufigkeiten!
• Bei zu kleinen Fallzahlen (n < 20) am besten keine Prozentzahlen
angeben
• Keine Nachkommastellen bei Prozentzahlen für etwa n<300
„bei 14,2857% der Patienten traten Nebenwirkungen auf.“
Unsinn, hier war n = 7!
Kategorielle (=nominale) Daten
Balkendiagramm (bar plot)
%
45
40
35
30
25
20
15
10
5
0
A
B
AB
0
Kontinuierliche Daten
Tabellen sind (für n>5) ungeeignet
-0.63 0.18 -0.84 1.6 0.33 -0.82 0.49 0.74 0.58 -0.31 1.51 0.39 -0.62 -2.21 1.12 -0.04 -0.02 0.94 0.82 0.59 0.92 0.78 0.07 -1.99 0.62 -0.06 -0.16 1.47 -0.48 0.42 1.36 -0.1 0.39 -0.05 -1.38 -0.41 -0.39 -0.06 1.1 0.76 -0.16 -0.25 0.7 0.56 -0.69 -0.71 0.36 0.77 -0.11 0.88 0.4 -0.61 0.34 -1.13 1.43
1.98 -0.37 -1.04 0.57 -0.14 2.4 -0.04 0.69 0.03 -0.74 0.19 -1.8 1.47 0.15 2.17 0.48 -0.71 0.61 -0.93 -1.25 0.29 -0.44 0 0.07 -0.59 -0.57 -0.14 1.18 1.52 0.59 0.33 1.06 -0.3 0.37 0.27 -0.54 1.21 1.16 0.7 1.59 0.56 -1.28 -0.57 -1.22 -0.47 -0.62 0.04 -0.91 0.16 -0.65 1.77 0.72 0.91 0.38 1.68 -0.64 0.46 1.43 -0.65 -0.21 -0.39 -0.32 -0.28 0.49 -0.18 -0.51 1.34 -0.21 -0.18 -0.1 0.71 -0.07 -0.04 -0.68 -0.32 0.06 -0.59 0.53 -1.52 0.31 -1.54 -0.3 0.53 -0.65 -0.06 -1.91 1.18 -1.66 -0.46 -1.12 -0.75 2.09 0.02 -1.29 -1.64 0.45 -0.02 -0.32 -0.93 -1.49 -1.08 1 -0.62 -1.38 1.87 0.43 -0.24 1.06 0.89 0.62 2.21 -0.26 -1.42 -0.14 0.21 2.31 0.11 0.46 -0.08 -0.33 -0.03 0.79 2.08 1.03 1.21 -1.23 0.98 0.22 -1.47 0.52 -0.16 1.46 -0.77 -0.43 -0.93 -0.18
0.4 -0.73 0.83 -1.21 -1.05 1.44 -1.02 0.41 -0.38
Erster Versuch: Stelle die Daten auf einem
Zahlenstrahl als Punkte/Striche dar
|
||
3
||| | | ||| ||| | | | |||||||||||| | || ||||||||||| |||||||||||||||||||||| |||
||||||||| | ||||||||| | ||||| | | | | | ||
8
15
27
50
37
14
9
5
||
0
|
1
Zweiter Versuch: Teile den Zahlenstrahl in Bereiche ein und
bestimme die Zahl der dort liegenden Punkte
Kontinuierliche Daten
40
20
0
Zahl der Fälle
60
Histogramm
-3
-2
-1
0
Merkmalsausprägung
1
2
3
100
0
60
50
Zahl der Fälle
150
200
Die Zahl der Balken (= Größe der Bereiche)
muss sinnvoll gewählt werden!
1
50 Balken
Merkmalsausprägung
2
3
-4
-2
12 Balken
40
0
-3
-2
-1
0
1
0
4 Balken
Merkmalsausprägung
20
-1
0
-2
Zahl der Fälle
3
Kontinuierliche Daten
2
3
2
4
Kontinuierliche Daten
0.2
0.2
0.0
0.0
0.1
0.1
relative
Häufigkeit
relative
Häufigkeit
0.3
0.3
0.4
0.4
Dichteplot (density plot)
-3
-3
-2
-2
-1
-1
0
0
1
1
2
2
3
3
Vorsicht: Es wird automatisch Merkmalsausprägung
eine Glättung vorgenommen, die u.U
Merkmalsausprägung
falsche Sachverhalte, insbesondere an den Rändern, vorgaukelt!
13
Lage, Streuung und Schiefe
Lageparameter
Mittelwert: Summe aller Werte / Anzahl der Werte
Bsp.: Beobachtete Werte:
Summe der Werte:
Anzahl der Werte:
Mittelwert:
2, 3, 7, 9, 14
2+3+7+9+14 = 35
5
35/5 = 7
Median: Es liegen genau so viele Datenpunkte ober- wie unterhalb
des Medians
|
||
||| | | ||| ||| | | | |||||||||||| | || ||||||||||| |||||||||||||||||||||| |||
||||||||| | ||||||||| | ||||| | | | | | ||
50%
50%
||
|
Lage, Streuung und Schiefe
10000
Lageparameter
6000
4000
Median
2000
Mittelwert
0
rel. Häufigkeit
8000
Modus, Modalwert: Wert, an dem
die Häufigkeitsverteilung ihr
Maximum annimmt
0
1
2
3
4
Lage, Streuung und Schiefe
Symmetrisch
Mittelwert  Median
Linksgipflig, rechtsschief
Median << Mittelwert
Rechtsgipflig, linkesschief
Mittelwert << Median
Lage, Streuung und Schiefe
-2 -1 0 1 2
rep(0, length(d)
Median ist dem Mittelwert vorzuziehen bei
• asymmetrischer Verteilung
• Verteilung mit Ausreißern
0
1
Mittelwert ist „genauer“ als der Median
• wenn annähernde Gaußverteilung vorliegt
(selbst dann sind aber beide Größen ähnlich!)
2
3
d
Faustregel für Verwendbarkeit des Mittelwerts:
Schiefemaß g zwischen –1 und +1
Rechtsschiefe
bedeutet:
Schiefemaß g > 0
Linksschiefe
bedeutet:
Schiefemaß g < 0
4
5
Lage, Streuung und Schiefe
. . . Ich habe den großen Leuten mein Meisterwerk gezeigt und
Wie ob
würden
SieZeichnung
diesen Sachverhalt
sie gefragt,
ihnen meine
nicht Angst mache. Sie
haben geantwortet: "Warum
sollen wir vor einem Hut Angst
beschreiben?
haben?" Meine Zeichnung stellte aber keinen Hut dar...
Lage, Streuung und Schiefe
Sie stellte eine Riesenschlange dar, die einen Elefanten
verdaut. Ich habe dann das Innere der Boa gezeichnet, um es
den großen Leuten deutlich zu machen. Sie brauchen ja immer
Erklärungen.
Antoine de Saint-Exupéry, Der Kleine Prinz
19
Lage, Streuung und Schiefe
Lageparameter
Quantile: Ein q-Quantil Q teilt die Daten in einen Anteil von q
Datenpunkten unterhalb von Q und ein Anteil von 1-q Datenpunkten
oberhalb von Q
|
||
||| | | ||| ||| | | | |||||||||||| | || ||||||||||| |||||||||||||||||||||| |||
||||||||| | ||||||||| | ||||| | | | | | ||
50%
|
||
Median =
50%-Quantil
-2 =
0-Quantil
Minimum
25%
= 0
25%-Quantil
25%
-1
1.Quartil
d
|
||
|
50%
||| | | ||| ||| | | | |||||||||||| | || ||||||||||| |||||||||||||||||||||| |||
||||||||| | ||||||||| | ||||| | | | | | ||
25%
||
1
3.Quartil
=
75%-Quantil
25%
2
3
1-Quantil
=
Maximum
Q(uantile)-Q(uantile) Plots
Five-point-Summary. Für einen Vektor x wird das 5-tuple der
Quantile (xmin, x0.25, xmed, x0.75, xmax) das five-point-summary
genannt.
Boxplot. Ein Boxplot ist die Visualisierung des (mehrerer)
Five-point-summarys:
Swirl array 93: pre-norm
2
xmax
0
M
1
x0.75
(4,4)
(4,3)
(4,2)
(4,1)
(3,4)
(3,3)
(3,2)
(3,1)
(2,4)
(2,3)
(2,2)
(2,1)
(1,4)
(1,3)
(1,2)
(1,1)
x0.25
xmin
-2
-1
xmed
PrintTip
Boxplots sind zum schnellen Vergleich mehrerer
Verteilungen
besonders gut geeignet
Lage, Streuung und Schiefe
Interquartilspanne:
Differenz 3. Quartil
minus 1. Quartil
Spannweite:
Differenz Maximum
minus Minimum
Lage, Streuung und Schiefe
Grundidee der Standardabweichung s :
s groß
Mittelwert
s klein
Mittelwert ± s
umfasst 68% der Messwerte
Mittelwert ± 2s
´´
95%
´´
Mittelwert ± 3s
´´
99.7%
´´
x-s
x
x+s
Dies gilt nur für Gaußverteilte Zielgrößen!
Lage, Streuung und Schiefe
Boxplots
Methode der Wahl zum ersten Überblick über Verteilung der Daten: Lage,
Streuung und Schiefe können in etwa aus dem Boxplot abgelesen werden!
Boxplots
4600
50
49
45
absolute Anzahl Fälle von 128
4400
4200
4000
3800
3600
40
35
30
30
25
20
21
15
13
10
8
5
0
3400
4
3
3200 - 3400
3600 - 3800
3400 - 3600
4000 - 4200
3800 - 4000
3200
N=
128
Kosten einer LASIK [€]
Vorteile des Histogramms:
• „Ansprechender“, „informationsreicher“ als Boxplots
• Vielgipfligkeit erkennbar
Nachteile des Histogramms:
• Klassenzahl und –grenzen willkürlich
• Mehrere Messreihen schwer vergleichbar
Generell: Immer Fallzahl(en) angeben!
4400 - 4600
4200 - 4400
Datenexploration (bivariat)
Daten
Person
Medikamentengabe
Wirkung
A
Verum
Wirkt
B
Placebo
Wirkt nicht
Kreuztabelle
Kreuztabelle
Daten
Person
Medikamentengabe
Wirkung
A
Verum
Wirkt
B
Placebo
Wirkt nicht
Kreuztabelle
Variable 2,
Ausprägungen
(potentielle
Effekte)
Variable 1, Ausprägungen
(potentielle Einflussgröße)
Kreuztabelle
Daten
Person
Medikamentengabe
Wirkung
A
Verum
Wirkt
B
Placebo
Wirkt nicht
Wirkung
Kreuztabelle
Wirkt
Medikamentengabe
Verum
Wirkt
nicht
Variable 2,
Ausprägungen
(potentielle
Effekte)
Placebo
Variable 1, Ausprägungen
(potentielle Einflussgröße)
Jeder Fall wird in
genau einem der
Felder gezählt28
Kreuztabelle
Daten
Person
Medikamentengabe
Wirkung
A
Verum
Wirkt
B
Placebo
Wirkt nicht
Wirkung
Kreuztabelle
Wirkt
Medikamentengabe
Variable 2,
Wirkt
nicht
Verum
1
0
Placebo
0
1
Variable 1, Ausprägungen
(potentielle Einflussgröße)
Ausprägungen
(potentielle
Effekte)
Jeder Fall wird in
genau einem der
Felder gezählt29
Kreuztabelle
Meist soll die Frage beantwortet werden:
Gibt es Unterschiede zwischen █ und █ ?
Wirkung
Kreuztabelle
Wirkt
Medikamentengabe
Variable 2,
Wirkt
nicht
Verum
1
0
Placebo
0
1
Variable 1, Ausprägungen
(potentielle Einflussgröße)
Ausprägungen
(potentielle
Effekte)
Kreuztabelle
Kreuztabelle: n = 80 Fälle
Anzahl, Zeilenprozente,
Spaltenprozente
Medikamentengabe
Wirkung
Gesamt
Wirkt
Wirkt nicht
Verum
20
50%, 67%
20
50%, 40%
40
50%
Placebo
10
25%, 33%
30
75%, 60%
40
50%
30
37%
50
63%
100%
Gesamt
Kreuztabelle
Was ist an dieser Darstellung zu kritisieren?
Kreuztabelle: verbundende vs. unverbundene Daten
Unverbundene
Daten
Verbundene
Daten
Person
Medikamentengabe
Wirkung
A
Verum
Wirkt
B
Placebo
Wirkt nicht
Person
Verumgabe
Placebogabe
A
Wirkt
Wirkt
B
Wirkt
Wirkt nicht
Verbundene Daten: An ein und demselben Objekt (oder
zwei sehr ähnlichen Objekten) werden zwei gleichartige
Variablen erhoben.
Ein Fall protokolliert die Ausprägungen der beiden
gleichartigen Variablen für ein Objekt.
Kreuztabelle: verbundende vs. unverbundene Daten
Verbundene
Daten
Person
Verumgabe
Placebogabe
A
Wirkt
Wirkt
B
Wirkt
Wirkt nicht
Placebogabe
Kreuztabelle
Verumgabe
Wirkt
Wirkt
nicht
Wirkt
1
1
Wirkt
nicht
0
0
Variable 1, Ausprägungen
Variable 2,
Ausprägungen
II.1 Deskriptive Statistik
Kreuztabelle: verbundende vs. unverbundene Daten
Meist sollen die Fragen beantwortet werden:
Sind die Messungen konkordant oder diskordant?
Gibt es Auffälligkeiten in █ oder █ ?
Placebogabe
Kreuztabelle
Verumgabe
Wirkt
Wirkt
nicht
1
1
Wirkt
Wirkt
nicht
Variable 1, Ausprägungen
0
0
Diskordante
Messungen
Variable 2,
Ausprägungen
Konkordante
Messungen
Scatterplot
Vergleich zweier Genexpressionsmessungen
Absolutskala
y = 4x
doppelt logarithmische Skala
> x = exprs[,1]
y = >2xy = exprs[,2]
> plot(x,y)
> x = exprs[,1]
>y y
==
2xexprs[,2]
> plot(x,y,log=“xy“)
y = 4x
y=½x
y=¼x
y=½x
y=¼x
Vorteile der logarithmischen Transformation:
• Die Daten verteilen sich gleichmäßiger über den Plot
• Linien konstanter Fold ratios bilden Parallelen zur Hauptdiagonalen
> xMA =(x+y)/2
> yMA = y - x
> plot(xMA,yMA)
log(y/x)
2
1000
4
10000
> x = log(exprs[,1])
> y = log(exprs[,2])
> plot(x,y)
0
1
-4
10
-2
100
y
Drehen um 45o
1
10
100
1000
10000
0
2
4
6
log (geometr.
Mittel
von8 x und10y)
log(x * y)/2
Vorteile des M-A xPlots:
• Linien konstanter Fold ratios bilden Parallelen zur x-Achse
• M-A Plot ermöglicht das Erkennen systematischer Änderungen des
Kanal1/Kanal2-Expressionsverhältnisses in Abhängigkeit von der
mittleren Expressionsstärke eines Gens
log (fold ratio von y und x)
Scatterplot vs. M-A-plot
M-A-plot
Keine (sichtbaren)
systematischen
Abhängigkeiten
Kanal 2 ist um einen
konstanten Faktor
stärker als Kanal 1
Multiplikativer Bias
M-A-plot
Kanal 1 ist nur im niedrig
exprimierten Bereich
stärker als Kanal 2
Additiver Bias
Kombination aus
additivem und
multiplikativem Bias
Korrelation
Zusammenhang zweier stetiger Merkmale
Bsp.:
Wie lässt sich solch ein Zusammenhang quantifizieren?
Pearson Korrelation
Pearson-Korrelationskoeffizient r
Aussagekräftig, wenn beide Merkmale gaußverteilt sind.
Misst den Grad des linearen Zusammenhangs
Eigenschaften:
-1 ≤ r ≤ +1
r = ± 1: perfekter linearer Zshg.
Das Vorzeichen gibt die Richtung
des Zusammenhangs an
Pearson Korrelation
Je näher r bei 0 liegt, desto schwächer ist der lineare Zusammenhang
Pearson Korrelation
Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Pearson Korrelation
Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Pearson Korrelation
Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Pearson Korrelation
Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Pearson Korrelation
Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
rxy = ryx (Symmetrie)
Pearson Korrelation
Beispiel Zusammenhang Körpergröße –
Gewicht / Armlänge
rxy = 0,38
rxy = 0,84
Je enger die Daten um die Regressionsgerade streuen, desto größer
wird r betragsmäßig.
Pearson Korrelation
Wie groß ist r hier?
r≈0
r≈0
r≈0
Der Pearson-Korrelationskoeffizient kann nichtlineare
Zusammenhänge nicht gut messen.
Korrelation
Idee: Berechne den (Pearson-)Korrelationskoeffizienten der
rangtransformierten Daten  Spearman-Korrelation s
Spearman Korrelation
s = 0,95
Rang(Y)
Rang(Y)
Y
Y
Pearson Korrelation
r = 0,88
XX
Rang(X)
Rang(X)
Der Spearman-Korrelationskoeffizient misst die Monotonie eines
Zusammenhangs.
Originaldaten
Pearson vs. Spearman Korrelation
Pearson vs. Spearman Korrelation
Pearson-Korrelation
NM_001767
NM_000734
NM_001049
NM_006205
NM_001767
1.00000000
0.94918522
-0.04559766
0.04341766
NM_000734
0.94918522
1.00000000
-0.02659545
0.01229839
NM_001049
-0.04559766
-0.02659545
1.00000000
-0.85043885
NM_006205
0.04341766
0.01229839
-0.85043885
1.00000000
Rangtransformierte Daten
Pearson vs. Spearman Korrelation
Pearson vs. Spearman Korrelation
Spearman-Korrelation
NM_001767
NM_000734
NM_001049
NM_006205
NM_001767
1.00000000
0.9529094
-0.10869080
-0.17821449
NM_000734
0.9529094
1.00000000
-0.11247013
-0.20515650
NM_001049
-0.10869080
-0.11247013
1.00000000
0.03386758
NM_006205
-0.17821449
-0.20515650
0.03386758
1.00000000
Pearson vs. Spearman Korrelation
Originaldaten
Rangtransformierte Daten
Fazit: Der Spearman-Korrelationskoeffizient ist robuster gegen Ausreißer.
Er ist jedoch im Falle eines linearen Zusammenhangs nicht so
sensitiv wie der Pearson-Korrelationskoeffizient.
Korrelation
Fazit:
Der Pearson-Korrelationskoeffizient r ist ein Maß des linearen
Zusammenhangs
Der Spearman-Korrelationskoeffizient s ist ein Maß des
monotonen Zusammenhangs
Korrelationskoeffizienten sagen nichts darüber aus, ob ein
funktionaler Zusammenhang zwischen Y und X besteht.
Korrelationskoeffizienten sagen nichts darüber aus, ob X der
ursächlich für Y ist oder umgekehrt (im Gegenteil, r bzw. s sind
symmetrisch bezüglich X und Y)
Korrelationskoeffizienten sagen (fast) nichts über die Gestalt des
Scatterplots
Confounding
Einkommen
Bsp.: „Auf großem Fuß leben“
Korrelation r > 0
Schuhgröße
Schuhgröße
Einkommen
Geschlecht
Confounder:
Eine Variable, die die Abhängigkeit zweier
anderer „erklärt“.
Confounding
Partielle Korrelation: = „verbleibende“ Korrelation
(hier: Geschlechtsbereinigte Korrelation)
rpartiell = partielle Korrelation = ½ · ( r(männl) + r(weibl) )
Confounder können auch stetig sein
Hautfaltendicke (HFD)
Knochendichte (KD)
Alter
Korrelationskoeffizient zwischen HFD und KD
direkt: 0.38 , altersbereinigt: 0.17
Q(uantile)-Q(uantile) Plots
Quantile-Quantile plot (QQ-plot). Um zwei durch dieVektoren x
und y gegebenen Verteilungen zu vergleichen, plotte für alle Werte
q aus dem Intervall (0,1) das q-Quantil der x-Verteilung gegen das
q-Quantil der y-Verteilung.
QQ-plot
Q(uantile)-Q(uantile) Plots
Interpretation:
Unähnliche
Verteilungen:
Der QQplot ist nicht
linear, insbesondere
nicht im Zentrum der
QQ-Linie.
Ähnliche
Verteilungen, die
Enden der yVerteiluing sind
länger.
Ähnliche
Verteilungen, die
Enden der xVerteilung sind
länger.
Programm
Mittwoch
Vorlesung:
Messfehler und ihre Quellen
Bias, Normalisierung
Rauschen, Gaussverteilung
Testen von Hypothesen
Testtheorie, p-Werte
T-test
Wilcoxon test
Fisher test, χ2-test
Multiples Testen, Bonferroni correction
Übungen:
Präprozessierung von Genexpressionsaten
Auffinden differentiell exprimierter Gene
Programm
Donnerstag
Literaturseminar (N.N.)
Kurzvorlesung
Clustering
k-means clustering
hierarchical clustering
Übungen:
Auffinden koexprimierter Gengruppen
Finden von Krebssubtypen durch Genexpressionsmuster
Freitag
Vorlesung:
Klassifikation
linear discriminant analysis, support vector machines
Regression. Lineare Regression
Übungen:
RNA als Biomarker: Patientenstratifizierung mit Expressionsprofilen

Pearson Korrelation