Bivariate Statistik
M. Kresken
1
Wertepaare, Punktwolke
M. Kresken
2
Wertepaare, Punktwolke
Werden an mehreren Beobachtungseinheiten je zwei
stetige Merkmale gemessen, so lässt sich jedes
Wertepaar durch einen Punkt in einem
Koordinatensystem darstellen (Punktwolke)
Messwerte Merkmal 2
•
Messwerte Merkmal 1
M. Kresken
3
Regression von y auf x
M. Kresken
4
Zusammenhang zwischen n Wertepaaren
(xj,yj)
y
y
x
M. Kresken
x
5
Regression von y auf x
•
•
•
Das Problem einer Regression von y auf x liegt vor,
wenn für das Merkmal x fest vorgegebene Werte xj
(z.B. Dosen oder Zeitpunkte) und für das Merkmal y
zugehörige yj (z.B. Serumkonzentration eines
Arzneistoffes) erhoben werden.
Häufig kann eine graphisch erkennbare Beziehung
zwischen zwei Merkmalen (x und y) näherungsweise
durch eine Gerade „gut“ beschrieben werden.
Aber was bedeutet „gut“ ?
M. Kresken
6
Regression von y auf x
•
•
Berechnung einer Geraden, die sich aus der Summe
der quadrierten Abstände ermittelt wird
Methode der kleinsten Quadrate
y
x
M. Kresken
7
Regression von y auf x
•
Die so aus den Abständen der einzelnen Messpunkte
(xj,yj) zu der Geraden parallel zur y-Achse eindeutig
bestimmte Gerade heißt Regressionsgerade von y auf
x:
y = byxx + ayx
•
byx wird Regressionskoeffizient genannt und
beschreibt den Anstieg der Regressionsgeraden.
Der Regressionskoeffizient gibt an, um wie viel sich y
im Durchschnitt ändert, wenn x um eine Einheit erhöht
wird.
Der Parameter ayx bezeichnet den Schnittpunkt mit der
y-Achse.
•
•
M. Kresken
8
Regression von y auf x
•
byx und ayx ergeben sich aus folgenden Formeln:
byx
ayx
syx
= s
, falls sxx = 0
xx
_
_
= y – byx x
syx = sxy
1
=
n-1
n
=
(
n

j=1
_
_
( xj - x ) ( yj - y )
n

n
 )
1
( xjyj ) _ 1 ( xj ) ( yj )
n - 1 j=1
n j=1
j=1
n
__
1
_
=
( xjyj ) n x y
n - 1 j=1
(
M. Kresken
)
9
Regression von y auf x
sxx
= sx = 1
n-1
2
n

j=1
_2
( xj - x )
n
(
1
(
=
n-1
M. Kresken
_
x2j ) - n x
)
2
j=1
10
Regression von y auf x
•
•
•
•
•
Die Größe sxy heißt Kovarianz und beschreibt die
gemeinsame Streuung der x- und y-Werte, d.h. die
Ausdehnung
_ der
_ Punktwolke.
Der Punkt (x, y) heißt Schwerpunkt der Punktwolke und
ist ein Lagemaß für das Zentrum der Wertepaare.
In manschen Situationen lässt sich eine lineare
Beziehung erst nach Transformation der x- oder y-Werte
erkennen.
Folgen z.B. die (x,y)-Werte einem exponentiellen Verlauf
(y = ex), so wird sich nach Logarithmierung der y-Werte
ein linearer Zusammenhang ergeben.
Mit den transformierten Werten wird dann eine
Regressionsrechnung durchgeführt.
M. Kresken
11
Abbau der Adrenalinkonzentration in der Leber
Zeit nach
Adrenalingabe
[min]
Adrenalin
[mg/l]
1
6
30,2
2
18
9,8
3
30
4,7
4
42
1,8
5
54
0,8
Nr.
M. Kresken
12
Adrenalin (mg/100ml)
Zusammenhang des Abbaus der
Adrenalinkonzentration in der Leber über die Zeit
Zeit [min]
M. Kresken
13
Regression von y auf x
•
•
•
Es liegt die Vermutung nahe, dass die Adrenalinwerte mit
der Zeit exponentiell abfallen.
Wegen der graphisch erkennbaren Beziehung werden
deshalb statt der Werte selbst die Logarithmen für die
Regressionsrechnung verwendet, wobei die
logarithmierten Werte mit y bezeichnet werden.
Bei der Berechnung werden also nicht die ursprünglichen
Messwerte (Zeit, Adrenalin), sondern die transformierten
Messwerte (Zeit, log(Adrenalin)) = (x,y) benutzt.
M. Kresken
14
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Zeit nach
Adrenalingabe
[min]
Adrenalin
[mg/l]
1
6
30,2
2
18
9,8
3
30
4,7
4
42
1,8
5
54
0,8
Nr.
M. Kresken
log
(Adrenalin)
15
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Zeit nach
Adrenalingabe
[min]
Adrenalin
[mg/l]
log
(Adrenalin)
1
6
30,2
1,48
2
18
9,8
0,99
3
30
4,7
0,67
4
42
1,8
0,26
5
54
0,8
-0,10
Nr.
M. Kresken
16
log Adrenalin (mg/100ml)
Punktwolke und Regressionsgerade für den Abbau der
logarithmischen Adrenalinkonzentration über die Zeit
Zeit [min]
y = byxx + ayx
M. Kresken
17
Punktwolke und Regressionsgerade für den Abbau der
logarithmischen Adrenalinkonzentration über die Zeit
y = byxx + ayx
• Benötigte Formeln
M. Kresken
18
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Nr.
Zeit
x
log
Adrenalin (Adrenalin)
[mg/l]
y
1
6
30,2
1,48
2
18
9,8
0,99
3
30
4,7
0,67
4
42
1,8
0,26
5
54
0,8
-0,10
xy
x2
y2

M. Kresken
19
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Nr.
Zeit
x
log
Adrenalin (Adrenalin)
[mg/l]
y
xy
x2
y2
1
6
30,2
1,48
8,88
36
2,1904
2
18
9,8
0,99
17,82
324
0,9801
3
30
4,7
0,67
20,10
900
0,4489
4
42
1,8
0,26
10,92
1764
0,0676
5
54
0,8
-0,10
-5,40
2916
0,0100

150
3,30
52,32
5940
3,6970
M. Kresken
20
Zusammenhangsmaße
M. Kresken
21
Zusammenhangsmaße
• Maßzahlen, mit deren Hilfe sich der Zusammenhang
zwischen zwei Merkmalen beschreiben lässt.
• Keines der Maße dient dazu, einen sachlogischen
oder kausalen Zusammenhang nachzuweisen.
M. Kresken
22
Korrelationskoeffizient
• Der Korrelationskoeffizient r nach Pearson ist ein
quantitatives Maß für die Beziehung zwischen zwei
stetigen Merkmalen und beschreibt die lineare
Komponente des Zusammenhangs.
syx
r=
, falls sxx = 0 und syy = 0
sxx · syy
• Der Korrelationskoeffizient r kann nur Werte von –1 bis +1
annehmen.
• Der Korrelationskoeffizient ist eine einheitslose Größe.
M. Kresken
23
Zusammenhang zwischen Punktwolken und
Korrelationskoeffizienten
M. Kresken
24
Korrelationskoeffizient zwischen der logarithmischen
Adrenalinkonzentration und der Zeit
Berechnung des Korrelationskoeffizienten r
M. Kresken
25
Bestimmtheitsmaß
• Im Zusammenhang mit der Regressionsrechnung gibt man
häufig statt des Korrelationskoeffizienten das so genannte
Bestimmtheitsmaß an.
• Das Bestimmtheitsmaß ist gleich dem Quadrat des
Korrelationskoeffizienten.
• Es beschreibt, welcher Anteil an der Gesamtvarianz durch
das Regressionsmodell bzw. die Regressionsgerade
erklärt wird.
M. Kresken
26
Rang-Korrelationskoeffizient
• Ist ein alternatives Maß, um Zusammenhänge zwischen
Merkmalen zu beschreiben (Spearman RangKorrelationskoeffizient).
• Wird auf der Basis der Ränge der Messwerte berechnet:
(R (x1), R (y1)), (R (x2), R (y2)),....., (R (xn), R (yn)).
• Der kleinste Messwert erhält den Rang 1, der größte Wert
den Rang „n“.
• Mit den mittleren Rangzahlen lässt sich analog zum
Korrelationskoeffizienten nach Pearson der RangKorrelationskoeffizient berechnen.
1
R(X) = n
M. Kresken
n
 R(x )
j=1
j
1
R(Y) = n
n
 R(y )
j=1
j
27
Rang-Korrelationskoeffizient
• Die Berechnung erfolgt analog zum
Korrelationskoeffizienten nach Pearson unter Verwendung
der Rangzahlen.
syx
r=
sxx syy
M. Kresken
28
Rang-Korrelationskoeffizient
• Bei ordinalen Merkmalen beobachtet man häufig die
Übereinstimmung der Messergebnisse mehrerer
Beobachtungseinheiten.
• In solchen Fällen werden den übereinstimmenden
Messergebnissen mittlere Ränge zugeordnet.
• Dass die Originalmessergebnisse nur über ihre Position in
den jeweiligen Ranglisten, d.h. indirekt in die Berechnung
des Rang-Korrelationskoeffizienten einfließen, bedeutet
eine Informationsreduktion.
• Auf der anderen Seite können dadurch nichtlineare
Zusammenhänge beschrieben werden.
• Der Rang-Korrelationskoeffizient liefert Werte von
–1 bis +1.
M. Kresken
29
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Nr.
Zeit
x
Ränge
R(x)
Adrenalin
[mg/l]
1
6
30,2
2
18
9,8
3
30
4,7
4
42
1,8
5
54
0,8
Ränge
R(y)
R(x) R(y)
R(x)2
R(y)2

M. Kresken
30
Abbau der Adrenalinkonzentration in der Leber
(Originalmesswerte und logarithmierte Adrenalinwerte)
Zeit
x
Ränge
R(x)
Adrenalin
[mg/l]
Ränge
R(y)
R(x) R(y)
R(x)2
R(y)2
1
6
1
30,2
5
5
1
25
2
18
2
9,8
4
8
4
16
3
30
3
4,7
3
9
9
9
4
42
4
1,8
2
8
16
4
5
54
5
0,8
1
5
25
1
35
55
55
Nr.

M. Kresken
15
31
Interpretation der Ergebnisse der Regressionsbzw. Korrelationsrechnung
1. Eine Extrapolierung der Regressionsgleichung über den
Bereich der Punktwolke hinaus ist nicht zulässig.
2. Ein Korrelationskoeffizient nahe null bedeutet nicht, dass
kein Zusammenhang zwischen den betrachteten
Merkmalen besteht.
3. Einzelne extreme Wertepaare können sowohl den
Korrelationskoeffizienten als auch die
Regressionsgleichung erheblich beeinflussen.
4. Eine beobachtete Korrelation bedeutet nicht ohne
weiteres einen sachlogischen Zusammenhang zwischen
diesen beiden Merkmalen.
M. Kresken
32

Statistik_Teil_4