Beschreibende Statistik
Betriebswirt VWA
Wesen der Statistik
Beschreibende Statistik
2
©JB
Statistik ist das methodische Vorgehen bei der
Beschaffung von Informationen, die man braucht, um
vernünftige Entscheidungen treffen zu können.
• Beschreibende Statistik (Deskriptive Statistik)
Methoden zur Erfassung, Aufbereitung, Darstellung und
Analyse fest umrissener und konkret vorliegender Daten.
• Schließende Statistik (Induktive Statistik)
Methoden, deren Anwendung Schlüsse von Stichproben auf
übergeordnete Gesamtheiten erlauben.
Statistische Daten
Beschreibende Statistik
3
©JB
• verbale oder qualitative Informationen
- nicht sehr präzise
- wenig objektiv
- Zusammenfassung schwierig
• quantitative, zahlenmäßige Informationen
- zahlenmäßige Aussage
- objektiv
- einfach zusammenzufassen und zu verarbeiten
Daten, die sich für eine Zusammenfassung eignen,
werden als Statistische Daten bezeichnet.
Statistische Modell
Beschreibende Statistik
4
©JB
Ein Modell ist ein vereinfachtes Bild der
Wirklichkeit und entsteht durch Beschränkung auf
das Wesentliche.
Modelle in der Statistik entstehen in der Regel
durch Vereinfachung in dreifacher Weise:
• sachlich
• örtlich
• zeitlich
Problem: Es gibt keine eindeutigen, allgemein
anerkannte Grundsätze zur Bildung
Statistischer Modelle.
Anwendungsgebiete
Beschreibende Statistik
5
©JB
Statistische Methoden können überall dort
eingesetzt werden, wo größere Informationsmengen
zu verarbeiten sind.
•
•
•
•
•
•
•
Politik
Verkehr
Sozialwissenschaften
Biologische Wissenschaften
Naturwissenschaft und Technik
Betriebstatistik
Medizin
Statistisches Material
Beschreibende Statistik
6
©JB
Untersuchungszweck:
Festlegung, wozu man Informationen benötigt
Grundgesamtheit:
Menge von Elementen über die sich die Entscheidung,
die man statistisch untermauern will, erstreckt und
über die man Informationen benötigt.
Die Grundgesamtheit setzt sich aus den statistischen
Einheiten zusammen.
Abgrenzung der Gesamtheit:
• sachlich
• örtlich
• zeitlich
Bestands- und Bewegungsmassen
Beschreibende Statistik
7
©JB
Bestandsmassen:
Erfassung zu einem bestimmten Zeitpunkt.
Bewegungsmassen:
Erfassung während eines Zeitraumes.
Fortschreibung:
Bestandsmassen werden durch Bewegungsmassen
fortgeschrieben (Zugangsmassen und Abgangsmassen).
Bestands- und Bewegungsmassen
Beschreibende Statistik
8
©JB
Beispiele für Bestandsmassen:
• Einwohner von Mannheim
• Studenten einer Hochschule
• Kraftfahrzeuge in München
• Unternehmen in NRW
Beispiele für Bewegungsmassen:
• Geburten in Bayern im September 1988
• Verbrauch an Bier in Hessen im Jahre 1987
• Regenfälle in einem bestimmten Gebiet
• Umsätze von Unternehmen
Vollerhebung oder Totalerhebung
9
Beschreibende Statistik
Erfassung aller statistischer Einheiten
©JB
Vorteil:
• Vollständige Information
Nachteil:
• große Gesamtheiten nicht exakt abgrenzbar
• Bei komplizierten Sachverhalten können Ergebnisse fehlerhafter werden, je mehr Einheiten
berücksichtigt werden
• große Kosten
• Zeitdauer zu lang
Teilerhebung / Stichprobe
Beschreibende Statistik
10
©JB
Beschränkt man sich nur auf einen Teil der statistischen Masse, so spricht man von einer Teilerhebung. Der ausgewählte Teil heißt Stichprobe.
Vorteil:
• Kostengünstig, da geringer Aufwand
• Vollerhebung eventuell unsinnig
• Ergebnisse liegen schneller vor
• Genauigkeit
Nachteil:
• Stichprobenfehler
Herkunft der Daten
11
Beschreibende Statistik
primärstatistische Erhebung:
©JB
• Daten werden eigens für die Untersuchung erhoben
• aus Kostengründen kaum durchführbar
sekundärstatistische Erfassung:
• Rückgriff auf bereits vorhandene Daten
• Kostengünstig, da geringerer Aufwand
Beschreibende Statistik
12
©JB
Erhebungsmethoden bei
Primärstatistik
1. Mündliche Befragung
Interview sehr Zeitaufwendig
2. Schriftliche Befragung
geringer Aufwand, Güte kann leiden
3. Beobachtung
Daten in der Regel unverfälscht
4. Experiment
Produkttest
5. Automatische Erfassung
Anwendung im tech. Bereich (z.B. Stromverbrauch)
Träger der amtlichen Statistik
Beschreibende Statistik
13
©JB
staatliche Institutionen oder vom Staat abhängige
Stellen. Sie sind staatlich finanziert.
Beispiele:
• Statistisches Bundesamt
• Statistische Landesämter
• Statistische Ämter der Städte
• Ministerien des Bundes und der Länder
• Bundesargentur für Arbeit
Veröffentlichung der amtlichen Statistik:
• Staatistische Jahrbuch
• Zeitschrift „Wirtschaft und Statistik
• Der Statistische Wochendienst
Träger der nichtamtlichen Statistik
Beschreibende Statistik
14
©JB
•
•
•
•
•
Wirtschaftsverbände
Markt- und Meinungsforschungsinstitute
wissenschaftliche Institute
Unternehmen
Arbeitgeber- und Arbeitnehmerorganisationen
Erhebungen können schneller an aktuelle Bedürfnisse
angepasst werden.
Ergebnisse sind weniger objektiv.
Ergebnisse sind oft Mittel der Selbstdarstellung.
Statistische Merkmale
Beschreibende Statistik
15
©JB
Merkmale:
Eigenschaften einer statistischen Einheit, für die man
sich bei einer statistischen Untersuchung interessiert.
Sie sind Gegenstand der Untersuchung.
Merkmalsträger:
Träger der Merkmale sind die statistische Einheiten,
die gezählt oder gemessen werden.
Merkmalsausprägungen:
Es sind die verschiedenen Ergebnisse, die bei der
Beobachtung oder Messung auftreten können.
Beispiele für Merkmalsausprägungen
Beschreibende Statistik
16
©JB
Nr Merkmalsträger
Merkmal
Merkmalsausprägung
1
best. Person
Waschmaschi- Besitzer, Nichtbesitzer
nenbesitzer
2
best. Person
Anhänger
einer Partei
Anhänger, kein
Anhänger
3
best. Person
Familienstand
ledig, geschieden,
verheiratet, verwitwet
4
Fernsehzuschauer
Meinung zur
Sendung
sehr gut, gut, durchsch.,
schlecht, sehr schlecht
5
Betriebsangehörige Alter in Jahren
16 – 65 Jahre
6
Betriebsangehörige Urlaubstage
18, 19, 20, ... 28 Tage
Beispiele für Merkmalsausprägungen
Beschreibende Statistik
17
Merkmal 1-3:
Es handelt sich um Eigenschaften. Jede Reihen- und
Rangfolge ist willkürlich und zufällig.
Merkmal 4:
Es handelt sich um eine Bewertung. Es liegt eine
eindeutige Rangfolge vor.
Merkmal 5-6:
Es handelt sich um Zahlen. Eine Rangfolge ist vorgegeben. Abstände zwischen Ausprägungen sind gleich
lang.
Festlegung der Maßeinteilung nennt man Skalierung
©JB
Arten von Skalierungen
Beschreibende Statistik
18
©JB
1. Nominale Skalierung: (Unterscheidungsmerkmale)
Die Merkmalsausprägungen drücken lediglich die
Verschiedenartigkeit aus.
2. Ordinale Skalierung: (Rangmerkmale)
Die Merkmalsausprägungen bringen neben der
Verschiedenartigkeit eine natürliche Rangfolge zum
Ausdruck.
3. Metrische Skalierung: (Abstandsmerkmale)
Merkmalsausprägungen grundsätzlich Zahlen.
Neben der Rangordnung werden auch die Abstände
zwischen den Merkmalsausprägungen verglichen.
Gruppen von Skalierungen
19
Beschreibende Statistik
Quantitative Ausprägungen:
©JB
• metrisch skalierte Merkmale
• Ausprägungen unterscheiden sich in ihrer Größe
Qualitative Ausprägungen:
• ordinal und nominal skalierte Merkmale
• Ausprägungen unterscheiden sich in ihrer Art
Qualitative Daten
20
Beschreibende Statistik
nominal: Merkmalsausprägungen
©JB
• können nicht durch Auszählen oder
Messen ermittelt werden
• Haben keine natürliche Reihenfolge
• Liefern keine Abstände oder Verhältnisse
ordinal: Merkmalsausprägungen
• können in eine natürliche Reihenfolge
gebracht werden
• Sind keine absoluten, sondern relative
Werte
• Liefern keine Abstände oder Verhältnisse
Quantitative Daten
21
Beschreibende Statistik
metrisch: Merkmalsausprägungen
©JB
• Sind messbar oder abzählbar
(reelle Zahlen)
• Sind somit absolute Werte
• Liefern Abstände oder Verhältnisse
Diskrete und stetige Merkmale
22
Beschreibende Statistik
Diskrete Merkmale: (Beispiel Nr. 6)
©JB
• Merkmal kann nur endlich viele Ausprägungen
annehmen
• Ausprägungen sind exakt bestimmbar
• Abgrenzungsschwierigkeiten treten nicht auf
Stetige Merkmale: (Beispiel Nr. 5)
• Können jeden beliebigen reellen Wert in einem
bestimmten Intervall annehmen
• Ausprägungen sind nicht abzählbar, sie werden
durch messen bestimmt
• Sie sind genaugenommen nur Näherungswerte
Beispiele für Merkmalsausprägungen
Beschreibende Statistik
23
©JB
Nr Merkmalsträger
Merkmal
Merkmalsausprägung
1
best. Person
Waschmaschi- Besitzer, Nichtbesitzer
nenbesitzer
2
best. Person
Anhänger
einer Partei
Anhänger, kein
Anhänger
3
best. Person
Familienstand
ledig, geschieden,
verheiratet, verwitwet
4
Fernsehzuschauer
Meinung zur
Sendung
sehr gut, gut, durchsch.,
schlecht, sehr schlecht
5
Betriebsangehörige Alter in Jahren
16 – 65 Jahre
6
Betriebsangehörige Urlaubstage
18, 19, 20, ... 28 Tage
Übersicht
24
Beschreibende Statistik
Qualitative Merkmale
©JB
Quantitative Merkmale
Nominalskala Ordinalskala Metrische Skala
Nr. 5 und 6
Skala
Nr. 1-3
Datenerfassung
vergleichen
Nr. 4
vergleichen
diskret
stetig
Nr. 6
Nr. 5
zählen
messen
Rechnen mit Summenzeichen
25
Beschreibende Statistik
n
©JB
i
1 + 2 + 3 + ... + n
i=1
n
ai
a1 a2
...
an
i=1
i:
1:
n:
ai:
Index
Untere Summationsgrenze
Obere Summationsgrenze
beliebige Werte, hier z.B. Merkmalsausprägungen
Rechenbeispiele
Beschreibende Statistik
26
©JB
5
2i
2 4 6 8 10
2
1 4 9 16 25
30
i=1
5
i
i=1
55
Rechenregeln mit Summen
Beschreibende Statistik
27
©JB
n
a
na
i=1
n
m
ai
i=1
n
ai
ai mit 1 m n
i=1
n
i=m 1
n
ai bi
i=1
n
ai
i =1
bi
i=1
Rechenregeln mit Summen
Beschreibende Statistik
28
©JB
n
n
cai
i=1
c
ai
i =1
n
n- j
ai
k =0
ai
i= - j
j
Gesamtsumme
Beschreibende Statistik
29
©JB
m
n
uij
j =1 i =1
Häufigkeitsverteilung
Beschreibende Statistik
30
©JB
Urliste
Ungeordnete Niederschrift der Zahlenwerte in der
Reihenfolge ihres Auftretens.
Häufigkeitszahl
Gleiche Messwerte werden mit der Zahl ihres
Auftretens versehen.
Absolute Häufigkeit
Anzahl der statt. Einheiten mit einer bestimmten
Merkmalsausprägung.
Relative Häufigkeit
Absolute Häufigkeit dividiert durch Anzahl der stat.
Einheiten
Klassenbildung
31
Beschreibende Statistik
1. Anzahl der Klassen festlegen
©JB
•
•
•
•
•
opt. Anzahl erfolgt nicht nach festen Regeln
Problemstellung ist maßgebend
Zu viele Klassen -> unübersichtlich
Zu wenige Klassen -> Informationsverlust
In der Regel 5-20 Klassen
2. Klassengrenzen festlegen
•
•
•
Es soll eine obere und untere Grenze festgelegt werden
In der Regel gleichbreite Klassen
Ungleiche Klassen nur, wenn viele Beobachtungen in einem kleinen Bereich und
geringer Rest in weitem Bereich
Aufgabe Häufigkeitsverteilung
Beschreibende Statistik
32
©JB
Die nachfolgende Tabelle enthält die Gewichte von 40 männlichen
Studenten auf das nächste volle Pfund gerundet.
Erstellen Sie eine Häufigkeitsverteilung.
Urliste
138
164
150
132
144
125
149
157
146
158
140
147
136
148
152
144
168
126
138
176
163
119
154
165
146
173
142
147
135
153
140
135
161
145
135
142
150
156
145
128
Lösung Strichliste
Beschreibende Statistik
33
©JB
Gewicht in Pfund
Strichliste
Häufigkeit
rel. Häufigkeit
118 - 122
I
1
0,025
123 - 127
II
2
0,050
128 - 132
II
2
0,050
133 - 137
IIII
4
0,100
138 - 142
IIIII I
6
0,150
143 - 147
IIIII III
8
0,200
148 - 152
IIIII
5
0,125
153 - 157
IIII
4
0,100
158 - 162
II
2
0,050
163 - 167
III
3
0,075
168 - 172
I
1
0,025
173 - 177
II
2
0,050
Summe
40
1,000
Stamm-Blatt Darstellung
Beschreibende Statistik
34
©JB
Stamm
11
12
12
13
13
14
14
15
15
16
16
17
17
Blatt
9
5
2
5
0
5
0
6
1
5
3
6
6
8
5
0
5
0
7
3
8
5
2
6
2
8
4
6
2
6
3
8
4
7
4
8
4
7
8
9
Lösung Häufigkeitsdiagramm
35
Beschreibende Statistik
8
7
6
5
4
3
2
1
0
120
©JB
130
140
150
160
170
180
Stabdiagramm
Beschreibende Statistik
36
©JB
45
40
40
35
30
25
25
20
20
15
15
10
5
0
Ar
An
B
S
Rechteckdiagramm
Beschreibende Statistik
37
©JB
120
100
80
40
60
25
40
15
20
20
0
Kreisdiagramm
Beschreibende Statistik
38
©JB
S
20%
Ar
40%
B
15%
An
25%
Mittelwerte oder Lagerparameter
Beschreibende Statistik
39
©JB
• Das arithmetische Mittel
– Einfaches arithmetische Mittel
– Gewogenes arithmetisches Mittel
– Arithmetisches Mittel für klassierte Daten
• Modalwert oder häufigster Wert
• Zentralwert oder Meridian
• Quantile
• Das geometrische Mittel
Einfaches arithmetische Mittel
40
Beschreibende Statistik
Arithmetische Mittel bei Einzelwerten
©JB
n
xi
Arithmetisches Mittel x
Eigenschaften:
n
xi
x
xi
x
0
i 1
n
i 1
2
Min
i 1
n
Summe der Einzelwerte
Anzahlder Einheiten
Das gewogene arithmetische Mittel
Beschreibende Statistik
41
©JB
Arithmetische Mittel bei einer Häufigkeitsverteilung
Anstatt gleiche Merkmalsausprägungen mehrfach
zu addieren, gewichtet man sich unterscheidende
Merkmalsausprägungen xi (i=1,2,...,n) mit der
Häufigkeit des Auftretens hi.
n
x i hi
x
i 1
n
hi
i 1
Arithmetisches Mittel für klassierte
Daten
Beschreibende Statistik
42
©JB
Ist von einer Stichprobe weder die Urliste noch eine
Häufigkeitsverteilung bekannt, so lässt sich der
Mittelwert nicht exakt berechen.
In einem solchen Fall ermittelt man einen Näherungswert, indem man von jeder Klasse die Klassenmitte verwendet.
x
1
n
n
xxi hi
i 0
mit xix Klassenmitteder Klassei
Modalwert
Beschreibende Statistik
43
©JB
Die am häufigsten vorkommende Merkmalsausprägung.
Der Modalwert ist um so aussagekräftiger, je stärker
die entsprechende Merkmalsausprägung dominiert.
Für nominal skalierte Merkmale ist der Modalwert der
einzige sinnvolle Lageparameter.
Zentralwert oder Median
Beschreibende Statistik
44
©JB
Der Zentralwert ist diejenige Merkmalsausprägung,
die in der Mitte der in eine Rangfolge gebrachten
Einzelausprägungen steht.
D.h. die Merkmale müssen mindestens Ordinalskala
besitzen.
Anzahl gerade:
Zentralwert an der Stelle (n+1)/2
Anzahl ungerade:
Mittel der Werte an der Stelle n/2
und n/2 +1
Quantile
Beschreibende Statistik
45
©JB
Das p% Quantil ist der Wert Lp für den p % der
Beobachtungen kleiner und (100-p)% größer als Lp
sind.
Für p = 25%, 50%, 75% nennt man die Quantile
Quartile (unteres, Median, oberes);
Bezeichnung ist Q1,Q2,Q3.
Den Wert Q3 - Q1 nennt man Interquantilsabstand.
Das geometrische Mittel
Beschreibende Statistik
46
©JB
Bei der Bestimmung von durchschnittlichen Wachstumsraten ist das arithmetische Mittel nicht brauchbar.
Hier muss man auf das geometrische Mittel zurückgreifen.
GM
n
x 1 x2 ... xn
für xi
0
Negatives Wachstum
Beschreibende Statistik
47
©JB
Jahr
Absatzmenge
Wachstumsrate
Wachstumsfaktor
0
1
2
3
4
1000
1200
1080
1350
1512
0,20
-0,10
0,25
0,12
1,20
0,90
1,25
1,12
GM
4
1,2 0,9 1,25 1,12
1,1089
Streuungsmaße
Beschreibende Statistik
48
©JB
Zur Beschreibung einer Stichprobe reicht der Mittelwert oft nicht aus, da er keine Aussage darüber erlaubt, wie weit die einzelnen Merkmalswerte vom
Mittelwert abweichen.
Aus diesem Grund wird der Mittelwert oft durch einen
Streuungsparameter ergänzt.
•
•
•
•
•
Spannweite oder Variationsbreite
Quartilsabstand und Boxplot
Mittlere lineare Abweichung
Varianz und Standardabweichung
Varianzkoeffizient
Spannweite oder Variationsbreite
Beschreibende Statistik
49
©JB
Spannweite = Differenz zwischen dem größten (xmax)
und dem kleinsten (xmin) Wert
Vorteil:
• leicht zu berechnen
• schneller Vergleich der Streuung zweier Merkmalsreihen
• rascher Überblick über die Breite der Skala
Nachteil:
• Extremwerte verzerren die Aussagekraft
• Keine Aussage über Streuung zw. Extremwerten
• Bei großen Untersuchungen treten öfter Werte auf,
die die Spannweite erhöhen
Quartilsabstand und Boxplot
Beschreibende Statistik
50
©JB
Der Quartilsabstand ist die Differenz zwischen dem
ersten und dem dritten Quartil. Er umfasst den Bereich mit den mittleren 50% der Werte.
Das Box- oder Whiskerdiagramm stellt die Häufigkeitsverteilung schematisch dar: Zwischen dem 1. und
dem 3. Quartil wird ein Kasten aufgebaut. In diesen
Bereich fallen 50% der Beobachtungen.
Die seitlich angesetzten „Schnurrhaare“ vermitteln
einen Eindruck, wie weit die restlichen 50% streuen
Box- und Whiskersdiagramm
Beschreibende Statistik
51
©JB
4
6
8
10
12
14
16
18
20
22
24
28
Tage
Aufenthaltsdauer von Patientinnen nach Schnittentbindung (Seite 65)
Mittlere lineare Abweichung
Beschreibende Statistik
52
©JB
Durchschnittliche lineare Abweichung der Merkmalswerte vom Mittelwert.
Arithmetisches Mittel der absoluten Abweichungen
der Merkmalswerte von einem Mittelwert (arith. Mittel
oder Median)
d
1
ni
n
xi M
1
M = Mittelwert
Varianz und Standardabweichung
53
Beschreibende Statistik
Varianz s2:
©JB
s2
Summealler Abweichungsquadrate
Zahl derMeßwerte
1
ni
n
xi AM
2
1
Standardabweichung s = positve Wurzel der Varianz s2
s
s2
1
ni
n
xi AM
1
2
Beispiel Standardabweichung
Beschreibende Statistik
54
©JB
Liegezeit xi
(xi-AM)
(xi-AM)(xi-AM)
hi
hi*(xi-AM)(xi-AM)
8
9
10
11
12
13
14
15
17
20
28
-5
-4
-3
-2
-1
0
1
2
4
7
15
25
16
9
4
1
0
1
4
16
49
225
1
1
3
6
5
4
5
2
1
1
1
30
25
16
27
24
5
0
5
8
16
49
225
400
s2
400
30
13,33
s
3,65
Variationskoeffizient
Beschreibende Statistik
55
©JB
Der Variationskoeffizient ist ein relativer Streuungsparameter.
Variationskoeffizient v = Quotient aus Stabdardabw.
und arithmetischem Mittel
Der Variationskoeffizient gibt an, wie viel Prozent vom
arithmetischen Mittel die Standardabweichung beträgt.
v
s
AM
Regression und Korrelation
Beschreibende Statistik
56
©JB
Beschreibung eines (tendenziellen) Zusammenhangs
zwischen zwei Merkmalsausprägungen.
Korrelationsanalyse:
Bestimmung einer Maßzahl, die die Stärke des
Zusammenhangs beschreibt.
(Korrelations- bzw. Kontingenzkoeffizient)
Regressionsanalyse:
Bestimmung von Funktionen zur Beschreibung der
Form des Zusammenhangs zwischen zwei Merkmalen.
(Regressionsgerade)
Die drei Fragenstellungen
57
Beschreibende Statistik
I.
©JB
Besteht zwischen den Merkmalen ein
Zusammenhang oder nicht?
• Kontingenz
• Korrelation
II. Wie ausgeprägt ist ein Zusammenhang?
• Kontingenz-Koeffizient
• Korrelations-Koeffizient
III. Durch welche Funktion kann die Tendenz
eines Zusammenhangs beschrieben werden?
• Regressionsrechnung
Beispiel Kontingenztabellen
Beschreibende Statistik
58
©JB
Soziale Stellung
des Vaters
Schultyp des
Kindes
Häufigkeit
Arbeiter
Hauptschule
6
Arbeiter
Realschule
4
Arbeiter
Gymnasium
0
Angestellter
Hauptschule
2
Angestellter
Realschule
2
Angestellter
Gymnasium
1
Beamter
Hauptschule
1
Beamter
Realschule
2
Beamter
Gymnasium
2
Selbständiger
Hauptschule
1
Selbständiger
Realschule
2
Selbständiger
Gymnasium
2
Beispiel Kontingenztabellen
Beschreibende Statistik
59
©JB
Arbeiter
Angestellter
Beamter
Selbst.
Hauptschule
6
2
1
1
Realschule
4
2
2
2
Gymnasium
0
1
2
2
Beschreibende Statistik
60
©JB
Zusammenhang zwischen
Körpergröße und Körpergewicht
Person Nr.
1
2
3
4
5
6
7
8
9
10
Größe in cm
174
182
178
190
172
165
172
189
168
181
Gewicht in kg
62
75
63
95
69
58
78
84
62
70
Person Nr.
11
12
13
14
15
16
17
18
19
20
Größe in cm
172
178
174
184
189
167
172
184
168
181
Gewicht in kg
72
65
70
65
78
60
65
72
65
72
Zusammenhang zwischen
Körpergröße und Körpergewicht
©JB
100
90
80
Gewicht in kg
Beschreibende Statistik
61
70
60
50
40
30
20
10
0
164
168
172
176
180
Größe in cm
184
188
192
Zusammenhang zwischen
Körpergröße und Körpergewicht
©JB
100
90
80
Gewicht in kg
Beschreibende Statistik
62
70
60
50
40
30
20
10
0
164
168
172
176
180
Größe in cm
184
188
192
Regressionsanalyse
Beschreibende Statistik
63
©JB
Die Regressionsanalyse verfolgt das Ziel, die Tendenz des Zusammenhangs durch eine mathematische Funktion zu beschreiben.
Mögliche Funktionen:
Gerade:
y = ax + b
Parabel:
y = ax2 + bx + c
Potenzfunktion:
y = bx2
Exponentialfunktion: y = bax
Kriterium der kleinsten Quadrate
Beschreibende Statistik
64
Zur Ermittlung der Regressionsfunktion hat sich das
Kriterium der kleinsten Quadrate bewährt.
In einem Koordinatensystem werden die Beobachtungspunkte eingezeichnet. Der Abstand zwischen
den Punkten und der Funktion soll möglichst klein
werden.
d 1 , d 2 , d 3 , ... , d n mit d n
x
yi
Von allen möglichen Funktionen wird nun die ausgewählt, für die die Quadrate der Abstände minimal sind
n
n
yi y
i i
©JB
yi
x 2
i
2
i
d
i 1
min
Kriterium der kleinsten Quadrate
65
Beschreibende Statistik
y
©JB
P1
y2
y1
y2*
y1*
P2
y = ax + b
d2
d1
P2*
P1*
x1
x2
x
Lineare Regressionsfunktion
66
Beschreibende Statistik
Forderung für Regressionsgerade y = ax + b:
©JB
n
f
n
yi y xi
a, b
i 1
2
yi axi b
2
Minimum
i 1
Für Minimum muss 1. Ableitung nach a und b verschwinden:
df
da
df
db
n
2 y i axi b
xi
2 y i axi b
1
i 1
n
i 1
Lineare Regressionsfunktion
67
Beschreibende Statistik
Durch Null-Setzen der 1. Ableitungen folgt:
©JB
n
n
x i yi
b
i 1
n
n
xi
2
i
a
i 1
n
yi
x
nb
a
i 1
i 1
xi
i 1
Auflösen nach a und b ergibt:
n
n
n
a
xi yi
i 1
n
xi
i 1
n
n
2
i
n
x
i 1
n
yi
i 1
xi
i 1
2
n
2
i
x
b
i 1
n
yi
i 1
n
n
xi
i 1
n
x
i 1
n
2
i
x i yi
i 1
xi
i 1
2
Lineare Regressionsfunktion
68
Beschreibende Statistik
Andere Rechenmöglichkeit:
©JB
n
x i x yi y
a
i 1
=
n
xi x
i 1
b
y ax
2
Kovarianz
Varianzder x Werte
Einkommen - Miete
69
©JB
700
600
500
Miete
Beschreibende Statistik
800
400
300
200
100
0
1200
1400
1600
1800
2000
2200
2400
Nettoeinkommen
2600
2800
3000
3200
Einkommen - Miete
70
©JB
y = 0,1579x + 202,65
700
600
500
Miete
Beschreibende Statistik
800
400
300
200
100
0
1200
1400
1600
1800
2000
2200
2400
Nettoeinkommen
2600
2800
3000
3200
Lineare Regressionsfunktion
Beschreibende Statistik
71
©JB
Bisher haben wir die die Abhängigkeit des Merkmals Y
vom Merkmal X beschrieben. (Regression von y auf x).
Wollen wir die Abhängigkeit des Merkmals X vom
Merkmal Y beschreiben (Regression von x auf y), so
ergeben sich folgende Formeln:
n
x i x yi y
a'
i 1
b'
n
yi y
i 1
2
x a' y
Miete - Einkommen
72
©JB
3000
Nettoeinkommen
Beschreibende Statistik
3500
2500
2000
1500
1000
500
0
350
400
450
500
550
Miete
600
650
700
750
Miete - Einkommen
73
©JB
y = 5,73x - 946,5
3000
Nettoeinkommen
Beschreibende Statistik
3500
2500
2000
1500
1000
500
0
350
400
450
500
550
Miete
600
650
700
750
Werbungskosten - Umsatz
74
©JB
12
10
Umsatz (in Mio. €)
Beschreibende Statistik
14
8
6
4
2
0
3
4
5
6
7
8
Werbungskosten (in 1000 €)
9
10
11
12
Werbungskosten - Umsatz
75
©JB
y = 1,22x - 0,54
12
10
Umsatz (in Mio. €)
Beschreibende Statistik
14
8
6
4
2
0
3
4
5
6
7
8
Werbungskosten (in 1000 €)
9
10
11
12
Alter - Wartungskosten
76
©JB
4
3,5
Kosten in 1000 DM
Beschreibende Statistik
4,5
3
2,5
2
1,5
1
0,5
0
0
1
2
3
4
5
Alter in Jahren
6
7
8
9
10
Alter - Wartungskosten
77
©JB
4
y = 0,1903x + 1,3854
3,5
Kosten in 1000 DM
Beschreibende Statistik
4,5
3
2,5
2
1,5
1
0,5
0
0
1
2
3
4
5
Alter in Jahren
6
7
8
9
10
Korrelationsanalyse
Beschreibende Statistik
78
©JB
In der Korrelationsanalyse versucht man, die Stärke
des Zusammenhangs zwischen zwei Merkmalen
durch eine Maßzahl auszudrücken.
Wir unterscheiden folgende Maßzahlen:
• Korrelationskoeffizient von Pearson
(metrisch skalierte Merkmale)
• Rangkorrelationskoeffizient von Spearman
(ordinalskalierte Merkmale)
• Kontingenzkoeffizienten
(nominalskalierte Merkmale)
Korrelationskoeffizient von Pearson
79
Beschreibende Statistik
n
©JB
xi x y i y
i 1
r
n
n
xi x
2
i 1
i 1
1
ni
r
1
n
yi y
2
n
xi x yi y
1
n
xi x
i 1
2
1
ni
n
yi y
1
2
s xy
sx s y
Korrelationskoeffizient von Pearson
Beschreibende Statistik
80
©JB
Der Korrelationskoeffizient r ist eine Zahl zwischen
+1 und -1
r = 1:
Alle Beobachtungswerte liegen auf einer
steigenden Geraden.
r = –1: Alle Beobachtungswerte liegen auf einer
fallenden Geraden.
r > 0:
Merkmale positiv korreliert,
d.h. die Regressionsgerade ist steigend.
r < 0:
Merkmale negativ korreliert,
d.h. die Regressionsgerade ist fallend.
r = 0:
Die Merkmale sind unkorreliert,
d.h. es besteht kein linearer Zusammenhang.
Korrelationskoeffizient von Pearson
Beschreibende Statistik
81
©JB
Zur Berechnung des Korrelationskoeffizienten von
Pearson ist die folgende Formel besser geeignet:
n
n
n
xi yi
xi
i 1
r
n
i 1
n
2
i
n
x
i 1
n
xi
i 1
2
yi
i 1
n
n
n
y
i 1
2
i
yi
i 1
2
Beispiel Korrelationskoeffizient
Beschreibende Statistik
82
©JB
174
182
178
190
172
165
172
189
168
181
172
178
174
184
189
167
172
184
168
181
3540
177
62
75
63
95
69
58
78
84
62
70
72
65
70
65
78
60
65
72
65
72
1400
70
-3
5
1
13
-5
-12
-5
12
-9
4
-5
1
-3
7
12
-10
-5
7
-9
4
9
25
1
169
25
144
25
144
81
16
25
1
9
49
144
100
25
49
81
16
1138
-8
5
-7
25
-1
-12
8
14
-8
0
2
-5
0
-5
8
-10
-5
2
-5
2
64
25
49
625
1
144
64
196
64
0
4
25
0
25
64
100
25
4
25
4
1508
24
25
-7
325
5
144
-40
168
72
0
-10
-5
0
-35
96
100
25
14
45
8
954
Beschreibende Statistik
83
©JB
Rangkorrelationskoeffizient von
Spearman
• Zwei Merkmale besitzen mindestens eine
Ordinalskala.
• Merkmalswerte aufsteigend geordnet und jedem
Platz eine Rangzahl zugeordnet.
• Für Berechnung werden nur Rangzahlen benötigt.
• Stimmen mehrere Merkmaleswerte überein, wird
das arith. Mittel der Rangzahlen gebildet.
n
6
rs
1
d
i 1
2
n n
2
i
1
Beispiel 1
Beschreibende Statistik
84
©JB
Fall 1
Fall 2
Fall 3
Schüler
Nr.
Lehrer A
Rang
Lehrer B
Rang
Lehrer A
Rang
Lehrer B
Rang
Lehrer A
Rang
Lehrer B
Rang
1
9
9
9
2
3
5
2
8
8
1
10
1
6
3
5
5
2
9
10
3
4
10
10
5
6
7
7
5
4
4
6
5
6
1
6
3
3
7
4
5
4
7
1
1
3
8
2
2
8
2
2
8
3
9
8
9
7
7
4
7
4
10
10
6
6
10
1
8
9
Beispiel 1
Beschreibende Statistik
85
©JB
Schüler
Nr.
Fall 1
Fall 2
Fall 3
1
0
49
4
2
0
81
25
3
0
49
49
4
0
1
0
5
0
1
25
6
0
9
1
7
0
25
0
8
0
25
1
9
0
9
36
10
0
81
1
Summen:
0
330
142
r:
1
-1
0,14
Beispiel 2
Beschreibende Statistik
86
©JB
Teilnehmer-Nr.
A-Note
B-Note
1
4,8
4,4
2
5,0
5,1
3
5,8
5,6
4
5,5
5,7
5
5,3
5,7
6
5,0
5,5
7
5,1
5,3
8
4,6
4,9
9
4,7
4,4
10
5,9
5,8
11
5,5
5,7
12
5,4
5,4
1
2
3
4
5
6
7
8
9
10
11
12
Teilnehmer-Nr.
A-Note
B-Note
8
4,6
4,9
9
4,7
4,4
1
4,8
4,4
2
5,0
5,1
6
5,0
5,5
7
5,1
5,3
5
5,3
5,7
12
5,4
5,4
4
5,5
5,7
11
5,5
5,7
3
5,8
5,6
10
5,9
5,8
Teilnehmer-Nr.
A-Note
B-Note
1
4,8
4,4
9
4,7
4,4
8
4,6
4,9
2
5,0
5,1
7
5,1
5,3
12
5,4
5,4
6
5,0
5,5
3
5,8
5,6
4
5,5
5,7
5
5,3
5,7
11
5,5
5,7
10
5,9
5,8
Rang:
Beispiel 2
87
Beschreibende Statistik
Teilnehmer Nr. Rang Note A Rang Note B
1
2
3
4
5
6
7
8
9
10
11
12
1,5
4
8
10
10
7
5
3
1,5
12
10
6
Quadrat
1,5
0,5
3
-0,5
-3
-2,5
1
-2
0,5
0
-0,5
2
2,25
0,25
9,00
0,25
9,00
6,25
1,00
4,00
0,25
0,00
0,25
4,00
36,50
rs
©JB
3
4,5
11
9,5
7
4,5
6
1
2
12
9,5
8
Differenz
1
6 36,5
12 144 1
= 1
219
1716
0,87
Beispiel Kontingenztabellen
Beschreibende Statistik
88
©JB
Soziale Stellung
des Vaters
Schultyp des
Kindes
Häufigkeit
Arbeiter
Hauptschule
6
Arbeiter
Realschule
4
Arbeiter
Gymnasium
0
Angestellter
Hauptschule
2
Angestellter
Realschule
2
Angestellter
Gymnasium
1
Beamter
Hauptschule
1
Beamter
Realschule
2
Beamter
Gymnasium
2
Selbständiger
Hauptschule
1
Selbständiger
Realschule
2
Selbständiger
Gymnasium
2
Mittlere quadratische Kontingenz
Beschreibende Statistik
89
©JB
Arbeiter
Angestellter
Beamter
Selbst.
Hauptschule
6
2
1
1
10
Realschule
4
2
2
2
10
Gymnasium
0
1
2
2
5
10
5
5
5
25
Arbeiter
Angestellter
Beamter
Selbst.
Hauptschule
4
2
2
2
10
Realschule
4
2
2
2
10
Gymnasium
2
1
1
1
5
10
5
5
5
25
Mittlere quadratische Kontingenz
Beschreibende Statistik
90
©JB
C
1
ni
m
r
1 j 1
m
r
C
i 1 j 1
ni n j
nij
n
ni nj
n
2
ij
n
ni nj
2
1
Vierfelderkorrelation
Beschreibende Statistik
91
©JB
n11
n12
n1*
n21
n22
n2*
n*1
n*2
n
n12 n21
n11 n22
n11 n12 n21 n22 n11 n21 n12 n22
Korrigierter Vierfelderkoeffizient
Beschreibende Statistik
92
©JB
korr
max
korr
korr
n12 n21
n min n11, n22
n11 n22
n12 n21
n12 n21
n min n21, n12
n11 n22
n12 n21
n11 n22
n11 n22
wenn n12 n21 n11 n22
wenn n12 n21 n11 n22

Deskriptive Statistik