Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen,
deutschen und polnischen EPQ-R Versionen
zur Überprüfung der Inhaltsvalidität
Jörg M. Müller
Universität Tübingen
http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de
Theoretischer Ansatz
Die Variabilität von Personen bildet sich nach einer Arbeit von Müller (2002) in den
geschätzten Varianzen der Personenparameter des Raschmodells (Gleichung 1) ab.
Entsprechend weisen verschiedene psychologische Eigenschaften i.d.R. verschiedene
Variabilität auf, was schematisch in Abbildung 1 dargestellt ist.
Entsprechend setzt sich die beobachtete oder ‘Observed Rasch Variance’ (ORV) aus der
Varianz der wahren oder ‘True Rasch Variance’ (TRV) sowie einer Error Rasch Variance
(ERV) zusammen. Geschätzt werden die ORV sowie das Verhältnis TRV/ORV
(=Reliabilität). Die TRV ist damit unabhängig vom Messfehler bestimmbar (vgl. Abbildung
3), da TRV=ORV*Rel. Die Wahl des Reliabilitätsschätzer ist allerdings von Bedeutung
(vgl. Abbbildung 4), da Cronbach‘s Alpha und die aus den IRT-Softwareprogrammen
angegebene Reliabilität durchaus voneinander abweichen können.
Gleichung1
exp x Ai  A   i 
p x Ai  
1  exp A   i 
Abbildung 4: Die Wahl des
Reliabilitätsschätzers ist nicht unerheblich
Abbildung 3: Die Reliabilität beeinflusst die
ORV, aber nicht die TRV Beispiel des SPM (N=1500)
OPP
Zusammenhang zweier empirischer Reliabilitätsschätzungen
2.0
ORV
.5
0.25
Erwartet
0.5
1.0
Diese besondere Eigenschaft der raschskalierten Personenparameter lässt sich
verschiedentlich nutzen (Müller, 2003), u.a. für eine Überprüfung der Inhaltsvalidität.
Inhaltsvalidität
Cronbach
10
20
30
40
50
60
Hypothese
Entsprechend dieser Auffassung und unter der Annahme, dass sich die vier Europäischen
Nationen nur zufällig in ihrer Variabilität unterscheiden, sollten die vier durch den EPQ-R
abgebildeten Skalen vergleichbare Rasch Varianzen aufweisen.
Daten
Zur Überprüfung dieser Hypothesen werden die Normierungsdaten von vier
Operationalisierungen des EPR-R in den Sprachen Englisch (Eysenck & Eysenck, 1991)*,
Deutsch (Ruch, 1999), Polnisch (Zawadzki, 1995) und Spanisch (EPQ-RS; Aluja, García,
& García, 2003 ) mit vier Software-Programmen (Winmira, BilogMG, Bigsteps, Parscale)
reanalysiert .
(N=466)
Erwartet
0.0
Anzahl an Items
Inhaltsvalidität (Fitzpatrick, 1983; Klauer, 1984) stellt ein zentrales Konzept innerhalb der
Gültigkeitseinschätzung eines Persönlichkeitsfragebogens dar. Sie fassen Inhaltsvalidität
als Repräsentativität der Itemstichprobe aus dem Universum einer (validen; Ergänzung des
Autors) und theoretisch unendlichen Itemmenge auf.
Spearman
Korrelation
r = 0.75 s.
TRV
1.5
Abbildung 1 Verschiedene Variabilität in verschiedenen Dimensionen.
Reliabilitäten
der IRTSoftware
0.0
Personparameter
Zufällig Itemreduktion
0.75
Rasch Varianzen
Personen
1.0
RawS
0.25
.5
0.75
Cronbachs
Alpha
1.0
3. EINFLUSS DER SCHÄTZALGORITHMEN. Eine Vielzahl von Simulationstudien (z.
B. Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989)
konnten systematische Verzerrungen der Schätzmethoden auf die ORS nachweisen. Eigene
Auswertungen zeigen nur einen relativ schwachen Einfluss.
4. EINFLUSS DER LINK-FUNKTION. Je nach verwendeter Software muss eine
Adjustierung von der Normal-Ogive auf die logistische Funktion durchgeführt werden. Für
die eigene Studie wurde für bestimmte BilogMG Programme eine entsprechende Korrektur
vorgenommen.
5. EINFLUSS VON BODEN-UND-DECKENEFFEKTEN. Über die standardisierten
Indikatoren Schiefe und Kurtosis sollten Verzerrungen entsprechend den Abbildungen
5a,b,c ermittelt und korrigiert werden. Diese Korrekturmethode wurde entwickelt, jedoch
aufgrund des unreliablen Kurtosisindikators bei den Analysen nicht angewendet.
BODEN-UND-DECKEN Effekte auf die
SCHIEFE
BODEN-UND-DECKEN Effekte auf die
STANDARDABWEICHUNG
BODEN-UND-DECKEN Effekte auf die
KURTOSIS
Methode/Störeinflüsse auf die ‚Observed Rasch Variance‘ (ORS)
Die geschätzte Varianz der Personenparameter ist allerdings von einer Reihe von
Einflussgrößer mit bestimmt, u. a. von:
1. SOFTWARE
2. MESSFEHLER
3. SCHÄTZALGORITHMEN
4. LINK-FUNKTION
5. BODEN-UND-DECKEN-EFFEKTE
ERGEBNIS
(N=1006, 48 Items)
Ex
Ps
Englisch
Lü
Ne
Ps
2
0
Lü
Ne
(N=1434, 82 Items)
TRV
3
(N=1414, 90 Items)
TRV
Ne
Ps
BilogMG
Abbildung 2
Wahre TRS
Ps
Polnisch
TRV
(N=1414, 60 Items)
2
1
1
Lü
Ex
Lü
Ne
Ps
0
0
0
Ex
Parscale
Ne
2
2
Winmira
Lü
1
ca. 1. Std-abw.
0
Relevanter Bereich für
reale Testverfahren
Ex
Ps
Englisch
Polnisch
(N=1434, 100 Items)
TRV
Ex
3
Ne
1
2
1
0
0
Lü
1
Bigsteps
(N=1006, 38 Items)
2
2
0
Erwartet
TRV
TRV
2
geschätze TRS_est
(N=2554, 64 Items)
TRV
3
(N=2554, 102 Items)
TRV
3
Spanisch
Ex
TRS 0.25 bis 4.00 (.25); N=1000; Items=20
Spanisch
Deutsch
Deutsch
für die Schätzung von Rasch Varianzen als ungeeignet eingestuft (vgl. Abbildung 2).
Einfluss der verwendeten Software: Simulationsstudie
b) Skalen um Q-INDEX auffällige Items reduziert
a) Alle Items
1
1. EINFLUSS DER SOFTWARE. Auf der Basis einer Simulationsstudie wurde Parscale
Abbildung 6. EPQ-R(S) Variationsunterschiede (Winmira)
1
Ziel der methodischen Überlegungen über die Einflussgrößen ist die Suche nach einem
möglichst unverzerrten Schätzer der Personenparametervarianzen, welcher Vergleiche über
die testspezifischen Besonderheiten hinaus erlaubt, sodass teststarke Prüfverfahren, wie
der Homogenitätstests von Bartlett (1954; eine genauere Diskussion über Test zur
Überprüfung gleicher Varianzen siehe Olejnik & Algina, 1988), herangezogen werden
können.
Die TRV der vier Skalen für die vier Sprachvarianten des EPQ-R finden sich in Abbildung 6a,b.
Ex
Lü
Ne
Ps
Ex
Lü
Ne
Ps
Diskussion
Die TRV in Abbildung 6a sprechen nicht gegen eine gelungene Übersetzung des EPQ-R
mit Ausnahme der polnischen Version. Die TRV in Abbildung 6b geben zum Teil Hinweise
über Verbesserungen der Skalen zur Angleichung der inhaltlichen Validität.
Ausblick
2. EINFLUSS DES MESSFEHLERS. Bereits Lord (1983) hat den geschätzten
Personenparameter als Summe eines wahren Wertes und eines Fehlerterms im Sinne der
Klassischen Testtheorie aufgefasst. Gleichung 2: ˆ    
i
i
i
* Mein Dank an P. Barrett, W. Ruch, A. Aluja und P. Brzozowski und R. Horn von Swets für die Daten.
Zukünftig soll der Einfluss der Schwierigkeits- und Trennschärfeparameter auf die TRS
genauer untersucht werden. Vorbereitung hierzu sind bereits erfolgt.
Literatur
Aluja, A., García, Ó. ,& García, L.F. (2003). Dimensionality of the EPQ-RS: Structure equation modeling analysis. Personality and Individual Differences, 35 (2), 449-460.
Eysenck, H. J. & Eysenck, S. B. G. (1991) Manual for the EPQ-R. Sevenoaks: Hodder and Stoughton.
Müller, J. M. (2002a). Unterschiedliche Variationen in psychologischen Eigenschaften - eine Interpretation der Erstreckung einer Raschskalierung. Zeitschrift für Differentielle und Diagnostische Psychologie, 23, 261-271.
Müller, J. M. (2002b). The contribution to interpret rasch variance to personality psychology. The 11th European Conference on Personality of the European Association of Personality Psychology Jena vom 21.- 25. Juli 2002.
Müller, J. M. (2003). Nutzen für die psychologische Diagnostik aus der Interpretation geschätzer raschskalierter Personenparametervarianzen. Positionsreferat auf der 7. Arbeitstagung der Fachgruppe Differentielle
Psychologie, Persönlichkeitspsychologie und Psychologischen Diagnostik in Halle.
Ruch, W. (1999). Die revidierte Fassung des Eysenck Personality Questionnaire und die Konstruktion des deutschen EPQ-R bzw. EPQ-RK. Zeitschrift für Differentielle und Diagnostische Psychologie, 20(1), 1-24.
Zawadzki, B. (1995). [The universal validity of psychoticism, extraversion, and neuroticism as the 3 superfactors of personality: The psychometric characteristics of the Polish adaptation of the Eysenck Personality
Questionnaire--Revised (EPQ--R)]. Studia Psychologiczne, Vol 33(1-2), 147-188.
6. Tagung der Fachgruppe Methoden und Evaluation, Wien 2003

TRV