Art der Berechnung des Konfidenzintervalls (Konfidenzintervall um einen  beobachteten Wert)

 

Zur statistischen Absicherung von beobachteten Testwerten stehen in der Klassischen Testtheorie im Wesentlichen zwei Methoden zur Verfügung: Absicherung des individuellen Testergebnisses mit Hilfe des Standardmessfehlers (Äquivalenzhypothese) und des Standardschätzfehlers (Regressionshypothese). Die Äquivalenzhypothese geht davon aus, dass der beobachtete Wert einer Person eine gute Annäherung (Schätzung) an den wahren Wert der Person darstellt. Im Gegensatz dazu geht die Regressionshypothese davon aus, dass der wahre Wert der Person erst aus dem beobachteten Wert der Person geschätzt werden muss. Aus den genannten Hypothesen kann man Formeln (siehe Bühner, 2004) für Konfidenzintervalle ableiten. Bei einer hohen Messgenauigkeit des Tests führen beide Methoden zu ähnlichen breiten Konfidenzintervallen. Die Berechnung von Konfidenzintervallen nach der Äquivalenzmethode benötigt weniger statistische Voraussetzungen und daher in vielen Fällen unproblematischer als die Berechnung nach der Regressionshypothese. Zu weiteren Vor- und Nachteilen siehe Bühner (2004) oder Stelzl (1993).

 

Klassifikation: Die Beurteilung einer Person erfolgt im Vergleich zu einer Normstichprobe. Um das Testergebnis einer Person zu beschreiben, gibt es bestimmte Kategorien, beispielsweise unterdurchschnittlich, durchschnittlich und überdurchschnittlich bzw. Zwischenkategorien durchschnittlich bis überdurchschnittlich und durchschnittlich bis überdurchschnittlich. Diese Kategorien werden anhand der Standardabweichung der Normstichprobe gebildet:

 


Liegt das Konfidenzintervall (KI) einer Person komplett unterhalb einer Standardabweichung (SD) vom Mittelwert (M), wird die Eigenschaft oder Fähigkeit der Person als unterdurchschnittlich im Vergleich zur Normstichprobe bezeichnet: Grenzen des KI liegen unter M - SD.

 

Erstreckt sich das Konfidenzintervall (KI) einer Person vom Bereich unterhalb einer Standardabweichung (SD) vom Mittelwert (M) in den Bereich innerhalb einer Standardabweichung (SD) um den Mittelwert (M), wird Eigenschaft oder Fähigkeit der Person als unterdurchschnittlich bis durchschnittlich im Vergleich zur Normstichprobe bezeichnet: untere Grenze des KI liegt unter M - SD und obere Grenze des KI im Bereich um M ± SD

 

Liegt das Konfidenzintervall einer Person im Bereich um eine Standardabweichung (SD) um den Mittelwert (M), wird Eigenschaft oder Fähigkeit der Person als durchschnittlich im Vergleich zur Normstichprobe bezeichnet: Grenzen des KI liegen im Bereich um M ± SD.

 

Erstreckt sich das Konfidenzintervall (KI) einer Person vom Bereich innerhalb einer Standardabweichung (SD) um den Mittelwert (M) bis in den Bereich über eine Standardabweichung (SD) vom Mittelwert (M), wird Eigenschaft oder Fähigkeit der Person als durchschnittlich bis überdurchschnittlich im Vergleich zur Normstichprobe bezeichnet: untere Grenze des KI liegt im Bereich um M ± SD und obere Grenze des KI über M + SD.

 

Liegt das Konfidenzintervall einer Person über einer Standardabweichung um den Mittelwert, wird die Eigenschaft oder Fähigkeit der Person als überdurchschnittlich im Vergleich zur Normstichprobe bezeichnet: Grenzen des KI liegen über M + SD. 

 


 

Unterschiedliche Annahmen über die Klassifikation: In manchen Testmanualen wird die oben genannte Klassifikation nicht verwendet. Alternativ wird der Interquartilbereich (50 Prozent der Vergleichsgruppe liegen in diesem Bereich) als Durchschnittsbereich herangezogen. Es mag gute statistische Gründe für oder gegen diese alternative Klassifikation geben. Letztendlich spricht ein inhaltliches Argument gegen die Verwendung des Interquartilbereichs. Durch diese Klassifikationsregel wird der Durchschnittbereich kleiner: Personen erzielen leichter ein über- oder unterdurchschnittliches Ergebnis. Auch in diesem Fall sollte sich die Klassifikation an den nachteiligen Folgen für die Person orientieren. In der Regel sind mit extremen Ausprägungen mehr Nachteile als Vorteile verbunden. Dennoch sollten Regeln nicht starr, sondern gut begründet angewandt werden. So kann unter bestimmten Annahmen auch die Verwendung des Interquartilbereichs sinnvoll sein.         

 

Ausnahmen: Für die Interpretation der Messwerte von Personen muss ein weiterer Punkt beachtet werden. Liegt der Mittelwert der Norm oder der Mittelwert der Rohwerte in der Normstichprobe innerhalb des Konfidenzintervalls, wird die Fähigkeit oder Eigenschaftsausprägung als durchschnittlich bezeichnet. Dies gilt unabhängig davon, ob das Intervall im Bereich unterhalb oder über einer Standardabweichung um den Mittelwert hinausragt. Wenn dies der Fall ist, spricht dies dafür, dass Aussagen mit der gewählten Sicherheitswahrscheinlichkeit auf Basis der Messgenauigkeit des Tests nicht sinnvoll sind. In einem solchen Fall ist es günstig, die Sicherheitswahrscheinlichkeit zu reduzieren, z.B. von 95 Prozent auf 90 oder 80 Prozent.

 

Die Klassische Testtheorie nimmt an, dass die Breite des Vertrauensintervalls unabhängig vom beobachteten Wert ist. Dies ist jedoch unzutreffend (vgl. Rost, 1999, S. 144). Ist der beobachtete Wert extrem hoch oder extrem niedrig, ist seine Messgenauigkeit geringer als bei einem Wert mit mittlerer Ausprägung. Diesem Sachverhalt tragen weder die Regressions- noch die Äquivalenzhypothese Rechnung. Der Anwender sollte sich jedoch im Klaren darüber sein, dass durchschnittliche Messergebnisse ein kleineres Konfidenzintervall aufweisen als extreme Werte.

 

Wichtig: Im Rahmen eines Gutachtens müssen im Befund immer der Test(name) und die Vergleichsgruppe/Vergleichsnorm genannt werden. Ohne diese Angaben können Normwerte nicht interpretiert werden.

 

Literatur:

Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2.Auflage). Pearson: München

Rost, J. (1999). Was ist aus dem Rasch-Modell geworden? Psychologische Rundschau, 50(3), 140 – 156.

Stelzl, I. (1993). Testtheoretische Module. In L. Tent & I. Stelzl, Pädagogisch-psychologische Diagnostik (S. 39 – 201).

Göttingen: Hogrefe.