Art der Berechnung des Konfidenzintervalls (Kritische Differenz für den Unterschied zwischen zwei Werten einer Person):

 

Messfehlerkritisch: Mit Hilfe der Äquivalenzhypothese kann getestet werden, ob der Unterschied in einer Eigenschaftsausprägung oder Fähigkeit darauf zurückzuführen ist, dass die Tests unterschiedlich messgenau sind. Liegt die beobachtete kritische Differenz über der durch das Programm errechneten kritischen Differenz, heißt dies, dass der Messwertunterschied in beiden Tests nicht dadurch erklärbar ist, dass die Tests beide eine unterschiedliche Messgenauigkeit besitzen und damit ist der Unterschied praktisch bedeutsam.

 

Valenzkritisch: Mit Hilfe der nach der Regressionshypothese geschätzten „wahren“ Werte kann getestet werden, ob der Unterschied in der Eigenschaftsausprägung darauf zurückzuführen ist, das die Tests oder die Skalen etwas Unterschiedliches messen. Liegt die beobachtete kritische Differenz über der durch das Programm errechneten kritischen Differenz, heißt dies, dass der Messwertunterschied in beiden Tests nicht dadurch erklärbar ist, dass die Tests eine unterschiedliche Eigenschaft oder Fähigkeit erfassen. In der Regel ist diese Information für den Testleiter/in wenig interessant. Diese Auswertung wird daher nicht empfohlen.  

 

Mess- und valzenzkritische Absicherung einer kritischen Differenz: Wenn nun die kritische Differenz zwischen zwei Testwerten weder durch die Ungenauigkeit der Tests noch durch deren unterschiedlichen Messanspruch bedingt ist, kann beides (unterschiedliche Messgenauigkeit und unterschiedlicher Messanspruch) dafür verantwortlich sein, dass dieser Messwertunterschied zwischen beiden Tests beobachtet wurde. Daher ist eine mess- und schätzfehlerkritische Absicherung der Testwertdifferenz notwendig. Erst wenn die beobachtete Differenz über dieser kritischen Differenz liegt, spricht man von einem inhaltlich bedeutsamen Unterschied der Fähigkeits- oder Eigenschaftsausprägung einer Person.

 

Dazu ist es zuerst notwendig, dass die Reliabilitätsschätzungen für beide Untertests gleich sind. Ist dies nicht der Fall, muss eine sogenannte tau-Normierung durchgeführt werden. Diese wird mit dem Programm durchgeführt, unabhängig davon, ob ein bedeutsamer Unterschied zwischen beiden Messwerten vorliegt oder nicht. Die beiden tau-normierten Messwerte können dann mit Hilfe einer z-verteilten Prüfgröße auf Unterschiedlichkeit geprüft werden,  berücksichtigt man nur die Messungenauigkeit der Tests. Liegt ein bedeutsamer Unterschied vor, wird nun in einem nächsten Schritt geprüft, ob der Unterschied durch die Messungenauigkeit der Tests und dem unterschiedlichen Messanspruch der Tests bedingt ist. Dazu wird wiederum eine z-verteilte Prüfgröße herangezogen. Ist auch dieser Unterschied signifikant, ist der Unterschied in der Fähigkeit bzw. Eigenschaftsausprägung bedeutsam, also nicht auf die Messgenauigkeit der Tests und deren unterschiedliche Korrelation miteinander zurückzuführen.

 

Voraussetzungen: Um eine solche Prüfung durchzuführen sollten beide Testkennwerte bivariat normalverteilt sein. Eine solche Prüfung ist aufwendig. Es sollte zumindest sichergestellt werden, dass beide Kennwerte univariat normalverteilt sind.

 

Wichtig: Diese Formeln können nicht angewandt werden, wenn ein Untertest- und ein Gesamttestwert auf Unterschiedlichkeit geprüft werden soll oder zwei Skalen- oder Untertestkennwerte, die eine gewisse Anzahl an Untertests oder Items teilen (siehe Stelzl, 1982). In einem solchen Fall ist die Annahme unkorrelierter Messfehler verletzt. Nehmen wir als Beispiel den Reasoning-Gesamtwert aus dem I-S-T 2000 R und die verbale Intelligenz aus dem I-S-T 2000 R: In die Berechnung des Reasoning-Werts geht der Kennwert der verbalen Intelligenz mit ein. Damit sind die Messfehler des Kennwerts der verbalen Intelligenz im Reasoning-Kennwert enthalten. Die Unabhängigkeit der Messfehler ist verletzt.

 

Literatur:

Stelzl, I. (1982). Fehler und Fallen der Statistik. Bern: Huber.