Testtheorie und Fragebogenkonstruktion (3. Aufl.)

9783662615317.jpg

Testtheorie und Fragebogenkonstruktion

ISBN: 
978-3-662-61531-7

Dieses Standard-Lehrbuch deckt das gesamte Themenfeld der Testtheorie und Fragebogenkonstruktion ab – von den Grundlagen im Bachelor-Studium bis zu vertiefenden Aspekten in Master-Studiengängen. Neben dem unverzichtbaren Prüfungswissen fürs Studium liefert es auch Fortgeschrittenen der psychologischen Diagnostik fundiertes Handwerkszeug für Forschungspraxis und Berufsalltag – von der Diagnostik im klinischen Setting bis hin zu Fragen des Assessments im Berufsleben. Die neue Auflage wurde grundlegend überarbeitet, aktualisiert und erweitert.

Diese Seite befindet sich derzeit noch in Bearbeitung.

BegriffErklärung
Adaptiver AlgorithmusEin adaptiver Algorithmus ist ein Regelsystem, mit dem beim adaptiven Testen die Itemauswahl zu Beginn und während des Tests geregelt sowie Kriterien der Testbeendigung spezifiziert werden.
Adaptives TestenEin spezielles Vorgehen bei der Messung individueller Ausprägungen von Personenmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit der untersuchten Testpersonen orientiert, die während der Testung berechnet wird.
Adjustiertes Bayesian Information Criterion (aBIC)Das aBIC ist eine Abwandlung des Bayesian Information Criterion (BIC), bei dem der Einfluss der Stichprobe kontrolliert wird. Es zeigt verlässlichere Eigenschaften bei Modellvergleichen im Kontext von Mischverteilungsmodellen.
Akaike Information Criterion (AIC)Unter dem AIC (auch Akaike-Informationskriterium) versteht man ein Maß für die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) unter Berücksichtigung der Komplexität des Modells. Daraus hervorgegangen sind das Bayesian Information Criterion (BIC), das adjustierte Bayesian Information Criterion (aBIC) und Consistent Akaike Information Criterion (CAIC).
AkquieszenzMit Akquieszenz bezeichnet man die Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt mit Zustimmung zu reagieren.
Weitere Begriffe
Zurück
Frage 1 von 151
Weiter
  • Was versteht man unter „Normierung“ (Testeichung)?

    Lösung

    Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse eines Probanden im Vergleich zu den Merkmalsausprägungen anderer Probanden eindeutig eingeordnet werden können. Ein solches Bezugssystem ermöglicht die Interpretation einzelner Testwerte. Die Ergebnisse einer solchen Testeichung werden in Normtabellen festgehalten, in denen einzelne Testwerte nachgeschlagen werden können und mit der Bezugspopulation verglichen werden können.
  • Erklären Sie bitte eine Möglichkeit, einen Test zu normieren.

    Lösung

    Eine Möglichkeit, einen Testwert zu normieren, ist die Bildung von Prozenträngen. Hierfür wird ein gemessener Testwert mit den in der Eichstichprobe gemessenen Werten verglichen. Die in der Eichstichprobe erzielten prozentualen Häufigkeiten der Testwerte werden bis zu dem Testwert, den der Proband erzielt hat, aufkumuliert, sodass derjenige Prozentsatz an Probanden bestimmt wird, die im Test besser bzw. schlechter abschneiden als die Referenzleistung in der Eichstichprobe. Weitere Normierungstechniken beziehen sich meist auf den Abstand des individuellen Testwertes xv vom Mittelwert x̄ in der entsprechenden Eichstichprobe und drücken die resultierende Differenz in Einheiten der Standardabweichung SD(x) der Verteilung aus. Aus diesem Vorgehen leiten sich unter anderem Normwerte wie z. B. IQ-Werte, T-Werte und Stanine-Werte ab.
  • Wie kann man die Testökonomie erhöhen?

    Lösung

    Das Gütekriterium der Ökonomie ist erfüllt, wenn der Test, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit oder Geld beansprucht. Die Testökonomie kann dadurch erhöht werden, wenn zum einen der _finanzielle Aufwand_, der sich z. B. aus dem Verbrauch des Testmaterials oder der Beschaffung des Tests ergibt, gering ist und zum anderen der _zeitliche Aufwand_ für die Vorbereitung, Durchführung und Auswertung einschließlich der Ergebnisrückmeldung minimal ist. Gemessen wird dieses Gütekriterium meist im Vergleich zu anderen Tests, die dasselbe Merkmal erfassen.
  • Was versteht man unter Testfairness?

    Lösung

    Von Testfairness spricht man dann, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen. Dieses Kriterium wird vor allem vor dem Hintergrund der Intelligenzdiagnostik diskutiert und hat zur Entwicklung einer Reihe von „Culture-Fair-Tests“ geführt, die versuchen Merkmale wie die Intelligenz möglichst sprachfrei zu messen.
  • Worin unterscheiden sich die verschiedenen Verfahren zur Reliabilitätsbestimmung?

    Lösung

    Die „klassischen“ Verfahren der Reliabilitätsbestimmung richten sehr strenge Voraussetzungen an die Testitems, die häufig unüberprüft bleiben. Die „modellbasierten“ Verfahren der Reliabilitätsbestimmung erfordern weniger strenge Voraussetzungen, die empirisch überprüft werden können.
  • Welche wesentlichen Validitätsaspekte sollten Berücksichtigung finden und warum?

    Lösung

    Bei der Testkonstruktion sollen Aspekte der Augenschein-, Inhalts-, Kriteriums- und Konstruktvalidität Berücksichtigung finden, um das Merkmal, das vom Test gemessen wird, genau eingrenzen zu können. Bei der Testanwendung liegt der Betrachtungsfokus auf dem „argumentationsbasierten Ansatz“, um feststellen zu können, mit welcher Berechtigung extrapolierende Schlussfolgerungen aus den Testergebnissen gezogen werden können.
  • Warum ist nicht nur die konvergente, sondern auch die diskriminante Validität wichtig?

    Lösung

    Einerseits muss sichergestellt werden, dass alle Items dasselbe Konstrukt messen (konvergente Validität), und andererseits muss sichergestellt werden, dass sich das gemessene Konstrukt von anderen relevanten Konstrukten unterscheidet (diskriminante Validität).
  • Was ist der Unterschied zwischen Testlänge und Testzeit? Welche Aspekte sollten Sie bei der Entscheidung darüber, wie lang ein Test sein sollte, berücksichtigen?

    Lösung

    Die Testlänge bezieht sich auf die Anzahl der zu bearbeitenden Items. Die Testzeit auf den angesetzten Zeitraum, um die Bearbeitung durchzuführen.
    Für die Testlänge sind folgende Aspekte zu berücksichtigen:
    - Es müssen genügend Items vorhanden sein, damit die Merkmalsbreite adäquat abgedeckt ist.
    - Es müssen genügend Items vorhanden sein, damit die gewünschte Messpräzision, d. h. Reliabilität erreicht wird (s. Diskussion über Screeningverfahren vs. Individualdiagnostik).
    - Selbstverständlich beeinflusst die Testlänge auch die Testzeit, und es sollten nur so viele Items vorgelegt werden, dass die Testpersonen diese auch instruktionsgemäß beantworten können und wollen (d. h., es muss darauf geachtet werden, Ermüdungseffekte durch zu viele Items zu vermeiden).
    Für die Testzeit sind folgende Aspekte zu beachten:
    - Die Testzeit sollte für die Zielgruppe adäquat sein, z. B. kürzer für Kinder und Schüler in der Grundschule.
    - Die Testung sollte ökonomisch sein, sodass Ermüdungseffekte möglichst vermieden werden können.
    - Die Testung sollte praktikabel sein (z. B. eine Unterrichtsstunde umfassen, wenn ein Test in der Schule angewandt wird).
    - Die Zeit sollte passend zur Testart gewählt werden (z. B. kürzer für Screeningverfahren).
    - Bei Leistungstests sollte entschieden werden, ob es sich um Speed- oder Niveautests handelt, d. h., ob die Testzeit selbst als Maß für die Leistung herangezogen werden soll (z. B. über die Anzahl der beantworteten Items in einem begrenzten Zeitraum).
  • Welche Testarten unterscheidet man prinzipiell?

    Lösung

    Unterscheidung nach intendierten Merkmalen:
    - Leistungstests: Speedtests vs. Niveautests
    - Persönlichkeitstests: Persönlichkeitsfragebogen zur Selbst- bzw. Fremdeinschätzung, objektive Persönlichkeitstests und projektive Verfahren Unterscheidung nach Darbietungsform:
    - Apparative Tests (zumeist Leistungstests)
    - Computerisierte Tests: computeradministriert und computerbasiert
    - Paper-und-Pencil-Tests
  • Nehmen Sie an, Sie wollen einen Studierfähigkeitstest für das Psychologiestudium entwerfen. Welche Aspekte bei der Rekrutierung der Analysestichprobe sollten Sie beachten? Welche externen Kriterien zur Validierung Ihres Tests könnten Sie verwenden?

    Lösung

    Die Analysestichprobe sollte repräsentativ für die Zielgruppe sein. Da Sie zwischen Personen unterscheiden möchten, die insbesondere für ein Psychologiestudium geeignet sind, und solche, die es nicht sind, können Sie sich nicht auf Studierende oder gar Psychologiestudierende beschränken. Gleichzeitig ist es auch nicht notwendig, bevölkerungsrepräsentativ zu befragen, da z. B. Personen mit Hauptschulabschluss oder ältere Personen (z. B. Rentner) vermutlich nicht die Personen sein werden, die sich später auf ein Psychologiestudium bewerben werden. Stattdessen ist wohl als Zielgruppe Personen insbesondere Abiturienten (z. B. zwischen 17 und 25) anzuvisieren.
    Als externe Kriterien sind Studienabbruchquoten von Psychologiestudierenden sowie Leistungen im Studium (Noten, Länge des Studiums) heranzuziehen. Beachten Sie jedoch wiederum: Diese Informationen sind nur von Personen einzuholen, die tatsächlich studieren. Von Personen, die theoretisch erfolgreich hätten sein können, liegen diese Informationen nicht vor.
  • Worauf sollten Sie bei der Testnormierung achten, wenn Sie einen kognitiven Test zur Erkennung von Demenzpatienten entwickeln möchten?

    Lösung

    Die Eichstichprobe muss die intendierte Zielgruppe gut repräsentieren. In diesem Fall sollten also insbesondere ältere Personen herangezogen werden. Um eine Differenzierung zwischen Personen mit und ohne Demenz ermöglichen zu können, sollten entsprechend sowohl gesunde Personen und Personen mit leichten kognitiven Einschränkungen als auch mit Demenz diagnostizierte Personen berücksichtigt werden. Nur so können praktisch relevante Prozentränge kognitiver Leistungsfähigkeiten bestimmt werden.
    Weiterhin sollte beachtet werden, dass beispielsweise repräsentative Alters- und Geschlechterverteilungen in der Eichstichprobe vertreten. Im optimalen Fall sind auch Personen mit verschiedenen (prämorbiden) Intelligenzniveaus vertreten, um eine Differenzierung von Intelligenz und Demenzerkrankung zu ermöglichen.
  • Versuchen Sie, eine Definition für das Merkmal „Extraversion“ zu formulieren. Charakterisieren Sie Personen mit hohen bzw. niedrigen Ausprägungen in diesem Merkmal. Würden die beiden Items „Ich würde gern einmal Fallschirmspringen“ und „Ich bin begeisterter Wildwasserbahnfahrer“ geeignet und ausreichend sein, um eine adäquate Operationalisierung des Konstrukts zu ermöglichen?

    Lösung

    Laut Stemmler et al. (2011) sowie Lucas et al. (2000) zeichnet sich eine hohe Extraversion insbesondere durch eine hohe Soziabilität, d. h. einer Freude an sozialen Kontakten und Interaktionen, sowie durch eine hohe Belohnungssensitivität aus, d. h. einer Motivation neue Situationen mit hohem Anreizcharakter zu begegnen (z. B. ausgedrückt durch Vorfreude).
    Personen mit hohen Ausprägungen der Extraversion zeichnen sich dadurch aus, dass sie gesellig, lebhaft, aktiv, bestimmt, reizsuchend, sorglos, dominant, ungestüm, und kühn sind (vgl. Eysenck & Eysenck, 1985; Stemmler et al., 2011). Entsprechend werden Personen mit niedrigen Ausprägungen häufig als ruhig, eventuell sogar als langweilig und introspektiv bezeichnet, sie sind eher zurückhaltend und wenig spontan.
    Die beiden Items würden nur einen kleinen Teil des sehr breiten Konstrukts Extraversion abdecken, nämlich den der Belohnungssensitivität bzw. der Aktivität, Reizsuche und Tollkühnheit. Der Aspekt der Soziabilität, der sich insbesondere durch einen hohen Wunsch nach sozialer Interaktion auszeichnet, würde dabei vernachlässigt werden. Damit stellen die beiden Items keine adäquate Operationalisierung des Konstrukts Extraversion dar und es müssten (deutlich) mehr Items generiert werden.
    Literatur:
    - Eysenck, H. J. & Eysenck, M. W. (1985). Personality and individual differences. New York, NY: Plenum Press.
    - Stemmler, G., Hagemann, D., Amelang, M. & Bartussek, D. (2011). Differentielle Psychologie und Persönlichkeitsforschung (7. Aufl.). Stuttgart: Kohlhammer.
    - Lucas, R. E., Diener, E., Grob, A., Suh, E. M. & Shao, L. (2000). Cross-cultural evidence for the fundamental features of extraversion. Journal of Personality and Social Psychology, 79, 452-468.
  • Worin unterscheiden sich die intuitive und die rationale Strategie der Itemgenerierung?

    Lösung

    Bei der intuitiven Strategie ist die Itemgenerierung/-auswahl lediglich von der Erfahrung des Testkonstrukteurs geleitet, weil (in neuen Forschungsthemen ) eine theoriegeleitete Generierung/Auswahl noch nicht möglich ist. Die rationale Strategie kommt hingegen zum Einsatz, wenn die Itemgenerierung/-auswahl theoriegeleitet erfolgen kann.
  • Worin unterscheiden sich die kriteriumsorientierte und die faktorenanalytische Strategie der Itemgenerierung?

    Lösung

    Bei der kriteriumsorientierten Strategie werden die Items so generiert/ausgewählt, dass sie eine andere Variable („Kriterium“) bestmöglich vorhersagen können. Bei der faktorenanalytischen Strategie wird darauf geachtet, dass alle Items dasselbe Konstrukt messen.
  • In welchen der Stadien der Aufgabenbeantwortung (nach Podsakoff et al., 2003) ist insbesondere mit Effekten der Selbsttäuschung (Self deceptive Enhancement) zu rechnen, in welchen mit Effekten der Fremdtäuschung (Impression Management)?

    Lösung

    Selbsttäuschung:
    Im Stadium Abruf (2) und im Stadium Urteil (3): Hierbei können zwei Fehler auftreten: 1. Der Proband erinnert sich vorwiegend an Ereignisse, die ihn in einem besserem Licht erscheinen lassen (Abruf verzerrt); 2. der Proband fällt ein Urteil über seine Charaktereigenschaften, das durch die Selbsttäuschung verzerrt ist, weil er sich beispielsweise eher zu milde beurteilt (Urteil verzerrt).
    Fremdtäuschung:
    Im Stadium der Antwortabgabe (5): Der Proband passt seine Antwortwahl (4) so an, dass er für den Testleiter bzw. den Auftraggeber der Testung in einem besseren Licht erscheint. Er gibt eine sozial erwünschte Antwort, die von seiner eigentlichen Selbsteinschätzung über seine Charaktereigenschaften abweicht.
  • Erklären Sie die Begriffe Response-Bias, Antworttendenz und Antwortstil.

    Lösung

    Unter Response-Bias versteht man eine systematische Verzerrung von Antworten, d. h. eine systematische Tendenz auf Items in einem Fragebogen Antworten zu geben, die nichts mit dem eigentlich interessierenden Merkmal zu tun haben. Tritt ein Response-Bias auf, so wirkt dieser als antwortverfälschende Störvariable.
    Von Antworttendenz spricht man, wenn der Response-Bias nur in bestimmten Situationen auftritt und z. B. durch bestimmte Itemformate oder durch Zeitdruck bei der Testbearbeitung hervorgerufen wird. Diese Form des Bias wird insbesondere durch die Testsituation und die Items selbst hervorgerufen.
    Als Antwortstil wird ein Response-Bias dann bezeichnet, wenn er auf eine Persönlichkeitseigenschaft zurückgeführt werden kann. Ein Antwortstil liegt dann vor, wenn sich das spezifische Antwortverhalten über verschiedene Items, Methoden und Situationen hinweg konsistent zeigt.
  • Welche Aspekte sollte man bei der Reihenfolge von Items in einem Fragebogen berücksichtigen? Wie sollte man sie berücksichtigen?

    Lösung

    Insbesondere bei Leistungstest ist auf die Schwierigkeit der Einstiegsitems zu achten. Als Eisbrecher können leichte Items fungieren, während die schwierigen Items eher an das Ende des Tests gestellt werden. Dies kann die Motivation eines Probanden erhöhen und man kann dadurch dessen maximale Leistung besser erfassen (Erzeugung einer Optimizing-Einstellung). Bei Leistungs- und Persönlichkeitstests sollten Anker- bzw. Konsistenzeffekte ausgeschlossen werden. Die Beantwortung eines Items soll nicht die Beantwortung eines anderen Items beeinflussen. Bei Leistungstests betrifft dies mögliche Informationen, die die Lösungswahrscheinlichkeit anderer Items durch Lösung (Anker- bzw. Priming-Effekt) anheben, nämlich dann, wenn ein Item Kognitionen aktiviert, mittels derer die Lösung unmittelbar nachfolgender Items erleichtert wird. Zur Verringerung von Ankereffekten soll die Reihung so gewählt werden, dass es zwischen benachbarten Items keine logischen und inhaltlichen Abhängigkeiten gibt. Bei Persönlichkeitstests treten eher Konsistenzeffekte auf, nämlich dann, wenn die Beantwortung eines Items auch die Beantwortung der anderen Items beeinflusst, beispielsweise wenn die Testperson möglichst stimmige Antworten abgeben möchte (hier auch im Sinne des Impression Managements denkbar) oder nur eine globale Einstellung kundtun möchte, nicht aber gewissenhaft auf die einzelnen Items eingeht. Zur Verringerung von Konsistenzeffekten sollen in multidimensionalen Tests die Items aus gleichen Merkmalsbereichen nicht hintereinander, sondern zufällig über den ganzen Test verteilt dargeboten werden.
  • Sie erstellen einen Persönlichkeitstest, der sowohl bei unterdurchschnittlich als auch bei durchschnittlich begabten Testpersonen eingesetzt werden soll. Welche Störvariablen sind Ihrer Erwartung nach bei unterdurchschnittlich begabten Testpersonen stärker ausgeprägt als bei den durchschnittlich begabten? Wie könnten Sie diese Einflüsse verringern?

    Lösung

    Bei durchschnittlich und vor allem bei unterdurchschnittlich Begabten ist mit einem verstärkten Auftreten von Antworttendenzen im Sinne von Satisficing zu rechnen:
    - Dies äußert sich zum einen darin, dass die in die Itembearbeitung involvierten kognitiven Stadien – Verstehen, Abrufen, Urteilen, Antwortwahl und Antwortangabe – nur halbherzig ausgeführt werden und statt einer gründlich-optimalen eine nur oberflächliche Antwort gewählt wird (schwaches Satisficing).
    - Zum anderen können die Stadien des Abrufens und Urteilens vollständig von der Testperson ausgelassen werden. Die Testperson gibt dann eine Antwort, die ihr als eine vernünftige Antwort für den Testleiter erscheint. Diese erfüllt aber nicht mehr die Testintention, weil die Antwort unabhängig von tatsächlichen Einstellungen, Meinungen und Interessen der Testperson gegeben wird. Das Antwortverhalten der Testperson wird dadurch gänzlich arbiträr und verliert jeden Bezug zum interessierenden Merkmal (starkes Satisficing).
    Bei der Antwortabgabe werden dann typischerweise „sichere“ Antworten gewählt (z. B. die mittlere Kategorie in Ratingskalen, ▶ Kap. 5), das Ankreuzen von „Weiß-nicht“-Kategorien oder – in Extremfällen – die Abgabe von Zufallsantworten.
    Diese Einflüsse können verringert werden, indem darauf geachtet wird, dass
    - die Tests nicht zu lang sind (zur Vermeidung von Ermüdung),
    - der Itemstamm besonders einfach und klar formuliert wird,
    - ein Antwortformat ohne neutrale Mittelkategorie gewählt wird und
    - die Tests Face-to-Face und nicht in einer unpersönlichen Befragung administriert werden.
  • Wozu dient eine sog. „Weiß-nicht“-Kategorie und wann wird sie eingesetzt?

    Lösung

    Eine „Weiß-nicht“-Kategorie dient der Vermeidung einer merkmalsunabhängigen Verwendung der neutralen Mittelkategorie bei ungeradzahligen Antwortstufen.
  • Was versteht man unter „Exhaustivität“ und unter „Disjunktheit“?

    Lösung

    Ein Antwortformat ist exhaustiv, wenn alle mögliche Antworten auf den vorgegebenen Antwortalternativen abgebildet werden können.
    Ein Antwortformat ist disjunkt, wenn die verschiedenen Antwortalternativen logisch nicht gleichzeitig zutreffend sein können.
  • Worauf muss bei der Generierung von Antwortmöglichkeiten im Rahmen von Auswahlaufgaben bei Leistungstests besonders geachtet werden, worauf bei Persönlichkeitstests?

    Lösung

    Allgemein auf Anzahl der Antwortkategorien. Bei Leistungstests: mehrere disjunkte Antwortkategorien; Qualität der Distraktoren; Anzahl der Richtigantworten (meist nur eine Richtigantwort). Bei Persönlichkeitstests: Disjunkte Antwortkategorien; Exhaustivität.
  • Welche Möglichkeiten zur Senkung der Ratewahrscheinlichkeit sollte man bei Zuordnungsaufgaben beachten?

    Lösung

    Nicht zuordenbare Antwortalternativen einstreuen; Qualität der Distraktoren beachten, d. h. die Attraktivität der Distraktoren gewährleisten.
  • Was versteht man unter einem „Distraktor“ und was wird bei der Distraktorenanalyse genauer untersucht?

    Lösung

    Unter Distraktoren versteht man plausibel erscheinende, aber unzutreffende Antwortalternativen bei Auswahlaufgaben. In der Distraktorenanalyse wird untersucht, ob die nicht zutreffenden Antwortalternativen von – im Sinne des untersuchten Merkmals – unwissenden Testpersonen auch tatsächlich gewählt werden.
  • Was versteht man unter der „Tendenz zur Mitte“?

    Lösung

    Mit Tendenz zur Mitte bezeichnet man eine Antworttendenz, bei der extreme Antwortkategorien eher vermieden und mittlere Antwortkategorien eher bevorzugt werden.
  • Worin unterscheiden sich „unipolare“ und „bipolare“ Antwortskalen?

    Lösung

    Bei einer unipolaren Skala ist der untere Skalenabschnitt symptomatisch für eine niedrige, der obere Skalenabschnitt für eine hohe Merkmalsausprägung. Hingegen ist der untere Skalenabschnitt einer bipolaren Antwortskala symptomatisch für die Ausprägung eines bipolaren Merkmals und der obere Abschnitt für die andere Ausprägung (z. B. bei Introversion – Extraversion).
  • Welche Vorteile haben computerbasierte Testverfahren im Vergleich zu Papier-und-Bleistift-Verfahren?

    Lösung

    Zum Beispiel: interaktive, dynamische und multimediale Itemformate; automatische Antwortbewertung; adaptives Testen; Sammlung von Prozessdaten.
  • Was ist bei der Wiedergabetreue von Testitems zu beachten?

    Lösung

    Eine höhere Wiedergabetreue bedeutet einen höheren Aufwand bei der Itementwicklung, sodass in der Regel ein Kompromiss gefunden werden muss zwischen realistischer Simulation und Umsetzbarkeit. Die genaue und realistische Entsprechung ist vor allem bezüglich konstruktrelevanter Merkmale sicherzustellen.
  • Bei welchen Antwortformaten ist eine computerbasierte automatische Auswertung besonders hilfreich?

    Lösung

    Beispielsweise bei der Auswertung von Verhalten in komplexen interaktiven Simulationen oder von Freitextantworten.
  • Was ist bei der Gestaltung von (eingeschränkten) Navigationsmöglichkeiten in computerbasierten Tests zu beachten?

    Lösung

    Die Navigation sollte über verschiedene Testteile konsistent sein, darüber informieren, an welcher Stelle die Testperson sich gerade befindet, und Hinweise geben, wenn nach einem Navigationsschritt Antworten nicht mehr verändert werden können.
  • Welche Vorteile bieten ambulante gegenüber klassischen Assessments?

    Lösung

    Mit ambulanten Assessments kann das Verhalten und das Erleben in alltäglichen Situationen und im zeitlichen Verlauf erfasst werden.
  • Wofür können Logfiledaten aus computerbasierten Assessments genutzt werden?

    Lösung

    Sie erlauben potentiell Rückschlüsse auf zugrunde liegende kognitive Prozesse und ermöglichen so ein besseres Verständnis des Antwort- und Lösungsprozesses.
  • Wie berechnet man den Schwierigkeitsindex Pi bei Persönlichkeitstests?

    Lösung

    Den Schwierigkeitsindex Pi bei Persönlichkeitstests berechnet man bei einer k-stufigen Antwortskala wie folgt:![Formel Schwierigkeitsindex(zentriert)](https://lehrbuch3.s3.amazonaws.com/files/asset/4fc8fe5096c815000100004d/schwierigkeitsindex_formel.jpg "Formel für den Schwierigkeitsindex")Dabei kann der Schwierigkeitsindex Pi als arithmetischer Mittelwert der Itemantworten der n Probanden auf der k-stufigen Antwortskala (multipliziert mit 100) interpretiert werden.
  • Welche Antworten lassen sich bei Speed- und Niveautests unterscheiden?

    Lösung

    Es lassen sich bei Speedtests folgende Antworten unterscheiden:
    - Richtig beantwortete Items (R-Antworten)
    - Falsch beantwortete Items (F-Antworten)
    - Ausgelassene (übersprungene) Items (A-Antworten)
    - Im Test unbearbeitete Items, weil z. B. die Zeit nicht ausgereicht hat (U-Antworten)
    Bei Niveautests gibt es nur R-, F- und A-Antworten, da im Prinzip ausreichend Zeit ist, alle Items zu bearbeiten, und keine Items unbearbeitet bleiben.
  • Gibt es einen Zusammenhang zwischen Itemvarianz und Itemschwierigkeit? Wenn ja, wie lässt sich dieser beschreiben und begründen?

    Lösung

    Ja, es gibt einen Zusammenhang zwischen Itemvarianz und Itemschwierigkeit. Dieser ist kurvilinear (s. Abb. 7.1). Die Itemvarianz ist im Allgemeinen bei mittlerer Itemschwierigkeit maximal. Hier wird die größter Differenzierung zwischen den Personen erreicht, während sie zu den beiden extremen Ausprägungen der Itemschwierigkeit hin (sehr niedrig, sehr hoch) stark abnimmt, bis bei Pi=0 sowie bei Pi = 100 keine Differenzierung (Itemvarianz) mehr vorliegt.
  • Was sagt die Trennschärfe rit eines Items i aus?

    Lösung

    Die Trennschärfe rit eines Items i drückt aus, wie groß der korrelative Zusammenhang zwischen den Itemwerten xy der Probanden und den Testwerten xy der Probanden ist. Die Trennschärfe rit wird verwendet, um einzuschätzen, wie sehr ein Item i ein Merkmal repräsentiert.
  • Können Items mit einer extremen Itemschwierigkeit (also sehr niedrig oder sehr hoch) extreme Trennschärfen haben? Falls ja, konstruieren Sie ein Beispiel. Falls nein, warum nicht?

    Lösung

    Ja, Items mit einer extremen Itemschwierigkeit können eine extreme Trennschärfe haben.
    So ist zum Beispiel denkbar, dass im Falle eines Items zur Erfassung von Symptomen, die im Kontext einer Schizophrenie auftauchen können („Ich höre Stimmen, die niemand anderes hört“), 900 „gesunde“ Personen das Item verneinen, während 100 „erkrankte“ Personen das Item bejahen. Dann ist die Trennschärfe perfekt (rit = 1.0), während der Itemschwierigkeitsindex Pi = (100/(900+100)) * 100 = 10 beträgt.
  • Welche Maße würden Sie bestimmen, um zu beurteilen, ob eine Testwertverteilung von der Normalverteilung abweicht?

    Lösung

    Um zu beurteilen, ob eine Testwertverteilung von einer Normalverteilung abweicht, berechnet man vor allem die Schiefe und den Exzess der Verteilung. Weichen diese substantiell von 0 ab, so liegt keine Normalverteilung der Testwerte vor.
  • Welche Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung kennen Sie?

    Lösung

    Als erste Ursache für die Abweichung der Testwerte von der Normalverteilung kommt eine mangelhafte Konstruktion des Tests in Frage. So ist z. B. mit einer linksschiefen, d. h. rechtssteilen Verteilung zu rechnen, wenn der Test insgesamt zu leicht ist. Als zweite Ursache ist denkbar, dass die Stichprobe heterogen ist. Das bedeutet, dass sie sich aus Unterstichproben zusammensetzt, die für sich genommen jeweils normalverteilt sind, aber zusammengenommen eine Mischverteilung bilden, die von der Normalverteilung abweicht. Eine dritte Ursache könnte darin bestehen, dass das erhobene Merkmal auch in der Population nicht normalverteilt ist (z. B. Reaktionsfähigkeit).
  • In welchen Schritten erfolgt die Normalisierung einer Testwertverteilung?

    Lösung

    Die Normalisierung einer Testwerteverteilung erfolgt in drei Schritten:
    - Schritt 1: Es werden aus der vorliegenden Verteilung der Testwerte kumulierten relativen Häufigkeiten (bzw. Prozentränge) gebildet.
    - Schritt 2: Es folgt die Bestimmung von korrespondierenden z-Werten der Standardnormalverteilung gemäß den Flächenanteilen der beobachteten Häufigkeitsverteilung.
    - Schritt 3: Abschließend werden die normalisierten Testwerte zv bestimmt.
  • Worin unterscheiden sich norm- und kriteriumsorientierte Testwertinterpretationen?

    Lösung

    Zur normorientierten Testwertinterpretation wird der Testwert in einen Normwert transformiert, anhand dessen die Testperson innerhalb der Bezugsgruppe positioniert wird. Bei der kriteriumsorientierten Testwertinterpretation erfolgt die Interpretation in Bezug zu einem inhaltlich definierten Kriterium. Für die kriteriumsorientierte Testwertinterpretation ist es unerheblich, wie viele Personen der Bezugsgruppe das Kriterium erreichen.
  • Welches Skalenniveau weisen Prozentränge auf, und was ist infolgedessen bei der Verwendung von Prozenträngen zu beachten?

    Lösung

    Prozentränge weisen lediglich Ordinalskalenniveau auf insofern sie als Ergebnis der Flächentransformation die empirischen Relationen zwischen Testwerten in nichtlinearer Weise repräsentieren. Infolgedessen dürfen Differenzen zwischen Prozenträngen nicht berechnet werden, um Merkmalsunterschiede zu vergleichen.
  • Für eine Testperson mit dem Testwert Yv = 45 soll ermittelt werden, wie groß der Personenanteil in der Bezugsgruppe ist, der einen geringeren oder maximal so hohen Testwert erzielt hat wie Yv. Es ist bekannt, dass die Testwertvariable in der Bezugsgruppe normalverteilt ist (= 30, SD(Y) = 10).

    Lösung

    Gesucht wird der Prozentrang PRv zum Testwert Yv = 45. Aus Yv und den Verteilungskennwerten der Bezugsgruppe lässt sich der zv-Normwert als zv = 1.5 errechnen. In der Standnormalverteilungstabelle (s. auch Abb. 9.2) lässt sich für diesen Wert ein Prozentrang von PRv = 93 ablesen.
  • Ein Testentwickler hat mittels ROC-Analyse einen optimalen Schwellenwert definiert. Aus inhaltlichen Gründen hält er es für sinnvoll, den Schwellenwert so zu verschieben, dass die Rate falsch positiver Klassifikationen sinkt. In welche Richtung muss der Schwellenwert verschoben werden, wenn gilt, dass niedrige Testwerte auf das Vorliegen des Kriteriums hinweisen?

    Lösung

    Der Schwellenwert muss in Richtung niedrigerer Testwerte verschoben werden.
  • Welche Rolle spielt die Normdifferenzierung bei der Testeichung?

    Lösung

    Die Testeichung dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Die Bildung von differenzierten Normen ist dann in Erwägung zu ziehen, wenn mit dem Untersuchungsmerkmal korrelierte Hintergrundfaktoren bekannt sind und es für Anwender von Bedeutung ist, diese bei der Testwertinterpretation kontrollieren zu können (z. B. Geschlecht).
  • Nennen und erläutern Sie kurz, für welche Aspekte innerhalb der Testentwicklung und -evaluation Teststandards beachtet werden sollen.

    Lösung

    Teststandards liegen für die Bereiche Testkonstruktion, Testadaptation sowie Testanwendung und Qualitätsbeurteilung psychologischer Tests vor. Die Testkonstruktion befasst sich mit der Entwicklung und Evaluation von Tests, wohingegen sich die Testadaption mit der Übersetzung und Anpassung von Tests im internationalen Rahmen beschäftigt. Die Testanwendung umfasst die Durchführung, Auswertung und Interpretation eines Tests. Innerhalb der Qualitätsbeurteilung wird überprüft, inwiefern die Standards der Testentwicklung und -evaluation eingehalten wurden.
  • Welche wesentlichen Standards existieren gemäß der SEPT und der DIN 33430 für die Validität eines Tests?

    Lösung

    Für die Validität sollten empirische, aktuelle Belege vorliegen, die möglichst nicht älter als acht Jahre sein sollten. Im Kontext der Inhaltsvalidität muss beispielsweise der im Test abgebildete Inhaltsbereich definiert und in seiner Bedeutung für die vorgesehene Testanwendung beschrieben sein; bei etwaigen Expertenurteilen muss die Qualifikation der Experten dargelegt werden. Für den Nachweis von Kriteriumsvalidität wird u.a. eine exakte Beschreibung etwaiger Kriteriumsmaße eines Tests und deren Erfassung gefordert. Zur differentiellen Vorhersagbarkeit müssen statistische Schätzungen Anwendung finden, wobei Gruppenunterschiede zu berücksichtigen sind.
  • Beschreiben Sie kurz die Richtlinien in den vier Sektionen der Test-Adaption Guidelines (TAG).

    Lösung

    Sektion 1 widmet sich der Frage nach der Konstruktäquivalenz in Bezug auf eine Population mit anderem sprachlichen und kulturellen Hintergrund.
    In Sektion 2 sollen durch Erhebung geeigneter Stichproben und anschließende statistische Analysen empirische Belege für die Konstruktäquivalenz bzw. Reliabilität und Validität der adaptierten Testversion bereitgestellt werden.
    Sektion 3 behandelt Fragen zur Testdurchführung bei sprachlich und kulturell unterschiedlichen Gruppen, insbesondere zur Auswahl von Testanwendern, der Wahl der Aufgabenstellungen und Zeitbeschränkungen.
    Sektion 4 betont die Notwendigkeit einer ausführlichen Testdokumentation.
  • Worauf sollte innerhalb der Testauswertung beim Ermitteln der Ergebnisse geachtet werden?

    Lösung

    Um eine größtmögliche Exakt- und Korrektheit zu erzielen, sollten bei der Testauswertung standardisierte Auswertungsmethoden angewendet werden. Der Testanwender sollte über ausreichende statistisch-methodische Kenntnisse verfügen. Zudem sollte er das Zustandekommen der Testergebnisse für den Probanden transparent machen.
  • Welche Qualifikationen sollten Testanwender nach Möglichkeit aufweisen?

    Lösung

    Testanwender sollten die Angemessenheit eines Tests und seiner Anwendung beurteilen können. Ferner sollte die Testvorgabe durch Testanwender kompetent, die Auswertung bzw. Analyse eines Tests akkurat und die Interpretation und Weitergabe der Testergebnisse angemessen und exakt erfolgen.
  • Welche Standards sind im Hinblick auf die Ziele pädagogischen Testens zu beachten?

    Lösung

    Zur Berücksichtigung der Besonderheiten der Zielsetzung und Entwicklung pädagogischer Tests, sollten zunächst die Validitätsstandards (Standards 1.1–1.25) und die Standards zur Reliabilität (Standards 2.10–2.20) Berücksichtigung finden. Weitere Implikationen aus den Standards für Anforderungen pädagogischen Testens lassen sich u. a. zum Standardsetting (Standards 5.21–5.23), zur Fairness (Standards 3.1–3.20, 12.7, 12.14–12.16), zur Transparenz des Untersuchungsgegenstands und Interpretation (Standards 12.3–12.6, 12.16, 12.18), zu Formen der Diagnostik (Standards 12.8–12.10, 12.13), zum Feedback (Standards 6.10–6.16, 12.17–12.19) sowie zum Datenmanagement (Standards 9.15–9.23) finden. Darüber hinaus sollten zu Fragen der Forschungsethik die ethischen Richtlinien des „Code of Ethics“, unabhängig von den Standards, beachtet werden.
  • Beschreiben Sie den wesentlichen Unterschied zwischen formativem und summativem Testen und geben Sie je ein Beispiel?

    Lösung

    Formatives und summatives Testen stellen zwei wichtige Zielbezüge pädagogischen Testens dar. Gegenstand des summativen Testens ist es, nach einer Lerneinheit eine abschließende Bewertung hinsichtlich des Lernerfolgs zu geben (z. B. die Klausuren nach einer Vorlesung im Studium). Formatives Testen ist darauf ausgerichtet, eine Überprüfung des Lernfortschritts während einer Lerneinheit zu vollziehen, um daran anknüpfend das Lernen optimieren zu können (z. B. die Bearbeitung einer Übungsaufgabe in einem Tutorium).
  • Wie könnte ein Test zur Diagnostik der Rechtschreibekompetenz von Schülern unter Bezug auf die fünf Validitätsaspekte untersucht werden?

    Lösung

    Testinhalt: Ist der Inhalt, die Art oder Form des zu formulierenden Textes Gegenstand einer Lerneinheit, die auf den Erwerb der Rechtschreibekompetenz abzielt?
    Testaufgabenbearbeitungsprozess: Zeigt sich bei der Formulierung des Textes, dass die Schüler Kriterien der Grammatik, des Satzbaus und den Ausdruck aus zuvor bereits erworbenem Wissen ableiten oder geschieht die korrekte Verschriftlichung eines Satzes rein zufällig?
    Innere Struktur eines Tests: Sind die Lösungen der Aufgaben zur Rechtschreibekompetenz nach dem Einsatz von konfirmatorischen Faktoranalysen (CFA) auf eine eindimensionale Fähigkeit „Rechtschreibekompetenz“ zurückzuführen oder lassen sich die Lösungen mancher Aufgaben mit der Teilfähigkeit „Ausdruck“, andere Aufgaben mit der Teilfähigkeit „Grammatik“ begründen?
    Zusammenhänge mit anderen Variablen: Die Rechtschreibekompetenz weist einen positiven Zusammenhang mit der Note in Diktaten auf.
    Konsequenzen einer Testung: Ein Test zur Rechtschreibekompetenz könnte für die Zulassung zu einem Deutschkurs verwendet werden, sofern keine systematische Benachteiligung von männlichen oder weiblichen Schülern besteht.
  • Welche generellen Unterschiede bestehen zwischen den Verfahren zum Standardsetting? Nennen Sie die Chapters der Standards for Educational and Psychological Testing, die Ihnen Informationen hierzu liefern können.

    Lösung

    Es können personen- und testzentrierte Verfahren unterschieden werden. Während bei testzentrierten Verfahren die Aufgaben durch Experten bewertet und hinsichtlich einer Klassifizierung auf unterschiedlichen Niveaus analysiert werden, erfolgt bei personenzentrierten Verfahren eine Klassifizierung von real existierenden Probanden auf den Kompetenzniveaus. In den Standards for Educational and Psychological Testing finden sich in Kapitel 5 (Subbereich 4: Cut-Scores) drei Standards (5.21–5.23) zur Entwicklung von Schwellenwerten.
  • Wodurch kann die Fairness eines Tests beschrieben werden?

    Lösung

    Fairness wird meist als Erscheinung konstruktirrelevanter Varianz definiert, die Subgruppen eines Tests systematisch benachteiligt oder bevorteilt. Tests zur Leistungsfeststellung sind somit als fair zu beschreiben, wenn Probanden, denen kein Unterschied bei der Vorbereitung oder der Lernleistung bezüglich des zu messenden Konstrukts (z. B. Fachwissen in Mathematik) beigemessen werden kann, auch im Test zur Erfassung der Lernleistung keine Differenzen der Testleistungen aufweisen. Unfair wäre beispielsweise ein Test, der Probanden aufgrund ihres Geschlechts beim Testen benachteiligt. Zudem ist die nachweisliche und zertifizierte Eignung der Testleiter und -anwender unabdingbare Voraussetzung, um Testfairness zu gewährleisten.
  • Warum ist ein Datenmanagementplan notwendig und was beinhaltet er?

    Lösung

    Ein Datenmanagementplan regelt die Zuständigkeiten der Forschenden in einem Projekt für den Ablauf und den Umgang mit Daten in einem Projekt. Komponenten des Datenmanagementplans sind die Richtlinien zum Datenmanagement, Datenbeschreibung, Metadatenbeschreibungen, Regeln zum Datenschutz, Qualitätssicherung, Aufgaben und Verantwortungsbereiche, Kosten im Datenmanagement, Umgangsweisen bei der Datensicherung, der Archivierung und der Bereitstellung.
  • Welche Art von Itemvariablen wird üblicherweise in der KTT, welche in der IRT verwendet?

    Lösung

    In der KTT werden üblicherweise kontinuierliche Variablen verwendet, in der IRT kategoriale Variablen.
  • Was wird unter dem Begriff „Spezifische Objektivität“ verstanden? Bei welcher Testtheorie spielt dieser Begriff eine Rolle?

    Lösung

    Spezifische Objektivität spielt sowohl bei der KTT als auch bei der IRT eine Rolle. Spezifische Objektivität bedeutet, dass sowohl der Vergleich zweier Personen anhand ihrer geschätzten Personenwerte nicht von den ausgewählten Items abhängt als auch der Vergleich zweier Items anhand ihrer Schwierigkeitsparameter nicht von den ausgewählten Personen abhängt.
  • Welche Definition der Reliabilität verwendet die KTT, welche die IRT?

    Lösung

    In der KTT ist die Reliabilität definiert als das Verhältnis der Varianz der True-Score-Variablen T zur Varianz der Testwertvariablen Y; in der IRT als Anteil der Varianz der wahren Personenwerte η an der Varianz der geschätzten Personenwerte .
  • Bei welchen IRT-Modellen ist die Separierbarkeit der Modellparameter gegeben? Welche Voraussetzung muss dafür gegeben sein?

    Lösung

    Die Separierbarkeit der Modellparameter ist nur in Modellen mit identischen Diskriminationsparametern gegeben. Dies ist im Rasch-Modell, dem Partial-Credit-Modell (PCM) und dem Rating-Scale-Modell (RSM) der Fall.
  • Welche Testtheorie erlaubt die Durchführung von Modelltests?

    Lösung

    Beide Testtheorien, sowohl die KTT als auch die IRT, erlauben Modelltests.
  • Welche Gemeinsamkeit weisen die Itemcharakteristiken des Modells essentiell τ-äquivalenter Variablen und des Rasch-Modells auf?

    Lösung

    In beiden Modellen verlaufen die Itemcharakteristiken parallel.
  • Was ist das „Klassische“ an der KTT?

    Lösung

    Die KTT wurde früher entwickelt als die IRT und wird deshalb als „klassisch“ bezeichnet.
  • Erläutern Sie kurz die Eigenschaften der Messfehler- und True-Score-Variablen.

    Lösung

    - Der bedingte Erwartungswert der Messfehlervariablen gegeben eine beliebige True-Score-Variable ist null. - Der Erwartungswert der Messfehlervariablen ist unabhängig vom wahren Wert des gemessenen Merkmals. - True-Score- und Messfehlervariablen sind unkorreliert. - Die Varianz einer Itemvariablen lässt sich additiv zerlegen in die Varianz der True-Score-Variablen und die Varianz der Messfehlervariablen. - Die Kovarianz zwischen zwei Itemvariablen lässt sich additiv zerlegen in die Kovarianz der True-Score-Variablen und die Kovarianz der Messfehlervariablen.
  • Wie ist der Reliabilitätskoeffizient in der KTT definiert?

    Lösung

    Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Score-Variablen zur Varianz der Testwertvariablen.
  • Warum soll zur Bestimmung des wahren Wertes auch ein Konfidenzintervall gebildet werden?

    Lösung

    Ein Konfidenzintervall ist nötig, um eine Aussage über die Präzision der Schätzung zu erhalten.
  • Auf welchen Annahmen basiert das Modell essentiell τ-äquivalenter Variablen?

    Lösung

    Das Modell essentiell τ-äquivalenter Variablen basiert auf den Annahmen der Eindimensionalität und der Gleichheit der Diskriminationsparameter. Diese Annahme impliziert identische Kovarianzen der Itemvariablen.
  • Worin besteht das Hauptziel der Generalisierbarkeitstheorie?

    Lösung

    Das Hauptziel der Generalisierbarkeitstheorie (G-Theorie) besteht darin, im Rahmen von Generalisierbarkeitsstudien den Einfluss unterschiedlicher Varianzquellen (Facetten) auf die Messungen zu schätzen und damit die Gesamtvarianz in verschiedene Varianzkomponenten zu zerlegen.
  • Auf welchen Voraussetzungen beruht Cronbachs Alpha?

    Lösung

    Cronbachs Alpha setzt Eindimensionalität sowie essentielle τ-Äquivalenz der Itemvariablen (d. h. gleiche Anteile wahrer Varianz in allen Messungen) voraus.
  • Warum muss essentielle τ-Parallelität der Testwertvariablen gegeben sein, um die Korrelation zwischen den Testwertvariablen als deren Reliabilität zu interpretieren?

    Lösung

    Bei essentieller τ-Parallelität weisen verschiedene Testwertvariablen identische Anteile wahrer Varianz und Fehlervarianz auf. Nur in diesem Fall entspricht die Kovarianz der Testwertvariablen der wahren Varianz, und das Produkt der Standardabweichungen entspricht der Gesamtvarianz der Testwertvariablen. So resultiert bei Berechnung der Korrelation das Varianzverhältnis „wahre Varianz/Gesamtvarianz“ zur Schätzung der Reliabilität.
  • Wie lässt sich die Reliabilität eines Tests anhand der Split-Half-Reliabilität bestimmen?

    Lösung

    Sind die Voraussetzungen der Split-Half-Reliabilität erfüllt, wird zunächst über die parallelen Testhälften die Reliabilität des Halbtests ermittelt. Diese kann anschließend über die Spearman-Brown-Formel zur Reliabilität des Gesamttests aufgewertet werden.
  • Warum kann in der Regel nicht von „der Reliabilität“ eines Tests gesprochen werden, wenn diese für eine Stichprobe ermittelt wurde?

    Lösung

    Die Reliabilitätsschätzung ist populationsabhängig. Je homogener eine Population hinsichtlich des gemessenen Merkmals ist (= geringe Varianz des latenten Merkmals), desto geringer ist auch die Varianz der True-Score-Variablen. Daher wird in homogeneren Stichproben die Reliabilität aufgrund der Varianzeinschränkung niedriger geschätzt als in heterogenen Stichproben. Die Reliabilität sollte daher immer für verschiedene Populationen angegeben werden.
  • Welche Aussage lässt sich über die Reliabilität einer Testwertvariablen treffen, wenn die Voraussetzungen der klassischen Reliabilitätsmaße nicht erfüllt sind?

    Lösung

    Sind die Voraussetzungen der klassischen Reliabilitätsmaße nicht erfüllt, darf der resultierende Wert nicht als Schätzung der Reliabilität interpretiert werden. Alternativ sollte geprüft werden, ob die weniger strengen Voraussetzungen zur Anwendung modellbasierter Reliabilitätskoeffizienten erfüllt sind und diese berichtet werden.
  • Welche Vorteile hat die modellbasierte Reliabilitätsschätzung im Vergleich zur klassischen Reliabilitätsschätzung?

    Lösung

    Die modellbasierte Reliabilitätsschätzung hat den Vorteil, dass Voraussetzungen und Modellannahmen der Reliabilitätskoeffizienten anhand der CFA explizit getestet und damit Modelle auch als unpassend verworfen werden können. McDonalds Omega (ω) wird basierend auf den Parametern eines CFA-Modells geschätzt und hat den Vorteil, dass er auf weniger strengen Annahmen beruht als die Koeffizienten der klassischen Reliabilitätsschätzung. Neben eindimensionalen Modellen kann die Reliabilität auch im Rahmen mehrdimensionaler Modelle differenziert beurteilt und ein korrektes Konfidenzintervall geschätzt werden. Zusätzlich können Methodeneffekte über korrelierte Messfehler berücksichtigt werden.
  • Worin besteht der Unterschied zwischen ω und ω*?

    Lösung

    McDonalds Omega (ω) beruht auf der Annahme unkorrelierter Messfehler, während Bollens Omega (ω*) theoretisch begründbare Fehlerkovarianzen bei der Schätzung der Reliabilität berücksichtigt.
  • Welche Omega-Koeffizienten werden bei mehrdimensionalen Tests unterschieden?

    Lösung

    Unterschieden werden Omega-Koeffizienten für den Gesamttest und Omega-Koeffizienten für Subskalen im Rahmen eines mehrdimensionalen Modells. Jeweils unterschieden werden Reliabilitätskoeffizienten zur Schätzung der totalen wahren Varianz, der durch den Generalfaktor erklärten Varianz, und der subskalenspezifischen Varianz, jeweils entweder bezogen auf die Gesamtvarianz des Tests oder auf die Gesamtvarianz einer Subskala.
  • Warum ist der Modellfit wesentlich für modellbasierte Reliabilitätsschätzungen?

    Lösung

    Zuverlässige Reliabilitätsschätzungen sind nur dann möglich, wenn das zugrunde liegende Modell gut zu den Daten passt.
  • Warum kann das übliche symmetrische Konfidenzintervall für Reliabilitätsschätzungen nicht verwendet werden?

    Lösung

    Das übliche symmetrische Konfidenzintervall kann nicht verwendet werden, da der Wertebereich von Reliabilitätskoeffizienten zwischen den Grenzen 0 und +1 liegt und somit das Konfidenzintervall – vor allem in der Nähe der Grenzwerte – nicht symmetrisch sein kann. Ein symmetrisches Konfidenzintervall würde möglicherweise über die Grenzen hinausgehen.
  • Wie würden Sie die Reliabilität eines mehrdimensionalen Tests mit den Reliabilitätsschätzungen ωH = .55 und ωS = .30 beurteilen?

    Lösung

    Die Gesamtreliabilität des mehrdimensionalen Tests ist hinreichend hoch mit ωT = ωH + ωS = .55 + .30 = .85. Der ωH-Wert ist höher als der ωS-Wert: 65 % (.55/.85) der wahren Varianz des Tests kann auf den Generalfaktor zurückgeführt werden, während die spezifischen Faktoren zusammen zusätzlich einen Anteil von 35 % (.30/.85) der wahren Varianz erklären. Wie sich der spezifische Anteil auf die einzelnen Subskalen verteilt, kann jedoch nicht beurteilt werden. Da ωH deutlich größer ist als ωS, kann davon ausgegangen werden, dass der Test im Wesentlichen ein eindimensionales Konstrukt erfasst.
  • Was wird in der Item-Response-Theorie (IRT) im Unterschied zur Klassischen Testtheorie (KTT) modelliert?

    Lösung

    In der IRT wird im Unterschied zur KTT die Wahrscheinlichkeit einer korrekten Antwort, gegeben ein latentes Trait, modelliert. Es handelt sich dabei um einen probabilistischen Zugang.
  • Was versteht man unter Rasch-Homogenität?

    Lösung

    Unter der Rasch-Homogenität versteht man, dass den Antworten auf alle Items eines Tests genau eine latente Variable η (nämlich das interessierende Merkmal) zugrunde liegt und dass – abgesehen von den variierenden Itemschwierigkeiten βi – genau diese eine latente Personenvariable die Unterschiede im Antwortverhalten der verschiedenen Personen erzeugt (und in gewisser Weise auch erklärt).
  • Was beschreibt eine IC-Funktion?

    Lösung

    Die IC-Funktion (itemcharakteristische Funktion) beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten auf ein dichotomes Item in Form einer Wahrscheinlichkeitsaussage.
  • In welcher Beziehung stehen Lösungswahrscheinlichkeit, Nichtlösungswahrscheinlichkeit und Iteminformationsfunktion im Rasch-Modell?

    Lösung

    Die Lösungswahrscheinlichkeit und die Nichtlösungswahrscheinlichkeit sind im Rasch-Modell gegenläufig und sind in der Summe für eine gegebene Latent-Trait-Ausprägung 1.
    Die Iteminformation im Rasch-Modell ergibt sich als des Produkt der Lösungswahrscheinlichkeit und der Nichtlösungswahrscheinlichkeit.
  • Erläutern Sie den Begriff „Spezifische Objektivität“.

    Lösung

    Spezifische Objektivität bedeutet, dass alle IC-Funktionen die gleiche Form aufweisen und lediglich entlang der ξ-Achse parallel verschoben sind. Der Schwierigkeitsunterschied zweier Items (σi - σi) kann unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung sind auch Vergleiche zwischen Personen (ξv - ξw) unabhängig von den verwendeten Items.
  • Was versteht man unter „lokaler stochastischer Unabhängigkeit“?

    Lösung

    Lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelationen von manifesten Variablen verschwinden, sofern man sie auf den einzelnen Stufen der latenten Variablen untersucht. Die latente Variable kann dann als Ursache für die Korrelationen angesehen werden.
  • Was versteht man unter „adaptivem Testen“?

    Lösung

    Adaptives Testen bedeutet, dass das Schwierigkeitsniveau der vorgegebenen Testitems an die Merkmalsausprägung des jeweiligen Probanden angepasst wird. Bei den einzelnen Probanden werden nur diejenigen Testitems zur Anwendung gebracht, die für das Fähigkeitsniveau des einzelnen Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen.
  • Welche Fälle können im polytomen Rasch-Modell unterschieden werden?

    Lösung

    Man unterscheidet das mehrdimensionale und das eindimensionale polytome Rasch-Modell. Im eindimensionalen Spezialfall des polytomen Modells lassen sich die Antwortkategorien auf einer Rangskala anordnen.
  • Worin unterscheiden sich Latent-Class-Modelle von Latent-Trait-Modellen?

    Lösung

    In Latent-Class-Modellen werden Personenunterschiede auf kategoriale latente Variablen zurückgeführt, im Unterschied zu Latent-Trait-Modellen, bei denen man von kontinuierlichen latenten Variablen ausgeht.
  • Worin besteht die Grundidee linear-logistischer Modelle?

    Lösung

    Linear-logistische Modelle versuchen, die Schwierigkeitsparameter der Items auf solche Basisoperationen zurückzuführen, die für eine erfolgreiche Bearbeitung des Items notwendig sind. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
  • Was ist der zentrale Unterschied zwischen der Klassischen Testtheorie (KTT) und der Item-Response-Theorie (IRT)?

    Lösung

    Im Unterschied zur KTT setzt die IRT bei der Testwertebildung die Antworten von Personen auf die Items eines Tests nicht mit der Messung des im Test erfassten Konstrukts gleich, sondern konzipiert die Messung des Konstrukts explizit als indirekt: IRT-Modelle postulieren, dass dem im Test gezeigten Verhalten, also den Antworten auf die Items („item responses“) des Tests (daher Item-Response-Theorie), eine Fähigkeit oder Eigenschaft zugrunde liegt, die das Testverhalten „verursacht“.
  • Was ist die Joint Scale von Itemschwierigkeiten und Personenfähigkeiten und welchen anwendungsbezogenen Vorteil bietet sie?

    Lösung

    Die Personenfähigkeit und die Itemschwierigkeit werden in der IRT auf einer gemeinsamen Skala (Joint Scale) verortet. Diese gemeinsame Verortung bietet den Vorteil, dass individuelle Testwerte durch ihre Abstände zu Itemschwierigkeiten interpretiert werden.
  • Warum ist eine kriteriumsorientierte Interpretation von Personenfähigkeiten aus mehrparametrischen Modellen schwierig?

    Lösung

    Im Unterschied zum Rasch-Modell haben mehrparametrische Modelle wie das 2PL-Modell oder das 3PL-Modell gegenüber dem einparametrischen Rasch-Modell den für die Interpretierbarkeit der Skala schwerwiegenden Nachteil, dass sich Differenzen zwischen den Lösungswahrscheinlichkeiten mehrerer Items in Abhängigkeit von der Personenfähigkeit verändern, d. h., die IC-Funktionen verschiedener Items schneiden sich. Dies kann zu dem paradoxen Ergebnis führen, dass ein Item dem Modell zufolge für eine bestimmte Person leichter ist als ein anderes und sich dieses Verhältnis für eine andere Person umkehrt.
  • Wie unterscheiden sich Methoden zur Definition von Kompetenzniveaus (Verwendung von A-priori-Aufgabenmerkmalen vs. Post-hoc-Analysen der Items)?

    Lösung

    Bei Post-hoc-Analysen der Items werden durch Experten Ankerpunkte auf der Kompetenzskala gesetzt und diejenigen Items identifiziert und inhaltlich betrachtet, die zur Beschreibung dieser Ankerpunkte geeignet sind. Verfahren zur Verwendung von A-priori-Aufgabenmerkmalen setzen bereits vor der Testanwendung an, indem Annahmen über Aufgabenmerkmale, die sich auf die Schwierigkeiten der Items auswirken, formuliert werden. Derartige a priori begründete Aufgabenmerkmale können verwendet werden, um IRT-basierte Testwerte kriterienorientiert zu beschreiben und die Schwellen zwischen Kompetenzniveaus festzulegen.
  • Was ist der Ausgangspunkt des GPCM?

    Lösung

    Im Generalized Partial-Credit-Modell (GPCM) wird die Wahrscheinlichkeit modelliert, dass man Kategorie k über Kategorie (k – 1) hinausgehend erreicht.
  • Sind im GPCM die Itemkategorienparameter geordnet?

    Lösung

    Nein, die Itemparameter sind im Generalized Partial-Credit-Modell (GPCM) nicht geordnet. Sie repräsentieren nur die relative Größe angrenzender Kategorien zueinander.
  • Welche Idee liegt dem RSM nach Andrich zugrunde?

    Lösung

    Kernidee des Rating-Scale-Modells (RSM) ist die Annahme, dass Kategorienparameter invariant sind. Die Beurteilungsskala der Ratings wird letztlich über die Items hinweg als gleich angenommen, was für andere Modelle (ohne diese Restriktion) üblicherweise nicht gilt.
  • Was ist der Grundgedanke des GRM nach Smejima?

    Lösung

    Der Grundgedanke des Graded-Response-Modells (GRM) ist, dass eine Aufgabe als kognitiver Prozess modelliert wird. Dazu wird eine endliche Anzahl von Stufen modelliert. Zu definieren ist dabei eine sog. „Processing Function“, die diesen Prozess beschreibt. Dazu gibt es verschiedene Möglichkeiten, die sich grob in den homogenen und den heterogenen Fall unterteilen lassen.
  • Wozu braucht man multidimensionale IRT-Modelle?

    Lösung

    Der Grundgedanke multidimensionaler Item-Response-Theorie-Modelle (mIRT-Modelle) ist, dass es mehrere Merkmale gibt, die in Zusammenhang zur gezeigten Antwort (Leistung) stehen. Während in eindimensionalen IRT-Modellen die Wahrscheinlichkeit einer Antwort anhand eines Merkmals modelliert wird, ist es das Ziel der mIRT-Modelle, den Einfluss von mindestens zwei Merkmalen auf die Antwortwahrscheinlichkeit zu beschreiben.
  • Begründen Sie unter Betrachtung des allgemeinen Maximum-Likelihood-Prinzips (ML-Prinzip) und der Definition der A-posteriori-Verteilung, warum ML-Schätzer und Bayes’sche Schätzer nicht identisch sind.

    Lösung

    Bei der ML-Schätzung erfolgt die Parameterschätzung anhand der Likelihood-Funktion, die auf der Wahrscheinlichkeitsfunktion für das Zustandekommen der beobachteten Stichprobendaten in Abhängigkeit von unbekannten Modellparametern beruht. Der ML-Schätzer ist der Wert im Parameterraum, für den die ML-Funktion maximal ist. Die wahren zu schätzenden Parameter werden bei der ML-Schätzung als unbekannte, aber konstante Größen aufgefasst. In der Bayes-Statistik dagegen haben die gesuchten Modellparameter genauso wie Zufallsvariablen eine Wahrscheinlichkeitsverteilung, da der Wahrscheinlichkeitsbegriff in der Bayes-Statistik subjektiv ist. Das heißt, Wahrscheinlichkeiten quantifizieren die Unsicherheit hinsichtlich unbekannter Größen. Diese Unsicherheit besteht sowohl vor der Datenanalyse und wird durch die A-priori-Verteilung repräsentiert als auch nach der Analyse in Form der A-posteriori-Verteilung der Modellparameter. Aufgrund der empirischen Information ist die Streuung der A-posteriori-Verteilung jedoch geringer als die Streuung der A-priori-Verteilung. Alle Inferenz in der Bayes-Statistik beruht auf der A-posteriori-Verteilung, von der üblicherweise Kennwerte wie der Erwartungswert (EAP) oder der Modus bzw. das Maximum (MAP) als Punktschätzer verwendet werden. Da die ML-Funktion und die A-posteriori-Verteilung unterschiedliche Funktionen sind, werden auch die Punktschätzer mehr oder minder abweichen. Mathematisch ist die A-posteriori-Verteilung eine Funktion der mit der A-priori-Verteilung gewichteten ML-Funktion. Somit lässt sich sagen, dass der ML-Schätzer und der MAP umso ähnlicher sind, je weniger informativ die A-priori-Verteilung ist.
  • Warum sind die Parameterschätzer unter Verwendung der Joint-Maximum-Likelihood-Schätzung (JML-Schätzung) inkonsistent, und wie wird dieses Problem bei der bedingten (CML-) und der marginalen ML-Schätzung (MML-Schätzung) gelöst?

    Lösung

    Bei der JML-Schätzung hängt die Zahl der zu schätzenden Parameter von der Stichprobengröße ab. Dadurch werden die immer mehr werdenden Parameter bei größeren Stichproben nicht zwingend besser geschätzt. In der statistischen Terminologie sagt man, dass die Parameterschätzungen aufgrund der sog. inzidentellen bzw. „anfallenden“ Parameter nicht konsistent sind. In der IRT kann das Problem im ein- und mehrkategorialen Rasch-Modell durch die CML-Schätzung umgangen werden, bei der unter Verwendung der individuellen Summenscores in der Stichprobe zunächst nur die Itemparameter geschätzt werden, deren Anzahl unabhängig vom Stichprobenumfang ist. Da der Summenscore eine suffiziente Statistik ist, können die individuellen Ausprägungen bezüglich der latenten Variablen bei der CML-Schätzung außer Acht gelassen werden. Bei der MML-Schätzung wird das Problem der inzidentellen Parameter durch die Modellierung der Verteilung der latenten Personenvariable gelöst. Die MML-Schätzfunktion basiert dann auf den marginalen Antwortmusterwahrscheinlichkeiten, gemittelt über die Verteilung der latenten Variablen. Dabei müssen die individuellen Werte der Personen nicht simultan geschätzt werden.
  • Welche Kennwerte werden bei der ML-Schätzung und bei Bayes’schen Schätzverfahren als Maße der (Un-)Genauigkeit der Parameterschätzung verwendet, und wie sind diese Maße jeweils genau zu interpretieren?

    Lösung

    Das klassische Maß für die (Un-)Genauigkeit der Parameterschätzung ist der Standardfehler des ML-Schätzers. Dieser ist definiert als die Streuung der Kennwerteverteilung des ML-Schätzers bei wiederholter Stichprobenziehung aufgrund des Stichprobenfehlers. Die wahren zu schätzenden Parameter selbst, werden jedoch als unbekannte, aber konstante Größen aufgefasst. In der Bayes-Statistik werden anstelle von Standardfehlern üblicherweise die Streuungsmaße (z. B. die Standardabweichung) der A-posteriori-Verteilung angegeben, die nicht einfach die Kennwerteverteilung aufgrund des Stichprobenfehlers angeben, sondern die Verteilung der jeweiligen Modellparameters aufgrund unzureichender empirischer Information und somit der verbleibenden Unsicherheit bezüglich der zu schätzenden Parameter.
  • Wann bezeichnet man eine A-priori-Verteilung als informativ, und wie wirkt sich eine informative A-priori-Verteilung im Vergleich zu einer nicht informativen A-priori-Verteilung auf die Parameterschätzung aus?

    Lösung

    Die A-priori-Verteilung repräsentiert die Unsicherheit bezüglich der zu schätzenden Modellparameter, bevor empirische Daten vorliegen. Hat man bereits Kenntnis über die Parameter aus Vorstudien oder aufgrund anderer Quellen, so kann diese durch eine informative A-priori-Verteilung bei der Parameterschätzung in der Bayes-Statistik berücksichtigt werden. Eine zunehmend informative A-priori-Verteilung bedeutet, dass der Bereich, in dem die gesuchten Parameter erwartet werden, im kleiner wird. Daher wird die A-priori-Verteilung umso informativer, je kleiner ihre Streuung wird. Man kann die Informativität der A-priori-Verteilung auch als Gewichtung des Vorwissens verstehen, da die A-posteriori-Verteilung mathematisch eine Funktion der mit der A-priori-Verteilung gewichtete ML-Funktion ist. Je kleiner die Streuung der A-priori-Verteilung ist, desto informativer ist sie und desto gewichtiger ist das Vorwissen. Je gewichtiger das Vorwissen ist, desto größer ist der Shrinkage-Effekt und desto kleiner ist meist auch die Streuung der A-posteriori-Verteilung. Daran wird auch noch einmal der Unterschied zum ML-Schätzer und seinem Standardfehler deutlich, die unabhängig vom Vorwissen sind und allein von den empirischen Daten und vom Stichprobenumfang abhängen.
  • Es sei ein eindimensionaler Mathematikkompetenztest mit ausschließlich schweren Items für zwei unabhängige Stichproben A und B eingesetzt worden. Während Stichprobe A aus Personen mit durchschnittlicher Mathematikfähigkeit besteht, ist Stichprobe B aus Personen mit überdurchschnittlicher Mathematikkompetenz zusammengesetzt. Die Daten beider Stichproben werden mit dem Birnbaum-Modell ausgewertet. Die Itemparameterschätzer aus beiden Stichproben unterscheiden sich bis auf kleine zufällige Schwankungen nicht. Welche Befunde erwarten Sie für die Testinformationsfunktion, die Standardfehlerfunktion und die marginale Reliabilität in den beiden Gruppen?

    Lösung

    Die Testinformationsfunktion und die Standardfehlerfunktion sind zwar Funktionen der latenten Personenvariablen, ihre funktionale Form hängt aber ausschließlich von den Itemparametern ab und nicht von der Verteilung der latenten Variablen. Daher werden die beiden Funktionen in beiden Stichproben ebenfalls nahezu identisch sein. Die marginale Reliabilität ist jedoch verteilungsabhängig, da sie ein Maß der mittleren Reliabilität (d. h. gemittelt über die Verteilung der latenten Variablen) ist. Da die Itemschwierigkeiten der Mathematikitems eher im oberen Fähigkeitsbereich liegen, wird die marginale Reliabilität in der Gruppe B höher sein, da die Testitems im oberen Fähigkeitsbereich informativer für die Mathematikfähigkeit sind und der Standardfehler im Mittel geringer ist.
  • Vergleichen Sie die Maße der Messgenauigkeit bzw. -ungenauigkeit der Personenparameterschätzung, die in der KTT und der IRT verwendet werden, und erläutern Sie Gemeinsamkeiten und Unterschiede.

    Lösung

    In der KTT werden Maßzahlen wie Cronbachs Alpha (α) als Maß der Reliabilität eines Tests angegeben. Da diese Kennwerte als Varianzverhältnisse von der Varianz der True-Score-Variablen und der Varianz der manifesten Testwertvariablen definiert sind, folgt, dass sie populationsabhängig sind. In homogeneren Subpopulationen, in denen die Varianz der True-Score-Variablen gering ist, ist die Reliabilität bei gleicher Messfehlervarianz kleiner als in heterogenen Subpopulationen mit größerer Varianz der True-Score-Variablen. Insofern ist die Reliabilität in der KTT eher ein Maß, wie stark ein Test in einer jeweiligen Population Personen bezüglich bestehender Unterschiede in den Ausprägungen der latenten Variablen zu differenzieren vermag. Zur Berechnung von Konfidenzintervallen für individuelle Testwerte wird in der KTT der Standardmessfehler (die Streuung des Messfehlers) verwendet. Dieser Kennwert ist für alle Personen und alle Ausprägungen der latenten Variablen gleich. Somit sind auch die Konfidenzintervalle gleich weit. Das bedeutet, dass von einer invarianten Reliabilität des Tests ausgegangen wird. In der IRT hängt die Reliabilität der Personenparameterschätzer von den Itemparametern des Tests ab. Für jeden Wert der latenten Variablen kann die Testinformationsfunktion und somit die Standardfehlerfunktion bzw. die Reliabilität anders sein. Somit sind auch die Konfidenzintervalle unterschiedlich weit. Um dennoch einen Kennwert der Reliabilität berechnen zu können, sind in der IRT marginale Reliabilitäten gebräuchlich, die je nach Schätzer (ML, EAP, MAP) anders zu berechnen sind. Diese marginalen Reliabilitäten sind im Gegensatz zu Testinformations- und Standardfehlerfunktion allerdings wieder populationsspezifisch.
  • Vergleichen Sie die fünf hier vorgestellten Personenparameterschätzer (ML-, gewichteter ML-, EAP-, MAP-Schätzer und PVs) hinsichtlich ihrer Eignung für die Individualdiagnostik.

    Lösung

    Die PV-Schätzer sind zufällig gezogene Werte aus den individuellen A-posteriori-Verteilungen der latenten Variablen bei gegebenen Antwortmuster (und ggf. weiterer Kovariaten). Als multiple Imputationen für die nicht beobachtbaren Werte der latenten Variablen sind einzelne PVs zur Individualdiagnostik ungeeignet. In der Bayes-Statistik sind aber Maße der zentralen Tendenz der A-posteriori-Verteilung als Punktschätzer gebräuchlich. Diese sind der EAP-Schätzer (Erwartungswert der A-posteriori-Verteilung) und der MAP-Schätzer (Modus bzw. Maximum der A-posteriori-Verteilung). ML-Schätzer und gewichteter ML-Schätzer sind für individualdiagnostische Zwecke geeignet, da sie erwartungstreu und konsistent sind. Die EAP- und MAP-Schätzer sind jedoch systematisch verfälscht, wenn der wahre Wert der latenten Variablen einer Person vom Erwartungswert der A-priori-Verteilung abweicht. Der Grund ist der Shrinkage-Effekt, der zu einer systematischen Unterschätzung von Werten der latenten Variablen führt, die größer sind als der Erwartungswert der A-priori-Verteilung sind. Werte der latenten Variablen, die größer sind als der Erwartungswert der A-priori-Verteilung werden hingegen systematisch überschätzt. Als Folge des Shrinkage-Effekts sind der Messfehler des EAP- und des MAP-Schätzers (definiert als Differenz von EAP bzw. MAP und wahrem individuellen Wert der latenten Variablen) und die latente Variable negativ korreliert. Trotz des Shrinkage-Effekts haben EAP- und MAP-Schätzer auch in der Individualdiagnostik Anwendung gefunden. Ihre Eigenheiten gilt es dabei zu berücksichtigen. Mit zunehmender Reliabilität eines Tests nimmt der Shrinkage-Effekt ab und wird vernachlässigbar.
  • Warum ist die Verwendung der klassischen Testtheorie (KTT) beim computerisierten adaptiven Testen nicht angezeigt?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden je nach gezeigtem Antwortverhalten unterschiedliche Items vorgelegt. Dabei bekommen Personen mit einer höheren Ausprägung in dem zu messenden Merkmalitems mit höherer Schwierigkeit vorgelegt als Personen mit niedrigerer Ausprägung. Die bei der Testwertermittlung im Rahmen der KTT übliche Aggregation über Summen- oder Mittelwertbildung würde keine sinnvolle Differenzierung der untersuchten Personen erlauben.
  • Welches sind die sechs elementaren Bausteine des computerisierten adaptiven Testens?

    Lösung

    Die sechs Bausteine des computerisierten adaptiven Testens sind folgende: Itempool, Testbeginn, Personenparameterschätzung, Itemauswahl, Berücksichtigung von Einschränkungen, Testende.
  • Durch computerisiertes adaptives Testen können substanzielle Steigerungen der Messeffizienz im Vergleich zu nicht-adaptiven Tests erzielt werden. Für welche beiden Verbesserungen kann diese Messeffizienzsteigerung genutzt werden?

    Lösung

    Die Messeffizienzsteigerung kann zur Verminderung der Anzahl der den Probanden vorgelegten Items bei gleichbleibender Messpräzision oder zur Steigerung der Messpräzision bei stabiler Itemanzahl genutzt werden.
  • Im Bereich der klinischen Psychologie soll ein Test entwickelt werden, mit dem die Ängstlichkeit sowohl von Gesunden als auch von pathologisch Ängstlichen gemessen werden soll. Warum ist in diesem Fall computerisiertes adaptives Testen als vorteilhaft anzusehen?

    Lösung

    Bei konventionellen nicht adaptiven Tests werden den Probanden in der Regel viele Items mit mittlerer Schwierigkeit und nur wenige Items mit extremer Schwierigkeit vorgegeben. Mit solchen Tests können Personen mit mittlerer Merkmalsausprägung präzise gemessen werden. Eine Differenzierung von Personen an den Rändern der Merkmalsverteilung ist jedoch nur unpräzise möglich, da Probanden mit sehr hoher oder sehr niedriger Ausprägung des zu messenden Merkmals nur wenige Items mit adäquater Schwierigkeit vorgegeben bekommen. Dies kann beispielsweise dazu führen, dass sich die Testergebnisse von Probanden mit hoher Ängstlichkeit kaum oder gar nicht von den Testergebnissen von Probanden mit sehr hoher Ängstlichkeit unterscheiden. Bei computerisierten adaptiven Tests werden allen Probanden Items mit adäquater Schwierigkeit vorgegeben, was eine gute Differenzierungsfähigkeit über die gesamte Breite der latenten Merkmalsdimension und – wie im vorliegenden Beispiel – auch für pathologisch Ängstliche ermöglicht.
  • Wie sollte der Itempool eines computerisierten adaptiven Tests beschaffen sein, damit dieser über die gesamte Breite der zu messenden Merkmalsdimension in gleicher Weise differenzierungsfähig ist?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden Aufgaben vorgegeben, die der Ausprägung ihrer individuellen Ausprägung in dem zu messenden Merkmal angepasst sind. Der Itempool sollte deshalb genügend Items über den gesamten zu messenden Merkmalsbereich aufweisen.
  • Welches Kriterium zur Itemauswahl wird beim computerisierten adaptiven Testen am häufigsten genutzt?

    Lösung

    Die Auswahl des Items mit maximaler Iteminformation erfolgt anhand der vorläufigen Parameterschätzung.
  • Durch welche Maßnahme können unerwünschte Auswirkungen des computerisierten adaptiven Testens auf die individuelle Motivation zur Testbearbeitung minimiert werden?

    Lösung

    Durch Erläuterung der Funktionsweise eines computerisierten adaptiven Tests in der Instruktion lassen sich unerwünschte Auswirkungen des Testverfahrens minimieren.
  • Gegeben sei ein Konstrukt, das auf theoretischer Ebene durch sieben korrelierende Subdimensionen spezifiziert wird. Die siebendimensionale Struktur ist aufgrund bereits vorliegender empirischer Ergebnisse als gesichert anzusehen. Zur Messung des Konstrukts soll nun ein neues Testverfahren konstruiert werden. Warum bietet sich in diesem Fall multidimensionales adaptives Testen an?

    Lösung

    Erstens kann die theoretische Annahme, dass das Konstrukt aus sieben korrelierten Dimensionen besteht, bei multidimensionalem adaptivem Testen direkt im Messverfahren abgebildet werden. Da die Dimensionen korrelieren ist zweitens mit einer höheren Messeffizienz im Vergleich zum nicht adaptiven Test und auch zu mehreren eindimensionalen adaptiven Tests zu erwarten. Letztlich ist zu beachten, dass es durch multidimensionales adaptives Testen ggf. erst möglich wird, die sieben Dimensionen in akzeptabler Testzeit mit angemessener Präzision zu messen.
  • Häufig wird vereinfachend von „der Validität eines Tests“ gesprochen. Warum ist diese Vereinfachung nach einem modernen Verständnis von Validität potenziell irreführend?

    Lösung

    Validität ist ein sehr breites Gütekriterium, das sich auf verschiedene Qualitätsaspekte eines Tests bezieht, daher gibt es nicht „die“ Validität eines Tests. Präziser ist es, von der Validität (Gültigkeit) spezifischer Interpretationen von Testergebnissen zu sprechen. Spezifische Interpretationen der mit einem Test gewonnenen Ergebnisse können nämlich empirisch und/oder theoretisch gut gestützt sein, während andere nicht belegt sind.
  • Welche beiden zentralen Bereiche werden bei der Konzeptualisierung der Konstruktvalidität von Cronbach und Meehl (1955) unterschieden?

    Lösung

    Es werden theoretische Annahmen über die Zusammenhänge zwischen nicht direkt beobachtbaren Konstrukten („nomologisches Netz“) formuliert. Wenn die empirischen Zusammenhänge zwischen Tests, die diese Konstrukte messen sollen, dem theoretischen Zusammenhangsmuster entsprechen, wird dies als Hinweis darauf interpretiert, dass die Tests tatsächlich die interessierenden Konstrukte messen.
  • Welches sind wichtige Evidenzquellen für die Validierung von Testwertinterpretationen?

    Lösung

    Gemäß den Standards for Educational and Psychological Testing (AERA, APA & NCME, 2014) können u. a. folgende Quellen herangezogen werden:
    - Testinhalte
    - Prozesse bei der Testbeantwortung
    - Die interne Struktur der Testdaten
    - Die Beziehungen der Testwerte zu anderen Variablen
    Literatur:
    American Educational Research Association, American Psychological Association & National Council on Measurement in Education [AERA, APA & NCME]. (2014). Standards for educational and psychological testing. Washington, DC: American Psychological Association.
  • Welche Schritte werden beim argumentationsbasierten Ansatz der Validierung üblicherweise durchlaufen?

    Lösung

    Der Prozess der Validierung einer Testwertinterpretation lässt sich in folgende Schritte unterteilen:
    1. Spezifikation der angestrebten Testwertinterpretation
    2. Identifikation und Formulierung von empirisch prüfbaren Grundannahmen, auf denen die Testwertinterpretation aufbaut
    3. Sammlung von Evidenz für und gegen die einzelnen Grundannahmen
    4. Zusammenfassende Bewertung der Evidenz
  • Was versteht man bei der LCA unter der
    a. „relativen Klassengröße“ πg?
    b. „bedingten Klassenzuordnungswahrscheinlichkeit“ P(g|av)?
    c. „unbedingten Antwortmusterwahrscheinlichkeit“ P(av)?
    d. „bedingten Antwortmusterwahrscheinlichkeit“ P(av|g)?

    Lösung

    a. Die Wahrscheinlichkeit πg bezeichnet die A-priori-Wahrscheinlichkeit der Klassenzugehörigkeit g, oder anders ausgedrückt: die relative Größe einer Klasse g in der Population. Vereinfacht gesagt ist πg die Wahrscheinlichkeit, mit der eine beliebige Person (ohne etwas über sie zu wissen) in der Population der Klasse g angehört.
    b. Die Wahrscheinlichkeit P(g|av) bezeichnet die Wahrscheinlichkeit der Klassenzugehörigkeit g gegeben ein konkretes Antwortmuster av. Vereinfacht gesagt ist P(g|av) die Wahrscheinlichkeit, mit der eine Person in der Population der Klasse g angehört, wenn sie das Antwortmuster av aufweist.
    c. Die Wahrscheinlichkeit P(av) bezeichnet die Wahrscheinlichkeit des Antwortmusters av in der Population. Vereinfacht gesagt ist P(av) die Wahrscheinlichkeit, mit der eine beliebige Person in der Population das Antwortmuster av aufweist.
    d. Die Wahrscheinlichkeit P(av|g) bezeichnet die Wahrscheinlichkeit des Antwortmusters av gegeben eine latente Klassenzugehörigkeit g. Vereinfacht gesagt ist P(av|g) die Wahrscheinlichkeit, mit der eine Person in der Population das Antwortmuster av aufweist, wenn sie der Klasse g angehört.
  • Ein eingesetzter Test enthalte acht dichotome Items.
    a. Wie viele mögliche Antwortmuster Namax gibt es hier?
    b. Wie viele Freiheitsgrade hätte die χ2-Statistik im Falle eines Modells mit vier latenten Klassen?
    c. Sagen wir, der χ2-Wert dieses Modells beträgt 287,6: Welche Schlussfolgerungen ziehen Sie auf der Basis des „klassischen“ χ2-Tests in Bezug auf die Gültigkeit dieses Modells (auf einem Signifikanzniveau von α = 5 %)?

    Lösung

    a. Bei m = 8 dichotomen Items gibt es Namax = 2m = 28 = 256 mögliche Antwortmuster.
    b. Insgesamt stehen s = Namax − 1 = 255 Informationen zur Verfügung. Im Falle eines Modells mit G = 4 Klassen müssten t = G × (m + 1) − 1 = 4 × 9 − 1 = 35 Modellparameter geschätzt werden. Die ꭕ2-Statistik hätte in diesem Fall also df = s – t = 255 – 35 = 220 Freiheitsgrade (s. Gl. 12.10a).
    c. Ein ꭕ2-Wert von 287,6 läge bei einem Signifikanzniveau von α = 5 % im Ablehnungsbereich unter der Nullhypothese (der kritische Wert beträgt ꭕ2krit(df=220) = 255.6; unser Wert liegt darüber). Die Nullhypothese muss also abgelehnt werden; der „klassische“ ꭕ2-Test würde nahelegen, dass das Modell nicht auf die Daten passt
  • Konstruieren und erläutern Sie einen Fall, in dem die Annahme der lokalen stochastischen Unabhängigkeit innerhalb der Klassen verletzt wäre.

    Lösung

    Das wäre z. B. dann der Fall, wenn die Wahrscheinlichkeit, ein Item zu bejahen, nicht nur von der Klassenzugehörigkeit abhängt, sondern auch davon, ob man das vorangegangene Item ebenfalls bejaht hat oder nicht. Konkret: Wenn man das Item „Ich mag gern Falafel“ bejaht, wird man im Anschluss daran das Item „Ich mag Araber“ vermutlich ebenfalls eher bejahen, während dies bei einer anderen Darbietungsreihenfolge nicht unbedingt der Fall sein dürfte. In diesem Fall wären die beiden Items nicht stochastisch voneinander unabhängig, selbst wenn die Personen der gleichen Klasse g angehören.
  • Erläutern Sie, wie (und wieso) sich bei den Informationskriterien die Komplexität eines LCA-Modells niederschlägt? Wie nimmt man auf der Basis von Informationskriterien einen Vergleich zwischen verschiedenen LCA-Modellen vor?

    Lösung

    Bei informationstheoretischen Maßen wie dem AIC, dem BIC und dem CAIC ist es so, dass ihre Werte umso größer werden, je mehr Modellparameter zu schätzen sind (d. h., je größer die Anzahl der latenten Klassen G ist). Zur Erinnerung: Die Anzahl zu schätzender Modellparameter berechnet sich zu t = G × (m + 1) − 1. Sie hängt also maßgeblich von der Anzahl der Klassen ab. Modelle mit vielen latenten Klassen (also „komplexe“ Modelle) passen in der Regel zwar besser auf die Daten, aber sie verletzen auch das Gebot der Sparsamkeit. Daher werden „komplexe“ Modelle bei AIC, BIC und CAIC „bestraft“. Beim indirekten Vergleich verschiedener LCA-Modelle wählt man dasjenige mit dem kleinsten informationstheoretischen Wert, und je größer die Klassenanzahl G, desto größer ist dieser Wert.
  • Was versteht man in der LCA unter einer Fixierungs-, einer Gleichheits- und einer Ordnungsrestriktion? Geben Sie jeweils ein Beispiel.

    Lösung

    Bei einer Fixierungsrestriktion werden einzelne Modellparameter auf einen konkreten Wert fixiert. Beispielsweise könnte man bei einem Zwei-Klassen-Modell den Parameter π1 auf 0.75 fixieren (was bedeuten würde, dass man davon ausgeht, dass Klasse 1 dreimal so groß ist wie Klasse 2).
    Bei einer Gleichheitsrestriktion werden mehrere Modellparameter auf denselben Wert fixiert. Beispielsweise könnte man bei einem Drei-Klassen-Modell bestimmen, dass alle Klassen gleich groß sein sollen (π1 = π2= π3 = 0.33), oder man könnte bestimmen, dass die Antwortwahrscheinlichkeiten innerhalb einer Klasse bei allen Items identisch sind.
    Bei einer Ordnungsrestriktion werden mehrere Modellparameter so geschätzt, dass sie in einer festgelegten Ordnungsrelation zueinander stehen. Beispielsweise könnte man bei einem Drei-Klassen-Modell festlegen, dass alle bedingten Antwortwahrscheinlichkeiten in Klasse 1 größer sind als in Klasse 2 und dass sie dort wiederum größer sind als in Klasse 3.
  • Was sind die zentralen Kennwerte einer exploratorischen Faktorenanalyse (EFA)?

    Lösung

    Zentrale Kennwerte der EFA sind der Eigenwert, die Kommunalität, und die Spezifität. Der Eigenwert zeigt an, wie wichtig ein Faktor ist, da er die über alle Items summierte, erklärte Varianz angibt. Die Kommunalität ist eine Eigenschaft eines Items und gibt an, wie viel Varianz alle Faktoren zusammen für das Item erklären können. Die Spezifität ist der nicht verbliebene, nicht durch die Faktoren erklärte Varianzanteil eines Items.
  • Worin bestehen die Hauptunterschiede zwischen einer Hauptkomponentenanalyse (PCA) und einer Hauptachsenanalyse (PFA)?

    Lösung

    Die PCA ist ein mathematisches Verfahren, das Komponenten extrahiert, die eine maximale interindividuelle Unterschiedlichkeit von Personen widerspiegeln (Varianzmaximierung). Diese Komponenten sind eindeutig, d. h., sie sollten nicht rotiert werden. Die PFA produziert Faktoren, die das Korrelationsmuster der Items erklären sollen. Diese Faktoren sind nicht eindeutig und müssen rotiert werden, bevor eine inhaltliche Interpretation vorgenommen werden kann. Ein technischer Unterschied der beiden Verfahren besteht darin, dass die Eigenwerte für die PCA direkt aus der empirischen Korrelationsmatrix berechnet werden. Für die PFA hingegen, muss eine reduzierte Korrelationsmatrix geschätzt werden, die die Spezifität der Items (also der nicht durch die Faktoren erklärte Anteil) berücksichtigt.
  • Welche Vor- und Nachteile hat eine mit Maximum Likelihood geschätzte exploratorische Faktorenanalyse (ML-EFA) verglichen mit einer Hauptachsenanalyse (PFA)?

    Lösung

    Die ML-EFA hat einen Signifikanztest für die Entscheidung über die Faktorenanzahl (Modelldifferenztest), aber die Daten müssen multivariat normalverteilt sein. Dies ist in der Praxis häufig ein Nachteil, z. B. wenn grobstufige Items verwendet werden, deren Verteilung selten einer multivariaten Normalverteilung folgen. Dieser Nachteil kann durch robuste Schätzungen abgeschwächt werden. Ein deutlicher Vorteil der PFA ist es, dass zumeist mehr Faktoren extrahiert werden können als in der ML-EFA, weil die Modellidentifikation einfacher ist.
  • Was sind die wichtigsten Abbruchkriterien in einer exploratorischen Faktorenanalyse (EFA)?

    Lösung

    - Kaiser-Guttman: Ein Faktor soll mehr Varianz erklären können als ein durchschnittliches Item. Für Korrelationsmatrizen in der PCA ist dies vereinfacht als „Größer-eins“-Kriterium bekannt.
    - Elbow-Kriterium: ein Vergleich der relativen Größe von Eigenwerten anhand eines Scree-Plots. Wenn Daten eine klare Dimensionalität aufweisen, so zeigt der Scree-Plot einen eindeutigen Knick, anhand dessen die notwendige Faktorenzahl bestimmt werden kann.
    - Parallelanalyse: Simulierung eines alternativen Eigenwerteverlaufs unter Annahme unkorrelierter Items. Diese können wiederum in einem Scree-Plot dargestellt werden. Es werden so viele Faktoren extrahiert, wie die Daten größere Eigenwerte produzieren als die simulierten Daten.
    - Modelldifferenztest (ML-EFA): Signifikanztest, mit dem getestet wird, ob eine Hinzunahme eines Faktors zu einer besseren Modell-Daten-Passung führt. Dies erfolgt anhand der Log-Likelihood-Werte von jeweils zwei Vergleichsmodellen, die sich in der Anzahl der Faktoren unterscheiden.
  • Was ist die Faktorenindeterminiertheit? Welches Kriterium wird verwendet, um eine Lösung auszuwählen?

    Lösung

    Es gibt selbst bei Konstanthaltung der Faktorenzahl eine unendliche Anzahl von Faktorenlösungen. Das Kriterium der Einfachstruktur wird verwendet, um eine eindeutige Zuordnung von Items zu Faktoren anzustreben. Anhand der Einfachstrukturen wurden verschiedene Rotationsverfahren entwickelt, die diese Zuordnung ermöglichen.
  • Welche Rotationsverfahren gibt es und worin unterscheiden sie sich?

    Lösung

    - Orthogonale vs. oblique Rotation: Die orhogonale Rotation produziert unkorrelierte Faktoren, während die oblique Rotation eine Korrelation zwischen den Faktoren erlaubt.
    - Innerhalb der orthogonalen Rotationsverfahren kann man verschiedene spezifische Verfahren anhand der Gewichtung der Reihen- und der Spaltenkomplexität unterscheiden (z. B. Varimax- vs. Promax-Rotation).
    - Innerhalb der obliquen Rotationsverfahren kann man direkte und indirekte Rotationsverfahren unterscheiden. Die indirekten Rotationsverfahren verwenden spezielle Transformationsvorschriften für eine orthogonale Initiallösung. Die direkten Verfahren rotieren gleich oblique.
    - Weitere Verfahren sind die Target-Rotation mit einer Zielfigur für die Faktorladungsmatrix (Hybrid aus EFA/CFA) und die Geomin-Rotation.
  • Benennen Sie die wichtigsten Beurteilungsmaße der Güte einer exploratorischen Faktorenanalyse (EFA).

    Lösung

    Die Residualmatrix zeigt an, inwieweit die empirischen Korrelationen durch die modelltheoretischen abgebildet werden können. Positive Werte deuten eine Unterschätzung der empirischen Korrelationen an, negative Werte eine Überschätzung. Als Daumenregel gilt: Viele große Werte (standardisierte Werte größer als 0.1) deuten darauf hin, dass man mehr Faktoren extrahieren sollte. Wenn viele Items in der EFA untersucht werden, ist die Untersuchung der Residualmatrix aufwendig, weil sie viele Einträge enthält.
    Modellfitmaße, wie sie für die CFA entwickelt wurden, können auch für die EFA verwendet werden. Sie geben ähnliche Informationen wie die Residualmatrix, sind aber übersichtlicher zu interpretieren. Als Nachteil der Modellfitmaße kann erachtet werden, dass sie keinen direkten Rückschluss darauf liefern, wo die Fehlspezifikation ist (d. h., dass die Korrelation zwischen den Items nicht durch das Modell erklärt werden kann).
  • Beschreiben Sie den Zusammenhang zwischen empirischer und modellimplizierter Kovarianzmatrix im Rahmen der konfirmatorischen Faktorenanalyse (CFA).

    Lösung

    Die empirische Kovarianzmatrix stellt die Datengrundlage zur Schätzung der Modellparameter eines CFA-Modells dar. Aus den geschätzten Modellparametern kann die modellimplizierte Kovarianzmatrix reproduziert werden. Die Modellparameter werden so geschätzt, dass die Abweichungen zwischen empirischer und modellimplizierter Kovarianzmatrix minimiert werden. Die Abweichung zwischen empirischer und modellimplizierter Kovarianzmatrix stellt außerdem die Grundlage zur späteren Modellevaluation, d. h. zur Beurteilung der Passung zwischen Modell und Daten, dar.
  • Was versteht man unter Messäquivalenz? Welche Formen der Messäquivalenz können unterschieden werden und wozu ist dieses Konzept wichtig?

    Lösung

    Messäquivalenz meint die Gleichartigkeit von Messungen, z. B. von Items zur Messung eines latenten Merkmals, in Bezug auf ihren jeweiligen Anteil an erklärter Varianz und Fehlervarianz. Mindestvoraussetzung ist die Eindimensionalität der Messungen, d. h., dass allen Messungen nur ein latentes Merkmal zugrunde liegt. Am wenigsten streng ist die Stufe der τ-Kongenerität, die nur Eindimensionalität der Messungen voraussetzt. Essentiell τ-äquivalente Messungen weisen einen identischen Anteil an erklärter Varianz auf (gleiche Faktorladungen), essentiell τ-parallele Messungen zusätzlich identische Fehlervarianzanteile (gleiche Faktorladungen und gleiche Fehlervarianzen). Gängige Reliabilitätsmaße haben unterschiedliche Voraussetzungen hinsichtlich der benötigten Messäquivalenz, um präzise Reliabilitätsschätzungen zu liefern. So ist z. B. im Rahmen der Reliabilitätsschätzung einer Skala die τ-Kongenerität der Items Voraussetzung für McDonalds Omega (ω) und die essentielle τ-Äquivalenz der Items Voraussetzung für Cronbachs Alpha (α).
  • Nach welchen Aspekten sollte eine Methode zur Schätzung der Modellparameter ausgewählt werden? Welche Methoden kennen Sie und wie lassen sich diese nach praktischen Gesichtspunkten klassifizieren?

    Lösung

    Die Schätzmethode sollte anhand der Verteilungseigenschaften und des Skalenniveaus der empirischen Daten ausgewählt werden. Es lassen sich Schätzmethoden unterscheiden für
    - kontinuierliche, normalverteilte Variablen: Maximum-Likelihood-Schätzung (ML-Schätzung),
    - kontinuierliche, nicht normalverteilte Variablen: robuste ML-Schätzung,
    - kategoriale und/oder nicht normalverteilte Variablen: robuste ML-Schätzung für kategoriale Daten mit mindestens fünf Abstufungen und nicht zu starker Abweichung von der Normalverteilung, ansonsten robuste Kleinste-Quadrate-Schätzmethoden, z. B. Mean- and Variance-adjusted Unweighted Least Squares (ULSMV) oder Mean- and Variance-adjusted Diagonally Least Squares (DLSMV).
  • Welche Gütekriterien zur Modellevaluation werden unterschieden? Warum sollten diese nicht unkritisch angewendet werden?

    Lösung

    Als inferenzstatistisches Maß der Modellgüte gibt es den χ2-Test sowie mehrere deskriptivstatistische Maße, wie den Root Mean Square Error of Approximation (RMSEA), Standardized Root Mean Square Residual (SRMR), Comparative Fit Index (CFI), Tucker Lewis Index (TLI) bzw. Nonnormed Fit Index (NNFI).Die Gütekriterien bzw. deren Cut-off-Werte zur Modellbeurteilung sind nicht universell gültig, sondern von zahlreichen Einflussfaktoren abhängig, z. B. von dem Stichprobenumfang, der Abweichung der Daten von der Normalverteilung, der Modellkomplexität, dem Ausmaß der Fehlspezifikation des Modells und der Anzahl der Abstufungen der verwendeten Ratingskalen.
  • Wie lassen sich konkurrierende Modelle vergleichen?

    Lösung

    Hierarchisch geschachtelte Modelle, die sich durch Fixierung einzelner Parameter ineinander überführen lassen, können mittels χ2-Differenztest verglichen werden. Ein nicht signifikanter Differenzwert (p > .01) spricht für das restringierte Modell mit mehr Freiheitsgraden, da sich der Modellfit durch die Fixierung der Parameter im Vergleich zum unrestringierten Modell nicht signifikant verschlechtert.Nicht geschachtelte Modelle können anhand deskriptiver, unstandardisierter Maße verglichen werden. Diese sind das Akaike-Informationskriterium (AIC) und das Bayes’sche Informationskriterium (BIC). Präferiert wird das Modell mit dem niedrigeren AIC- bzw. BIC-Wert.
  • Erklären Sie das Konzept der Messinvarianz und dessen Relevanz im Rahmen der Testtheorie.

    Lösung

    Mit Messinvarianz ist gemeint, dass Items in verschiedenen Populationen oder zu verschiedenen Messzeitpunkten dasselbe Konstrukt messen. Es lassen sich verschiedene Stufen der Messinvarianz mit sukzessiv strengeren Annahmen unterscheiden. Messinvarianz ist notwendig, um Gruppenunterschiede bzw. Veränderungen in Gruppenkennwerten (z. B. Mittelwerte, Varianzen) tatsächlich als Gruppenunterschiede bzw. Veränderungen des latenten Merkmals interpretieren zu können. Je nach zutreffender Stufe der Messinvarianz sind unterschiedliche Schlussfolgerungen/Gruppenvergleiche möglich. Im Rahmen der CFA lassen sich folgende Stufen der Messinvarianz untersuchen:
    1. Konfigurale Invarianz: Gleiche Modellstruktur; Voraussetzung für nachfolgende Stufen der Invarianz.
    2. Schwache (metrische) Invarianz: Wie 1., zusätzlich gleiche Faktorladungen. Sind die Faktorladungen invariant, haben die Faktoren jeweils dieselbe Bedeutung und Gruppenvergleiche bezüglich latenter Varianzen und Kovarianzen sind zulässig.
    3. Starke (skalare) Invarianz: Wie 2., zusätzlich gleiche Interzepte. Manifeste Mittelwertunterschiede zwischen den Gruppen sind direkt interpretierbar und lassen sich ausschließlich auf latente Mittelwertunterschiede zurückführen.
    4. Strikte Invarianz: Wie 3., zusätzlich gleiche Fehlervarianzen. Manifeste Varianzunterschiede zwischen den Gruppen sind nur auf Varianzunterschiede auf latenter Ebene zurückzuführen.
    Messinvarianz stellt somit einen weiteren Aspekt der Validität (Misst der Test in verschiedenen Gruppen/zu verschiedenen Zeitpunkten das, was er messen soll?) und Reliabilität (Misst der Test in verschiedenen Gruppen/zu verschiedenen Zeitpunkten mit gleicher Genauigkeit?) eines Tests dar.
  • Was versteht man unter konvergenter Validität, was unter diskriminanter Validität im Rahmen der Multitrait-Multimethod-Analyse (MTMM-Analyse)?

    Lösung

    Konvergente Validität liegt vor, wenn Messungen eines Konstrukts, das mit verschiedenen Methoden erfasst wird, hoch miteinander korrelieren, während diskriminante Validität vorliegt, wenn Messungen verschiedener Konstrukte, die entweder mit derselben Methode oder aber mit unterschiedlichen Methoden erfasst werden, nicht oder nur gering miteinander korrelieren; des Weiteren sollen die Muster der Merkmalsinterkorrelationen sowohl innerhalb als auch zwischen den Methoden (Beurteilern) in etwa gleich sein.
  • Welche Arten von Koeffizienten befinden sich in der MTMM-Matrix?

    Lösung

    In der MTMM-Matrix werden vier verschiedene Arten von Koeffizienten unterschieden: die Monotrait- und die Heterotrait-Korrelationskoeffizienten, die jeweils unter der Monomethod- bzw. der Heteromethod-Bedingung erfasst wurden:- Die Monotrait-Monomethod-Koeffizienten in der Hauptdiagonalen der Matrix (auch „Reliabilitätsdiagonale“ genannt) sind die Reliabilitätskoeffizienten der Messinstrumente.- Die Monotrait-Heteromethod-Koeffizienten in den Nebendiagonalen sind die konvergenten Validitäten der Traits, weshalb die Nebendiagonalen auch als Validitätsdiagonalen bezeichnet werden.- Die Heterotrait-Monomethod-Koeffizienten sind die Korrelationen zwischen verschiedenen Traits, die jeweils mit der gleichen Methode erfasst wurden; sie befinden sich in den „Monomethod-Blöcken“ (Dreiecksmatrizen unterhalb der Reliabilitätsdiagonalen).- Die Heterotrait-Heteromethod-Koeffizienten sind die Korrelationen zwischen verschiedenen Traits, die jeweils mit verschiedenen Methoden erfasst wurden; sie befinden sich in den „Heteromethod-Blöcken“ (Dreiecksmatrizen unterhalb und oberhalb der Validitätsdiagonalen).
  • Wie kann man die konvergente Validität nach den Kriterien von Campbell und Fiske (1959) nachweisen, wie die diskriminante Validität?

    Lösung

    Die konvergente Validität gilt nach den Kriterien von Campbell und Fiske als nachgewiesen, wenn die konvergenten Validitätskoeffizienten signifikant von null verschieden und bedeutsam sind. Die diskriminante Validität gilt als nachgewiesen, wenn die Heterotrait-Koeffizienten, d.h. die Korrelationen verschiedener Konstrukte mit derselben Methode sowie die Korrelationen verschiedener Konstrukte mit unterschiedlichen Methoden niedriger als die konvergenten Validitätskoeffizienten sind; zusätzlichen sollen die Muster der Korrelationskoeffizienten sowohl innerhalb einer Methode (Dreiecksmatrizen unterhalb der Reliablitätsdiagonalen) als auch zwischen den Methoden (Dreieckmatrizen über und unter den Validitätsdiagonalen) etwa gleich sein.
  • Was versteht man unter Methodeneffekten und welche ihrer Entstehungsquellen werden bei der MTMM-Analyse unterschieden?

    Lösung

    Nach Campbell und Fiske setzt sich jede Messung aus einer systematischen Trait-Methoden-Einheit und einem unsystematischen Fehleranteil zusammen, weshalb nicht nur der gemessene Trait, sondern darüber hinaus auch die verwendete Erfassungsmethode als Bestandteil der Messung berücksichtigt werden muss. Der Begriff „Methodeneffekt“ ist ein Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait hinausgehend auf die Korrelationen von Messungen auswirken können. Methodeneffekte können somit alternative Erklärungen für beobachtete Zusammenhänge zwischen Konstrukten liefern, die sich z.B. in überhöhten Korrelationen zwischen verschiedenen Traits äußern können, die mit derselben Methode gemessen wurden. Mögliche Ursachen für Methodeneffekte können Charakteristika von Messinstrumenten sein, von Beurteilern oder von Situationen, in denen Messungen durchgeführt wurden.
  • Welches sind die Vorteile der konfirmatorischen MTMM-Analyse gegenüber der korrelationsbasierten MTMM-Analyse?

    Lösung

    Die konfirmatorische MTMM-Analyse erlaubt eine Trennung von Trait-, Methoden- und Messfehlervarianz, während bei der korrelationsbasierten MTMM-Analyse Trait- und Methodeneffekte in den Schlussfolgerungen über die konvergente und die diskriminante Validität konfundiert sind. Zusätzlich ermöglicht die konfirmatorische Faktorenanalyse eine Überprüfung der Gültigkeit der zugrunde liegenden Annahmen, z. B. die Überprüfung der Eindimensionalität der einzelnen Messungen und der Unkorreliertheit oder Korreliertheit von Methoden- oder Trait-Faktoren, während die korrelationsbasierte MTMM-Analyse lediglich deskriptiv auf dem Vergleich von Korrelationskoeffizienten anhand von Häufigkeitsauszählungen beruht.
  • Welche wesentlichen Vorteile hat das CTC(M–1)-Modell gegenüber dem CTCM-Modell?

    Lösung

    Durch die Wahl einer Referenzmethode erhalten die Faktoren eine klare Bedeutung. Zudem treten bei den Analysen des CTC(M–1)-Modells weniger Schätzprobleme auf als bei den Analysen des CTCM-Modells.
  • Was versteht man unter „Konsistenz“ und „Methodenspezifität“? In welchem Zusammenhang stehen diese beiden Koeffizienten?

    Lösung

    Die Konsistenz (konvergente Validität) gibt an, wie viel Varianz einer manifesten Variablen durch den jeweiligen Trait erklärt wird. Die Methodenspezifität gibt dagegen an, wie viel Varianz einer manifesten Variablen auf spezifische Effekte der jeweiligen Erfassungsmethode (im Anwendungsbeispiel: Beurteiler) zurückgeht.
    Die Summe dieser beiden systematischen Varianzkomponenten ergibt die Reliabilität einer beobachteten Variablen, d. h. die gesamte erklärte Varianz der betreffenden Variable relativiert an der Gesamtvarianz.
  • Wie werden die Methodenfaktoren im CTC(M–1)-Modell interpretiert?

    Lösung

    Methodenfaktoren sind als Residualfaktoren hinsichtlich der Referenzmethode definiert und bilden jeweils diejenigen Aspekte der Nichtreferenzmethoden ab, die nicht mit der gewählten Referenzmethode geteilt werden.
  • Was versteht man unter einem Trait, was unter einem State?

    Lösung

    Konsistente, d. h. zeitlich stabile Merkmale, werden als „Traits“ bezeichnet, während inkonsistente, d. h. zeitlich instabile Merkmale, als „States“ bezeichnet werden.
  • Welche Erweiterung erfolgt in der LST-Theorie gegenüber der KTT?

    Lösung

    Während in der KTT ein Messwert in einen wahren Wert und einen Fehlerwert zerlegt wird, wird in der LST-Theorie eine zusätzliche Zerlegung des wahren Wertes in einen Anteil, der durch den Trait erklärt wird, sowie in einen Anteil, der Einflüsse der Situation und der Interaktion von Person und Situation enthält, berücksichtigt.
  • In welche Koeffizienten wird der Reliabilitätskoeffizient in der LST-Theorie weiter zerlegt, wenn das Multistate-Singletrait-Modell zugrunde gelegt wird?

    Lösung

    Der Reliabilitätskoeffizient wird in den Konsistenzkoeffizienten und den Spezifitätskoeffizienten zerlegt.
  • In welcher Beziehung stehen der Konsistenzkoeffizient und der Spezifitätskoeffizient zueinander?

    Lösung

    Je höher der eine Koeffizient ist, desto niedriger ist der andere. Beide Koeffizienten repräsentieren systematische Anteile der Gesamtvarianz, d. h. jene Anteile, die durch Person und Situation erklärbar sind.
  • Woran erkennt man in einem Multistate-Singletrait-Modell, ob die einzelnen Indikatoren eher einen Trait oder eher einen State messen?

    Lösung

    Mit dem Singletrait-Multistate-Modell wird pro Messgelegenheit eine Zerlegung der wahren Varianz (State-Varianz) der Testhälften in Traitvarianz und State-Residuum-Varianz vorgenommen. Ist die Konsistenz, d. h. die Trait-Varianz relativiert an der Gesamtvarianz der jeweiligen Testhälfte, im Vergleich zur Spezifität, d. h. der State-Residuum-Varianz relativiert an der Gesamtvarianz der jeweiligen Testhälfte, deutlich größer, so misst die Testhälfte eher einen Trait. Bleibt die Größe der Konsistenz jedoch deutlich hinter der Spezifität zurück, so misst die Testhälfte eher einen State.
  • Was wird unter austauschbaren, strukturell unterschiedlichen und gleichwertigen Methoden im Zusammenhang mit MTMM-Modellen verstanden? Was sind die wesentlichen Unterschiede zwischen diesen Methoden?

    Lösung

    Austauschbare Methoden zeichnen sich dadurch aus, dass sie statistisch einer Zufallsauswahl aus der Menge aller möglichen Methoden entsprechen. Befragt man die Teilnehmer eines Trainingsprogramms bezüglich der Qualität des Trainings so sind diese Ratings austauschbar, da alle an der gleichen Maßnahme teilgenommen haben und die gleiche Informationsgrundlage nutzen. Es ist unerheblich, ob ein Teilnehmer beispielsweise als 1., 2. oder 3. Rater in das Modell aufgenommen wird (allerdings muss diese Ordnung in longitudinalen Modellen beibehalten werden – ein Wechsel der Ordnung zwischen den Messgelegenheiten ist nicht zulässig). Im Mittel unterscheiden sich diese Ratings nicht. Strukturell unterschiedliche Methoden zeichnen sich dadurch aus, dass es wesentliche Unterschiede bezüglich der Informationsgrundlage der Methoden gibt. So werden die Trainer und die Teilnehmer des Trainings vermutlich unterschiedliche Blickwinkel einnehmen und unterschiedliche Kriterien zur Einschätzung der Qualität eines Trainings heranziehen. In diesem Fall ist es nicht unerheblich, an welcher Stelle im Datensatz die Trainer zu finden sind (als 1., 2. oder 3. Rater). Strukturell unterschiedliche Methoden können sich im Mittel in ihren Einschätzungen unterscheiden. Unter gleichwertigen Methoden werden im Allgemeinen die Indikatoren einer Trait-Methoden-Einheit verstanden. Es kann vorkommen, dass Nuancen in der Bedeutung von Indikatoren zu statistisch bedeutsamen Unterschieden zwischen den Indikatoren führen. Diese zeigen sich dann in sog. Autokorrelationen. Austauschbare Methoden unterscheiden sich von strukturell unterschiedlichen Methoden dadurch, dass sie einer Zufallsauswahl entsprechen und es unerheblich ist, an welcher Stelle eine austauschbare Methode im Datensatz geführt wird. Gleichwertige Methoden sind ebenfalls austauschbar, allerdings sind die Unterschiede zwischen gleichwertigen Methoden wissenschaftlich oft nicht von Interesse.
  • Worin liegt der Vorteil trait-spezifischer Methodeneffekte in MTMM-Modellen?

    Lösung

    Trait-spezifische Methodeneffekte modellieren Abweichungen vom vorhergesagten Wert, die sich je nach untersuchtem Konstrukt unterscheiden können. Im Gegensatz zu trait-unspezifischen Methodeneffekten müssen sie nicht einer einfaktoriellen Struktur entsprechen, d.h. Beurteiler können die Merkmalsausprägung auf einem Konstrukt/Trait beispielsweise überschätzen, während sie die Ausprägung auf einem anderen Merkmal unterschätzen. Trait-unspezifische Methodeneffekte bedingen generelle Über- oder Unterschätzungen.
  • Worin besteht der Unterschied zwischen LST- und MTMM-Modellen?

    Lösung

    LST-Modelle können als Spezialfall von MTMM-Modellen begriffen werden, wenn Messgelegenheiten als Methoden aufgefasst werden. Die beiden Modellarten unterscheiden sich somit strukturell nicht. Jedoch gibt es Unterschiede bei der Anwendung der Modelle, da LST-Modelle explizit die zeitliche Schwankung von Merkmalsausprägungen modellieren (wichtige Konzepte: Reliabilität, Konsistenz und Messgelegenheitsspezifität), während MTMM-Modelle vornehmlich in Querschnittsanalysen eingesetzt werden (wichtige Konzepte: konvergente und diskriminante Validität).
  • Bei welchen wissenschaftlichen Fragestellungen sollte das Multioccasion-MTMM-, das Multiconstruct-LST- oder das Multimethod-LST-Modell eingesetzt werden?

    Lösung

    Das Multioccasion-MTMM-Modell bietet sich für Untersuchungen von Messfehlereinflüssen und Methodeneinflüssen an. Veränderungen der Methodeneinflüsse können hier gezielt analysiert werden. Das Multiconstruct-LST-Modell fokussiert hingegen auf Messfehlereinflüsse und Einflüsse der Messgelegenheiten. Die situationsspezifische Variabilität von Messwerten steht hier im Vordergrund. Im Multimethod-LST-Modell wird auf eine simultane Zerlegung von Einflüssen des Messfehlers, stabilen und zeitlich variablen Einflüssen sowie von gemeinsamen und methodenspezifischen Einflüssen bei Nichtstandardmethoden fokussiert. Dieses Modell erlaubt die feinste Zerlegung von Messwerten in ihre Bestandteile.
  • Fertig!

    Zurück zu Frage 1
Zurück
Frage 1 von 151
Weiter