Zusammenfassung: Testtheorie und Fragebogenkonstruktion (3. Aufl.)

Testtheorie und Fragebogenkonstruktion (3. Aufl.)

Zurück zur Übersicht

Testtheorie und Fragebogenkonstruktion

Moosbrugger, Helfried

Kelava, Augustin

ISBN

978-3-662-61531-7

Kapitel 1: Einführung und zusammenfassender Überblick

Konstruktionsgesichtspunkte

Kapitel 2: Qualitätsanforderungen an Tests und Fragebogen („Gütekriterien“)
Kapitel 3: Planungsaspekte und Konstruktionsphasen von Tests und Fragebogen
Kapitel 4: Itemkonstruktion und Antwortverhalten
Kapitel 5: Antwortformate und Itemtypen
Kapitel 6: Computerbasiertes Assessment
Kapitel 7: Deskriptivstatistische Itemanalyse und Testwertbestimmung
Kapitel 8: Testwertverteilung
Kapitel 9: Testwertinterpretation, Testnormen und Testeichung
Kapitel 10: Standards für psychologisches Testen
Kapitel 11: Standards für pädagogisches Testen

Testtheorien

Kapitel 12: Testtheorien im Überblick
Kapitel 13: Klassische Testtheorie (KTT)
Kapitel 14: Klassische Methoden der Reliabilitätsschätzung
Kapitel 15: Modellbasierte Methoden der Reliabilitätsschätzung
Kapitel 16: Einführung in die Item-Response-Theorie (IRT)
Kapitel 17: Interpretation von Testwerten in der Item-Response-Theorie (IRT)
Kapitel 18: Überblick über Modelle der Item-Response-Theorie (IRT)
Kapitel 19: Parameterschätzung und Messgenauigkeit in der Item-Response-Theorie (IRT)
Kapitel 20: Computerisiertes adaptives Testen

Validität und Möglichkeiten ihrer Überprüfung

Kapitel 21: Validität von Testwertinterpretationen
Kapitel 22: Latent-Class-Analyse (LCA)
Kapitel 23: Exploratorische Faktorenanalyse (EFA)
Kapitel 24: Konfrmatorische Faktorenanalyse (CFA)
Kapitel 25: Multitrait-Multimethod-Analysen (MTMM-Analysen)
Kapitel 26: Latent-State-Trait-Theorie (LST-Theorie)
Kapitel 27: Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen (MTMM-Modellen) und der Latent-State-Trait-Theorie (LST-Theorie)

Kapitel 1: Einführung und zusammenfassender Überblick

1.1 Zielgruppen und Gliederungsüberlegungen
1.2 Teil I: Konstruktionsgesichtspunkte
1.3 Teil II: Testtheorien
1.4 Teil III: Validität und Möglichkeiten ihrer Überprüfung
1.5 Ergänzende Materialien
1.6 Zusammenfassung

Dieses Kapitel zeigte auf, für welche Zielgruppen das vorgelegte Lehrbuch verfasstwurde und welcher Personenkreis daraus Nutzen ziehen kann. Hierzu wurde diedreiteilige Gliederung der Inhalte vorgestellt – Teil I „Konstruktionsgesichtspunkte“, Teil II „Testtheorien“ und Teil III „Validität und Möglichkeiten ihrer Überprüfung“. Teil I behandelt in zehn Kapiteln die Themen Gütekriterien, Planungsaspekte, Itemkonstruktion, Antwortverhalten, Antwortformate, Itemtypen, computerbasiertes Assessment, Itemanalyse, Testwertverteilungen und -interpretation sowieStandards für psychologisches und pädagogisches Testen. In Teil II werden zunächst die Klassische Testtheorie sowie klassische und modellbasierte Methodender Reliabilitätsschätzung vorgestellt; danach folgt eine Einführung in die ItemResponse-Theorie, die Vorstellung ihrer verschiedenen Modelle, die Parameterschätzung und -interpretation, die Messgenauigkeit sowie die Effizienzsteigerungdurch adaptives Testen. Teil III widmet sich der Validität von Testwertinterpretationen und fokussiert als Methoden ihrer Überprüfung die Latent-Class-Analyse, die exploratorische und die konfirmatorische Faktorenanalyse sowie die Integration von Multitrait-Multimethod-Analyse und Latent-State-Trait-Theorie. DasÜberblickskapitel schließt mit Hinweisen auf lehr- und lernergänzende Materialien ab.

zurück zum Inhalt

Konstruktionsgesichtspunkte

Kapitel 2: Qualitätsanforderungen an Tests und Fragebogen („Gütekriterien“)

2.1 Vom Laienfragebogen zum wissenschaftlichen Messinstrument
2.2 Unterschiedliche Qualitätsanforderungen
2.3 Allgemeine Gütekriterien für Tests und Fragebogen
2.4 Spezielle testtheoriebasierte Gütekriterien für wissenschaftliche Tests und Fragebogen
2.5 Dokumentation der erfüllten Qualitätskriterien
2.6 Zusammenfassung
2.7 Kontrollfragen

Laienfragebogen bestehen häufig aus einer Ansammlung von Fragen, die in keinemunmittelbaren Bezug zueinander stehen; wissenschaftliche Messinstrumente (Testsund Fragebogen) hingegen erfassen zumeist einzelne latente, d. h. nicht direkt beobachtbare Merkmale, die mit mehreren Operationalisierungen dieses Merkmalsin Form der Testitems erschlossen werden.
Die Bandbreite von einem Laienfragebogen bis hin zu einem wissenschaftlichen Fragebogen/Test kann als Kontinuum aufgefasst werden. Ein Fragebogen/Test ist umso wissenschaftlicher, je mehr Qualitätsanforderungen („Gütekriterien“) bei seiner Konstruktion Beachtung finden. Von grundlegender Wichtigkeit fürFragebogen und Tests sind die Durchführungs-, Auswertungs- und Interpretationsobjektivität, aber auch weitere Aspekte wie Ökonomie, Nützlichkeit, Zumutbarkeit, Fairness und Unverfälschbarkeit. Die Berücksichtigung dieser Gütekriterienerfordert keine besonderen testtheoretischen Kenntnisse.
Für wissenschaftliche Tests ist die Erfüllung der Gütekriterien der Reliabilitätund Validität unumgänglich, für deren genaue Beurteilung spezielle testtheoretische Kenntnisse (KTT bzw. IRT und faktorenanalytische Modelle) vorausgesetztwerden. Die Reliabilität befasst sich mit der Messgenauigkeit eines Tests; sie kannmit verschiedenen Verfahren empirisch überprüft werden. Die Validität beschäftigtsich mit der Frage, ob ein Test das Merkmal, das er messen soll, auch wirklichmisst. Hierbei sind die Aspekte der Augenschein-, Inhalts-, Kriteriums- und Konstruktvalidität von Bedeutung. In jüngerer Zeit verschiebt sich der Betrachtungsfokus mehr und mehr auf den „argumentationsbasierten Ansatz“, um festzustellen,mit welcher Berechtigung extrapolierende Schlussfolgerungen aus den Testergebnissen gezogen werden können.

zurück zum Inhalt

Kapitel 3: Planungsaspekte und Konstruktionsphasen von Tests und Fragebogen

3.1 Spezifkation des interessierenden Merkmals
3.2 Testarten
3.3 Geltungsbereich und Zielgruppe
3.4 Testlänge und Testzeit
3.5 Testadministration
3.6 Struktureller Testaufbau
3.7 Konstruktionsphasen im Überblick
3.8 Zusammenfassung
3.9 Kontrollfragen

In diesem Kapitel wurde der aufwendige Prozess einer Testentwicklung skizziert,bei dem zwischen einer Planungs- und einer Konstruktionsphase unterschiedenwird. Die Planungsphase beginnt mit der Eingrenzung und Definition des Merkmals, das erfasst werden soll. Ein Überblick über verschiedene Testarten gibt einenEinblick in die Breite möglicher Tests. Wesentliche Entscheidungen über die geplante Testkonstruktion betreffen sodann den Geltungsbereich und die Zielgruppe,für die der Test entwickelt werden soll, die Testlänge und -zeit, auf die der Testausgelegt werden soll, sowie den strukturell typischen Testaufbau.
In der Konstruktionsphase werden die wesentlichen Aspekte, die bei der Planung Berücksichtigung gefunden haben, konkret umgesetzt: Sie beginnt mit derFormulierung der Instruktion, der Testaufgaben/Items und der Wahl des Antwortformats. Eine erste qualitative Beurteilung erlaubt einen Einblick in die Verständlichkeit der Items; eine „Pilotstudie“ ermöglicht die Berechnung erster statistischerKennwerte; die darauffolgende empirische Erprobung („Evaluationsstudie“) liefertAussagen zur Passung mit dem zugrunde gelegten psychometrischen Modell undmit externen Validitätskriterien, die zusammen die Voraussetzungen für die Anwendbarkeit des Tests und für die Belastbarkeit der Testergebnisse bilden. Dieabschließend zu erstellenden Normentabellen erlauben eine standardisierte Prozentrangaussage über die Merkmalsausprägung einer Testperson im Vergleich zuden Ausprägungen in der Eichstichprobe/Zielpopulation. In den folgenden Kapiteln dieses Bandes wird im Detail auf die hier skizzierten Konzepte eingegangen.

zurück zum Inhalt

Kapitel 4: Itemkonstruktion und Antwortverhalten

4.1 Ziele und Aspekte der Itemkonstruktion
4.2 Itemstamm und Zielgruppe
4.3 Vorgehensweisen bei der Itemgenerierung
4.4 Kategorisierung von Frageformen
4.5 Gesichtspunkte der Itemformulierung
4.6 Kognitive und motivationale Prozesse bei der Itembearbeitung
4.7 Response-Bias als Fehlerquelle beim Antwortverhalten
4.8 Computerunterstützte Itemkonstruktion
4.9 Zusammenfassung
4.10 Kontrollfragen

Die Itemgenerierung verfolgt das Ziel, repräsentative, inhaltsvalide Operationalisierungen des interessierenden Merkmals zu finden und diese in entsprechenden Aufgaben/Items abzubilden. Dazu wurde auf typische Vorgehensweisen eingegangen sowie auf wichtige Aspekte, die bei der Formulierung der Items beachtetwerden müssen, vor allem auf die sprachliche Verständlichkeit, die Eindeutigkeit des Iteminhalts und die Vermeidung bestimmter Iteminhalte. Basierend aufder Erörterung von typischen kognitiven und motivationalen Prozessen bei derItembeantwortung wurden verschiedene potentielle Störvariablen des Antwortverhaltens (Response-Bias, Antwortstil, Antworttendenz, Soziale Erwünschtheit, Akquieszenz, Tendenz zur Mitte und Effekte der Itemreihenfolge) näher erläutert.Diese Störvariablen sollten bereits bei der Itemgenerierung mitberücksichtigt werden, da sie das Ergebnis von Tests und Fragebogen verfälschen können; Möglichkeiten zur Verringerung ihres Einflusses wurden diskutiert.

zurück zum Inhalt

Kapitel 5: Antwortformate und Itemtypen

5.1 Antwortformate im Überblick
5.2 Aufgaben mit freiem Antwortformat
5.3 Aufgaben mit gebundenem Antwortformat
5.4 Aufgaben mit atypischem Antwortformat
5.5 Entscheidungshilfen für die Wahl des Aufgabentyps
5.6 Computerunterstützte Antwortformate
5.7 Zusammenfassung
5.8 Kontrollfragen

Inhalt dieses Kapitels waren verschiedene Möglichkeiten, wie die Antworten derTestpersonen auf die Testaufgaben/-fragen erfasst und kodiert werden können(„Antwortformate“). Daraus ergeben sich verschiedene Itemtypen. Unter Beachtung von Vor- und Nachteilen wurde das freie Antwortformat dem gebundenenAntwortformat gegenübergestellt. Bei Letzterem sind vor allem Ordnungs-, Auswahl- sowie kontinuierliche und diskrete Beurteilungsaufgaben als Itemtypenweitverbreitet, wobei Letztere auf „Ratingskalen“ beantwortet werden. UnterHeranziehung zahlreicher Beispiele wurden viele praxisrelevante Konstruktionsaspekte erörtert und unter Bezug auf verschiedene Zielvorgaben diskutiert. MitEntscheidungshilfen für die Wahl des Aufgabentyps wurde das Kapitel abgerundet.

zurück zum Inhalt

Kapitel 6: Computerbasiertes Assessment

6.1 Computerbasiertes Assessment: Defnition und Übersicht
6.2 Itementwicklung: Antwortformat, Stimulus und Antwortbewertung
6.3 Testentwicklung: Testzusammenstellung und -sequenzierung
6.4 Testadministration
6.5 Datenanalyse und Rückmeldung
6.6 Zusammenfassung
6.7 EDV-Hinweise
6.8 Kontrollfragen

Das Kapitel enthält einen Überblick, wie mithilfe von Computern im weiteren Sinne Tests und Fragebogen realisiert und dabei die Möglichkeiten von klassischenPaper-Pencil-Verfahren erweitert bzw. deutlich überschritten werden können. Diesbetrifft beispielsweise die Entwicklung computerbasierter Items mit innovativenAntwortformaten und multimedialen Stimuli sowie die automatische Bewertungdes gezeigten Antwortverhaltens. Des Weiteren ermöglicht der Computer eine flexiblere Testzusammenstellung, d. h., Items können automatisch unter Berücksichtigung inhaltlicher und statistischer Kriterien sequenziert werden. Außerdem behandelt wurde die Frage, wie durch Logfiledaten das Analysepotential gesteigertund durch die automatische und zeitnahe Rückmeldung von Testdaten beispielsweise das Lernen unterstützt werden kann. Das Kapitel schließt mit Hinweisen aufeinschlägige und frei zugängliche Softwarelösungen für Assessmentzwecke.

zurück zum Inhalt

Kapitel 7: Deskriptivstatistische Itemanalyse und Testwertbestimmung

7.1 Einleitung
7.2 Erstellung der Datenmatrix
7.3 Schwierigkeitsanalyse
7.4 Itemvarianz
7.5 Vorläufge Testwertermittlung
7.6 Trennschärfe
7.7 Itemselektion auf Basis von Itemschwierigkeit, Itemvarianz und Itemtrennschärfe
7.8 Testwertbestimmung und Itemhomogenität
7.9 Zusammenfassung
7.10 EDV-Hinweise
7.11 Kontrollfragen

Die deskriptivstatistische Itemanalyse ist eine erste empirische Erprobung neu konstruierter Items an einer ersten Stichprobe („Pilotstudie“). Als deskriptive Maße zur Beurteilung der Itemqualität werden in der Regel die Itemschwierigkeit (Abschn. 7.3), die Itemvarianz (Abschn. 7.4) und nach erfolgter vorläufigerTestwertberechnung (Abschn. 7.5) die Itemtrennschärfe (Abschn. 7.6) berechnet.
Diese drei Maße werden verwendet, um zu einem (groben) psychometrischenUrteil zu gelangen, welche Items in einem neu konstruierten Test oder Fragebogen verbleiben können und welche Items nicht. Bei der Beurteilung stehen ausSicht der Itemkonstruktion vor allem zwei Aspekte im Vordergrund: Erstens sollendie konstruierten Items differenzieren können. Das heißt, die Items sollten geeignet sein, die Unterschiedlichkeit der Testpersonen zu erfassen. Hierüber geben dieItemschwierigkeit und die Itemvarianz Auskunft. Zweitens sollen die Items, diezu einem Test(summen)wert zusammengefasst werden, nach Möglichkeit ein unddasselbe Merkmal erfassen. Als grobes Beurteilungsmaß der Ähnlichkeit zwischenItemwerten und Testwert eignen sich die Itemtrennschärfen. Beide Aspekte werden anhand der drei Maße zu einem integrativen Urteil über die psychometrischeEignung der Items verbunden. Zusätzlich werden gleichermaßen inhaltlich-theoretische Überlegungen unternommen, um zu entscheiden, ob

a. Items im Test oder Fragebogen verbleiben können oder
b. Items entfernt bzw. nachgebessert werden müssen oder
c. vielleicht weitere Items neu zu konstruieren sind, um einen zunächst nicht ausreichend genau erfassten Merkmalsbereich mit weiteren Items abzudecken.

Nachdem diese Analysen durchgeführt worden sind, werden die Items ausgewählt/selektiert, die sich am besten für den Fragebogen oder den Test zur Erfassungdes interessierenden Merkmals bzw. der interessierenden Merkmale eignen. DieItemselektion soll sicherstellen, dass die empirisch-deskriptiv erprobte Test- oderFragebogenfassung nur solche Items enthält, die eine geeignete Schwierigkeit, einehohe Varianz und eine hinreichende Trennschärfe aufweisen. Items, deren Trennschärfe nahe bei null liegt, sind zur Erfassung eines eindimensionalen Merkmalsungeeignet. Die Durchführung der Itemselektion macht eine erneute Bestimmungder Testwerte notwendig. Doch auch die neu bestimmten Testwerte sind noch nichtendgültig, solange nicht durch Anwendung testtheoretischer Modelle (s. „Testtheorien“ in Teil II dieses Bandes) eine Dimensionalitätsüberprüfung vorgenommenwird, die eine wesentlich genauere Beurteilungen der Item- und Testqualität ermöglicht.

zurück zum Inhalt

Kapitel 8: Testwertverteilung

8.1 Einleitung
8.2 Zentrale Tendenz der Testverteilung
8.3 Streuung der Testwertverteilung
8.4 Beurteilung der Verteilungsform
8.5 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung
8.6 Normalisierung der Testwertverteilung
8.7 Zusammenfassung und weiteres Vorgehen
8.8 EDV-Hinweise
8.9 Kontrollfragen

Über die deskriptivstatistische Itemanalyse hinausgehend liefert die Analyse derTestwertverteilung Informationen über die zu einem Test zusammengefasstenItems. Mit den Maßen der zentralen Tendenz und der Streuung sowie von Schiefeund Exzess lassen sich die wesentlichen Eigenschaften der Testwertverteilunguntersuchen. Abweichungen der Testwertverteilung von der Normalverteilungerlauben Rückschlüsse auf ungünstige Zusammensetzungen der Itemschwierigkeiten, die im Zuge von Testrevisionen ausgeglichen werden können. In begründetenFällen kann eine Normalisierung der Testwerte vorgenommen werden.

zurück zum Inhalt

Kapitel 9: Testwertinterpretation, Testnormen und Testeichung

9.1 Testwertbildung und Testwertinterpretation
9.2 Normorientierte Testwertinterpretation
9.3 Kriteriumsorientierte Testwertinterpretation
9.4 Integration von norm- und kriteriumsorientierter Testwertinterpretation
9.5 Normdiferenzierung
9.6 Testeichung
9.7 Zusammenfassung mit Anwendungsempfehlungen
9.8 EDV-Hinweise
9.9 Kontrollfragen

Real- vs. Idealnorm
Ob ein Testwert norm- (Abschn. 9.2) oder kriteriumsorientiert (Abschn. 9.3) interpretiert werden kann, d. h., ob eine Realnorm in Form einer Bezugsgruppe (z. B. eine Prozentrangnorm) oder eine Idealnorm in Form eines Kriteriums (z. B.Lernziel) angelegt wird, hängt von den diagnostischen Zielsetzungen ab, für dieein Test geeignet sein soll.

Zielgruppe und Eichstichprobe
Vor der Bildung einer Bezugsgruppennorm (z. B. Prozentrangnorm, Abschn.9.2) muss die Zielpopulation (Abschn. 9.6.1) definiert werden, d. h. diejenigePopulation, mit der ein Testanwender den Testwert einer Testperson in der Regel vergleichen will. Um eine repräsentative Stichprobe aus der Zielpopulation für dieTesteichung zu gewinnen, kann eine Quoten- bzw. geschichtete Stichprobe odereine Zufallsstichprobe gezogen werden. Liegt zunächst nur eine Ad-hoc-Stichprobe vor, sollte nachträglich die Bildung einer Quotenstichprobe für eine bestimmteZielpopulation angestrebt werden (Abschn. 9.6.2), damit geeignete Normen imTestmanual dokumentiert werden können (Abschn. 9.6.3)

Testnormen bei ordinal- vs. intervallskalierten Testwerten
Falls die Testwertvariable nicht intervallskaliert ist, kommt für eine normorientierte Testwertinterpretation nur die Bildung einer Prozentrangnorm (Abschn.9.2.1) infrage, die die relative Position eines Testwertes in der aufsteigend geordneten Rangreihe der Testwerte in der Bezugsgruppe angibt. Falls hingegen eineintervallskalierte Testwertvariable vorliegt, ist auch die Bildung einer zv-Norm (Abschn. 9.2.2) möglich, die für einen Testwert seinen Abstand zum Mittelwertder Bezugsgruppe in Einheiten der Standardabweichung angibt. Wenn eine intervallskalierte Testwertvariable die Voraussetzung der Normalverteilung erfüllt, ist die zv -Norm insbesondere von Vorteil, da anhand der tabellierten Standardnormalverteilung die prozentuale Häufigkeit der z-Werte innerhalb beliebiger Wertebereiche bestimmt werden kann

Kriteriumsorientierte Interpretation anhand eines externen Kriteriums oder der Aufgabeninhalte
Einekriteriumsorientierte Interpretation eines Testwertes (Abschn. 9.3) kann dadurch vorgenommen werden, dass anhand eines zusätzlich zu erhebenden externen Kriteriums auf der Testwertskala ein Schwellenwert bestimmt wird, dessenÜberschreitung anzeigt, dass das Kriterium erfüllt ist (Abschn. 9.3.1). Die ROC-Analyse stellt eine Möglichkeit dar, einen Schwellenwert empirisch zu definieren.Alternativ kann eine kriteriumsorientierte Interpretation anhand der Aufgabeninhalte erfolgen (Abschn. 9.3.2). Dieses Vorgehen stellt jedoch deutlich höhereAnforderungen an die Aufgabenkonstruktion, da eine genaue inhaltliche Vorstellung von der Grundgesamtheit der für das zu erfassende Merkmal relevanten Aufgaben bestehen muss und die Testaufgaben eine repräsentative Stichprobe aus derAufgabengrundgesamtheit darstellen müssen. Der Testwert stellt in diesem Fallunmittelbar einen Indikator für die Merkmalsausprägung dar, da von der Leistung in der Aufgabenstichprobe auf die Leistung in der Aufgabengrundgesamtheitgeschlossen werden darf. Verfahren zur Generierung repräsentativer Aufgabenstichproben werden von Klauer (1987a) beschrieben

zurück zum Inhalt

Kapitel 10: Standards für psychologisches Testen

10.2 Standards für die Entwicklung und Evaluation psychologischer Tests
10.3 Standards für die Übersetzung und Anpassung psychologischer Tests
10.4 Standards für die Anwendung psychologischer Tests
10.5 Standards für die Qualitätsbeurteilung psychologischer Tests
10.6 Zusammenfassung
10.7 Kontrollfragen

Teststandards sind vereinheitlichte Leitlinien, in denen sich allgemein anerkannteZielsetzungen zur Entwicklung und Evaluation (Testkonstruktion), Übersetzungund Anpassung (Testadaptation) sowie Durchführung, Auswertung und Interpretation (Testanwendung) psychologischer Tests widerspiegeln. Verschiedenenationale und internationale Teststandardkompendien haben mit unterschiedlicherSchwerpunktsetzung solche Teststandards zusammengetragen (SEPT, DIN 33430,ITC-G-TA, ITC-G-TU, ITC-G-CB).
Die Überprüfung der Einhaltung der Standards bei der Testentwicklung und-evaluation (Qualitätsbeurteilung psychologischer Tests) erfolgt in Deutschlandunter Berücksichtigung der DIN 33430 mit dem TBS-TK, das die standardisierteErstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkatalogs vorsieht. Um die Standards bei der Testanwendung sicherzustellen,wurden vom Testkuratorium im Auftrag der Föderation Deutscher Psychologenvereinigungen Personenlizenzierungen nach DIN 33430 eingeführt.

zurück zum Inhalt

Kapitel 11: Standards für pädagogisches Testen

11.1 Die „Standards for Educational and Psychological Testing“ im Überblick
11.2 Domänen, Ziele und Designs pädagogischen Testens
11.3 Validitätsstandards und pädagogisches Testen (Standards 1.0–1.25)
11.4 Standards zur Reliabilität (Standards 2.10–2.20)
11.5 Schwellenwerte und ihre Bedeutung für die Testwertinterpretation
11.6 Weitere Implikationen der Standards für pädagogisches Testen
11.7 Standards zum Management und zur Archivierung von Daten pädagogischen Testens
11.8 Standards für Forschungsethik
11.9 Zusammenfassung
11.10 Kontrollfragen

Die Standards for Educational and Psychological Testing bieten eine umfangreiche Darstellung von über 240 Standards, die zur Entwicklung, Durchführung undEvaluation pädagogischer und psychologischer Tests praktische Handlungsempfehlungen geben.
Zur Berücksichtigung der Besonderheiten der Zielsetzung und Entwicklungpädagogischer Tests können die Standards insbesondere zu Fragen der Validitäteinen Beitrag leisten. Weitere Implikationen aus den Standards für Anforderungen an pädagogisches Testen lassen sich u. a. zum Standardsetting, zur Fairness,zur Transparenz des Untersuchungsgegenstands und Interpretation, zu Formen derDiagnostik, zum Feedback sowie zum Datenmanagement finden. Unabhängig vonden Standards gibt die AERA mit dem „Code of Ethics“ ethische Richtlinien zuFragen der Forschungsethik heraus, denen aktuell eine immer größere Bedeutungzukommt.

zurück zum Inhalt

Testtheorien

Kapitel 12: Testtheorien im Überblick

12.1 Einleitung
12.2 Klassische Testtheorie (KTT)
12.3 Item-Response-Theorie (IRT)
12.4 Klassische Testtheorie (KTT) vs. Item-Response-Theorie (IRT)
12.5 Zusammenfassung
12.6 Kontrollfragen

Die am häufigsten verwendeten Testtheorien in der Psychometrie sind die KTTund die IRT. Beide Theorien verfolgen sehr ähnliche Ziele bei der Konstruktion und Interpretation von eindimensionalen und mehrdimensionalen Testverfahrenzur Messung individueller Merkmalsausprägungen.
Die KTT wird primär für Testitems mit kontinuierlichem (oder zumindest vielstufigem) Antwortformat angewendet und konzentriert sich bei der Messung individueller Merkmalsausprägungen auf die Gewinnung von Testwerten zur Schätzung der True-Scores sowie deren Reliabilität und Validität. Die IRT hingegenwird primär für Testitems mit dichotomen (oder auch polytom geordneten) Antwortkategorien angewendet und hat ihren Schwerpunkt auf der Schätzung latenter Personenparameter, um Rückschlüsse auf interessierende Einstellungs-, Persönlichkeits- oder Fähigkeitsmerkmale zu ziehen, sowie latenter Itemparameter.
In den letzten Jahrzehnten haben sich die KTT und die IRT aufgrund vielerGemeinsamkeiten zunehmend angenähert. Aufgrund einiger charakteristischer Unterschiede haben beide Theorien ihre eigenständige Berechtigung und ergänzeneinander vorteilhaft

zurück zum Inhalt

Kapitel 13: Klassische Testtheorie (KTT)

13.1 Einleitung
13.2 Grundannahmen der KTT
13.3 Zerlegung einer Itemvariablen in True-Score- und Messfehlervariable
13.4 Testwertvariable Y und Testwerte Y_v
13.5 Das Gütekriterium der Reliabilität
13.6 Messmodelle zur Schätzung der Reliabilität
13.7 Empirisches Beispiel
13.8 Schätzung individueller Merkmalsausprägungen
13.9 Erweiterung der KTT
13.10 Zusammenfassung
13.11 EDV-Hinweise
13.12 Kontrollfragen

Die KTT liefert die theoretischen Grundlagen zur Konstruktion psychologischerTestverfahren mit in der Regel kontinuierlichen Itemvariablen sowie zur Interpretation der Testwerte, die durch Aufsummierung der Itemwerte gewonnen werden. Dabei stellt die Aufteilung der beobachteten Messwerte in einen wahren Wert undeinen Fehlerwert den zentralen theoretischen Ausgangspunkt dar. Liegen mehrereMessungen desselben Merkmals vor, lassen sich aufbauend auf der KTT verschiedene eindimensionale Messmodelle formulieren, die auf unterschiedlich restriktiven, testbaren Annahmen basieren.
Anhand dieser Messmodelle kann mithilfe der CFA überprüft werden, welche Stufe der Messäquivalenz den Itemvariablen (allgemein: den Messungen) zugrunde liegt. Zur Beurteilung der Messgenauigkeit einer Testwertvariablen könnenabhängig von der gegebenen Stufe der Messäquivalenz verschiedene Reliabilitätskoeffizienten geschätzt werden, die zusätzlich durch ein Konfidenzintervall ergänztwerden sollten.
Zur Schätzung der individuellen Merkmalsausprägungen werden zumeist manifeste Testwerte verwendet. Zur individualdiagnostischen Beurteilung eines Testwertes bzw. zur Beurteilung kritischer Differenzen zwischen mehreren Testwertensollte auf eine hohe Reliabilität und schmale Konfidenzintervalle geachtet werden.Alternativ können latente Personenwerte Verwendung finden, die mittels CFA alsFactor-Scores geschätzt werden können.
Neben eindimensionalen Modellen gibt es inzwischen auch mehrdimensionaleAnsätze wie die Generalisierbarkeitstheorie, die auf der KTT aufbauen und explizitmehrere latente Variablen als systematische Varianzquellen berücksichtigen.

zurück zum Inhalt

Kapitel 14: Klassische Methoden der Reliabilitätsschätzung

14.1 Was ist Reliabilität?
14.2 Grundlagen
14.3 Cronbachs Alpha
14.4 Test-Test-Korrelation
14.5 Vergleichbarkeit der Reliabilitätsmaße
14.6 Einfüsse auf die Reliabilität
14.7 Anzustrebende Höhe der Reliabilität
14.8 Auswahl eines geeigneten Reliabilitätsmaßes
14.9 Zusammenfassung
14.10 EDV-Hinweise
14.11 Kontrollfragen

Die klassischen Reliabilitätsmaße haben die Testkonstruktion und die Psychometrie für lange Zeit stark bestimmt. Sie sind historisch wertvoll, da sie zur Wissenschaftlichkeit der Testkonstruktion maßgeblich beigetragen haben, indem sie eineBestimmung der Messgenauigkeit psychologischer Tests ermöglicht haben, diefür Messinstrumente in anderen Forschungsbereichen, z. B. der Physik, Standardist. Die Schätzung der Reliabilität basiert bei den klassischen Reliabilitätsmethoden auf den Varianzen und Kovarianzen der Itemvariablen innerhalb eines Tests (Cronbachs Alpha) oder der Korrelation der Testwertvariablen mehrerer Messungen (Retest-, Paralleltest-, Split-Half-Reliabilität).
Allerdings schätzen die klassischen Maße die Reliabilität nur dann adäquat,wenn strenge Voraussetzungen der Eindimensionalität und Messäquivalenz erfüllt sind. Da diese strengen Voraussetzungen in der Praxis oftmals nicht gegeben sind,sollten vorzugsweise modellbasierte Reliabilitätskoeffizienten verwendet werden (Kap. 15). Diese beruhen auf weniger strengen Voraussetzungen und stellen daher oftmals eine sinnvolle Alternative zu den klassischen Reliabilitätsmaßen dar. Die heutige Verbreitung und Anwendbarkeit entsprechender Software zur modellbasierten Reliabilitätsschätzung machen dies inzwischen möglich.

zurück zum Inhalt

Kapitel 15: Modellbasierte Methoden der Reliabilitätsschätzung

15.1 Klassische vs. modellbasierte Reliabilitätsschätzung
15.2 Eindimensionale Modelle
15.3 Mehrdimensionale Modelle
15.4 Omega-Koefzienten im Rahmen weiterer Faktormodelle
15.5 Bewertung der modellbasierten Reliabilitätsschätzung
15.6 Reliabilitätsschätzung ordinalskalierter Variablen
15.7 Erste Empfehlungen zur Beurteilung der Omega-Koefzienten
15.8 Zusammenfassung
15.9 EDV-Hinweise
15.10 Kontrollfragen

Die modellbasierten Methoden der Reliabilitätsschätzung beruhen im Vergleichzu den klassischen Methoden der Reliabilitätsschätzung auf weniger strengen Annahmen und haben den Vorteil, dass zusammen mit der Parameterschätzung die Voraussetzungen und Modellannahmen der jeweiligen Reliabilitätskoeffizientenanhand der CFA explizit überprüft und Modelle somit auch als nicht passend verworfen werden können. Die Modellannahmen beziehen sich neben der grundsätzlichen Frage der Dimensionalität eines Tests auf die Stufe der Messäquivalenzsowie auf die Unkorreliertheit der Fehlervariablen. „Modellbasiert“ bedeutet somit zum einen, dass die Modelle und Annahmen explizit überprüft werden, und zum anderen, dass die Reliabilitätskoeffizienten im Rahmen der CFA anhand der Modellparameter geschätzt werden.

Für eindimensionale Tests wurden Cronbachs Alpha, McDonalds Omega undBollens Omega sowie für mehrdimensionale Tests verschiedene Omega-Koeffizienten vorgestellt, die auf einer ungewichteten Aufsummierung der Itemwerte des gesamten Tests oder der Itemwerte der einzelnen Subskalen eines mehrdimensionalen Tests beruhen. Für die Testwerte mehrdimensionaler Tests können drei Reliabilitätskoeffizienten anhand der Parameter eines Bifaktormodells berechnet werden. Omega-total (ω_T) gibt Auskunft darüber, wie hoch der Anteil der totalen wahren Varianz an dergesamten Varianz eines Tests ist, während sich Omega-hierarchisch (ω_H) nur aufden Anteil der wahren Varianz bezieht, der durch den Generalfaktor bedingt ist. DieSumme aller subskalenspezifischen Varianzanteile bezogen auf die Gesamtvarianzwird als Omega-spezifisch (ω_S) bezeichnet.Für die Subskalenwerte im Rahmen eines mehrfaktoriellen Modells lassen sichebenfalls jeweils drei Reliabilitätskoeffizienten berechnen. SubskalenspezifischeKoeffizienten sind folgende:

Omega-Subskala-total (ω_Skala-T) zur Schätzung der totalen wahren Varianz ander Gesamtvarianz der Subskala
Omega-Subskala-hierarchisch (ω_Skala-H) zur Schätzung des erklärten Varianzanteils an der Gesamtvarianz der Subskala, der nur auf den Generalfaktor zurückgeht
Omega-Subskala-spezifisch (ω_Skala-S) zur Schätzung des erklärten Varianzanteils an der Gesamtvarianz einer Subskala, der nur auf den spezifischen Faktorzurückgeht

Alle modellbasierten Reliabilitätsschätzungen können als Punktschätzungen vorteilhaft durch Intervallschätzungen ergänzt werden. Als empirisches Anwendungsbeispiel wurde das mehrdimensionale Persönlichkeitsmerkmal Perfektionismus, gemessen mit der MPS-F, verwendet. Die Schätzung der Varianzkomponenten anhand der CFA und die Berechnung der verschiedenen Omega-Koeffizienten wurden sowohl für die verkürzte eindimensionale Skala (Concern over Mistakes) als auch für den verkürzten mehrdimensionalenTest mit den drei Subskalen Personal Standards (PS), Doubts about Actions (DA)und Concern over Mistakes (CM) demonstriert.

zurück zum Inhalt

Kapitel 16: Einführung in die Item-Response-Theorie (IRT)

16.1 Grundüberlegungen zur IRT
16.2 Latent-Trait-Modelle
16.3 Dichotomes Rasch-Modell (1PL-Modell)
16.4 2PL-Modell nach Birnbaum
16.5 3PL-Modell nach Birnbaum
16.6 Weitere IRT-Modelle
16.7 Zusammenfassung
16.8 EDV-Hinweise
16.9 Kontrollfragen

In diesem Kapitel wurde in die IRT eingeführt. Die grundlegende testtheoretische Idee der IRT besteht darin, die Wahrscheinlichkeit eines gezeigten Antwortverhaltens („Response“) einer Person bei einem Item (z. B. das Bejahen/Nichtbejaheneiner Aussage in einem Einstellungstest bzw. das Lösen/Nichtlösen einer Aufgabein einem Leistungstest) in Form einer (zumeist einfachen) Wahrscheinlichkeitsfunktion zu beschreiben. Das Kapitel stellte zunächst verschiedene Grundüberlegungen zu dichotomen Itemformaten und ihren Zusammenhängen dar. Danach erfolgt – in Abgrenzung zu Latent-Class-Modellen – eine Einführung in LatentTrait Modelle. Das dichotome Rasch-Modell (1PL-Modell) als sehr grundlegendes Modell der IRT wurde vorgestellt. Dies umfasste die Modellgleichung und ihre Bestandteile wie Personenparameter und Itemparameter sowie die Funktionsweise der IC-Funktion. In diesem Abschnitt wurden außerdem Konzepte der sog. Rasch-Homogenität, Joint Scale, Interpretationen von Item- und Personenparametern, Parameternormierung, Spezifische Objektivität, Parameterschätzung, Itemund Testinformation sowie Modellpassung ausführlich behandelt. Das sog. 2PL-Modell und 3PL-Modell nach Birnbaum und ihre Eigenschaften wurden danachvorgestellt. Insbesondere die Eigenschaften variierender Diskriminationsparameter und Rateparameter wurden beschrieben. Abschließend wurde ein Ausblick aufweitere IRT-Modelle gegeben.

zurück zum Inhalt

Kapitel 17: Interpretation von Testwerten in der Item-Response-Theorie (IRT)

17.1 Vorbemerkungen
17.2 Grundlagen kriteriumsorientierter Testwertinterpretation in IRT-Modellen
17.3 Defnition von Kompetenzniveaus zur kriteriumsorientierten Testwertinterpretation
17.4 Verwendung von Post-hoc-Analysen und A-priori-Merkmalen zur Testwertbeschreibung
17.5 Zusammenfassung
17.6 EDV-Hinweise
17.7 Kontrollfragen

Im vorliegenden Kapitel stand die Anwendung von IRT-Modellen im Rahmen derempirischen Bildungsforschung im Fokus. Bei großen Schulleistungsstudien werden spezifische Vorteile der IRT genutzt. Das Matrix-Sampling von Testaufgaben ermöglicht es, jeden Schüler nur eine Stichprobe aus einer Gesamtheit homogener Testaufgaben bearbeiten zu lassen. Die IRT wird auch genutzt, um parallele Testformen zu erstellen, indem Items eines IRT-skalierten Tests auf mehrere Testformen aufgeteilt werden. Ankeritems dienen dazu, die Items der Testformen auf einer Skala mit einer gemeinsamen Metrik zu verankern. Testwerte, die für Personen nach Bearbeitung unterschiedlicher Testformen geschätzt werden, können somiteinander verglichen werden. Computerisierte adaptive Tests legen einer Person aus einer großen Anzahl kalibrierter Items im Verlauf des Testens immer dasjenige Item vor, das für die jeweilige Schätzung der Personenfähigkeit die höchste Iteminformation aufweist. Auf diese Weise können die Messgenauigkeit maximiert und der Zeitaufwand minimiert werden.
Ein wesentlicher Vorteil von IRT-Modellen ist die Möglichkeit der kriteriumsorientierten Interpretation IRT-basierter Testwerte. Diese wird durch die gemeinsame Verortung von Itemschwierigkeiten und Personenfähigkeiten auf einer Joint Scale durchführbar. Dadurch ist es möglich, individuelle Testwerte durch ihre Abstände zu Itemschwierigkeiten zu interpretieren. Eine eindeutige relative Lokalisation von Personenfähigkeit und Itemschwierigkeit ist allerdings nur im Rasch-Modell möglich. Auf dieser zentralen Eigenschaft von Rasch-Modellen bauen auch sog. „Kompetenzniveaus“ auf. Zur leichteren Interpretation wird die kontinuierliche Skala in Abschnitte (Kompetenzniveaus) unterteilt, die dann als Ganzes kriteriumsorientiert beschrieben werden. Es wurden zwei Vorgehensweisen zur Erstellung von Kompetenzniveaus beispielhaft anhand von Daten aus der TIMSS und DESI-Studie vorgestellt: Post-hoc-Analysen der Items und Verwendung von A-priori-Aufgabenmerkmalen. Bei Post-hoc-Analysen der Items werden durch Experten Ankerpunkte auf der Kompetenzskala gesetzt und diejenigen Items identifiziert und inhaltlich betrachtet, die zur Beschreibung dieser Ankerpunkte geeignet sind. Verfahren zur Verwendung von A-priori-Aufgabenmerkmalen setzen bereits vor der Testanwendung an, indem Annahmen über Aufgabenmerkmale, die sichauf die Schwierigkeiten der Items auswirken, formuliert werden. Derartige a priori begründete Aufgabenmerkmale können verwendet werden, um IRT-basierte Testwerte kriterienorientiert zu beschreiben und die Schwellen zwischen Kompetenzniveaus festzulegen.

zurück zum Inhalt

Kapitel 18: Überblick über Modelle der Item-Response-Theorie (IRT)

18.1 Modelle mit eindimensionalen latenten Merkmalen
18.3 Ausblick auf weitere Modelle
18.4 Weiterführende Literatur
18.5 EDV-Hinweise
18.6 Kontrollfragen

zurück zum Inhalt

Kapitel 19: Parameterschätzung und Messgenauigkeit in der Item-Response-Theorie (IRT)

19.1 Verfahren der Parameterschätzung in der IRT: Überblick
19.2 Maximum-Likelihood-Schätzung (ML-Schätzung)
19.3 Bayes’sche Schätzverfahren
19.4 Weitere Schätzverfahren
19.5 Personenparameterschätzung in der IRT
19.6 Reliabilitätsbeurteilung in der IRT
19.7 Zusammenfassung
19.8 EDV-Hinweise
19.9 Kontrollfragen

In der IRT existieren verschiedene Verfahren der Item- und Personenparameterschätzung, wobei sich grundsätzlich ML- und Bayes’sche Schätzverfahren unterscheiden lassen. Innerhalb beider Verfahrensklassen gibt es wiederum verschiedene Schätzalgorithmen mit unterschiedlichen Eigenschaften. Die wichtigsten wurden in diesem Kapitel am Beispiel ein- und zweiparametrischer IRT-Modelle dargestellt. Von den ML-Verfahren wurden die JML-Schätzung, die CML-Schätzung und die MML-Schätzung erläutert. Bevor detailliert auf verschiedene Bayes’sche Schätzverfahren eingegangen wurde, sind zunächst einführend die Grundlagen der statistischen Inferenz in der Bayes-Statistik dargestellt worden, wobei näher auf die zentrale Bedeutung der A-priori- und der A-posteriori-Verteilung bei der Parameterschätzung eingegangen wurde. Nachfolgend wurden nicht simulationsbasierte und simulationsbasierte Bayes-Schätzer erläutert. Der MH-Algorithmus und der Gibbs-Sampler wurden als Beispiele der zunehmend populären simulationsbasierten MCMC-Verfahren dargestellt. Item- und Personenparameter werden oft (aus gutem Grund) nicht simultan, sondern separat geschätzt. Daher wurde der Personenparameterschätzung in der IRT ein eigener Abschnitt gewidmet, in dem der ML-Schätzer, der gewichtete ML-Schätzer, der EAP-Schätzer, der MAP-Schätzer und die PVs als gebräuchliche Schätzer für die latente Personenvariable erläutert wurden. Da die Reliabilität in der IRT in Abhängigkeit der zu schätzenden Personenparameter variiert, gibt es streng genommen nicht nur einen Wert der Reliabilität für einen Test. Ausgehend von der Item-, der Testinformationsund Standardfehlerfunktion wurde gezeigt, wie die Genauigkeit der Personenparameterschätzung für konkrete Werte von der latenten Variable abhängt. Abschließend wurden marginale, d. h. durchschnittliche Reliabilitätskoeffizienten als einfach zu kommunizierende, aber populationsabhängige Gütemaße der Messgenauigkeit eines Tests vorgestellt und ihre exakte Interpretation und Berechnung erläutert.

zurück zum Inhalt

Kapitel 20: Computerisiertes adaptives Testen

20.1 Was ist computerisiertes adaptives Testen?
20.2 Grundgedanke
20.3 Elementare Bausteine
20.4 Auswirkungen des adaptiven Testens
20.5 Multidimensionales adaptives Testen
20.6 Zusammenfassung und Anwendungsempfehlungen
20.7 EDV-Hinweise
20.8 Kontrollfragen

Computerisiertes adaptives Testen ist ein spezielles Vorgehen zur computerbasierten Messung individueller Merkmalsausprägungen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items am vorherigen Antwortverhalten der Testperson
orientiert. Der Grundgedanke besteht darin, keine starre Abfolge von Items vorzugeben, sondern nur solche Items, die möglichst viel diagnostische Information über die individuelle Ausprägung des zu messenden Merkmals liefern. Dieses Anliegen
wird durch die Spezifikation von sechs elementaren Bausteinen umgesetzt. Es handelt sich dabei um den Itempool, die Art den Test zu beginnen, die Schätzung der individuellen Merkmalsausprägung, die Itemauswahl, die Berücksichtigun nicht statistischer Einschränkungen und die Art, den Test zu beenden. Für all Bausteine liegen mehrere Optionen vor, die je nach Anforderung der Testsituation in bestmöglicher Weise miteinander kombiniert werden können. Der Hauptvorteil des computerisierten adaptiven Testens im Vergleich zum nicht adaptivenTesten besteht in einer Messeffizienzsteigerung, die in den meisten Fällen beträchtlich ausfällt. Darüber hinaus sind positive Auswirkungen auf die Validitätder adaptiv erhobenen Testergebnisse zu verzeichnen. Um unerwünschte Effekt beim computerisierten adaptiven Testen zu vermeiden, sollte die Funktionsweise eines adaptiven Tests im Rahmen der Instruktion transparent erläutert werden. Die Konstruktion eines computerisierten adaptiven Tests ist aufwendig. Neben der Erstellung und Kalibrierung eines geeigneten Itempools, sind präoperationale Simulationsstudien durchzuführen, sodass ein dem Gegenstand und Einsatzbereich angemessener adaptiver Algorithmus spezifiziert werden kann.

zurück zum Inhalt

Validität und Möglichkeiten ihrer Überprüfung

Kapitel 21: Validität von Testwertinterpretationen

21.1 Einleitung
21.2 Validität im fachgeschichtlichen Wandel
21.3 Argumentationsbasierter Ansatz der Validierung
21.4 Beispiele für Validierungsprozesse
21.5 Zusammenfassung
21.6 Kontrollfragen

Das Gütekriterium der Validität ist ein zentrales Qualitätskriterium, das den Gütekriterien Objektivität oder Reliabilität übergeordnet ist. Es bezieht sich darauf, inwieweit Interpretationen von Testwerten und beabsichtigte Verwendungen von
Tests gerechtfertigt sind. Das Verständnis von Validität hat sich in den letzten Jahrzehnten deutlich weiterentwickelt. Während sich im vergangenen Jahrhundert zunächst eine wenig praktikable Vielzahl „verschiedener Validitäten“ herausgebildet hatte, wird Validität inzwischen als ein einheitliches Qualitätskriterium betrachtet, das Informationen aus verschiedenen Quellen integriert. Zudem wurde Validität früher als Eigenschaft eines Tests per se aufgefasst, heute bezieht sie sich auf die
Interpretation von Testwerten im Hinblick auf die intendierte Nutzung. Ein Test kann demnach nicht als solcher valide sein, sondern jede unterschiedliche Testwertinterpretation erfordert eine separate Prüfung ihrer Validität.
Die Prüfung der Validität (Validierung) einer Testwertinterpretation erfolgt im Rahmen eines argumentationsbasierten Ansatzes. Als erster Schritt muss die zu validierende Testwertinterpretation präzise formuliert werden. Anschließend werdenprüfbare Grundannahmen identifiziert, auf denen die Testwertinterpretation aufbaut. Im nächsten Schritt wird empirische Evidenz gesammelt, anhand derer die Grundannahmen widerlegt oder vorläufig gestützt werden können. Wichtige Quellen für Evidenz zur Prüfung der Grundannahmen sind die Testinhalte, die bei der Testbeantwortung ablaufenden kognitiven Prozesse, die interne Struktur der Testdaten und die Beziehungen der Testwerte zu anderen Variablen. Bei der abschließenden zusammenfassenden Bewertung wird eine Testwertinterpretation dann als valide betrachtet, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte. Die argumentationsbasierte Validierung ist kein immer gleiches Routineverfahren. In Analogie zur theoriegeleiteten und hypothesenbasierten Forschung muss die argumentationsbasierte Validierung für jede Testwertinterpretation spezifisch hergeleitet werden. Der Abschluss eines Validierungsprozesses hat insoweit einen vorläufigen Charakter, als zukünftige Befunde einzelne Grundannahmen und damit eine Testwertinterpretation zur Gänze entkräften können.

zurück zum Inhalt

Kapitel 22: Latent-Class-Analyse (LCA)

22.1 Einleitung und Überblick
22.2 Herleitung der Modellgleichung
22.3 Parameterschätzung und Überprüfung der Modellgüte
22.4 Exploratorische und konfrmatorische Anwendungen der LCA
22.5 Erweiterte Anwendungen der LCA
22.6 Zusammenfassung
22.7 EDV-Hinweise
22.8 Kontrollfragen

Während Latent-Trait-Modelle auf der Annahme beruhen, dass es sich bei dem zu messenden latenten Personenmerkmal um eine quantitative Variable handelt, sind Latent-Class-Modelle immer dann geeignet, wenn das latente Personenmerkmal qualitativer Natur ist (beispielsweise die Zugehörigkeit zu einem bestimmten Persönlichkeitstyp). Mit einer LCA kann die Wahrscheinlichkeit ermittelt werden, mitder eine Person v, die auf m Items ein Antwortmuster a_v produziert, einer bestimmten latenten Klasse g angehört. Die Anzahl der latenten Klassen in der Population (G) ist unbekannt und muss theoriegeleitet vorgegeben oder empirisch über einen Vergleich mehrerer Modelle mit unterschiedlicher Anzahl Klassen ermittelt werden. Alle anderen Modellparameter können modellimmanent, d. h. empirisch aus den Daten geschätzt werden.
Im Sinne der Modellannahmen wird Folgendes vorausgesetzt:

Die Antwortwahrscheinlichkeiten auf den m Items müssen für alle Personen innerhalb einer latenten Klasse identisch sein;
innerhalb einer latenten Klasse muss die Annahme der lokalen stochastischen Unabhängigkeit erfüllt sein und
die latenten Klassen müssen disjunkt und exhaustiv sein.

Die Anwendung einer LCA ist insbesondere dann sinnvoll, wenn

das Ziel der Analyse die Klassifikation von Personen ist,
es nicht möglich oder sinnvoll ist, über Items hinweg Summenwerte zu bilden, sondern lediglich die Antwortmuster (Profile) ausgewertet werden, oder
das Ziel der Analyse darin besteht, ein bestimmtes typologisches Modell zu testen (z. B. ob die Unterschiede im Antwortverhalten der Testpersonen auf die theoretisch vermuteten Persönlichkeitstypen zurückführbar sind).

Die Güte eines LCA-Modells kann mithilfe eines Likelihood-Ratio-Tests, eines „klassischen“ χ²-Tests, eines Bootstrap-Verfahrens oder anhand von Informationskriterien beurteilt werden.
Einem LCA-Modell können bestimmte Restriktionen (z. B. Fixierungs-, Gleichheits- oder Ordnungsrestriktionen) auferlegt werden; in diesem Fall wird aus der „exploratorischen“ eine „konfirmatorische“ Analyse. Im Fall von „nested models“ kann ein restringiertes Modell mithilfe eines Likelihood-Quotienten-Tests direkt gegen ein unrestringiertes Modell getestet werden.

zurück zum Inhalt

Kapitel 23: Exploratorische Faktorenanalyse (EFA)

23.1 Einleitung
23.2 Faktormodell (Fundamentaltheorem)
23.3 Methoden der Faktorenextraktion
23.4 Abbruchkriterien der Faktorenextraktion
23.5 Faktorenrotation
23.6 Modellevaluation und Itemauswahl
23.7 Neue Verfahren
23.8 Abschließende Bemerkungen
23.9 Zusammenfassung
23.10 EDV-Hinweise
23.11 Kontrollfragen

Die EFA ist ein struktursuchendes Verfahren, das sich – im Unterschied zur CFA (Kap. 24) – nicht zur Hypothesenprüfung, wohl aber zur Hypothesengenerierung eignet. In diesem Kapitel wurde auf die wichtigsten Aspekte bei der Durchführung einer EFA eingegangen. Es wurde mit der allgemeinen Modellvorstellung in der Faktorenanalyse begonnen (Fundamentaltheorem) und die darauf basierende Varianzzerlegung in durch gemeinsame Faktoren erklärte und unerklärte Teile dargestellt. Anschließend wurden die zentralen Begriffe in der EFA eingeführt, d. h. der Eigenwert eines Faktors sowie die Kommunalität und Spezifität eines Items. Die wichtigsten Extraktionsmethoden (PFA und ML-EFA) sowie Rotationskriterien (orthogonal vs. oblique) wurden diskutiert, bevor auf weitere Aspekte wie die Beurteilung der Modellgüte, alternative Schätzverfahren und die Berechnung von Faktorwerten eingegangen wurde.

zurück zum Inhalt

Kapitel 24: Konfrmatorische Faktorenanalyse (CFA)

24.1 Grundlagen
24.2 Spezifkation eines Messmodells
24.3 Eindimensionale Modelle: Stufen der Messäquivalenz
24.4 Mehrdimensionale Modelle
24.5 Parameterschätzung
24.6 Modellevaluation
24.7 Modifkation der Modellstruktur
24.8 Modellvergleiche
24.9 Messinvarianztestung
24.10 Zusammenfassung
24.11 EDV-Hinweise
24.12 Kontrollfragen

Die CFA stellt ein wichtiges statistisches Instrument zur psychometrischen Evaluation eines Testverfahrens dar. Mit ihrer Hilfe lassen sich zentrale Aspekte der Validität und der Reliabilität eines Tests untersuchen. So erlaubt die CFA die Überprüfung der Dimensionalität zum Nachweis der faktoriellen Validität eines Tests. Die Überprüfung der Dimensionalität und Messäquivalenz eines Tests ist dabeirelevant für die spätere Testwertbildung und die Reliabilitätsschätzung. Dazu sind die Modellannahmen der τ-Kongenerität, der essentiellen τ-Äquivalenz und der essentiellen τ-Parallelität von Messungen zu unterscheiden. Die Grundlagen der CFA lassen sich mit Bezug zur KTT darstellen und die Parameter eines CFA-Modells als modellbasierte Itemkennwerte interpretieren.
Die Wahl der Schätzmethoden zur Parameterschätzung hängt insbesondere vom Skalenniveau und der Verteilung der Indikatorvariablen ab. Zur Beurteilung der Güte des Gesamtmodells stehen der χ²-Test als inferenzstatistischer Test sowie weitere deskriptive Gütekriterien zur Verfügung.
Neben der Möglichkeit, die vorgestellten Modelle zu komplexeren Modellen zu erweitern, wird die CFA in der empirischen Forschung für weitere Fragestellungen genutzt und kann bei Modifikation der Modellstruktur auch als explorativesInstrument verwendet werden. Der Vergleich konkurrierender Modelle stellt einhilfreiches Werkzeug bei der Modellauswahl dar. Auch die Frage nach der Messinvarianz eines Testverfahrens über mehrere Gruppen oder Messzeitpunkte hinweg ist für zahlreiche Forschungsfragen zentral und lässt sich mithilfe der CFA empirisch überprüfen.

zurück zum Inhalt

Kapitel 25: Multitrait-Multimethod-Analysen (MTMM-Analysen)

25.1 Einleitung
25.2 Konvergente und diskriminante Validität
25.3 Methodenefekte
25.4 Das MTMM-Design
25.5 Korrelationsbasierte Analyse der MTMM-Matrix
25.6 Faktorenanalytische Ansätze: Klassische CFA-MTMM-Modelle
25.7 Faktorenanalytische Ansätze: Neuere CFA-MTMM-Modelle
25.8 Zusammenfassung
25.9 EDV-Hinweise
25.10 Kontrollfragen

Nach Campbell und Fiske (1959) setzt sich jede Messung aus einer systematischen Trait-Methoden-Einheit und einem unsystematischen Fehleranteil zusammen, sodass nicht nur der gemessene Trait, sondern darüber hinaus die verwendete Methode als Bestandteilder Messung berücksichtigt werden muss. Konstruktvalidität liegt dem Konzept von Campbell und Fiske zufolge nur dann vor, wenn einerseits Messungen desselben Konstrukts mit verschiedenen Messmethoden zu einer hohen Übereinstimmung führen (konvergente Validität), andererseits eine Diskrimination zwischen inhaltlich unterschiedlichen Konstrukten sowohl innerhalb einer Messmethode als auch zwischen den Methoden nachgewiesen werdenkann (diskriminante Validität).
Zum Nachweis der Konstruktvalidität anhand der korrelationsbasierten MTMMAnalyse werden die Korrelationskoeffizienten in der MTMM-Matrix durch systematische Vergleiche deskriptiv dahingehend beurteilt, ob die Kriterien der konvergenten und der diskriminanten Validität erfüllt sind. Die Methode beinhaltet eine Vielzahl von Problemen, die mit der CFA nicht auftreten.
Mit den Modellen der konfirmatorischen MTMM-Analyse ist es möglich, Trait-, Methoden- und unsystematische Messfehleranteile der gemessenen Variablen unabhängig voneinander zu schätzen und die Gültigkeit der zugrunde liegenden Annahmen inferenzstatistisch zu überprüfen. Mit dem CTCM-Modell können die konvergente und die diskriminante Validität bestimmt werden, allerdings ist keine eindeutige Interpretation der Traits und Methoden möglich, da sowohl alle Trait-Faktoren untereinander als auch alle Methodenfaktoren untereinander korreliert sind. Bei diesem Modell treten häufig Interpretations- undSchätzprobleme auf, sodass es nur noch selten angewandt wird.
Mit der Verwendung des CTC(M1)-Modells können diese Probleme überwunden werden. In diesem Modell wird eine Referenzmethode festgelegt, die nicht mitmodelliert wird, sodass die Trait- und die Methodenfaktoren nun eine klare Bedeutung erhalten. Das CTC(M1)-Modell ermöglicht es, die konvergente und die diskriminante Validität bezogen auf die gewählte Referenzmethode zu interpretieren. Eine Erweiterung des Modells auf drei oder mehr Indikatoren pro Trait-Methoden-Einheit wird empfohlen, um Methodeneffekte als traitspezifisch modellieren zu können.

zurück zum Inhalt

Kapitel 26: Latent-State-Trait-Theorie (LST-Theorie)

26.1 Einleitung
26.2 LST-Theorie als Erweiterung der KTT
26.3 Modelltypen
26.4 Anwendungen der LST-Theorie
26.5 Zusammenfassung
26.6 EDV-Hinweise
26.7 Kontrollfragen

Der State- und der Trait-Begriff sind in der Differentiellen Psychologie und in der psychologischen Diagnostik etablierte Konzepte. Der State-Begriff beschreibt einen Zustand, in dem sich eine Person in einer Situation befindet, während der Trait-Begriff eine mehr oder weniger zeitlich überdauernde Merkmalsausprägungbeschreibt.
Ausgehend von der KTT führte dieses Kapitel zunächst in die formale Repräsentation der LST-Theorie ein, die eine Erweiterung der KTT darstellt. Dabei ist die latente State-Variable τ_it die Variable der wahren Werte der Personen in Item i, gemessen in der Situation t, und entspricht der Variable der wahren Werte in der KTT. Mit ξ_it wurde die latente Trait-Variable eingeführt, die die Variable der Erwartungswerte der Personen in der Situation t darstellt. Die latente State-Residuum Variable ζ_it entspricht formal der Differenz zwischen der latenten State-Variablen und der Trait-Variablen. Inhaltlich repräsentiert die State-Residuum-Varianz den Anteil an der wahren Varianz, der nicht durch die Person, sondern durch die Situation und die Interaktion von Person und Situation bedingt ist.
Nach der formalen Definition der Konzepte der Latent-State-Trait-Theorie erfolgte die Darstellung von drei typischen Modellen der LST-Theorie und ihren inhaltlichen Eigenschaften: das Multistate-Modell, das Multistate-Singletrait-Modell und das Multistate-Multitrait-Modell mit indikatorspezifischen Trait-Faktoren. Abschließend wurden Anwendungen der LST-Theorie anhand eines empirischen Beispiels zur Prüfungsangst vorgestellt und die Schätzung der Reliabilitätskoeffizienten demonstriert.

zurück zum Inhalt

Kapitel 27: Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen (MTMM-Modellen) und der Latent-State-Trait-Theorie (LST-Theorie)

27.1 Einleitung
27.2 Längsschnittliche MTMM-Modelle
27.3 Multiconstruct-LST- und Multimethod-LST-Modell in der empirischen Anwendung
27.4 Praktische Hinweise zur Analyse longitudinaler multimodaler Modelle
27.5 Zusammenfassung
27.6 EDV-Hinweise
27.7 Kontrollfragen

Ziel dieses Kapitels war es, zu verdeutlichen, dass Merkmalsausprägungen von Individuen über die Zeit schwanken können, und dass somit auch die konvergente und diskriminante Validität verschiedener Methoden und Konstrukte zeitliche Veränderungen unterworfen sind. Die Analyse konvergenter und diskriminanter Validität ist Basis jeder diagnostischen Entscheidung. Nur bei gesicherter Qualität der eingesetzten Verfahren können zuverlässig Indikationen für mögliche Interventionen getroffen werden. Besonders bei Kindern, die sich in einem Entwicklungsprozess befinden, aber auch bei Erwachsenen ist es notwendig, die zeitliche Stabilität der gefundenen Testscores zu untersuchen. Nur bei gegebener Stabilität der Messungen kann von einem stabilen Trait ausgegangen werden. Darüber hinaus ist es wichtig, zu analysieren, wie sich die konvergente Validität verschiedener Messmethoden über die Zeit entwickelt.
Drei longitudinale multimethodale Modelle für mehrere Traits wurden vorgestellt, die es erlauben, die Konvergenz verschiedener Methoden und die diskriminante Validität von Traits und States zu untersuchen. Die empirischen Anwendungen zeigen deutlich, dass implizite Annahmen zur Übereinstimmung verschiedener Methoden prinzipiell überprüft werden müssen.

zurück zum Inhalt

Springer Lehrbuch Psychologie