Glossar: Testtheorie und Fragebogenkonstruktion (3. Aufl.)

Bitte wählen Sie ein Glossar

A-Z Navigation

Alle A B C D E F G H I J K L M N O P Q R S T U V W Y Z

Begriff	Erklärung
Adaptiver Algorithmus	Ein adaptiver Algorithmus ist ein Regelsystem, mit dem beim adaptiven Testen die Itemauswahl zu Beginn und während des Tests geregelt sowie Kriterien der Testbeendigung spezifiziert werden.
Adaptives Testen	Ein spezielles Vorgehen bei der Messung individueller Ausprägungen von Personenmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit der untersuchten Testpersonen orientiert, die während der Testung berechnet wird.
Adjustiertes Bayesian Information Criterion (aBIC)	Das aBIC ist eine Abwandlung des Bayesian Information Criterion (BIC), bei dem der Einfluss der Stichprobe kontrolliert wird. Es zeigt verlässlichere Eigenschaften bei Modellvergleichen im Kontext von Mischverteilungsmodellen.
Akaike Information Criterion (AIC)	Unter dem AIC (auch Akaike-Informationskriterium) versteht man ein Maß für die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) unter Berücksichtigung der Komplexität des Modells. Daraus hervorgegangen sind das Bayesian Information Criterion (BIC), das adjustierte Bayesian Information Criterion (aBIC) und Consistent Akaike Information Criterion (CAIC).
Akquieszenz	Mit Akquieszenz bezeichnet man die Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt mit Zustimmung zu reagieren.
Austauschbare Methoden	Austauschbare Methoden in MTMM-Modellen sind solche Methoden, die einer Zufallsauswahl aus einer Menge gleichberechtigter (gleichadäquater) Methoden entsprechen. Beispielsweise wären verschiedene Messgelegenheiten austauschbar, wenn sich keine der Messgelegenheiten von den anderen Messgelegenheiten strukturell unterscheidet.
Auswahlaufgaben	Aufgabentyp, bei dem die Testpersonen vor die Anforderung gestellt werden, aus mehreren vorgegebenen Antwortalternativen die richtige bzw. für sie zutreffende Antwort zu identifizieren.
Auswertungsobjektivität (Gütekriterium)	Ein Test gilt als auswertungsobjektiv, wenn das Testergebnis unabhängig davon ist, wer den Test auswertet.
Autokorrelationsefekt	In längsschnittlichen (longitudinalen) Strukturgleichungsmodellen korrelieren Indikatoren oft stärker über die Messgelegenheiten hinweg als mit anderen Indikatoren derselben Messgelegenheit, die dasselbe Konstrukt messen. Der Autokorrelationskoeffizient quantifiziert die Stärke der Korrelation der Indikatoren über die Zeit.
Axiom	Axiome sind theoretische Grundannahmen, die als geltend angesehen werden und auf denen das Theoriegebäude aufgebaut wird.
Bayesian Information Criterion (BIC)	Unter dem BIC (auch Bayes-Informationskriterium) wird ein dem AIC ähnliches Kriterium der Anpassungsgüte des Modells an die Daten verstanden, das im Unterschied zum AIC die Verletzung des Gebotes der Sparsamkeit (s. Parsimonität) von Modellparametern stärker bestraft.
Bedingte Antwortmusterwahrscheinlichkeit P (av j \| g)	Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av unter der Bedingung, dass die Person v zur Klasse g gehört.
Bedingte Itembejahungswahrscheinlichkeit P (yvi = 1 \| g)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird, wenn die entsprechende Person v zur Klasse g gehört.
Bedingte Kategorienwahrscheinlichkeit P (yvi = k \| g)	Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird, wenn die entsprechende Person v zur Klasse g gehört.
Bedingte Klassenzuordnungswahrscheinlichkeit P (g \| av)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine Person v mit dem Antwortmuster av zur Klasse g gehört.
Beurteilungsaufgaben	Aufgabentyp, bei dem der individuelle Zustimmungs- oder Ablehnungsgrad zu einer vorgelegten Aussage (Statement) erfasst wird.
BIC	Bayesian Information Criterion
Bifaktormodell	Faktorenanalytisches Modell, bei dem alle Items auf einem Generalfaktor und Teile der Items jeweils auf einem spezifischen Faktor laden.
Birnbaum-Modell	Zweiparameter-logistisches Modell (auch zweiparametrisches logistisches Modell, 2PL-Modell) mit Itemschwierigkeitsparameter βi und Diskriminationsparameter λi
CAIC	Consistent Akaike Information Criterion (CAIC)
Consistent Akaike Information Criterion (CAIC)	Das CAIC ist eine Abwandlung des AIC, bei dem der Stichprobenumfang Berücksichtigung findet.
Cronbachs Alpha (α)	Reliabilitätsmaß, dessen Berechnung essentielle τ-Äquivalenz von eindimensionalen Items voraussetzt.
Cut-of-Wert (oder Cut-of-Score)	Der Cut-off-Wert ist ein Schwellenwert der Merkmalsausprägung. Bei Überschreitung des Schwellenwertes (z. B. IQ D 130) erfolgt eine Klassifikation in eine bestimmte Gruppe (z. B. „Hochbegabte“), bei Unterschreitung hingegen nicht.
Debriefng	Das Debriefing beschreibt die Qualitätssicherungsmaßnahme, nach der Testung den Testleiter nach Besonderheiten während der Testung zu befragen.
Deterministische Modelle	Deterministische Modelle nehmen an, dass die Wahrscheinlichkeit, ein Item zu lösen oder ihm zuzustimmen, nur 0 oder 1 betragen kann, wobei die Wahrscheinlichkeit ab einer bestimmten Schwelle auf der Merkmalsdimension η von 0 auf 1 „springt“. Die Itemcharakteristische Funktion (ICFunktion) entspricht einer Sprungfunktion.
Diagnostik- und Testkuratorium (DTK)	Neuere Bezeichnung für das Testkuratorium (TK)
DIN 33430	Die DIN 33430 ist eine verbindliche Norm von Qualitätsstandards für die berufsbezogene Eignungsbeurteilung bezüglich der verwendeten Tests und der diagnostischen Ablaufschritte.
Disjunktheit von Antwortalternativen	Disjunktheit von Antwortalternativen liegt vor, wenn die Antwortalternativen logisch nicht gleichzeitig gültig sein können.
Diskriminante Validität	Im Rahmen der Konstruktvalidierung gilt die diskriminante Validität als nachgewiesen, wenn Messungen verschiedener Konstrukte mit derselben Methode nicht oder nur gering miteinander korrelieren.
Diskriminationsindex	Unter dem Diskriminationsindex versteht man einen Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der LCA.
Distraktoren	Als Distraktoren bezeichnet man plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Auswahlaufgaben.
Dreiparameter-logistisches Modell (auch dreiparametrisches logistisches Modell, 3PL-Modell, Rate-Modell von Birnbaum)	Im 3PL-Modell wird neben dem Schwierigkeits- und dem Diskriminationsparameter des 2PL-Modells noch die Ratewahrscheinlichkeit als Parameter ρi in das Modell aufgenommen (Birnbaum-Modell).
Durchführungsobjektivität (Gütekriterium)	Ein Test ist dann durchführungsobjektiv, wenn das Testergebnis unabhängig davon ist, von welcher Testleitung der Test durchgeführt wird.
Eichstichprobe	Stichprobe, die zur Normierung eines Tests eingesetzt wird. Die Eichstichprobe besteht idealerweise aus einer hinreichend großen, repräsentativen Zufallsstichprobe der Zielpopulation, für die der Test beim späteren Einsatz Gültigkeit haben soll.
Eichung (Gütekriterium)	s. Normierung
Eigenwert	Der Eigenwert eines Faktors gibt an, wie viel Varianz aller Itemvariablen durch diesen Faktor erklärt wird.
Einparameter-logistisches Modell (auch einparametrisches logistisches Modell, 1PL-Modell, Rasch-Modell)	Das 1PL-Modell der IRT beschreibt den Zusammenhang zwischen dem beobachtbaren dichotomen Antwortverhalten und dem dahinterstehenden latenten Merkmal auf Grundlage einer logistischen Wahrscheinlichkeitsfunktion mit einem Itemparameter, nämlich dem Schwierigkeitsparameter βi.
Erschöpfende (sufziente) Statistiken	Die Zeilen- und Spaltensummenscores einer (0/1)-Datenmatrix werden als suffizient bezeichnet, wenn die Wahrscheinlichkeit der Daten nicht davon abhängt, welche Personen welche Items gelöst haben, sondern lediglich davon, wie viele Personen ein Item gelöst haben (Schwierigkeit des Items) bzw. wie viele Items eine Person lösen konnte (Fähigkeit der Person). Die Zeilen- und Spaltensummenscores reichen dann jeweils aus, um die Personen- und Itemparameter zu schätzen.
Essentielle τ-Äquivalenz	z In der KTT Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α˛ und unterschiedliche Fehlervarianzen aufweisen dürfen; die Diskriminationsparameter λ müssen hingegen identisch sein.
Essentielle τ-Parallelität	In der KTT Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α˛ aufweisen dürfen; die Diskriminationsparameter λ und die Fehlervarianzen müssen hingegen identisch sein.
Exhaustivität von Antwortalternativen	Exhaustivität von Antwortalternativen liegt vor, wenn alle möglichen Antworten auf den vorgegebenen Antwortalternativen abgebildet werden können.
Exploratorische Faktorenanalyse (EFA)	Die EFA ist ein statistisches Verfahren, das auf Annahmen beruht. Es kommt typischerweise dann zur Anwendung, wenn keine Hypothesen über die Anzahl der zugrunde liegenden Faktoren und über die Zuordnung der beobachteten Variablen zu den Faktoren vorliegen. Es ist ein sog. struktursuchendes und dimensionalitätsreduzierendes Verfahren.
Exposure Control	Strategie zur Vermeidung der öffentlichen Bekanntheit von Items durch unerwünscht häufige Vorgabe der Items oder der Itemgruppen. Beim adaptiven Testen kann Exposure Control leichter erzielt werden.
Fairness (Gütekriterium)	Ein Test erfüllt das Gütekriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.
Faking good/bad	Antwortverhalten, mit dem die Testperson fälschlicherweise eine zu gute/schlechte Merkmalsausprägung vortäuscht.
Faktorladung	Die Gewichtungszahl λjk einer beobachteten Variablen j auf dem latenten Faktor k heißt Faktorladung und beschreibt die Stärke des Zusammenhangs zwischen Faktor und Variable (meist Item). Sie kann bei orthogonal rotierten Faktoren als Korrelation interpretiert werden.
Faktorwert (Faktorscore)	Der Faktorwert ηkv gibt an, wie stark ein Faktor ηk bei der v-ten Person ausgeprägt ist. Faktorscores werden in der KTT als Personenparameter verwendet.
Fehlervarianz Var (ε)	Die Varianz der Fehlerwerte Var (ε) der Personen stellt in der KTT den unerklärten Anteil der Testwertevarianz Var (Υ) dar.
Freies Antwortformat	Bei Aufgaben mit einem freien Antwortformat sind keine Antwortalternativen vorgegeben. Die Antwort wird von der Person selbst formuliert bzw. Produziert.
Geschwindigkeitstests s	Speedtests
Gleichwertige Methoden	Im Rahmen von MTMM-Modellen sind gleichwertige Methoden solche Methoden, die das zu erfassende Trait gleichwertig repräsentieren. Beispielsweise sind parallele Tests oder Testhälften gleichwertige Methoden. Im Unterschied zu austauschbaren Methoden ist die Erklärung der Methodeneffekte für gleichwertige Methoden nachrangig.
Gütekriterien	s. Testgütekriterien, s. aber auch Informationskriterien
Halbtest	Aufteilung eines Tests in zwei Testhälften, z. B. zur Reliabilitätsbestimmung, s. auch Itempaare
Hauptachsenanalyse	Methode der EFA, mit der versucht wird, das Beziehungsmuster zwischen den manifesten Variablen mit möglichst wenigen dahinterliegenden latenten Faktoren zu erklären.
Hauptkomponentenanalyse (PCA)	Die PCA (Principal Component Analysis) ist ein mathematisches Verfahren zur Bildung von Linearkombinationen von Items mit dem Ziel, möglichst viel Varianz der Items durch eine Abfolge von – hinsichtlich ihrer Varianzstärke gereihten – Hauptkomponenten zu erklären.
Hierarchisch geschachtelte Modelle	Verschiedene CFA-Modelle werden als hierarchisch geschachtelt bezeichnet, wenn sie dieselbe Modellstruktur aufweisen und durch Parameterrestriktionen bzw. -freisetzungen ineinander übergeführt werden können, s. auch Nested Models.
Homogenität	Homogenität von Items liegt vor, wenn die verschiedenen Items eines (Sub-)Tests dasselbe Merkmal messen, s. auch Itemhomogenität.
IC-Funktion	Itemcharakteristische Funktion
Informationskriterien	Maße zur deskriptiven, relativen Beurteilung der Güte eines Modells. Häufig verwendete Informationskriterien sind das Akaike Information Criterion (AIC), das Bayesian Information Criterion (BIC) und das Consistent Akaike Information Criterion (CAIC).
Inkrementelle Validität	Inkrementelle Validität bezeichnet das Ausmaß, in dem die Vorhersage eines externen Kriteriums verbessert werden kann, wenn zusätzliche Testaufgaben oder (Sub-)Tests (und allgemeiner: Informationen) zu den bereits eingesetzten Verfahren hinzugenommen werden.
Interne Konsistenz (Konsistenzanalyse)	Methode der Reliabilitätsschätzung. Die Kovarianzen zwischen den Items eines Tests werden als wahre Varianz angesehen und zur Bestimmung der Reliabilität verwendet. Siehe auch Cronbachs Alpha (α).
Interpretationsobjektivität (Gütekriterium)	Ein Test ist dann interpretationsobjektiv, wenn bezüglich der Interpretation der Testwerte eindeutige Richtlinien (z. B. Normentabellen) vorliegen.
Invertierte Items	Invertierte Items sind „umgepolte“ Items, bei denen nicht die Bejahung, sondern die Verneinung symptomatisch für eine hohe Merkmalsausprägung ist, s. auch Item-Wording.
Itemcharakteristische Funktion (IC-Funktion)	Die IC-Funktion beschreibt den Zusammenhang zwischen dem manifesten Antwortverhalten der Testpersonen auf die Items und dem dahinterliegenden latenten Persönlichkeitsmerkmal. Die IRT ist vor allem für dichotome Itemvariablen konzipiert und geht von einem logistischen Zusammenhang aus, die KTT hingegen von einem linearen Zusammenhang mit kontinuierlichen Itemvariablen.
Itemhomogenität	Verschiedene Items sind bezüglich einer latenten Dimension η dann homogen, wenn das Antwortverhalten auf die Items nur von diesem Merkmal (der latenten Dimension) und keinem anderen systematisch beeinflusst wird und die Items dem zuvor spezifizierten funktionalen Zusammenhang (d. h. dem vorgegebenen logistischen Modell) folgen.
Iteminformation	Die Iteminformation Ii gibt in der IRT an, wie groß der Informationsgehalt eines Items i bezüglich der Merkmalsausprägung η einer Testperson v ist. Die Iteminformation eines Items i ist maximal, wenn die Itemschwierigkeit mit der jeweiligen Merkmalsausprägung der Testperson v auf der Joint-Scale übereinstimmt. Die Iteminformationen können zur Testinformation aufaddiert werden, mit deren Hilfe Konfidenzintervalle für die wahre Merkmalsausprägung der Testpersonen gebildet werden können.
Itempaare (auch Itemzwillinge)	Bei essentieller τ-Parallelität können aus einer Menge eindimensionaler Testitems zwei Halbtests gebildet werden, wobei die Items von Itempaaren mit gleichen Leichtigkeits- und Diskriminationsparametern den jeweiligen Halbtesthälften zugeordnet werden. Die resultierende Halbtestreliabilität kann dann mit der Spearman-Brown-Formel der Testverlängerung zur Reliabilität des Gesamttests aufgewertet werden.
Itemparcels	Zusammenfassung mehrere Items zu Päckchen, z. B. zu Halbtests, s. auch Parcels
Itempool	Eine Menge von Items, für die mit einem geeigneten Testmodell (z. B. Rasch-Modell) Itemhomogenität (s. auch Messäquivalenz) festgestellt wurde; beim adaptiven Testen werden die informationsstärksten Items aus dem Itempool zur Vorgabe ausgewählt.
Item-Response-Theorie (IRT)	Die IRT (auch probabilistische Testtheorie) beschreibt den Zusammenhang zwischen beobachtbarem Antwortverhalten und dem dahinterstehenden Persönlichkeitsmerkmal (Personenparameter) auf Grundlage eines wahrscheinlichkeitstheoretischen Modells. Dabei wird die Wahrscheinlichkeit für das beobachtbare (gezeigte) Antwortverhalten als von der latenten Merkmalsausprägung abhängig modelliert. Siehe auch Itemcharakteristische Funktion (IC-Funktion).
Itemschwierigkeit/Schwierigkeitsindex	Die Itemschwierigkeit wird in der deskriptivstatistischen Itemanalyse durch den Schwierigkeitsindex ausgedrückt. Er beschreibt das mit 100 multiplizierte Verhältnis der tatsächlich erreichten Itempunktsumme aller Testpersonen zur maximal möglichen Itempunktsumme. Je größer der Schwierigkeitsindex ist, desto leichter ist das Item.
Itemschwierigkeitsparameter	Schwierigkeitsparameter βi (IRT), Leichtigkeitsparameter αi (KTT)
Itemselektion	Die Itemselektion beschreibt den Prozess, Items hinsichtlich ihrer Eignung zur Erfassung des interessierenden Merkmals auszuwählen. Neben der Betrachtung deskriptivstatistisch gewonnener Kennwerte (z. B. Itemschwierigkeit, Itemtrennschärfe und Itemvarianz) fließen auch inhaltliche und modelltheoretische Überlegungen in den Selektionsprozess ein.
Itemtrennschärfe	Die Trennschärfe eines Items gibt in der deskriptivstatistischen Itemanalyse an, wie stark die mit dem jeweiligen Item erzielte Differenzierung zwischen den Testpersonen mit der Differenzierung durch den Gesamttest übereinstimmt.
Itemvarianz	Die Varianz eines Items ist ein Maß für die Differenzierungsfähigkeit des Items. Die Itemvarianz gibt an, wie unterschiedlich die Testpersonen auf das Item antworten.
Item-Wording	Variation der Formulierung eines Items (Statements) durch Veränderung der Wortwahl, z. B. in positiv gepolter Form oder in „invertierter“ negativ gepolter Form zu Aufdeckung von Akquieszenz oder von Methodeneffekten.
Joint-Scale	Gemeinsame Skala von Personenfähigkeit und Itemschwierigkeit in der IRT
Klassische Testtheorie (KTT)	Die KTT (auch Messfehlertheorie) beschreibt den Zusammenhang zwischen dem beobachtbaren Antwortverhalten und dem dahinterstehenden wahren Testwert τv bzw. der latenten Merkmalsausprägung ηv (Personenparameter) auf Grundlage der Annahme, dass sich der Messwert yvi einer Person v in einem Testitem i immer aus zwei Komponenten zusammensetzt. Diese sind ein wahrer Wert τvi und ein Messfehlerwert εvi . Der Zusammenhang zwischen den Messwerten und den wahren Werten bzw. latenten Merkmalsausprägungen wird in der KTT als linear angenommen.
Kognitives Vortesten	Beim kognitiven Vortesten legt die Testleitung in Erprobung befindliche Items vor und bittet die Testpersonen, alle Überlegungen, die zur Beantwortung der Frage führen, zu formulieren. Diese Äußerungen werden meist auf Video aufgenommen.
Kommunalität	Die Kommunalität hi2 einer Variablen i gibt an, in welchem Ausmaß die Varianz der Variablen durch die extrahierten q Faktoren erklärt wird.
Konfdenzintervall	Das Konfidenzintervall kennzeichnet denjenigen Bereich um einen empirisch ermittelten individuellen Testwert Yv , in dem sich 95 % (99 %) aller möglichen wahren Testwerte τv befinden, die den Testwert Yv erzeugt haben können.
Konfrmatorische Faktorenanalyse (CFA)	Die konfirmatorische Faktorenanalyse (CFA) ist ein Verfahren, mit dem Hypothesen über die Zuordnung von beobachteten Variablen zu dahinterliegenden (latenten) Faktoren über die Anzahl der Faktoren sowie über die Korrelationen zwischen den Faktoren theoriegeleitet überprüft werden können. Die CFA zählt zu den Verfahren der Strukturgleichungsmodelle.
Konsistenz	Die Konsistenz einer Messvariablen beschreibt in der LST-Theorie das Ausmaß der durch einen Trait erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen; siehe aber auch Interne Konsistenz.
Konsistenzefekte	Konsistenzeffekte treten dann auf, wenn Testpersonen versuchen, solche Antworten zu geben, die ihnen bezüglich ihrer Antworten auf vorangegangene Items als „stimmig“ erscheinen.
Konstrukt	Bezeichnung für ein nicht direkt beobachtbares, aber operationalisierbares latentes Persönlichkeitsmerkmal.
Konstruktäquivalenz	Die Konstruktäquivalenz ist die empirisch bestätigte Äquivalenz eines psychologischen Konstrukts über Sprachen und Kulturen hinweg.
Konstruktvalidität	Konstruktvalidität liegt vor, wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll, s. auch konfirmatorischen Faktoranalyse (CFA).
Konvergente Validität	Im Rahmen der Konstruktvalidierung gilt die konvergente Validität als nachgewiesen, wenn Messungen eines Konstrukts (oder verwandter Konstrukte), das mit verschiedenen Messmethoden erfasst wird, hoch miteinander korrelieren.
Kriteriumsorientierte Testwertinterpretation	Bei der kriteriumsorientierten Testwertinterpretation erfolgt die Interpretation des Testwertes nicht in Bezug zur Testwertverteilung einer Bezugsgruppe (s. Normorientierte Testwertinterpretation), sondern in Bezug auf ein spezifisches inhaltliches Kriterium. Es wird vorab festgelegt, welches Testergebnis mindestens vorliegen muss, um das Kriterium zu erreichen.
Kriteriumsvalidität	Kriteriumsvalidität liegt vor, wenn von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden.
Latent-Class-Analyse (LCA)	Probabilistisches Verfahren zur Kategorisierung von Personen (Objekten) in qualitative latente Klassen.
Latent-Class-Modelle	Bezeichnung für IRT-Modelle, die davon ausgehen, dass das latente Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden aus qualitativen kategorialen latenten Klassen besteht.
Latent-State-Trait-Theorie (LST-Theorie)	Die LST-Theorie ist eine formale Erweiterung der KTT, die neben der Aufteilung der Messvariablen Yit einer Messung i zu Messgelegenheit t in eine Messfehlervariable εit und in eine Variable der wahren Werte τit auch eine Trennung von situationalen und dispositionellen Einflüssen erlaubt. Dazu wird die Variable der wahren Werte τit einer Messung Yit zusätzlich in eine Trait-Variable ηit und in eine State-Residuum-Variable ζit zerlegt: Yit = τit + εit = ηit + ζit + εit.
Latent-Trait-Modelle	Bezeichnung für IRT-Modelle, die davon ausgehen, dass es sich bei dem latenten Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden um eine quantitative kontinuierliche latente Dimension handelt.
Latente Dimension	Nicht direkt beobachtbare Variable (auch Faktor, Konstrukt, Trait) zur Erfassung von Merkmalsausprägungen in Leistungs-, Einstellungs- oder Persönlichkeitsmerkmalen, von denen das manifeste Verhalten als abhängig angesehen wird.
Latentes State-Residuum	Das State-Residuum ist der Teil eines States, der ausschließlich die Situation und die Interaktion zwischen Person und Situation repräsentiert.
Leichtigkeitsparameter	In den Messmodellen der KTT wird der Leichtigkeitsparameter eines Items mit αi (Interzept der linearen IC-Funktion) bezeichnt. Je höher α, desto einfacher ist das Item zu lösen/bejahen (vgl. Schwierigkeitsparameter der IRT).
Leistungstests	Tests zur Erfassung der individuellen kognitiven Leistungsfähigkeit in Problemlösesituationen. Beispiele: Intelligenztests, Konzentrationstests etc.
Likelihood/IRT	In der IRT ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Sie ist dort definiert als die Wahrscheinlichkeit aller beobachteten Daten in Abhängigkeit der gewählten Modellparameter und unter Annahme der Modellgültigkeit. Bei der Parameterschätzung werden die Parameter iterativ so lange verändert, bis die Likelihood maximal ist.
Likelihood/LCA	In der LCA ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Es ist dort definiert als das Produkt der unbedingten Antwortmusterwahrscheinlichkeiten P(av) über alle Antwortmuster in der Stichprobe (Na) hinweg.
Likelihood-Ratio-Test (LRT)	Möglichkeit zur inferenzstatistischen Absicherung der Güte von IRT-Modellen. Der LRT wird zur inferenzstatistischen Absicherung des Unterschieds zweier geschachtelter Modelle (Nested Models) verwendet.
Linear-logistische Modelle	Linear-logistische Modelle zerlegen die Schwierigkeitsparameter der Items in für die Bearbeitung des Items erforderliche Basisoperationen. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
Lizenzprüfung nach DIN 33430	Nachweis einschlägiger Kenntnisse für den diagnostischen Prozess von Auftragnehmern (Lizenz A), bzw. Mitwirkenden an Verhaltensbeobachtungen (Lizenz MV) und von Mitwirkenden an Eignungsinterviews (Lizenz ME) gemäß den Anforderungen der DIN 33430.
Lokale stochastische Unabhängigkeit	Bedingung, die erfüllt sein muss, um die Korrelation zwischen zwei Testitems auf eine dahinterliegende latente Persönlichkeitsvariable zurückführen zu können. Die lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelation zwischen den Items verschwindet, wenn man sie auf den einzelnen („lokalen“) Stufen des latenten Persönlichkeitsmerkmals untersucht.
LST-Theorie	s. Latent-State-Trait-Theorie
Manifeste Variablen	Variablen zur Erfassung des beobachtbaren Antwortverhaltens mit verschiedenen Items, die Indikatoren für die latenten Dimensionen darstellen.
McDonalds Omega	Reliabilitätsmaß, dessen Berechnung £-Kongenerität von eindimensionalen Items voraussetzt.
Messäquivalenz	In der KTT Oberbegriff für verschieden strenge Formen von Parallelität eindimensionaler Testitems: τ-Kongenerität, essentielle τ-Äquivalenz, essentielle τ-Parallelität.
Messefzienz	Die Effizienz eines Tests berechnet sich als Quotienten aus Messpräzision und Testlänge, wobei Letztere häufig durch die Anzahl der präsentierten Items quantifiziert wird.
Messmodell	Im Rahmen von Strukturgleichungsmodellen werden die Teilmodelle, in denen die Zuordnungen der beobachteten Variablen zu den latenten Variablen (Faktoren) erfolgt, als Messmodelle bezeichnet. In der KTT erfordern verschiedene Messmodelle unterschiedliche Reliabilitätsmaße.
Messpräzision	Grad der Übereinstimmung von wahren Merkmalsauprägungen und den Testwerten. Auf Skalenebene oft durch die mittlere quadratische Abweichung von wahrer und geschätzter Merkmalsausprägung bestimmt.
Methodenefekte	Ein Sammelbegriff für verschiedene systematische Varianzquellen bei der MTMM-Analyse, die sich über den Trait hinausgehend auf die Validität der Messung auswirken können. Hierbei handelt es sich vor allem um Charakteristika der eingesetzten Messinstrumente, der Beurteiler oder der Situationen, in der eine Messung erfolgt.
Methodenspeziftätskoefzient	Der Methodenspezifitätskoeffizient gibt den Anteil an beobachteter Varianz wieder, der auf den Einfluss eines Methodeneffekts zurückzuführen ist. Je höher der Methodenspezifitätskoeffizient ausfällt, desto stärker ist der Einfluss der Messmethode auf die Messung.
Mischverteilungs-Rasch-Modelle (Mixed-Rasch Models)	Kombination aus RaschModell und LCA. Innerhalb jeder latenten Klasse wird versucht, jeweils ein eigenes Rasch-Modell anzupassen. Zwischen den latenten Klassen unterscheiden sich die Parameter des Rasch-Modells.
Mixed-Rasch Models	Mischverteilungs-Rasch-Modelle
Modelldiferenztest	Werden mit der CFA hierarchisch geschachtelte Modelle spezifiziert und gegeneinander getestet, so kann der Unterschied im Modellfit statistisch über die Differenz der χ2-Werte beider Modelle überprüft werden, die wiederum χ2-verteilt ist.
Modellft	Der Modellfit bezeichnet in der Statistik ganz allgemein die Güte der Passung zwischen Modell und Daten. Je ungünstiger der zur Beurteilung der Passung gewählte Index (z. B. χ2-Wert, BIC etc.) ausfällt, desto schlechter ist die Passung.
Multidimensionales adaptives Testen	Eine spezielle Form des adaptiven Testens, bei der mehrere latente Dimensionen als ursächlich für das beobachtete Antwortverhalten angesehen werden; aus den Antworten wird simultan auf mehrere latente Merkmale geschlossen.
Multiple Regression	Mittels einer multiplen Regression werden die Ausprägungen einer manifesten Kriteriumsvariablen bestmöglich auf die Ausprägungen mehrerer manifester Prädiktorvariablen zurückgeführt.
MTMM-Analyse	Die Multitrait-Multimethod-Analyse ist ein Verfahren zum Nachweis der Konstruktvalidität unter Berücksichtigung einer systematischen Kombination von mehreren Traits und mehreren Messmethoden.
Nested Models	Hierunter versteht man hierarchisch geschachtelte Modelle, die durch Parameterrestriktionen ineinander überführbar sind.
Niveautests	Powertests
Nomologisches Netz	Ein nomologisches Netz stellt ein Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit theoretischen Annahmen bzw. empirischen Evidenzen beschrieben und durch Korrespondenzregeln miteinander verbunden.
Norm(en)aktualisierung	Unter Norm(en)aktualisierung versteht man eine erneute Testeichung, sobald die empirische Überprüfung der Gültigkeit von Normen ergeben hat, dass sich die Merkmalsverteilung in der Bezugsgruppe seit der vorherigen Testeichung bedeutsam verändert hat.
Normalisierung	Bei der Normalisierung wird eine nicht normalverteilte Testwertvariable zur besseren Interpretierbarkeit so transformiert, dass die Variable danach normalverteilt ist. Die Normalisierung ist von der Normierung zu unterscheiden, die bei der Testeichung vorgenommen wird.
Norm(en)diferenzierung	Unter Norm(en)differenzierung versteht man die Bildung von separaten Normen für einzelne Subpopulationen aus der Eichstichprobe hinsichtlich eines mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktors (z. B. separate Normen für Männer und Frauen).
Normentabelle	s. Normierung
Normierung, auch Testeichung (Gütekriterium)	Die Normierung dient dazu, Vergleichswerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu werden Testergebnisse von Personen einer Eichstichprobe in Norm(en)tabellen zusammengestellt.
Normorientierte Testwertinterpretation	Bei der normorientierten Testwertinterpretation wird der Testwert (d. h. die individuelle Merkmalsausprägung einer Testperson) mit den Normwerten einer Bezugsgruppe (Eichstichprobe) verglichen, um die relative Position der Testperson innerhalb der Bezugsgruppe zu beurteilen.
Normwert	Ein Normwert (z. B. Prozentrang, ɀv-Wert) ermöglicht es, den Testwert Yv einer Testperson hinsichtlich seiner Position in der Testwertverteilung einer bestimmten Bezugsgruppe zu interpretieren.
Nützlichkeit (Gütekriterium)	Ein Test ist dann nützlich, wenn die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.
Objektivität (Gütekriterium)	Ein Test ist dann objektiv, wenn das Testergebnis unabhängig davon ist, wer den Test durchführt, auswertet und interpretiert.
Omega-Koefzient	"McDonalds Omega (ω) oder Bollens Omega (ω
Ordnungsaufgabe	Aufgabentyp, bei dem die einzelnen Bestandteile der Aufgabe so umgeordnet oder einander zugeordnet werden, dass idealerweise eine logisch passende Ordnung entsteht.
Parallele Tests	Messäquivalenz
Paralleltest-Reliabilität	Methode der Reliabilitätsschätzung. Die Reliabilität eines Tests, von dem zwei parallele Formen existieren, wird über die Korrelation der Testwerte der beiden parallelen Testformen geschätzt.
Parcels	s. Itemparcels
Parsimonitätsprinzip	Wissenschaftliches Prinzip, demzufolge „sparsamere“ Modelle mit wenigen Parametern bei gleicher Qualität gegenüber aufwendigeren Modellen bevorzugt werden sollten.
Personenparameter	Der Personenparameter kennzeichnet in der IRT die Merkmalsausprägung ηv einer Person v auf der latenten Variable η. In der KTT können Faktorscores als Personenparameter verwendet werden.
Persönlichkeitsmerkmale	Persönlichkeitsmerkmale sind mehr oder weniger zeitlich stabile psychische und physische Eigenschaften von Testpersonen (z. B. Extraversion, Körpergröße).
Persönlichkeitstests	Persönlichkeitstests dienen der Erfassung von individuell typischem Verhalten als Indikator für die Ausprägung von Persönlichkeitsmerkmalen (Verhaltens- oder Erlebensdispositionen).
Perzentil	Das Perzentil bezeichnet jenen Testwert Yv , der einem bestimmten Prozentrang in der Normierungsstichprobe entspricht. Beispielsweise wird derjenige Testwert, der von 30 % der Testpersonen unterschritten bzw. höchstens erreicht wird, als 30. Perzentil bezeichnet.
Powertests, auch Niveautests	Powertests sind Leistungstests mit eher schwierigen Aufgaben, wobei erhoben wird, welches Schwierigkeitsniveau der Aufgaben die Testperson ohne Zeitbegrenzung bewältigen kann.
Probabilistische Modelle	Im Unterschied zu deterministischen Modellen gehen probabilistische Modelle davon aus, dass bei dichotomen Items die Wahrscheinlichkeit, ein Item zu lösen bzw. ihm zuzustimmen, in Abhängigkeit von der latenten Merkmalsausprägung nicht von 0 auf 1 springt, sondern jeden Wert zwischen 0 und 1 annehmen kann. In der IRT wird die Antwortwahrscheinlichkeit durch eine monoton steigende, meist logistische IC-Funktion modelliert.
Projektive Tests	Bei projektiven Tests kommt mehrdeutiges Stimulusmaterial (meist Bilder) zum Einsatz. Es wird angenommen, dass Testpersonen unbewusste oder verdrängte Bewusstseinsinhalte in das Bildmaterial hineinprojizieren und dadurch Persönlichkeitsmerkmale ermittelt werden können. Die erforderlichen Gütekriterien werden durch projektive Tests häufig nicht erfüllt.
Prozentrang	Ein Prozentrang gibt an, wie viel Prozent der Bezugsgruppe bzw. Normierungsstichprobe einen Testwert erzielt haben, der niedriger oder maximal ebenso hoch ist wie der Testwert Yv der Testperson v.
Quartil	Als erstes, zweites bzw. drittes Quartil (Q1, Q2, Q3) werden diejenigen Testwerte Yv bezeichnet, die von 25 %, 50 % bzw. 75 % der Testpersonen unterschritten bzw. höchstens erreicht werden (vgl. Perzentil).
Rasch-Modelle	Rasch-Modelle stellen eine Klasse von spezifisch objektiven Modellen in der IRT dar. Einparameter-logistisches Modell (1PL-Modell).
Ratekorrektur	Die Ratekorrektur zieht bei der Testwertbestimmung jene Anzahl an „richtigen“ Lösungen ab, die nur durch zufälliges Raten der richtigen Antworten entstanden ist.
Rate-Modell von Birnbaum	Dreiparameter-logistisches Modell (3PL-Modell)
Ratingskala	Beurteilungsskala mit mehr als zwei (zumeist 3–7) Antwortabstufungen.
Receiver-Operating-Characteristics-Analyse	ROC-Analyse
Reliabilität (Gütekriterium)	Reliabilität bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je größer die Einflüsse der Messfehler sind, desto weniger reliabel ist das Testverfahren.
Reliabilitätskoefzient/KTT	Konkrete Bezeichnung für die Messgenauigkeit eines Tests (Reliabilität). In der KTT wird der Reliabilitätskoeffizient (Rel) als das Verhältnis zwischen True-Score-Varianz Var (τ) und Testwertevarianz Var (Y) definiert.
Repräsentative Aufgabenstichprobe	Eine repräsentative Aufgabenstichprobe stimmt hinsichtlich der Schwierigkeitsverteilung mit der Grundgesamtheit aller merkmalsrelevanten Aufgaben überein und erlaubt somit eine kriteriumsorientierte Testwertinterpretation in Bezug auf die Aufgabeninhalte.
Repräsentativität	Eine Stichprobe ist dann repräsentativ, wenn sie hinsichtlich ihrer Zusammensetzung die jeweilige Zielpopulation möglichst genau abbildet.
Retest-Reliabilität	Methode der Reliabilitätsschätzung. Ein Test wird zu zwei Messzeitpunkten der gleichen Stichprobe vorgegeben. Die Korrelation der zu beiden Messzeitpunkten gemessenen essentiell τ-parallelen Testwertvariablen dient als Maß der Reliabilität des Tests.
Retrospektive Befragung	In der Testentwicklungsphase wird die Testperson „rückblickend“ über Probleme bei der Beantwortung der einzelnen Items befragt.
ROC-Analyse	Die ROC-Analyse (Receiver-Operating-Characteristics-Analyse) ermöglicht für eine binäre Klassifikation (z.B. gefährdet vs. nicht gefährdet) den zur Fallunterscheidung verwendeten Schwellenwert optimal in der Weise festzulegen, dass die Trefferquote und die Quote korrekter Ablehnungen maximiert werden.
Schwellenwert (Cut-of-Score)	Im Rahmen der kriteriumsorientierten Testwertinterpretation bezeichnet ein Schwellenwert jenen Testwert, ab dem das Kriterium als erreicht angenommen wird. Schwellenwerte können z. B. mittels ROC-Analyse empirisch bestimmt werden.
Schwierigkeitsparameter/IRT	Der Schwierigkeitsparameter βi ist in der IRT ein Itemparameter, der durch jene Merkmalsausprägung η definiert ist, bei der die Lösungswahrscheinlichkeit des Items 50 % beträgt. Je höher β, desto schwieriger ist das Item; vgl. Leichtigkeitsparameter αi in der KTT.
Sensitivität/ROC-Analyse	Die Sensitivität (Trefferquote) in der ROC-Analyse ist das Verhältnis von „richtig positiv“ (RP) klassifizierten Merkmalsträgern zu der Summe von „falsch negativ“ (FN) und „richtig positiv“ (RP) klassifizierten Merkmalsträgern. Sie bezeichnet damit die Wahrscheinlichkeit, dass ein Fall, der ein Kriterium erfüllt, auch entsprechend als positiv klassifiziert wird.
Sicherung	g Unter Sicherung versteht man die Pflicht zur Regelung der Verfügbarkeit, Aufbewahrungsdauer und Verwendung von Testdaten (inklusive des Testprotokolls und aller schriftlichen Belege) und Schutz der Identität von Testpersonen.
Skalierung (Gütekriterium)	Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
Soziale Erwünschtheit, auch soziale Desirabilität	Die Soziale Erwünschtheit beinhaltet die Antworttendenz einer Testperson, sich selbst so darzustellen, wie es soziale Normen ihrer Wahrnehmung nach erfordern.
Spearman-Brown-Formel der Testverlängerung	Reliabilitätsmaß, dessen Berechnung essentielle τ-Parallelität von eindimensionalen Items voraussetzt.
Speedtest, auch Geschwindigkeitstest	Speedtests sind Leistungstests mit meist einfachen Aufgaben, wobei erhoben wird, wie viele der Aufgaben unter Zeitdruck gelöst werden können.
Spezifsche Objektivität/IRT	Spezifische Objektivität liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d. h. lediglich entlang der η-Achse parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items (βj - βi) unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen η untersucht wurden. Umgekehrt kann auch der Fähigkeitsunterschied zweier Personen (ηw - ηv) unabhängig von den verwendeten Items festgestellt werden.
Speziftät/LST-Theorie	Die Spezifität einer Messvariablen beschreibt in der LSTTheorie das Ausmaß der durch die Situation und die Person-Situation-Interaktion erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen.
Speziftät/ROC-Analyse	Die Spezifität (Quote korrekter Ablehnungen) in der ROCAnalyse ist das Verhältnis von „richtig negativ“ (RN) klassifizierten Merkmalsträgern zu der Summe von „falsch positiv“ (FP) und „richtig negativ“ (RN) klassifizierten Merkmalsträgern. Sie bezeichnet damit die Wahrscheinlichkeit, dass ein Fall, der ein Kriterium nicht erfüllt, auch entsprechend als negativ klassifiziert wird.
Split-Half-Reliabilität (Testhalbierungs-Reliabilität)	Methode der Reliabilitätsschätzung unter bestimmten Voraussetzungen (Messäquivalenz). Aus den Items eines Tests werden zwei parallele Testhälften gebildet (s. Itempaare). Aus der Korrelation der Testwerte der Halbtests wird mittels Spearman-Brown-Formel der Testverlängerung die Reliabilität des Gesamttests geschätzt.
Standardabweichung SD (Y)	Die Standardabweichung ist ein Streuungsmaß der Testwertvariablen Y um den Mittelwert Ȳ an. Die Standardabweichung wird als Wurzel aus der Testwertevarianz Var (Y) gewonnen. Ist die Testwertvariable normalverteilt, so befinden sich im Bereich Ȳ ± 1SD (Y) ca. 68 % der Testwerte, im Bereich Ȳ ± 2SD (Y) ca. 95 % der Testwerte.
Standardmessfehler SD (ε)	Der Standardmessfehler SD (ε) eines Tests resultiert aus der Unreliabilität des Tests und errechnet sich als Wurzel aus der Fehlervarianz der Testwertvariablen. Dabei gilt: SD (ε) = SD (Y) ⋅ √(1- Rel). Der Standardmessfehler ist bei höherer Reliabilität kleiner und bei niedrigerer Reliabilität größer.
Standardnormen	Als Standardnormen werden die ɀ-Norm sowie weitere durch Lineartransformationen gewonnene Normen (z. B. IQ- oder T-Norm) bezeichnet.
State	Ein State ist ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befindet. Er kennzeichnet sich durch personenbedingte (d. h. traitbedingte), situativ bedingte und durch die Interaktion zwischen Person und Situation bedingte Einflüsse.
Stichprobenunabhängigkeit	Stichprobenunabhängigkeit bedeutet, dass in RaschModellen die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
Strukturell unterschiedliche Methoden	Als strukturell unterschiedlich werden Methoden dann bezeichnet, wenn sie nicht austauschbar sind, weil sie sich qualitativ von einander unterscheiden und keine Zufallsauswahl darstellen. Strukturell unterschiedliche Methoden sind z. B. Selbst- und Fremdbeurteilungen.
Sufziente Statistik	s. erschöpfende (suffiziente) Statistik
τ-Kongenerität	In der KTT ist die τ-Kongenerität eine Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α, unterschiedliche Diskriminationsparameter λ sowie unterschiedliche Fehlervarianzen aufweisen dürfen (s. auch Messäquivalenz).
TBS-TK	Das TBS-TK ist ein veröffentlichtes Testbeurteilungssystem des Testkuratoriums (TK) zur standardisierten Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkatalogs; s. auch Testkuratorium.
Tendenz zur Mitte	Als Tendenz zur Mitte wird eine Antworttendenz bezeichnet, bei der extreme Antworten eher vermieden und mittlere Antwortkategorien eher bevorzugt werden.
Testadaptation	Testadaptation bezeichnet den Prozess einer qualitativ hochwertigen Übertragung (Übersetzung unter Berücksichtigung von Konstruktäquivalenz) und empirischen Evaluation psychologischer Tests aus anderen Sprachen und in andere Sprachen unter Beachtung kultureller Unterschiede.
Testeichung	Die Testeichung dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu wird der Test an Personen einer Normierungsstichprobe durchgeführt, die hinsichtlich einer definierten Bezugsgruppe repräsentativ ist.
Testgütekriterien/Gütekriterien	Testgütekriterien stellen ein System zur Qualitätsbeurteilung psychologischer Tests dar. Üblicherweise werden folgende zehn Kriterien unterschieden: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.
Testitem	Zu beantwortende/beurteilende Aufgabenstellung (Frage, Statement etc.) eines Tests.
Testkuratorium (TK)/Diagnostik- und Testkuratorium (DTK)	Das Testkuratorium (TK) ist ein Gremium der Föderation Deutscher Psychologievereinigungen (Deutsche Gesellschaft für Psychologie [DGPs] e. V. und Berufsverband Deutscher Psychologinnen und Psychologen [BDP] e. V.), dessen Aufgabe es ist, die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor der unqualifizierten Anwendung diagnostischer Verfahren zu schützen. Seit Sommer 2011 lautet die Bezeichnung „Diagnostik- und Testkuratorium (DTK)“.
Testnormen	s. Normierung
Testökonomie (Gütekriterium)	Ein Test erfüllt das Gütekriterium Ökonomie, wenn er – gemessen am diagnostischen Erkenntnisgewinn – relativ wenig Ressourcen wie Zeit, Geld o. Ä. Beansprucht.
Teststandards	Teststandards sind vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung, Adaptation, Anwendung und Qualitätsbeurteilung/Validierung psychologischer und pädagogischer Tests widerspiegeln.
Testwert	Der Testwert (= Rohwert) Yv ist das individuelle numerische Testresultat und wird aus den registrierten Antworten einer Testperson durch Anwendung definierter Regeln gebildet (vgl. aber Personenparameter).
Testwertestreuung SD (Y)	Die Testwertestreuung der Testwertverteilung sagt aus, wie breit die empirisch gewonnenen Testwerte einer Stichprobe um den Mittelwert der Testwerte verteilt sind. Die Streuung der Testwerte wird meist als Standardabweichung SD (Y) angegeben; man gewinnt sie als Wurzel aus der Testwertevarianz Var (Y).
Testwertevarianz Var (Y)	Die Testwertevarianz Var (Y) ist die Varianz der beobachteten Testwerte. In der KTT setzt sie sich aus der wahren Varianz Var (T) und der Fehlervarianz Var (E) zusammen.
Trait	Ein Trait ist ein zeitlich stabiles Merkmal (Disposition), das personeninhärent und transsituativ überdauernd ist.
Trait-Methoden-Einheit	In der MTMM-Analyse wird angenommen, dass in jeder Messung Einflüsse des zu messenden Konstrukts und der verwendeten Messmethode zu finden sind. Messungen eines Traits repräsentieren somit eine Trait-Methoden-Einheit.
Trefsicherheit	Index zur Beurteilung der Güte eines LCA-Modells. Definiert als die durchschnittliche Höhe der maximalen bedingten Klassenzuordnungswahrscheinlichkeit Pmax(g\|av) über alle in der Stichprobe vorkommenden Antwortmuster (Na) hinweg.
Trennschärfe	Itemtrennschärfe
True-Score τv	Der True-Score bzw. wahre Wert τv ist die wahre Ausprägung der Testperson v in dem von einem Test gemessenen Merkmal. Da Messungen in der Regel fehlerbehaftet sind, stimmen Testwert Yv und wahrer Wert τv nicht völlig überein. Ein Konfidenzintervall für τv kann mithilfe des Standardmessfehlers bestimmt werden.
Unbedingte Antwortmusterwahrscheinlichkeit P (av)	Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av in der Stichprobe.
Unbedingte Itembejahungswahrscheinlichkeit P (yvi = 1)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird.
Unbedingte Kategorienwahrscheinlichkeit P (yvi = k)	Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird.
Unbedingte Klassenzuordnungswahrscheinlichkeit P(g)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine beliebige Person v zur Klasse g gehört (auch relative Klassengröße πg).
Unverfälschbarkeit (Gütekriterium)	Unverfälschbarkeit eines Tests liegt vor, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch vorgetäuschtes Verhalten (s. Faking good/bad) die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.
Validität (Gütekriterium)	Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst – und nicht irgendein anderes. Validität bezeichnet darüber hinaus die Gültigkeit einer Menge zutreffender Schlussfolgerungen, die aus einem Testergebnis gezogen werden können.
Visuelle Analogskala	Eine visuelle Analogskala ist eine kontinuierliche Skala ohne konkrete Skalenstufen; meist ist sie eine Linie, auf der lediglich die Anfangsund Endpunkte als extreme Zustände markiert sind (z. B. keine Schmerzen vs. unerträgliche Schmerzen). Die Testperson kann durch eine Markierung auf der Linie seine Merkmalsausprägung (aktueller Schmerz) angeben.
Wahre Varianz	Die wahre Varianz Var (T) ist die Varianz der wahren Werte τv in einem Test. Sie ist meistens kleiner als die Testwertevarianz Var (Y) Aus dem Verhältnis beider Varianzanteile resultiert in der KTT die Reliabilität.
Youden-Index	In der ROC-Analyse wird der Youden-Index als Wert definiert, der sich aus der Berechnung Sensitivität + Spezifität - 1 ergibt. Der Youden-Index dient der Schwellenwertbestimmung. Der Schwellenwert ist dann optimal, wenn der Youden-Index maximal groß ist. Dann gelingt die Trennung der zu klassifizierenden Fälle am besten.
Zielpopulation	Die im Rahmen der Testeichung zu definierende Zielpopulation ist diejenige Bezugsgruppe, für welche die zu erstellenden Testnormen gelten sollen und aus der entsprechend die Eichstichprobe zu ziehen ist.
Zumutbarkeit (Gütekriterium)	Zumutbarkeit liegt vor, wenn ein Test absolut sowie relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.
Zweiparameter-logistisches Modell (auch zweiparametrisches logistisches Modell, 2PL-Modell, Birnbaum-Modell)	Im Unterschied zum 1PL-Modell wird beim 2PL-Modell ein zusätzlicher Itemparameter λi ins Modell aufgenommen, der die Diskriminierungsfähigkeit des Items (ähnlich der Itemtrennschärfe) repräsentiert.
zv-Normwert	Der ɀv -Normwert gibt an, wie stark der Testwert Yv einer Testperson v vom Mittelwert Ȳ der Verteilung der Normierungsstichprobe (Bezugsgruppe) in Einheiten der Standardabweichung SD (Y) abweicht.

Zurück zur Übersicht