Lexikon - Gesamtglossar aller Bücher

Testtheorie und Fragebogenkonstruktion (3. Aufl.)

  • Begriff
    Erklärung
  • Adaptiver Algorithmus
    Ein adaptiver Algorithmus ist ein Regelsystem, mit dem beim adaptiven Testen die Itemauswahl zu Beginn und während des Tests geregelt sowie Kriterien der Testbeendigung spezifiziert werden.
  • Adaptives Testen
    Ein spezielles Vorgehen bei der Messung individueller Ausprägungen von Personenmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit der untersuchten Testpersonen orientiert, die während der Testung berechnet wird.
  • Adjustiertes Bayesian Information Criterion (aBIC)
    Das aBIC ist eine Abwandlung des Bayesian Information Criterion (BIC), bei dem der Einfluss der Stichprobe kontrolliert wird. Es zeigt verlässlichere Eigenschaften bei Modellvergleichen im Kontext von Mischverteilungsmodellen.
  • Akaike Information Criterion (AIC)
    Unter dem AIC (auch Akaike-Informationskriterium) versteht man ein Maß für die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) unter Berücksichtigung der Komplexität des Modells. Daraus hervorgegangen sind das Bayesian Information Criterion (BIC), das adjustierte Bayesian Information Criterion (aBIC) und Consistent Akaike Information Criterion (CAIC).
  • Akquieszenz
    Mit Akquieszenz bezeichnet man die Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt mit Zustimmung zu reagieren.
  • Austauschbare Methoden
    Austauschbare Methoden in MTMM-Modellen sind solche Methoden, die einer Zufallsauswahl aus einer Menge gleichberechtigter (gleichadäquater) Methoden entsprechen. Beispielsweise wären verschiedene Messgelegenheiten austauschbar, wenn sich keine der Messgelegenheiten von den anderen Messgelegenheiten strukturell unterscheidet.
  • Auswahlaufgaben
    Aufgabentyp, bei dem die Testpersonen vor die Anforderung gestellt werden, aus mehreren vorgegebenen Antwortalternativen die richtige bzw. für sie zutreffende Antwort zu identifizieren.
  • Auswertungsobjektivität (Gütekriterium)
    Ein Test gilt als auswertungsobjektiv, wenn das Testergebnis unabhängig davon ist, wer den Test auswertet.
  • Autokorrelationsefekt
    In längsschnittlichen (longitudinalen) Strukturgleichungsmodellen korrelieren Indikatoren oft stärker über die Messgelegenheiten hinweg als mit anderen Indikatoren derselben Messgelegenheit, die dasselbe Konstrukt messen. Der Autokorrelationskoeffizient quantifiziert die Stärke der Korrelation der Indikatoren über die Zeit.
  • Axiom
    Axiome sind theoretische Grundannahmen, die als geltend angesehen werden und auf denen das Theoriegebäude aufgebaut wird.
  • Bayesian Information Criterion (BIC)
    Unter dem BIC (auch Bayes-Informationskriterium) wird ein dem AIC ähnliches Kriterium der Anpassungsgüte des Modells an die Daten verstanden, das im Unterschied zum AIC die Verletzung des Gebotes der Sparsamkeit (s. Parsimonität) von Modellparametern stärker bestraft.
  • Bedingte Antwortmusterwahrscheinlichkeit P (av j | g)
    Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av unter der Bedingung, dass die Person v zur Klasse g gehört.
  • Bedingte Itembejahungswahrscheinlichkeit P (yvi = 1 | g)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird, wenn die entsprechende Person v zur Klasse g gehört.
  • Bedingte Kategorienwahrscheinlichkeit P (yvi = k | g)
    Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird, wenn die entsprechende Person v zur Klasse g gehört.
  • Bedingte Klassenzuordnungswahrscheinlichkeit P (g | av)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine Person v mit dem Antwortmuster av zur Klasse g gehört.
  • Beurteilungsaufgaben
    Aufgabentyp, bei dem der individuelle Zustimmungs- oder Ablehnungsgrad zu einer vorgelegten Aussage (Statement) erfasst wird.
  • BIC
    Bayesian Information Criterion
  • Bifaktormodell
    Faktorenanalytisches Modell, bei dem alle Items auf einem Generalfaktor und Teile der Items jeweils auf einem spezifischen Faktor laden.
  • Birnbaum-Modell
    Zweiparameter-logistisches Modell (auch zweiparametrisches logistisches Modell, 2PL-Modell) mit Itemschwierigkeitsparameter βi und Diskriminationsparameter λi
  • CAIC
    Consistent Akaike Information Criterion (CAIC)
  • Consistent Akaike Information Criterion (CAIC)
    Das CAIC ist eine Abwandlung des AIC, bei dem der Stichprobenumfang Berücksichtigung findet.
  • Cronbachs Alpha (α)
    Reliabilitätsmaß, dessen Berechnung essentielle τ-Äquivalenz von eindimensionalen Items voraussetzt.
  • Cut-of-Wert (oder Cut-of-Score)
    Der Cut-off-Wert ist ein Schwellenwert der Merkmalsausprägung. Bei Überschreitung des Schwellenwertes (z. B. IQ D 130) erfolgt eine Klassifikation in eine bestimmte Gruppe (z. B. „Hochbegabte“), bei Unterschreitung hingegen nicht.
  • Debriefng
    Das Debriefing beschreibt die Qualitätssicherungsmaßnahme, nach der Testung den Testleiter nach Besonderheiten während der Testung zu befragen.
  • Deterministische Modelle
    Deterministische Modelle nehmen an, dass die Wahrscheinlichkeit, ein Item zu lösen oder ihm zuzustimmen, nur 0 oder 1 betragen kann, wobei die Wahrscheinlichkeit ab einer bestimmten Schwelle auf der Merkmalsdimension η von 0 auf 1 „springt“. Die Itemcharakteristische Funktion (ICFunktion) entspricht einer Sprungfunktion.
  • Diagnostik- und Testkuratorium (DTK)
    Neuere Bezeichnung für das Testkuratorium (TK)
  • DIN 33430
    Die DIN 33430 ist eine verbindliche Norm von Qualitätsstandards für die berufsbezogene Eignungsbeurteilung bezüglich der verwendeten Tests und der diagnostischen Ablaufschritte.
  • Disjunktheit von Antwortalternativen
    Disjunktheit von Antwortalternativen liegt vor, wenn die Antwortalternativen logisch nicht gleichzeitig gültig sein können.
  • Diskriminante Validität
    Im Rahmen der Konstruktvalidierung gilt die diskriminante Validität als nachgewiesen, wenn Messungen verschiedener Konstrukte mit derselben Methode nicht oder nur gering miteinander korrelieren.
  • Diskriminationsindex
    Unter dem Diskriminationsindex versteht man einen Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der LCA.
  • Distraktoren
    Als Distraktoren bezeichnet man plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Auswahlaufgaben.
  • Dreiparameter-logistisches Modell (auch dreiparametrisches logistisches Modell, 3PL-Modell, Rate-Modell von Birnbaum)
    Im 3PL-Modell wird neben dem Schwierigkeits- und dem Diskriminationsparameter des 2PL-Modells noch die Ratewahrscheinlichkeit als Parameter ρi in das Modell aufgenommen (Birnbaum-Modell).
  • Durchführungsobjektivität (Gütekriterium)
    Ein Test ist dann durchführungsobjektiv, wenn das Testergebnis unabhängig davon ist, von welcher Testleitung der Test durchgeführt wird.
  • Eichstichprobe
    Stichprobe, die zur Normierung eines Tests eingesetzt wird. Die Eichstichprobe besteht idealerweise aus einer hinreichend großen, repräsentativen Zufallsstichprobe der Zielpopulation, für die der Test beim späteren Einsatz Gültigkeit haben soll.
  • Eichung (Gütekriterium)
    s. Normierung
  • Eigenwert
    Der Eigenwert eines Faktors gibt an, wie viel Varianz aller Itemvariablen durch diesen Faktor erklärt wird.
  • Einparameter-logistisches Modell (auch einparametrisches logistisches Modell, 1PL-Modell, Rasch-Modell)
    Das 1PL-Modell der IRT beschreibt den Zusammenhang zwischen dem beobachtbaren dichotomen Antwortverhalten und dem dahinterstehenden latenten Merkmal auf Grundlage einer logistischen Wahrscheinlichkeitsfunktion mit einem Itemparameter, nämlich dem Schwierigkeitsparameter βi.
  • Erschöpfende (sufziente) Statistiken
    Die Zeilen- und Spaltensummenscores einer (0/1)-Datenmatrix werden als suffizient bezeichnet, wenn die Wahrscheinlichkeit der Daten nicht davon abhängt, welche Personen welche Items gelöst haben, sondern lediglich davon, wie viele Personen ein Item gelöst haben (Schwierigkeit des Items) bzw. wie viele Items eine Person lösen konnte (Fähigkeit der Person). Die Zeilen- und Spaltensummenscores reichen dann jeweils aus, um die Personen- und Itemparameter zu schätzen.
  • Essentielle τ-Äquivalenz
    z In der KTT Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α˛ und unterschiedliche Fehlervarianzen aufweisen dürfen; die Diskriminationsparameter λ müssen hingegen identisch sein.
  • Essentielle τ-Parallelität
    In der KTT Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α˛ aufweisen dürfen; die Diskriminationsparameter λ und die Fehlervarianzen müssen hingegen identisch sein.
  • Exhaustivität von Antwortalternativen
    Exhaustivität von Antwortalternativen liegt vor, wenn alle möglichen Antworten auf den vorgegebenen Antwortalternativen abgebildet werden können.
  • Exploratorische Faktorenanalyse (EFA)
    Die EFA ist ein statistisches Verfahren, das auf Annahmen beruht. Es kommt typischerweise dann zur Anwendung, wenn keine Hypothesen über die Anzahl der zugrunde liegenden Faktoren und über die Zuordnung der beobachteten Variablen zu den Faktoren vorliegen. Es ist ein sog. struktursuchendes und dimensionalitätsreduzierendes Verfahren.
  • Exposure Control
    Strategie zur Vermeidung der öffentlichen Bekanntheit von Items durch unerwünscht häufige Vorgabe der Items oder der Itemgruppen. Beim adaptiven Testen kann Exposure Control leichter erzielt werden.
  • Fairness (Gütekriterium)
    Ein Test erfüllt das Gütekriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.
  • Faking good/bad
    Antwortverhalten, mit dem die Testperson fälschlicherweise eine zu gute/schlechte Merkmalsausprägung vortäuscht.
  • Faktorladung
    Die Gewichtungszahl λjk einer beobachteten Variablen j auf dem latenten Faktor k heißt Faktorladung und beschreibt die Stärke des Zusammenhangs zwischen Faktor und Variable (meist Item). Sie kann bei orthogonal rotierten Faktoren als Korrelation interpretiert werden.
  • Faktorwert (Faktorscore)
    Der Faktorwert ηkv gibt an, wie stark ein Faktor ηk bei der v-ten Person ausgeprägt ist. Faktorscores werden in der KTT als Personenparameter verwendet.
  • Fehlervarianz Var (ε)
    Die Varianz der Fehlerwerte Var (ε) der Personen stellt in der KTT den unerklärten Anteil der Testwertevarianz Var (Υ) dar.
  • Freies Antwortformat
    Bei Aufgaben mit einem freien Antwortformat sind keine Antwortalternativen vorgegeben. Die Antwort wird von der Person selbst formuliert bzw. Produziert.
  • Geschwindigkeitstests s
    Speedtests
  • Gleichwertige Methoden
    Im Rahmen von MTMM-Modellen sind gleichwertige Methoden solche Methoden, die das zu erfassende Trait gleichwertig repräsentieren. Beispielsweise sind parallele Tests oder Testhälften gleichwertige Methoden. Im Unterschied zu austauschbaren Methoden ist die Erklärung der Methodeneffekte für gleichwertige Methoden nachrangig.
  • Gütekriterien
    s. Testgütekriterien, s. aber auch Informationskriterien
  • Halbtest
    Aufteilung eines Tests in zwei Testhälften, z. B. zur Reliabilitätsbestimmung, s. auch Itempaare
  • Hauptachsenanalyse
    Methode der EFA, mit der versucht wird, das Beziehungsmuster zwischen den manifesten Variablen mit möglichst wenigen dahinterliegenden latenten Faktoren zu erklären.
  • Hauptkomponentenanalyse (PCA)
    Die PCA (Principal Component Analysis) ist ein mathematisches Verfahren zur Bildung von Linearkombinationen von Items mit dem Ziel, möglichst viel Varianz der Items durch eine Abfolge von – hinsichtlich ihrer Varianzstärke gereihten – Hauptkomponenten zu erklären.
  • Hierarchisch geschachtelte Modelle
    Verschiedene CFA-Modelle werden als hierarchisch geschachtelt bezeichnet, wenn sie dieselbe Modellstruktur aufweisen und durch Parameterrestriktionen bzw. -freisetzungen ineinander übergeführt werden können, s. auch Nested Models.
  • Homogenität
    Homogenität von Items liegt vor, wenn die verschiedenen Items eines (Sub-)Tests dasselbe Merkmal messen, s. auch Itemhomogenität.
  • IC-Funktion
    Itemcharakteristische Funktion
  • Informationskriterien
    Maße zur deskriptiven, relativen Beurteilung der Güte eines Modells. Häufig verwendete Informationskriterien sind das Akaike Information Criterion (AIC), das Bayesian Information Criterion (BIC) und das Consistent Akaike Information Criterion (CAIC).
  • Inkrementelle Validität
    Inkrementelle Validität bezeichnet das Ausmaß, in dem die Vorhersage eines externen Kriteriums verbessert werden kann, wenn zusätzliche Testaufgaben oder (Sub-)Tests (und allgemeiner: Informationen) zu den bereits eingesetzten Verfahren hinzugenommen werden.
  • Interne Konsistenz (Konsistenzanalyse)
    Methode der Reliabilitätsschätzung. Die Kovarianzen zwischen den Items eines Tests werden als wahre Varianz angesehen und zur Bestimmung der Reliabilität verwendet. Siehe auch Cronbachs Alpha (α).
  • Interpretationsobjektivität (Gütekriterium)
    Ein Test ist dann interpretationsobjektiv, wenn bezüglich der Interpretation der Testwerte eindeutige Richtlinien (z. B. Normentabellen) vorliegen.
  • Invertierte Items
    Invertierte Items sind „umgepolte“ Items, bei denen nicht die Bejahung, sondern die Verneinung symptomatisch für eine hohe Merkmalsausprägung ist, s. auch Item-Wording.
  • Item-Response-Theorie (IRT)
    Die IRT (auch probabilistische Testtheorie) beschreibt den Zusammenhang zwischen beobachtbarem Antwortverhalten und dem dahinterstehenden Persönlichkeitsmerkmal (Personenparameter) auf Grundlage eines wahrscheinlichkeitstheoretischen Modells. Dabei wird die Wahrscheinlichkeit für das beobachtbare (gezeigte) Antwortverhalten als von der latenten Merkmalsausprägung abhängig modelliert. Siehe auch Itemcharakteristische Funktion (IC-Funktion).
  • Item-Wording
    Variation der Formulierung eines Items (Statements) durch Veränderung der Wortwahl, z. B. in positiv gepolter Form oder in „invertierter“ negativ gepolter Form zu Aufdeckung von Akquieszenz oder von Methodeneffekten.
  • Itemcharakteristische Funktion (IC-Funktion)
    Die IC-Funktion beschreibt den Zusammenhang zwischen dem manifesten Antwortverhalten der Testpersonen auf die Items und dem dahinterliegenden latenten Persönlichkeitsmerkmal. Die IRT ist vor allem für dichotome Itemvariablen konzipiert und geht von einem logistischen Zusammenhang aus, die KTT hingegen von einem linearen Zusammenhang mit kontinuierlichen Itemvariablen.
  • Itemhomogenität
    Verschiedene Items sind bezüglich einer latenten Dimension η dann homogen, wenn das Antwortverhalten auf die Items nur von diesem Merkmal (der latenten Dimension) und keinem anderen systematisch beeinflusst wird und die Items dem zuvor spezifizierten funktionalen Zusammenhang (d. h. dem vorgegebenen logistischen Modell) folgen.
  • Iteminformation
    Die Iteminformation Ii gibt in der IRT an, wie groß der Informationsgehalt eines Items i bezüglich der Merkmalsausprägung η einer Testperson v ist. Die Iteminformation eines Items i ist maximal, wenn die Itemschwierigkeit mit der jeweiligen Merkmalsausprägung der Testperson v auf der Joint-Scale übereinstimmt. Die Iteminformationen können zur Testinformation aufaddiert werden, mit deren Hilfe Konfidenzintervalle für die wahre Merkmalsausprägung der Testpersonen gebildet werden können.
  • Itempaare (auch Itemzwillinge)
    Bei essentieller τ-Parallelität können aus einer Menge eindimensionaler Testitems zwei Halbtests gebildet werden, wobei die Items von Itempaaren mit gleichen Leichtigkeits- und Diskriminationsparametern den jeweiligen Halbtesthälften zugeordnet werden. Die resultierende Halbtestreliabilität kann dann mit der Spearman-Brown-Formel der Testverlängerung zur Reliabilität des Gesamttests aufgewertet werden.
  • Itemparcels
    Zusammenfassung mehrere Items zu Päckchen, z. B. zu Halbtests, s. auch Parcels
  • Itempool
    Eine Menge von Items, für die mit einem geeigneten Testmodell (z. B. Rasch-Modell) Itemhomogenität (s. auch Messäquivalenz) festgestellt wurde; beim adaptiven Testen werden die informationsstärksten Items aus dem Itempool zur Vorgabe ausgewählt.
  • Itemschwierigkeit/Schwierigkeitsindex
    Die Itemschwierigkeit wird in der deskriptivstatistischen Itemanalyse durch den Schwierigkeitsindex ausgedrückt. Er beschreibt das mit 100 multiplizierte Verhältnis der tatsächlich erreichten Itempunktsumme aller Testpersonen zur maximal möglichen Itempunktsumme. Je größer der Schwierigkeitsindex ist, desto leichter ist das Item.
  • Itemschwierigkeitsparameter
    Schwierigkeitsparameter βi (IRT), Leichtigkeitsparameter αi (KTT)
  • Itemselektion
    Die Itemselektion beschreibt den Prozess, Items hinsichtlich ihrer Eignung zur Erfassung des interessierenden Merkmals auszuwählen. Neben der Betrachtung deskriptivstatistisch gewonnener Kennwerte (z. B. Itemschwierigkeit, Itemtrennschärfe und Itemvarianz) fließen auch inhaltliche und modelltheoretische Überlegungen in den Selektionsprozess ein.
  • Itemtrennschärfe
    Die Trennschärfe eines Items gibt in der deskriptivstatistischen Itemanalyse an, wie stark die mit dem jeweiligen Item erzielte Differenzierung zwischen den Testpersonen mit der Differenzierung durch den Gesamttest übereinstimmt.
  • Itemvarianz
    Die Varianz eines Items ist ein Maß für die Differenzierungsfähigkeit des Items. Die Itemvarianz gibt an, wie unterschiedlich die Testpersonen auf das Item antworten.
  • Joint-Scale
    Gemeinsame Skala von Personenfähigkeit und Itemschwierigkeit in der IRT
  • Klassische Testtheorie (KTT)
    Die KTT (auch Messfehlertheorie) beschreibt den Zusammenhang zwischen dem beobachtbaren Antwortverhalten und dem dahinterstehenden wahren Testwert τv bzw. der latenten Merkmalsausprägung ηv (Personenparameter) auf Grundlage der Annahme, dass sich der Messwert yvi einer Person v in einem Testitem i immer aus zwei Komponenten zusammensetzt. Diese sind ein wahrer Wert τvi und ein Messfehlerwert εvi . Der Zusammenhang zwischen den Messwerten und den wahren Werten bzw. latenten Merkmalsausprägungen wird in der KTT als linear angenommen.
  • Kognitives Vortesten
    Beim kognitiven Vortesten legt die Testleitung in Erprobung befindliche Items vor und bittet die Testpersonen, alle Überlegungen, die zur Beantwortung der Frage führen, zu formulieren. Diese Äußerungen werden meist auf Video aufgenommen.
  • Kommunalität
    Die Kommunalität hi2 einer Variablen i gibt an, in welchem Ausmaß die Varianz der Variablen durch die extrahierten q Faktoren erklärt wird.
  • Konfdenzintervall
    Das Konfidenzintervall kennzeichnet denjenigen Bereich um einen empirisch ermittelten individuellen Testwert Yv , in dem sich 95 % (99 %) aller möglichen wahren Testwerte τv befinden, die den Testwert Yv erzeugt haben können.
  • Konfrmatorische Faktorenanalyse (CFA)
    Die konfirmatorische Faktorenanalyse (CFA) ist ein Verfahren, mit dem Hypothesen über die Zuordnung von beobachteten Variablen zu dahinterliegenden (latenten) Faktoren über die Anzahl der Faktoren sowie über die Korrelationen zwischen den Faktoren theoriegeleitet überprüft werden können. Die CFA zählt zu den Verfahren der Strukturgleichungsmodelle.
  • Konsistenz
    Die Konsistenz einer Messvariablen beschreibt in der LST-Theorie das Ausmaß der durch einen Trait erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen; siehe aber auch Interne Konsistenz.
  • Konsistenzefekte
    Konsistenzeffekte treten dann auf, wenn Testpersonen versuchen, solche Antworten zu geben, die ihnen bezüglich ihrer Antworten auf vorangegangene Items als „stimmig“ erscheinen.
  • Konstrukt
    Bezeichnung für ein nicht direkt beobachtbares, aber operationalisierbares latentes Persönlichkeitsmerkmal.
  • Konstruktäquivalenz
    Die Konstruktäquivalenz ist die empirisch bestätigte Äquivalenz eines psychologischen Konstrukts über Sprachen und Kulturen hinweg.
  • Konstruktvalidität
    Konstruktvalidität liegt vor, wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll, s. auch konfirmatorischen Faktoranalyse (CFA).
  • Konvergente Validität
    Im Rahmen der Konstruktvalidierung gilt die konvergente Validität als nachgewiesen, wenn Messungen eines Konstrukts (oder verwandter Konstrukte), das mit verschiedenen Messmethoden erfasst wird, hoch miteinander korrelieren.
  • Kriteriumsorientierte Testwertinterpretation
    Bei der kriteriumsorientierten Testwertinterpretation erfolgt die Interpretation des Testwertes nicht in Bezug zur Testwertverteilung einer Bezugsgruppe (s. Normorientierte Testwertinterpretation), sondern in Bezug auf ein spezifisches inhaltliches Kriterium. Es wird vorab festgelegt, welches Testergebnis mindestens vorliegen muss, um das Kriterium zu erreichen.
  • Kriteriumsvalidität
    Kriteriumsvalidität liegt vor, wenn von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden.
  • Latent-Class-Analyse (LCA)
    Probabilistisches Verfahren zur Kategorisierung von Personen (Objekten) in qualitative latente Klassen.
  • Latent-Class-Modelle
    Bezeichnung für IRT-Modelle, die davon ausgehen, dass das latente Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden aus qualitativen kategorialen latenten Klassen besteht.
  • Latent-State-Trait-Theorie (LST-Theorie)
    Die LST-Theorie ist eine formale Erweiterung der KTT, die neben der Aufteilung der Messvariablen Yit einer Messung i zu Messgelegenheit t in eine Messfehlervariable εit und in eine Variable der wahren Werte τit auch eine Trennung von situationalen und dispositionellen Einflüssen erlaubt. Dazu wird die Variable der wahren Werte τit einer Messung Yit zusätzlich in eine Trait-Variable ηit und in eine State-Residuum-Variable ζit zerlegt: Yit = τit + εit = ηit + ζit + εit.
  • Latent-Trait-Modelle
    Bezeichnung für IRT-Modelle, die davon ausgehen, dass es sich bei dem latenten Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden um eine quantitative kontinuierliche latente Dimension handelt.
  • Latente Dimension
    Nicht direkt beobachtbare Variable (auch Faktor, Konstrukt, Trait) zur Erfassung von Merkmalsausprägungen in Leistungs-, Einstellungs- oder Persönlichkeitsmerkmalen, von denen das manifeste Verhalten als abhängig angesehen wird.
  • Latentes State-Residuum
    Das State-Residuum ist der Teil eines States, der ausschließlich die Situation und die Interaktion zwischen Person und Situation repräsentiert.
  • Leichtigkeitsparameter
    In den Messmodellen der KTT wird der Leichtigkeitsparameter eines Items mit αi (Interzept der linearen IC-Funktion) bezeichnt. Je höher α, desto einfacher ist das Item zu lösen/bejahen (vgl. Schwierigkeitsparameter der IRT).
  • Leistungstests
    Tests zur Erfassung der individuellen kognitiven Leistungsfähigkeit in Problemlösesituationen. Beispiele: Intelligenztests, Konzentrationstests etc.
  • Likelihood-Ratio-Test (LRT)
    Möglichkeit zur inferenzstatistischen Absicherung der Güte von IRT-Modellen. Der LRT wird zur inferenzstatistischen Absicherung des Unterschieds zweier geschachtelter Modelle (Nested Models) verwendet.
  • Likelihood/IRT
    In der IRT ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Sie ist dort definiert als die Wahrscheinlichkeit aller beobachteten Daten in Abhängigkeit der gewählten Modellparameter und unter Annahme der Modellgültigkeit. Bei der Parameterschätzung werden die Parameter iterativ so lange verändert, bis die Likelihood maximal ist.
  • Likelihood/LCA
    In der LCA ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Es ist dort definiert als das Produkt der unbedingten Antwortmusterwahrscheinlichkeiten P(av) über alle Antwortmuster in der Stichprobe (Na) hinweg.
  • Linear-logistische Modelle
    Linear-logistische Modelle zerlegen die Schwierigkeitsparameter der Items in für die Bearbeitung des Items erforderliche Basisoperationen. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
  • Lizenzprüfung nach DIN 33430
    Nachweis einschlägiger Kenntnisse für den diagnostischen Prozess von Auftragnehmern (Lizenz A), bzw. Mitwirkenden an Verhaltensbeobachtungen (Lizenz MV) und von Mitwirkenden an Eignungsinterviews (Lizenz ME) gemäß den Anforderungen der DIN 33430.
  • Lokale stochastische Unabhängigkeit
    Bedingung, die erfüllt sein muss, um die Korrelation zwischen zwei Testitems auf eine dahinterliegende latente Persönlichkeitsvariable zurückführen zu können. Die lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelation zwischen den Items verschwindet, wenn man sie auf den einzelnen („lokalen“) Stufen des latenten Persönlichkeitsmerkmals untersucht.
  • LST-Theorie
    s. Latent-State-Trait-Theorie
  • Manifeste Variablen
    Variablen zur Erfassung des beobachtbaren Antwortverhaltens mit verschiedenen Items, die Indikatoren für die latenten Dimensionen darstellen.
  • McDonalds Omega
    Reliabilitätsmaß, dessen Berechnung £-Kongenerität von eindimensionalen Items voraussetzt.
  • Messäquivalenz
    In der KTT Oberbegriff für verschieden strenge Formen von Parallelität eindimensionaler Testitems: τ-Kongenerität, essentielle τ-Äquivalenz, essentielle τ-Parallelität.
  • Messefzienz
    Die Effizienz eines Tests berechnet sich als Quotienten aus Messpräzision und Testlänge, wobei Letztere häufig durch die Anzahl der präsentierten Items quantifiziert wird.
  • Messmodell
    Im Rahmen von Strukturgleichungsmodellen werden die Teilmodelle, in denen die Zuordnungen der beobachteten Variablen zu den latenten Variablen (Faktoren) erfolgt, als Messmodelle bezeichnet. In der KTT erfordern verschiedene Messmodelle unterschiedliche Reliabilitätsmaße.
  • Messpräzision
    Grad der Übereinstimmung von wahren Merkmalsauprägungen und den Testwerten. Auf Skalenebene oft durch die mittlere quadratische Abweichung von wahrer und geschätzter Merkmalsausprägung bestimmt.
  • Methodenefekte
    Ein Sammelbegriff für verschiedene systematische Varianzquellen bei der MTMM-Analyse, die sich über den Trait hinausgehend auf die Validität der Messung auswirken können. Hierbei handelt es sich vor allem um Charakteristika der eingesetzten Messinstrumente, der Beurteiler oder der Situationen, in der eine Messung erfolgt.
  • Methodenspeziftätskoefzient
    Der Methodenspezifitätskoeffizient gibt den Anteil an beobachteter Varianz wieder, der auf den Einfluss eines Methodeneffekts zurückzuführen ist. Je höher der Methodenspezifitätskoeffizient ausfällt, desto stärker ist der Einfluss der Messmethode auf die Messung.
  • Mischverteilungs-Rasch-Modelle (Mixed-Rasch Models)
    Kombination aus RaschModell und LCA. Innerhalb jeder latenten Klasse wird versucht, jeweils ein eigenes Rasch-Modell anzupassen. Zwischen den latenten Klassen unterscheiden sich die Parameter des Rasch-Modells.
  • Mixed-Rasch Models
    Mischverteilungs-Rasch-Modelle
  • Modelldiferenztest
    Werden mit der CFA hierarchisch geschachtelte Modelle spezifiziert und gegeneinander getestet, so kann der Unterschied im Modellfit statistisch über die Differenz der χ2-Werte beider Modelle überprüft werden, die wiederum χ2-verteilt ist.
  • Modellft
    Der Modellfit bezeichnet in der Statistik ganz allgemein die Güte der Passung zwischen Modell und Daten. Je ungünstiger der zur Beurteilung der Passung gewählte Index (z. B. χ2-Wert, BIC etc.) ausfällt, desto schlechter ist die Passung.
  • MTMM-Analyse
    Die Multitrait-Multimethod-Analyse ist ein Verfahren zum Nachweis der Konstruktvalidität unter Berücksichtigung einer systematischen Kombination von mehreren Traits und mehreren Messmethoden.
  • Multidimensionales adaptives Testen
    Eine spezielle Form des adaptiven Testens, bei der mehrere latente Dimensionen als ursächlich für das beobachtete Antwortverhalten angesehen werden; aus den Antworten wird simultan auf mehrere latente Merkmale geschlossen.
  • Multiple Regression
    Mittels einer multiplen Regression werden die Ausprägungen einer manifesten Kriteriumsvariablen bestmöglich auf die Ausprägungen mehrerer manifester Prädiktorvariablen zurückgeführt.
  • Nested Models
    Hierunter versteht man hierarchisch geschachtelte Modelle, die durch Parameterrestriktionen ineinander überführbar sind.
  • Niveautests
    Powertests
  • Nomologisches Netz
    Ein nomologisches Netz stellt ein Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit theoretischen Annahmen bzw. empirischen Evidenzen beschrieben und durch Korrespondenzregeln miteinander verbunden.
  • Norm(en)aktualisierung
    Unter Norm(en)aktualisierung versteht man eine erneute Testeichung, sobald die empirische Überprüfung der Gültigkeit von Normen ergeben hat, dass sich die Merkmalsverteilung in der Bezugsgruppe seit der vorherigen Testeichung bedeutsam verändert hat.
  • Norm(en)diferenzierung
    Unter Norm(en)differenzierung versteht man die Bildung von separaten Normen für einzelne Subpopulationen aus der Eichstichprobe hinsichtlich eines mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktors (z. B. separate Normen für Männer und Frauen).
  • Normalisierung
    Bei der Normalisierung wird eine nicht normalverteilte Testwertvariable zur besseren Interpretierbarkeit so transformiert, dass die Variable danach normalverteilt ist. Die Normalisierung ist von der Normierung zu unterscheiden, die bei der Testeichung vorgenommen wird.
  • Normentabelle
    s. Normierung
  • Normierung, auch Testeichung (Gütekriterium)
    Die Normierung dient dazu, Vergleichswerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu werden Testergebnisse von Personen einer Eichstichprobe in Norm(en)tabellen zusammengestellt.
  • Normorientierte Testwertinterpretation
    Bei der normorientierten Testwertinterpretation wird der Testwert (d. h. die individuelle Merkmalsausprägung einer Testperson) mit den Normwerten einer Bezugsgruppe (Eichstichprobe) verglichen, um die relative Position der Testperson innerhalb der Bezugsgruppe zu beurteilen.
  • Normwert
    Ein Normwert (z. B. Prozentrang, ɀv-Wert) ermöglicht es, den Testwert Yv einer Testperson hinsichtlich seiner Position in der Testwertverteilung einer bestimmten Bezugsgruppe zu interpretieren.
  • Nützlichkeit (Gütekriterium)
    Ein Test ist dann nützlich, wenn die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.
  • Objektivität (Gütekriterium)
    Ein Test ist dann objektiv, wenn das Testergebnis unabhängig davon ist, wer den Test durchführt, auswertet und interpretiert.
  • Omega-Koefzient
    "McDonalds Omega (ω) oder Bollens Omega (ω
  • Ordnungsaufgabe
    Aufgabentyp, bei dem die einzelnen Bestandteile der Aufgabe so umgeordnet oder einander zugeordnet werden, dass idealerweise eine logisch passende Ordnung entsteht.
  • Parallele Tests
    Messäquivalenz
  • Paralleltest-Reliabilität
    Methode der Reliabilitätsschätzung. Die Reliabilität eines Tests, von dem zwei parallele Formen existieren, wird über die Korrelation der Testwerte der beiden parallelen Testformen geschätzt.
  • Parcels
    s. Itemparcels
  • Parsimonitätsprinzip
    Wissenschaftliches Prinzip, demzufolge „sparsamere“ Modelle mit wenigen Parametern bei gleicher Qualität gegenüber aufwendigeren Modellen bevorzugt werden sollten.
  • Personenparameter
    Der Personenparameter kennzeichnet in der IRT die Merkmalsausprägung ηv einer Person v auf der latenten Variable η. In der KTT können Faktorscores als Personenparameter verwendet werden.
  • Persönlichkeitsmerkmale
    Persönlichkeitsmerkmale sind mehr oder weniger zeitlich stabile psychische und physische Eigenschaften von Testpersonen (z. B. Extraversion, Körpergröße).
  • Persönlichkeitstests
    Persönlichkeitstests dienen der Erfassung von individuell typischem Verhalten als Indikator für die Ausprägung von Persönlichkeitsmerkmalen (Verhaltens- oder Erlebensdispositionen).
  • Perzentil
    Das Perzentil bezeichnet jenen Testwert Yv , der einem bestimmten Prozentrang in der Normierungsstichprobe entspricht. Beispielsweise wird derjenige Testwert, der von 30 % der Testpersonen unterschritten bzw. höchstens erreicht wird, als 30. Perzentil bezeichnet.
  • Powertests, auch Niveautests
    Powertests sind Leistungstests mit eher schwierigen Aufgaben, wobei erhoben wird, welches Schwierigkeitsniveau der Aufgaben die Testperson ohne Zeitbegrenzung bewältigen kann.
  • Probabilistische Modelle
    Im Unterschied zu deterministischen Modellen gehen probabilistische Modelle davon aus, dass bei dichotomen Items die Wahrscheinlichkeit, ein Item zu lösen bzw. ihm zuzustimmen, in Abhängigkeit von der latenten Merkmalsausprägung nicht von 0 auf 1 springt, sondern jeden Wert zwischen 0 und 1 annehmen kann. In der IRT wird die Antwortwahrscheinlichkeit durch eine monoton steigende, meist logistische IC-Funktion modelliert.
  • Projektive Tests
    Bei projektiven Tests kommt mehrdeutiges Stimulusmaterial (meist Bilder) zum Einsatz. Es wird angenommen, dass Testpersonen unbewusste oder verdrängte Bewusstseinsinhalte in das Bildmaterial hineinprojizieren und dadurch Persönlichkeitsmerkmale ermittelt werden können. Die erforderlichen Gütekriterien werden durch projektive Tests häufig nicht erfüllt.
  • Prozentrang
    Ein Prozentrang gibt an, wie viel Prozent der Bezugsgruppe bzw. Normierungsstichprobe einen Testwert erzielt haben, der niedriger oder maximal ebenso hoch ist wie der Testwert Yv der Testperson v.
  • Quartil
    Als erstes, zweites bzw. drittes Quartil (Q1, Q2, Q3) werden diejenigen Testwerte Yv bezeichnet, die von 25 %, 50 % bzw. 75 % der Testpersonen unterschritten bzw. höchstens erreicht werden (vgl. Perzentil).
  • Rasch-Modelle
    Rasch-Modelle stellen eine Klasse von spezifisch objektiven Modellen in der IRT dar. Einparameter-logistisches Modell (1PL-Modell).
  • Rate-Modell von Birnbaum
    Dreiparameter-logistisches Modell (3PL-Modell)
  • Ratekorrektur
    Die Ratekorrektur zieht bei der Testwertbestimmung jene Anzahl an „richtigen“ Lösungen ab, die nur durch zufälliges Raten der richtigen Antworten entstanden ist.
  • Ratingskala
    Beurteilungsskala mit mehr als zwei (zumeist 3–7) Antwortabstufungen.
  • Receiver-Operating-Characteristics-Analyse
    ROC-Analyse
  • Reliabilität (Gütekriterium)
    Reliabilität bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je größer die Einflüsse der Messfehler sind, desto weniger reliabel ist das Testverfahren.
  • Reliabilitätskoefzient/KTT
    Konkrete Bezeichnung für die Messgenauigkeit eines Tests (Reliabilität). In der KTT wird der Reliabilitätskoeffizient (Rel) als das Verhältnis zwischen True-Score-Varianz Var (τ) und Testwertevarianz Var (Y) definiert.
  • Repräsentative Aufgabenstichprobe
    Eine repräsentative Aufgabenstichprobe stimmt hinsichtlich der Schwierigkeitsverteilung mit der Grundgesamtheit aller merkmalsrelevanten Aufgaben überein und erlaubt somit eine kriteriumsorientierte Testwertinterpretation in Bezug auf die Aufgabeninhalte.
  • Repräsentativität
    Eine Stichprobe ist dann repräsentativ, wenn sie hinsichtlich ihrer Zusammensetzung die jeweilige Zielpopulation möglichst genau abbildet.
  • Retest-Reliabilität
    Methode der Reliabilitätsschätzung. Ein Test wird zu zwei Messzeitpunkten der gleichen Stichprobe vorgegeben. Die Korrelation der zu beiden Messzeitpunkten gemessenen essentiell τ-parallelen Testwertvariablen dient als Maß der Reliabilität des Tests.
  • Retrospektive Befragung
    In der Testentwicklungsphase wird die Testperson „rückblickend“ über Probleme bei der Beantwortung der einzelnen Items befragt.
  • ROC-Analyse
    Die ROC-Analyse (Receiver-Operating-Characteristics-Analyse) ermöglicht für eine binäre Klassifikation (z.B. gefährdet vs. nicht gefährdet) den zur Fallunterscheidung verwendeten Schwellenwert optimal in der Weise festzulegen, dass die Trefferquote und die Quote korrekter Ablehnungen maximiert werden.
  • Schwellenwert (Cut-of-Score)
    Im Rahmen der kriteriumsorientierten Testwertinterpretation bezeichnet ein Schwellenwert jenen Testwert, ab dem das Kriterium als erreicht angenommen wird. Schwellenwerte können z. B. mittels ROC-Analyse empirisch bestimmt werden.
  • Schwierigkeitsparameter/IRT
    Der Schwierigkeitsparameter βi ist in der IRT ein Itemparameter, der durch jene Merkmalsausprägung η definiert ist, bei der die Lösungswahrscheinlichkeit des Items 50 % beträgt. Je höher β, desto schwieriger ist das Item; vgl. Leichtigkeitsparameter αi in der KTT.
  • Sensitivität/ROC-Analyse
    Die Sensitivität (Trefferquote) in der ROC-Analyse ist das Verhältnis von „richtig positiv“ (RP) klassifizierten Merkmalsträgern zu der Summe von „falsch negativ“ (FN) und „richtig positiv“ (RP) klassifizierten Merkmalsträgern. Sie bezeichnet damit die Wahrscheinlichkeit, dass ein Fall, der ein Kriterium erfüllt, auch entsprechend als positiv klassifiziert wird.
  • Sicherung
    g Unter Sicherung versteht man die Pflicht zur Regelung der Verfügbarkeit, Aufbewahrungsdauer und Verwendung von Testdaten (inklusive des Testprotokolls und aller schriftlichen Belege) und Schutz der Identität von Testpersonen.
  • Skalierung (Gütekriterium)
    Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
  • Soziale Erwünschtheit, auch soziale Desirabilität
    Die Soziale Erwünschtheit beinhaltet die Antworttendenz einer Testperson, sich selbst so darzustellen, wie es soziale Normen ihrer Wahrnehmung nach erfordern.
  • Spearman-Brown-Formel der Testverlängerung
    Reliabilitätsmaß, dessen Berechnung essentielle τ-Parallelität von eindimensionalen Items voraussetzt.
  • Speedtest, auch Geschwindigkeitstest
    Speedtests sind Leistungstests mit meist einfachen Aufgaben, wobei erhoben wird, wie viele der Aufgaben unter Zeitdruck gelöst werden können.
  • Spezifsche Objektivität/IRT
    Spezifische Objektivität liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d. h. lediglich entlang der η-Achse parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items (βj - βi) unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen η untersucht wurden. Umgekehrt kann auch der Fähigkeitsunterschied zweier Personen (ηw - ηv) unabhängig von den verwendeten Items festgestellt werden.
  • Speziftät/LST-Theorie
    Die Spezifität einer Messvariablen beschreibt in der LSTTheorie das Ausmaß der durch die Situation und die Person-Situation-Interaktion erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen.
  • Speziftät/ROC-Analyse
    Die Spezifität (Quote korrekter Ablehnungen) in der ROCAnalyse ist das Verhältnis von „richtig negativ“ (RN) klassifizierten Merkmalsträgern zu der Summe von „falsch positiv“ (FP) und „richtig negativ“ (RN) klassifizierten Merkmalsträgern. Sie bezeichnet damit die Wahrscheinlichkeit, dass ein Fall, der ein Kriterium nicht erfüllt, auch entsprechend als negativ klassifiziert wird.
  • Split-Half-Reliabilität (Testhalbierungs-Reliabilität)
    Methode der Reliabilitätsschätzung unter bestimmten Voraussetzungen (Messäquivalenz). Aus den Items eines Tests werden zwei parallele Testhälften gebildet (s. Itempaare). Aus der Korrelation der Testwerte der Halbtests wird mittels Spearman-Brown-Formel der Testverlängerung die Reliabilität des Gesamttests geschätzt.
  • Standardabweichung SD (Y)
    Die Standardabweichung ist ein Streuungsmaß der Testwertvariablen Y um den Mittelwert Ȳ an. Die Standardabweichung wird als Wurzel aus der Testwertevarianz Var (Y) gewonnen. Ist die Testwertvariable normalverteilt, so befinden sich im Bereich Ȳ ± 1SD (Y) ca. 68 % der Testwerte, im Bereich Ȳ ± 2SD (Y) ca. 95 % der Testwerte.
  • Standardmessfehler SD (ε)
    Der Standardmessfehler SD (ε) eines Tests resultiert aus der Unreliabilität des Tests und errechnet sich als Wurzel aus der Fehlervarianz der Testwertvariablen. Dabei gilt: SD (ε) = SD (Y) ⋅ √(1- Rel). Der Standardmessfehler ist bei höherer Reliabilität kleiner und bei niedrigerer Reliabilität größer.
  • Standardnormen
    Als Standardnormen werden die ɀ-Norm sowie weitere durch Lineartransformationen gewonnene Normen (z. B. IQ- oder T-Norm) bezeichnet.
  • State
    Ein State ist ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befindet. Er kennzeichnet sich durch personenbedingte (d. h. traitbedingte), situativ bedingte und durch die Interaktion zwischen Person und Situation bedingte Einflüsse.
  • Stichprobenunabhängigkeit
    Stichprobenunabhängigkeit bedeutet, dass in RaschModellen die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
  • Strukturell unterschiedliche Methoden
    Als strukturell unterschiedlich werden Methoden dann bezeichnet, wenn sie nicht austauschbar sind, weil sie sich qualitativ von einander unterscheiden und keine Zufallsauswahl darstellen. Strukturell unterschiedliche Methoden sind z. B. Selbst- und Fremdbeurteilungen.
  • Sufziente Statistik
    s. erschöpfende (suffiziente) Statistik
  • TBS-TK
    Das TBS-TK ist ein veröffentlichtes Testbeurteilungssystem des Testkuratoriums (TK) zur standardisierten Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkatalogs; s. auch Testkuratorium.
  • Tendenz zur Mitte
    Als Tendenz zur Mitte wird eine Antworttendenz bezeichnet, bei der extreme Antworten eher vermieden und mittlere Antwortkategorien eher bevorzugt werden.
  • Testadaptation
    Testadaptation bezeichnet den Prozess einer qualitativ hochwertigen Übertragung (Übersetzung unter Berücksichtigung von Konstruktäquivalenz) und empirischen Evaluation psychologischer Tests aus anderen Sprachen und in andere Sprachen unter Beachtung kultureller Unterschiede.
  • Testeichung
    Die Testeichung dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu wird der Test an Personen einer Normierungsstichprobe durchgeführt, die hinsichtlich einer definierten Bezugsgruppe repräsentativ ist.
  • Testgütekriterien/Gütekriterien
    Testgütekriterien stellen ein System zur Qualitätsbeurteilung psychologischer Tests dar. Üblicherweise werden folgende zehn Kriterien unterschieden: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.
  • Testitem
    Zu beantwortende/beurteilende Aufgabenstellung (Frage, Statement etc.) eines Tests.
  • Testkuratorium (TK)/Diagnostik- und Testkuratorium (DTK)
    Das Testkuratorium (TK) ist ein Gremium der Föderation Deutscher Psychologievereinigungen (Deutsche Gesellschaft für Psychologie [DGPs] e. V. und Berufsverband Deutscher Psychologinnen und Psychologen [BDP] e. V.), dessen Aufgabe es ist, die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor der unqualifizierten Anwendung diagnostischer Verfahren zu schützen. Seit Sommer 2011 lautet die Bezeichnung „Diagnostik- und Testkuratorium (DTK)“.
  • Testnormen
    s. Normierung
  • Testökonomie (Gütekriterium)
    Ein Test erfüllt das Gütekriterium Ökonomie, wenn er – gemessen am diagnostischen Erkenntnisgewinn – relativ wenig Ressourcen wie Zeit, Geld o. Ä. Beansprucht.
  • Teststandards
    Teststandards sind vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung, Adaptation, Anwendung und Qualitätsbeurteilung/Validierung psychologischer und pädagogischer Tests widerspiegeln.
  • Testwert
    Der Testwert (= Rohwert) Yv ist das individuelle numerische Testresultat und wird aus den registrierten Antworten einer Testperson durch Anwendung definierter Regeln gebildet (vgl. aber Personenparameter).
  • Testwertestreuung SD (Y)
    Die Testwertestreuung der Testwertverteilung sagt aus, wie breit die empirisch gewonnenen Testwerte einer Stichprobe um den Mittelwert der Testwerte verteilt sind. Die Streuung der Testwerte wird meist als Standardabweichung SD (Y) angegeben; man gewinnt sie als Wurzel aus der Testwertevarianz Var (Y).
  • Testwertevarianz Var (Y)
    Die Testwertevarianz Var (Y) ist die Varianz der beobachteten Testwerte. In der KTT setzt sie sich aus der wahren Varianz Var (T) und der Fehlervarianz Var (E) zusammen.
  • Trait
    Ein Trait ist ein zeitlich stabiles Merkmal (Disposition), das personeninhärent und transsituativ überdauernd ist.
  • Trait-Methoden-Einheit
    In der MTMM-Analyse wird angenommen, dass in jeder Messung Einflüsse des zu messenden Konstrukts und der verwendeten Messmethode zu finden sind. Messungen eines Traits repräsentieren somit eine Trait-Methoden-Einheit.
  • Trefsicherheit
    Index zur Beurteilung der Güte eines LCA-Modells. Definiert als die durchschnittliche Höhe der maximalen bedingten Klassenzuordnungswahrscheinlichkeit Pmax(g|av) über alle in der Stichprobe vorkommenden Antwortmuster (Na) hinweg.
  • Trennschärfe
    Itemtrennschärfe
  • True-Score τv
    Der True-Score bzw. wahre Wert τv ist die wahre Ausprägung der Testperson v in dem von einem Test gemessenen Merkmal. Da Messungen in der Regel fehlerbehaftet sind, stimmen Testwert Yv und wahrer Wert τv nicht völlig überein. Ein Konfidenzintervall für τv kann mithilfe des Standardmessfehlers bestimmt werden.
  • Unbedingte Antwortmusterwahrscheinlichkeit P (av)
    Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av in der Stichprobe.
  • Unbedingte Itembejahungswahrscheinlichkeit P (yvi = 1)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird.
  • Unbedingte Kategorienwahrscheinlichkeit P (yvi = k)
    Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird.
  • Unbedingte Klassenzuordnungswahrscheinlichkeit P(g)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine beliebige Person v zur Klasse g gehört (auch relative Klassengröße πg).
  • Unverfälschbarkeit (Gütekriterium)
    Unverfälschbarkeit eines Tests liegt vor, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch vorgetäuschtes Verhalten (s. Faking good/bad) die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.
  • Validität (Gütekriterium)
    Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst – und nicht irgendein anderes. Validität bezeichnet darüber hinaus die Gültigkeit einer Menge zutreffender Schlussfolgerungen, die aus einem Testergebnis gezogen werden können.
  • Visuelle Analogskala
    Eine visuelle Analogskala ist eine kontinuierliche Skala ohne konkrete Skalenstufen; meist ist sie eine Linie, auf der lediglich die Anfangsund Endpunkte als extreme Zustände markiert sind (z. B. keine Schmerzen vs. unerträgliche Schmerzen). Die Testperson kann durch eine Markierung auf der Linie seine Merkmalsausprägung (aktueller Schmerz) angeben.
  • Wahre Varianz
    Die wahre Varianz Var (T) ist die Varianz der wahren Werte τv in einem Test. Sie ist meistens kleiner als die Testwertevarianz Var (Y) Aus dem Verhältnis beider Varianzanteile resultiert in der KTT die Reliabilität.
  • Youden-Index
    In der ROC-Analyse wird der Youden-Index als Wert definiert, der sich aus der Berechnung Sensitivität + Spezifität - 1 ergibt. Der Youden-Index dient der Schwellenwertbestimmung. Der Schwellenwert ist dann optimal, wenn der Youden-Index maximal groß ist. Dann gelingt die Trennung der zu klassifizierenden Fälle am besten.
  • Zielpopulation
    Die im Rahmen der Testeichung zu definierende Zielpopulation ist diejenige Bezugsgruppe, für welche die zu erstellenden Testnormen gelten sollen und aus der entsprechend die Eichstichprobe zu ziehen ist.
  • Zumutbarkeit (Gütekriterium)
    Zumutbarkeit liegt vor, wenn ein Test absolut sowie relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.
  • zv-Normwert
    Der ɀv -Normwert gibt an, wie stark der Testwert Yv einer Testperson v vom Mittelwert Ȳ der Verteilung der Normierungsstichprobe (Bezugsgruppe) in Einheiten der Standardabweichung SD (Y) abweicht.
  • Zweiparameter-logistisches Modell (auch zweiparametrisches logistisches Modell, 2PL-Modell, Birnbaum-Modell)
    Im Unterschied zum 1PL-Modell wird beim 2PL-Modell ein zusätzlicher Itemparameter λi ins Modell aufgenommen, der die Diskriminierungsfähigkeit des Items (ähnlich der Itemtrennschärfe) repräsentiert.
  • τ-Kongenerität
    In der KTT ist die τ-Kongenerität eine Bezeichnung für eindimensionale Items, wobei die Messmodelle der Items unterschiedliche Leichtigkeitsparameter α, unterschiedliche Diskriminationsparameter λ sowie unterschiedliche Fehlervarianzen aufweisen dürfen (s. auch Messäquivalenz).