Glossar: Testtheorie und Fragebogenkonstruktion

Bitte wählen Sie ein Glossar

A-Z Navigation

Alle 0-9 A B C D E F G H I K L M N O P Q R S T U V W Z

Begriff	Erklärung
1PL-Modell	Dieses Modell der Item-Response-Theorie beschreibt den Zusammenhang zwischen dem beobachtbaren dichotomen Antwortverhalten und dem dahinterstehenden latenten Merkmal auf Grundlage einer Wahrscheinlichkeitsfunktion mit einem Itemparameter, nämlich dem Schwierigkeitsparameter σi.
2PL-Modell	Im Unterschied zum 1PL-Modell wird bei diesem Modell der Item-Response-Theorie ein zusätzlich zu schätzender Itemparameter λi ins Modell aufgenommen, der die Diskriminierungsfähigkeit des Items (ähnlich der Trennschärfe in der Klassischen Testtheorie) repräsentiert.
3PL-Modell	In diesem Modell der Item-Response-Theorie wird zusätzlich zu den Parametern des 2PL-Modells noch die Ratewahrscheinlichkeit als Parameter ρi in das Modell aufgenommen und geschätzt.
Adaptiver Algorithmus	Ein Regelsystem, welches die Itemauswahl zu Beginn und während des Tests regelt sowie Kriterien der Testbeendigung spezifiziert.
Adaptives Testen	Ein spezielles Vorgehen bei der Messung individueller Ausprägungen von Personmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit des untersuchten Probanden orientiert.
Akaike's Information Criterion	Ein Maß für die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) und die Komplexität des Modells. Daraus hervorgegangen sind BIC und CAIC.
Akquieszenz	Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt eher mit Zustimmung zu reagieren.
Austauschbare Methoden	In MTMM-Modellen: Solche Methoden, die einer Zufallsauswahl aus einer Menge gleichberechtigter (gleichadäquater) Methoden entsprechen. Beispielsweise wären verschiedene Messgelegenheiten austauschbar, wenn sie einer Zufallsauswahl entsprechen und keine der Messgelegenheiten sich von den anderen Messgelegenheiten strukturell unterscheidet.
Auswahlaufgaben	Bei diesen Aufgaben sind die Probanden vor die Anforderung gestellt, aus mehreren vorgegebenen Antwortalternativen die richtige bzw. zutreffende Antwort zu identifizieren.
Auswertungsobjektivität	Ein Test entspricht dann diesem Gütekriterium, wenn das Testergebnis unabhängig davon ist, wer den Test auswertet.
Autokorrelationseffekt	In longitudinalen Strukturgleichungsmodellen korrelieren Indikatoren oft stärker über die Messgelegenheiten hinweg als mit anderen Indikatoren derselben Messgelegenheit, die dasselbe Konstrukt messen.
Axiom	Theoretische Grundannahmen, die ohne weitere Überprüfung als gegeben angesehen werden.
Bayesian information criterion	Darunter wird ein dem AIC ähnliches Kriterium der Anpassungsgüte des Modells an die Daten verstanden, das im Unterschied zum AIC die Nicht-Sparsamkeit von Modellparametern stärker bestraft.
Bedingte Antwortmusterwahrscheinlichkeit P(av\|g)	Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit eines Antwortmusters av unter der Bedingung, dass die Person v zur Klasse g gehört.
Bedingte Itembejahungswahrscheinlichkeit P(xvi=1\|g)	Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der ein Item i bejaht wird, wenn die entsprechende Person v zur Klasse g gehört.
Bedingte Kategorienwahrscheinlichkeit P(xvi=k\|g)	Bei der polytomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird, wenn die entsprechende Person v zur Klasse g gehört.
Bedingte Klassenzuordnungswahrscheinlichkeit P(g\|av)	Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der eine Person v mit dem Antwortmuster av zur Klasse g gehört.
Beurteilungsaufgaben	Bei diesen Aufgaben wird der individuelle Zustimmungs- oder Ablehnungsgrad zu einer vorgelegten Aussage (Statement) erfasst.
Cognitive Lab	Der Begriff beschreibt eine explorative Methode zur Untersuchung von Antwortprozessen. Dabei werden Probanden unmittelbar nach der Bearbeitung der Items zu ihrem Lösungsverhalten interviewt oder bei der Bearbeitung der Items gebeten, laut zu denken.
Consequential Validity	Beschäftigt sich mit der Frage, ob mit dem Einsatz eines Testverfahrens das damit in der Praxis verfolgte Ziel erreicht wird.
Corrected-Information-Criterion	Eine Abwandlung des AIC, bei dem der Stichprobenumfang berücksichtigt wird.
Cronbachs Alpha	Koeffizient der internen Konsistenz als Reliabilitätsschätzung. Beruht auf dem Verhältnis zwischen der Summe aus Varianzen und Kovarianzen der Items eines Tests und der Varianz der Testwertvariablen. Je höher die Kovarianzen zwischen den Testitems sind, desto höher wird die interne Konsistenz und damit die Reliabilität.
Curriculare Validität	Bezeichnet die Übereinstimmung von Inhalten eines Tests, der zur Überprüfung der Erreichung eines Lernziels dienen soll, mit den Inhalten des Lehrplans.
Debriefing	Beschreibt die Qualitätssicherungsmaßnahme, nach der Testung den Testleiter nach Besonderheiten während der Testung zu befragen.
Deterministische Modelle	Diese Modelle nehmen an, dass die Wahrscheinlichkeit, ein Item zu lösen, nur 0 oder 1 betragen kann; die Wahrscheinlichkeit, ein Items zu lösen bzw. ihm zuzustimmen, "springt" ab einem bestimmten Punkt auf der Merkmalsdimension (ξ) von 0 auf 1. Die IC-Funktion (Itemcharakteristische Funktion) entspricht einer Sprungfunktion/Treppenfunktion.
DIN 33430	Eine verbindliche Norm von Qualitätsstandards für die verwendeten Tests, die berufsbezogene Eignungsbeurteilung und die einzelnen Ablaufschritte beider.
Disjunktheit	Eigenschaft von Antwortalternativen; liegt vor, wenn zwischen den Antwortalternativen keine Überlappungen vorliegen.
Diskriminante Validität	Gilt im Rahmen der Konstruktvalidierung als nachgewiesen, wenn Messungen verschiedener Konstrukte mit derselben Methode nicht oder nur gering miteinander korrelieren.
Diskriminationsindex	Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der Latent Class Analyse.
Distraktoren	Plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Auswahlaufgaben.
Durchführungsobjektivität	Ein Test entspricht dann diesem Gütekriterium, wenn das Testergebnis unabhängig davon ist, wer den Test vorgibt.
Eichstichprobe	Eine repräsentative Stichprobe von Probanden, die zur Normierung eines Testverfahrens eingesetzt wird.
Eigenwert	Der Eigenwert eines Faktors gibt an, wie viel Varianz von allen Items (Variablen) durch diesen Faktor erklärt wird.
Erschöpfende Statistiken	Die Zeilen- und Spaltensummenscores einer (0/1)-Datenmatrix werden als solche bezeichnet, wenn die Wahrscheinlichkeit der Daten nicht davon abhängt, welche Personen welche Items gelöst haben, sondern lediglich davon, wie viele Personen ein Item gelöst haben (Schwierigkeit des Items), bzw. wie viele Items eine Person lösen konnte (Fähigkeit der Person). (Auch: "suffiziente Statistiken")
Exhaustivität	Merkmal von Antwortalternativen; liegt vor, wenn alle möglichen Antworten auf den vorgegebenen Antwortalternativen abgebildet werden können.
Exploratorische FA	Ein strukturierendes datenreduzierendes Verfahren, das typischerweise dann zur Anwendung kommt, wenn keine Hypothesen über die Anzahl der zugrundeliegenden Faktoren und über die Zuordnung der beobachteten Variablen zu den Faktoren vorliegen.
Exposure Control	Strategie zur Vermeidung der öffentlichen Bekanntheit von Items durch unerwünscht häufigere Vorgabe der Items oder der Itemgruppen. Kann beim adaptiven Testen leichter erzielt werden.
Fairness	Ein Test erfüllt dieses Gütekriterium, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.
Faktorladung	Die Gewichtungszahl λjk einer beobachteten Variablen j auf dem latenten Faktor k heißt Faktorladung und beschreibt die Stärke des Zusammenhangs zwischen Faktor und Variable (meist Item). Sie kann bei orthogonal rotierten Faktoren als Korrelation interpretiert werden.
Faktorwert	Der Faktorwert fki gibt an, wie stark ein Faktor Fk bei der i-ten Person ausgeprägt ist.
Fehlervarianz Var(ε)	Die Varianz der Fehlerwerte Var (ε) der Personen stellt in der Klassischen Testtheorie den unerklärten Anteil der Testwertevarianz Var(x) dar.
Freies Antwortformat	Bei Aufgaben mit diesem Antwortformat sind keine Antwortalternativen vorgegeben. Die Antwort wird von der Person selbst formuliert bzw. produziert.
Gleichwertige Methoden	Im Rahmen von MTMM-Modellen solche Methoden, die das zu erfassende Trait gleichwertig repräsentatieren, (z.B. parallele Tests oder Testhälften). Im Unterschied zu austauschbaren Methoden, ist die Erklärung der Methodeneffekte für diese Methoden nachrangig.
Hauptachsenanalyse	Methode der exploratorischen Faktorenanalyse, mit der versucht wird, das Beziehungsmuster zwischen den manifesten Variablen mit dahinterliegenden Faktoren zu erklären.
Hauptkomponentenanalyse	Methode der exploratorischen Faktorenanalyse, mit der versucht wird, möglichst viel Varianz der beobachteten Variablen durch sog. Hauptkomponenten zu erklären.
Hierarchisch geschachtelte Modelle	Mehrere Modelle der konfirmatorischen Faktorenanalyse werden als hierarchisch geschachtelt bezeichnet, wenn sie dieselbe Modellstruktur aufweisen, sich jedoch in der Anzahl der fixierten oder freigesetzten Parameter unterscheiden. Sie heißen hierarchisch geschachtelt, weil in den verschiedenen Modellen zunehmend mehr Parameter fixiert oder freigesetzt werden, so dass sie auseinander hervorgehen, während die Modellstruktur ansonsten erhalten bleibt.
Homogenität	Liegt vor, wenn die verschiedenen Items eines (Sub-)Tests dasselbe Merkmal messen.
Informationskriterien	Maße zur deskriptiven, relativen Beurteilung der Güte eines Modells. Häufig verwendete Informationskriterien sind der AIC, der BIC und der CAIC.
Inkrementelle Validität	Bezeichnet das Ausmaß, in dem die Vorhersage eines externen Kriteriums verbessert werden kann, wenn zusätzliche Testaufgaben oder (Sub-)Tests zu den bereits eingesetzten Verfahren hinzugenommen werden.
Interne Konsistenz (Konsistenzanalyse)	Methode der Reliabilitätsschätzung. Die Kovarianzen zwischen den Items eines Tests werden als wahre Varianz angesehen und zur Bestimmung der Reliabilität verwendet.
Interpretationsobjektivität	Ein Test entspricht dann diesem Gütekriterium, wenn bezüglich der Interpretation der Testwerte eindeutige Richtlinien (z. B. Normentabellen) vorliegen.
Invertierte Items	„Umgepolte“ Items, bei denen nicht die Bejahung, sondern die Verneinung symptomatisch für eine hohe Merkmalsausprägung ist.
Item-Response-Theorie (IRT)	Auch Probabilistische Testtheorie, beschreibt den Zusammenhang zwischen beobachtbarem Antwortverhalten und dem dahinterstehenden Persönlichkeitsmerkmal auf Grundlage eines wahrscheinlichkeitstheoretischen Modells. Dabei wird die Wahrscheinlichkeit für das beobachtbare (gezeigte) Antwortverhalten als von der latenten Merkmalsausprägung abhängig modelliert.
Itemcharakteristische Funktion (IC-Funktion)	Beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten der Probanden auf ein Item in Form einer Wahrscheinlichkeitsaussage.
Itemhomogenität	Verschiedene Items sind bezüglich einer latenten Dimension ξ dann homogen, wenn das Antwortverhalten auf die Items nur von diesem Merkmal (der latenten Dimension) und keinem anderen systematisch beeinflusst wird.
Itempool	Eine Menge von Items für die mit einem IRT-Modell Itemhomogenität festgestellt wurde; beim adaptiven Testen können daraus beliebige Items zur Vorgabe ausgewählt werden.
Itemschwierigkeit	Beschreibt in der Klassischen Testtheorie das mit 100 multiplizierte Verhältnis des durchschnittlich erreichten Itempunktwertes zum maximal möglichen Itempunktwert. Je größer der Schwierigkeitsindex, desto leichter ist das Item.
Itemselektion	Beschreibt den Prozess, Items hinsichtlich ihrer Eignung zur Erfassung des interessierenden Merkmals auszuwählen. Neben der Betrachtung deskriptivstatistisch gewonnener Kennwerte (z.B. Itemschwierigeit, Itemtrennschärfe und Itemvarianz) fließen auch inhaltliche und modelltheoretische Überlegungen in den Selektionsprozess ein.
Itemtrennschärfe	Gibt an, wie stark die mit dem jeweiligen Item erzielte Differenzierung zwischen den Probanden mit der Differenzierung durch den Gesamttest übereinstimmt.
Itemvarianz	Maß für die Differenzierungsfähigkeit des Items; es gibt an, wie unterschiedlich die Probanden auf das Item antworten.
Itemzwillinge oder Itempaarlinge	Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität. Items werden in Paare zu zwei Items mit möglichst gleicher Schwierigkeit und Trennschärfe gruppiert. Jeder Testhälfte wird zufällig jeweils eines der beiden Items zugeordnet.
Kognitives Vortesten	Bei diesem Vorgehen legt der Testleiter in Erprobung befindliche Items vor und bittet die Probanden alle Überlegungen, die zur Beantwortung der Frage führen, zu formulieren. Diese Äußerungen werden meist auf Video aufgenommen.
Kommunalität	Die Kommunalität einer Variablen i gibt an, in welchem Ausmaß die wahre Varianz der Variablen durch die extrahierten q Faktoren erklärt wird.
Konfidenzintervall	Kennzeichnet denjenigen Bereich um einen empirisch ermittelten individuellen Testwert xv, in dem sich 95% (99%) aller möglichen wahren Testwerte τv befinden, die den Testwert xv erzeugt haben können.
Konfirmatorische FA	Verfahren zur Datenreduktion, mit dem Hypothesen über die Anzahl der Faktoren, die Korrelationen zwischen den Faktoren und die Zuordnung der beobachteten Variablen zu den einzelnen Faktoren theoriegeleitet überprüft werden. Bildet das sog. Messmodell der Verfahrensgruppe der Strukturgleichungsmodelle.
Konsistenz	Die Konsistenz einer Messvariablen beschreibt das Ausmaß der durch ein Trait erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen.
Konsistenzeffekte	"Treten dann auf, wenn Probanden versuchen, ""stimmige Antworten"" aufgrund ihrer Antworten auf vorangegangene Items zu geben."
Konstrukt	Bezeichnung für ein nicht direkt beobachtbares, aber empirisch verankerbares latentes Persönlichkeitsmerkmal.
Konstruktäquivalenz	Empirisch bestätigte Äquivalenz eines psychologischen Konstrukts über Sprachen und Kulturen hinweg.
Konstruktvalidität	Liegt vor, wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll.
Konvergente Validität	Im Rahmen der Konstruktvalidierung gilt die konvergente Validität als nachgewiesen, wenn Messungen eines Konstrukts, das mit verschiedenen Methoden erfasst wird, hoch miteinander korrelieren.
Kriteriumsorientierte Testwertinterpretation	Bei dieser Form der Testwertinterpretation erfolgt die Interpretation des Testwertes nicht in Bezug zur Testwerteverteilung einer Bezugsgruppe, sondern in Bezug auf ein spezifisches inhaltliches Kriterium. Es wird vorab festgelegt, welches Testverhalten zum Erreichen des Kriteriums führt.
Kriteriumsvalidität	Liegt vor, wenn von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden.
Latent Class Analyse (LCA)	Probabilistisches Verfahren zur Kategorisierung von Personen (Objekten) in qualitative latente Klassen.
Latent State-Trait-Theorie	Formale Erweiterung der Klassischen Testtheorie, die neben der Aufteilung der Messvariable Xit einer Messung i zu Messgelegenheit t in eine Messfehlervariable εit und in eine Variable der wahren Werte τit eine Trennung von situationalen und dispositionellen Einflüssen erlaubt. Dazu wird die Variable der wahren Werte τit einer Messung Xit zusätzlich in eine Trait-Variable ξit und in eine State-Residuums-Variable ζit zerlegt: Xit = τit + εit = ξit + ζit + εit
Latent-Class-Modelle (IRT)	Bezeichnung für IRT-Modelle, die davon ausgehen, dass das latente Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden aus qualitativen kategorialen latenten Klassen besteht.
Latent-Trait-Modelle (IRT)	Bezeichnung für IRT-Modelle, die davon ausgehen, dass es sich bei dem latenten Persönlickeitsmerkmal zur Charakterisierung von Personenunterschieden um eine quantitative kontinuierliche latente Dimension handelt.
Latente Dimension	Nicht direkt beobachtbare Variable zu Erfassung von Merkmalsausprägungen in Leistungs-, Einstellungs- oder Persönlichkeitsmerkmalen, von welchen das manifeste Verhalten als abhängig angesehen wird.
Latentes State-Residuum	Teil eines States, der ausschließlich die Situation und die Interaktion zwischen Person und Situation repräsentiert.
Leistungstests	Tests zur Erfassung der individuellen kognitiven Leistungsfähigkeit in Problemlösesituationen. Beispiele: Intelligenztests, Konzentrationsleistungstests etc.
Likelihood (LCA)	In der Latent Class Analyse (LCA) ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Es ist dort definiert als das Produkt der unbedingten Antwortmusterwahrscheinlichkeiten P(av) über alle Antwortmuster in der Stichprobe (Na) hinweg.
Likelihood-Ratio-Test (LRT)	Möglichkeit zur inferenzstatistischen Absicherung der Güte eines LCA-Modells: Der Test wird zur inferenzstatistischen Absicherung des Unterschieds zweier geschachtelter Modelle („nested models“) verwendet.
Linear-logistische Modelle	Zerlegen die Schwierigkeitsparameter der Items in für die Bearbeitung des Items erforderliche Basisoperationen. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
Lizenzprüfung nach DIN 33430	Nachweis einschlägiger Kenntnisse von Auftragnehmern (Lizenz A), bzw. Mitwirkenden an Verhaltensbeobachtungen (Lizenz MV) und von Mitwirkenden an Eignungsinterviews (Lizenz ME) gemäß DIN 33430.
Lokale stochastische Unabhängigkeit	Bedingung, die erfüllt sein muss, um die Korrelation zwischen zwei Testitems auf eine dahinterliegende latente Persönlichkeitsvariable zurückführen zu können. Die lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelation zwischen den Items verschwindet, wenn man sie auf den einzelnen („lokalen“) Stufen des latenten Persönlichkeitsmerkmals untersucht.
Manifeste Variablen	Variablen zur Erfassung des beobachtbaren Antwortverhaltens mit verschiedenen Items, die Indikatoren für die latente Dimensionen darstellen.
Messeffizienz	Parameter eines Tests, das sich sich durch den Quotienten aus Messpräzision und Testlänge berechnet, wobei letztere häufig durch die Anzahl präsentierten Items quantifiziert wird.
Messmodell	Im Rahmen von Strukturgleichungsmodellen: Teilmodelle, in denen die Zuordnungen der beobachteten Variablen zu den Faktoren erfolgt.
Messpräzision	Grad der Übereinstimmung von wahren Merkmalsauprägungen und den Testwerten. Auf Skalenebene oft durch die mittlere quadratische Abweichung von wahrer und geschätzter Merkmalsausprägung bestimmt.
Methodeneffekte	Ein Sammelbegriff für verschiedene systematische Varianzquellen bei der Multitrait-Multimethod-Analyse, die sich über den Trait hinausgehend auf die Validität der Messung auswirken können. Hierbei kann es sich u.a. um Charakteristika der eingesetzten Messinstrumente, der Beurteiler oder der Situationen, in der eine Messung erfolgt, handeln.
Methodenspezifitätskoeffizient	Gibt den Anteil an beobachteter Varianz wieder, der auf den Einfluss eines Methodeneffektes zurückzuführen ist. Je höher der Methodenspezifitätskoeffizient ausfällt, desto stärker ist der Einfluss der Messmethode auf die Messung.
Mischverteilungs-Rasch-Modelle	Kombination aus Rasch-Modell und Latent-Class-Analyse. Innerhalb jeder Klasse wird versucht, jeweils ein eigenes Rasch-Modell anzupassen. Zwischen den latenten Klassen unterscheiden sich die Parameter des Rasch-Modells.
Modelldifferenztest	Werden mit der konfirmatorischen Faktorenanalyse hierarchisch geschachtelte Modelle spezifiziert und gegeneinander getestet, so kann der Unterschied im Modellfit statistisch über die Differenz der Chi-Quadrat-Werte beider Modelle überprüft werden, die wiederum Chi-Quadrat-verteilt ist.
Multidim. adaptives Testen	Eine spezielle Form des adaptiven Testen bei der mehrere latente Dimensionen als ursächlich für das beobachtete Antwortverhalten angesehen werden; aus den Antworten wird simultan auf mehrere latente Merkmale geschlossen.
Multiple Regression	Mittels einer multiplen Regression wird eine Kriteriumsvariable anhand mehrerer Prädiktoren vorhergesagt.
Multitrait-Multimethod-Analyse	Verfahren zum Nachweis der Konstruktvalidität unter Berücksichtigung einer systematischen Kombination von mehreren Traits und mehreren Messmethoden.
Nested Models	(Geschachtelte) Modelle, die durch Parameterrestriktionen ineinander überführbar sind.
Nomologisches Netz	Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit Axiomen bzw. empirischen Gesetzen beschrieben und durch Korrespondenzregeln miteinander verbunden.
Normaktualisierung	Erneute Testeichung, sobald die empirische Überprüfung der Gültigkeit von Normen ergeben hat, dass sich die Merkmalsverteilung in der Bezugsgruppe seit der vorherigen Testeichung bedeutsam verändert hat.
Normalisierung	Bei der Normalisierung wird eine nicht-normalverteilte Testwertvariable zur besseren Interpretierbarkeit so transformiert, dass die Variable danach normalverteilt ist. Die Normalisierung ist von der Normierung zu unterscheiden, die bei der Testeichung vorgenommen wird.
Normdifferenzierung	Bildung von separaten Normen für die einzelnen Subpopulationen aus der Eichstichprobe hinsichtlich eines mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktors (z.B. separate Normen für Männer und Frauen).
Normierung (Testeichung)	Dient dazu, zur normorientierten Testwertinterpretation Vergleichswerte zu gewinnen. Dazu werden Testergebnisse von Personen einer "Eichstichprobe" in Normierungstabellen zusammengestellt.
Normorientierte Testwertinterpretation	Besteht darin, dass zu einem individuellen Testwert ein Normwert bestimmt wird, anhand dessen die Testperson bezüglich ihrer individuellen Merkmalsausprägung hinsichtlich ihrer relativen Position innerhalb der Bezugsgruppe eingeordnet wird.
Normwert	Beispiel: Prozentrang, zv-Wert. Ermöglicht es, den Testwert xv einer Testperson hinsichtlich seiner Position in der Testwerteverteilung einer bestimmten Bezugsgruppe zu interpretieren.
Nützlichkeit	Ein Test entspricht dann diesem Gütekriterium, wenn die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.
Objektivität eines Tests	Ein Test entspricht dann diesem Gütekriterium, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.
Odd-Even-Methode	Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität. Die Items des Tests werden nach ihrer Schwierigkeit geordnet und abwechselnd den beiden Halbtests zugewiesen. Ein Halbtest enthält so alle ungeradzahligen Items, der andere die geradzahligen Items des Gesamttests.
Ordnungsaufgaben	Diese Aufgaben werden bearbeitet, indem die einzelnen Bestandteile der Aufgabe so umgeordnet oder einander zugeordnet werden, dass idealerweise eine logisch passende Ordnung entsteht.
Parallele Tests	Zwei Tests heißen parallele Tests, wenn sie gleiche wahre Werte und gleiche Fehlervarianzen aufweisen.
Paralleltest-Reliabilität	Methode der Reliabilitätsschätzung. Die Reliabilität eines Tests, von dem zwei parallele Formen existieren, wird über die Korrelation der Testwerte der beiden parallelen Testformen geschätzt.
Persönlichkeitsmerkmale	Persönlichkeitsmerkmale sind mehr oder weniger zeitlich stabile psychische und physische Eigenschaften von Probanden (z.B. Extraversion, Körpergröße).
Persönlichkeitstests	Persönlichkeitstests dienen der Erfassung von individuell typischem Verhalten als Indikator für die Ausprägung von Persönlichkeitsmerkmalen (Verhaltens- oder Erlebensdispositionen).
Personenparameter	Unter Personenparametern versteht man in der IRT die latente Merkmalsausprägung ξv einer Person v, die im Rahmen eines IRT-Modells geschätzt wird.
Perzentil	Bezeichnet jenen Testwert, der einem bestimmten Prozentrang in der Normierungsstichprobe entspricht. Beispielsweise wird derjenige Testwert, welcher von 30% der Testwerte unterschritten bzw. höchstens erreicht wird, als 30. P. bezeichnet.
Powertests	Leistungstests mit eher schwierigen Aufgaben, wobei erhoben wird, welches Schwierigkeitsniveau der Aufgaben der Proband ohne Zeitbegrenzung bewältigen kann. (Auch Niveautests genannt)
Probabilistische Modelle	Gehen im Unterschied zu deterministischen Modellen davon aus, dass die Wahrscheinlichkeit, ein Item zu lösen bzw. ihm zuzustimmen, jeden Wert zwischen 0 und 1 annehmen kann; die IC-Funktion entspricht einer monoton steigenden Funktion.
Projektive Tests	Bei diesen Tests kommt mehrdeutiges Stimulusmaterial (meist Bilder) zum Einsatz. Es wird angenommen, dass Probanden unbewusste oder verdrängte Bewusstseinsinhalte in das Bildmaterial hineinprojizieren und dadurch Persönlichkeitsmerkmale ermittelt werden können.
Prozentrang	Gibt an, wie viel Prozent der Bezugsgruppe bzw. Normierungsstichprobe einen Testwert erzielten, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v.
Quartil	Das erste, zweite bzw. dritte Quartil (Q1, Q2, Q3) ist jener Testwert xv, der von 25%, 50% bzw. 75% der Testwerte unterschritten bzw. höchstens erreicht wird.
Rasch-Modelle	Klasse von spezifisch objektiven Modellen in der IRT (Item-Response-Theorie).
Ratekorrektur	"Zieht bei der Testwertbestimmung jene Anzahl an ""richtigen"" Lösungen ab, die nur durch Erraten der richtigen Antworten entstanden ist."
Receiver-Operating-Characteristics-(ROC)-Analyse	Die Receiver-Operating-Characteristics-(ROC)-Analyse ermöglicht für eine binäre Klassifikation (z.B. krank vs. nicht krank) den zur Fallunterscheidung verwendeten Schwellenwert optimal in der Weise festzulegen, dass Trefferquote und Quote korrekter Ablehnungen maximiert werden.
Reliabilität (Gütekriterium)	Bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je höher die Einflüsse solcher zufälligen Messfehler sind, desto weniger reliabel ist das Testverfahren.
Reliabilität (KTT)	Gütekriterium zur Beurteilung der Messgenauigkeit eines Tests. In der Klassischen Testteorie wird Reliabilität als Verhältnis zwischen true score-Varianz Var(τ) und Testwertevarianz Var(x) definiert.
Repräsentative Aufgabenstichprobe	Stimmt hinsichtlich der Schwierigkeitsverteilung mit der Grundgesamtheit aller merkmalsrelevanten Aufgaben überein und erlaubt somit eine kriteriumsorientierte Testwertinterpretation in Bezug auf die Aufgabeninhalte.
Repräsentativität	Eine Stichprobe weist dieses Merkmal dann auf, wenn sie hinsichtlich ihrer Zusammensetzung die jeweilige Zielpopulation möglichst genau abbildet.
Retest-Reliabilität	Methode der Reliabilitätsschätzung. Ein Test wird zu zwei Messzeitpunkten der gleichen Stichprobe vorgegeben. Die Korrelation der Testwerte beider Messzeitpunkte dient als Maß der Reliabilität des Tests.
Retrospektive Befragung	"In der Testentwicklungsphase wird der Proband ""zurückblickend"" über Schwierigkeiten bei der Beantwortung der einzelnen Items befragt."
Schwellenwert	Im Rahmen kriteriumsorientierter Testwertinterpretation jener Testwert, ab dem das Kriterium als zutreffend angenommen wird. Kann z.B. mittels ROC-Analyse empirisch bestimmt werden.
Schwierigkeitsparameter (IRT)	σi ist ein Itemparameter, der durch jene Merkmalsausprägung ξ definiert ist, bei der die Lösungswahrscheinlichkeit des Items 50% beträgt.
Sicherung	Die Pflicht zur Regelung der Verfügbarkeit, Aufbewahrungsdauer und Verwendung von Testdaten (inkl. des Testprotokolls und aller schriftlichen Belege) und Schutz der Identität von Probanden.
Skalierung	Ein Test erfüllt dieses Gütekriterium, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
Soziale Erwünschtheit	Beinhaltet die Antworttendenz eines Probanden, sich selbst so darzustellen, wie es soziale Normen seiner Wahrnehmung nach erfordern (auch soziale Desirabilität genannt).
Spearman-Brown-Korrektur	Formel zur Schätzung der Reliabilität eines Tests bei Verlängerung des Tests um homogene Testteile; findet auch bei der Splithalf-Reliabilität Verwendung, bei der die Halbtest-Reliabilität auf die Reliabilität des Gesamttests aufgewertet wird.
Speedtests	Leistungstests mit meist einfachen Aufgaben, wobei erhoben wird, wie viele Aufgaben unter Zeitdruck gelöst werden können. (Auch: Geschwindigkeitstests)
Spezifische Objektivität	Liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d.h. lediglich entlang der ξ-Achse parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items (σj - σi) unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung kann auch der Fähigkeitsunterschied zweier Personen (ξw – ξv) unabhängig von den verwendeten Items festgestellt werden.
Spezifität	Beschreibt das Ausmaß der durch die Situation und die Person-Situation-Interaktion erklärten Varianz relativiert an der Gesamtvarianz einer Messvariablen.
Splithalf-(Testhalbierungs-) Reliabilität	Methode der Reliabilitätsschätzung. Aus den Items eines Tests werden zwei möglichst parallele Testhälften gebildet. Aus der Korrelation der Testwerte der Halbtests wird mittels Spearman-Brown-Korrektur die Reliabilität des Gesamttests geschätzt.
Standardabweichung SD(x)	Die Standardabweichung gibt die Streuung der Testwertvariable x-quer um den Mittelwert an. Ist die Testwertvariable normalverteilt, so befinden sich im Bereich xquer ± 1 /SD(x) ca. 68% der Testwerte, im Bereich xquer ± 2 /SD(x)ca. 95% der Testwerte.
Standardmessfehler SD(ε)	Der Standardmessfehler SD(ε) eines Tests resultiert aus der Unreliabilität des Tests und errechnet sich als Wurzel aus der Fehlervarianz eines Tests. Der Standardmessfehler ist bei höherer Reliabilität kleiner und bei niedrigerer Reliabilität größer.
Standardnormen	Die z-Norm sowie weitere durch Lineartransformationen gewonnene Normen (z.B. IQ- oder T-Norm).
State	Ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befinden kann. Er kennzeichnet sich durch personenbedingte (d.h. trait-bedingte), situativ bedingte und durch die Interaktion zwischen Person und Situation bedingte Einflüsse.
Stichprobenunabhängigkeit	Bedeutet, dass in IRT-Modellen die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
Strukturell unterschiedliche Methoden	Solche Methoden, die nicht austauschbar sind, weil sie sich qualitativ von anderen Methoden unterscheiden und kein Zufallsauswahl darstellen. Strukturell unterschiedliche Methoden sind z.B. Selbst- und Fremdbeurteilungen.
TBS-TK	Veröffentlichtes Testbeurteilungssystem des Testkuratoriums zur standardisierten Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkataloges.
Teaching to the test	Ist ein Phänomen, das die Validität bewertender Interpretationen im Bildungssystem dadurch gefährdet, dass gezielt spezielle Aufgaben geübt werden, um ein besseres Abschneiden der Schülerinnen und Schüler bei den Tests zu gewährleisten.
Tendenz zur Mitte	Eine Antworttendenz, die extreme Antworten eher vermeidet und mittlere Antwortkategorien eher bevorzugt.
Testadaptation	Bezeichnet den Prozess einer qualitativ hochwertigen Übertragung (Übersetzung unter Berücksichtigung von Konstruktäquivalenz) und empirischen Evaluation psychologischer Tests aus anderen Sprachen und in andere Sprachen unter Beachtung der kulturellen Unterschiede.
Testeichung	Dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu wird der Test an Personen einer Normierungsstichprobe, welche hinsichtlich einer definierten Bezugsgruppe repräsentativ ist, durchgeführt.
Testgütekriterien	Stellen ein System zur Qualitätsbeurteilung psychologischer Tests dar. Folgende 10 werden üblicherweise unterschieden: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.
Testitem	Zu beantwortende Aufgabe (Frage, Statement etc.) eines Tests.
Testkuratorium	Gremium der Föderation Deutscher Psychologievereinigungen (Deutsche Gesellschaft für Psychologie e.V. und Berufsverband Deutscher Psychologinnen und Psychologen e.V.), dessen Aufgabe es ist, die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor unqualifizierter Anwendung diagnostischer Verfahren zu schützen.
Testökonomie	Ein Test entspricht dann diesem Gütekriterium, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.
Teststandards	Vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung, Adaptation, Anwendung und Qualitätsbeurteilung psychologischer Tests widerspiegeln.
Testwert	Das individuelle numerische Testresultat; wird aus den registrierten Antworten einer Testperson durch Anwendung definierter Regeln unmittelbar gebildet.
Testwertestreuung SD(x)	Sagt aus, wie breit die empirisch gewonnenen Testwerte einer Stichprobe um den Mittelwert der Testwerte verteilt sind. Die Streuung der Testwerte wird meist als Standardabweichung SD(x) angegeben; man gewinnt sie als Wurzel aus der Testwertevarianz Var(x).
Testwertevarianz Var(x)	Die Testwertevarianz Var(x) ist die Varianz der beobachteten Testwerte. Sie setzt sich aus der wahren Varianz Var(τ) und der Fehlervarianz Var(ε) zusammen.
Trait	Mehr oder weniger zeitlich stabiles Merkmal (Disposition), das personeninhärent und transsituativ überdauernd ist.
Trait-Methoden-Einheit	In der Multitrait-Multimethod-Analyse wird angenommen, dass in jeder Messung Einflüsse des zu messenden Konstrukts und der verwendeten Messmethode zu finden sind. (Multiple) Messungen eines Traits repräsentieren somit eine Trait-Methoden-Einheit.
Treffsicherheit	Index zur Beurteilung der Güte eines LCA-Modells. Definiert als die durchschnittliche Höhe der maximalen bedingten Klassenzuordnungswahrscheinlichkeit Pmax(g\|av) über alle in der Stichprobe vorkommenden Antwortmuster (Na) hinweg.
True Score τv	Der "true score" bzw. wahre Wert τv ist die wahre Ausprägung des Probanden v in dem von einem Test gemessenen Merkmal. Da Messungen in der Regel fehlerbehaftet sind, stimmen Testwert xv und wahrer Wert τv nicht völlig überein. Ein Konfidenzintervall für τv kann mit Hilfe des Standardmessfehlers bestimmt werden.
Unbedingte Antwortmusterwahrscheinlichkeit P(av)	Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av in der Stichprobe.
Unbedingte Itembejahungswahrscheinlichkeit P(xvi=1)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird.
Unbedingte Kategorienwahrscheinlichkeit P(xvi=k)	Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item xvi mit der Antwortkategorie k beantwortet wird.
Unbedingte Klassenzuordnungswahrscheinlichkeit P(g)	Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine beliebige Person v zur Klasse g gehört (auch: relative Klassengröße πg).
Unverfälschbarkeit	Liegt vor, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch vorgetäuschtes Verhalten ("Faking") die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.
Validität	Ein Test entspricht dann diesem Gütekriterium, wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes. Bezeichnet darüber hinaus die Menge der zutreffenden Schlussfolgerungen, die aus einem Testergebnis gezogen werden können.
Wahre Varianz	Die wahre Varianz Var(τ) ist die Varianz der wahren Werte τv in einem Test. Sie ist meistens niedriger als die Testwertevarianz Var(x). Aus dem Verhältnis beider Varianzanteile resultiert in der KTT die Reliabilität.
zv-Normwert	Gibt an, wie stark der Testwert xv einer Testperson v vom Mittelwert xquer der Verteilung der Bezugsgruppe in Einheiten der Standardabweichung SD(x) abweicht.
Zeitpartitionierungsmethode	Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität, wobei die Testhälften aus den Items von zwei jeweils gleich langen Bearbeitungsabschnitten gebildet werden.
Zielpopulation	Im Rahmen der Testeichung diejenige Bezugsgruppe, für welche die zu erstellenden Testnormen gelten sollen und aus der entsprechend die Normierungsstichprobe zu ziehen ist.
Zumutbarkeit	Liegt vor, wenn ein Test absolut sowie relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.
τ-Äquivalenz	Zwei Tests p und q heißen τ-äquivalent, wenn beide den gleichen wahren Wert τ messen.

Zurück zur Übersicht