A-Z Navigation
Begriff Erklärung
Empirische Daten

Empirische Daten („empirical data“) sind gezielt im Hinblick auf das Forschungsproblem ausgewählte und dokumentierte Informationen über die Erfahrungswirklichkeit. Sie werden mit wissenschaftlichen Datenerhebungsmethoden (z. B. Beobachtung, Interview, Fragebogen, psychologischer Test, physiologische Messung, Dokumentenanalyse) unter Nutzung entsprechender standardisierter oder nicht-standardisierter Erhebungsinstrumente (Beobachtungsplan, Interviewleitfaden, Fragebogen, Messgerät etc.) gesammelt. Aussagekräftig sind die Daten nur, wenn sie im Rahmen eines dem Forschungsproblem angemessenen Forschungsprozesses und Untersuchungsdesigns an einer passenden Stichprobe (oder an der gesamten Population) erhoben wurden, sachgerecht ausgewertet und theoriebezogen interpretiert werden.

Wissenschaftlicher Erkenntnisgewinn

Wissenschaftlicher Erkenntnisgewinn („scientific knowledge gain“) basiert in Erfahrungswissenschaften wie den Sozial- und Humanwissenschaften auf der systematischen Sammlung, Aufbereitung und Analyse von empirischen Daten im Rahmen eines geordneten und dokumentierten Forschungsprozesses. Dabei kommen sozialwissenschaftliche Methoden der Untersuchungsplanung, Stichprobenziehung, Datenerhebung, Datenaufbereitung und Datenanalyse zum Einsatz. Des Weiteren ist der empirische Forschungsprozess theoriebasiert, d. h., in seinem Verlauf werden wissenschaftliche Theorien über den Forschungsgegenstand (sowie über die Forschungsmethodik) angewendet und geprüft oder gebildet und weiterentwickelt. Erst mit Bezug auf Theorien sind empirische Daten sinnvoll interpretierbar.

Wissenschaftliche Forschung

Wer wissenschaftliche Forschung („scientific research“) betreibt, sucht mithilfe anerkannter wissenschaftlicher Methoden und Methodologien auf der Basis des bisherigen Forschungsstandes (d. h. vorliegender Theorien und empirischer Befunde) zielgerichtet nach gesicherten neuen Erkenntnissen. Dabei werden der Forschungsprozess sowie dessen Ergebnisse in nachvollziehbarer Weise dokumentiert. Zudem wird die Studie in Vorträgen und Publikationen der Fachöffentlichkeit vorgestellt.

Wissenschaftliche Methoden

Wissenschaftliche Methoden („scientific methods“) sind in der empirischen Sozialforschung vor allem einzelne Verfahren bzw. Techniken der Datenerhebung und Datenanalyse. Wissenschaftliche Datenerhebungsmethoden in diesem Sinne sind beispielweise psychologische Testverfahren wie der Intelligenztest, physiologische Messungen wie die EKG-Messung oder Interviewtechniken wie das Leitfaden-Interview. Wissenschaftliche Datenanalysemethoden sind z. B. die qualitative Inhaltsanalyse oder die statistische Varianzanalyse.

Wissenschaftliche Methodologien oder Forschungsstrategien

Wissenschaftliche Methodologien („scientific methodologies“) oder Forschungsstrategien („research strategies“, „strategies of inquiry“) sind Anweisungen zur Gestaltung des Forschungsprozesses und des Untersuchungsdesigns. Methodologien geben an, in welcher Weise einzelne Methoden in einen Untersuchungsplan zu integrieren sind und was beim Durchlaufen des Forschungsprozesses zu beachten ist, um Wissenschaftlichkeit und hohe Aussagekraft zu gewährleisten. So stehen z. B. hinter ethnografischer Feldforschung oder experimenteller Laborforschung unterschiedliche Methodologien, welche die Basis bilden für Entscheidungen über Untersuchungsbedingungen, Untersuchungszeitpunkte, Untersuchungsdauer, Auswahl von Untersuchungspersonen, Anzahl und Rolle der Forschenden, Art der Dokumentation der Daten etc. Im Rahmen einer bestimmten Methodologie können unterschiedliche Methoden einzeln oder kombiniert zum Einsatz kommen. In einer zweiten Begriffsbedeutung meint Methodologie die wissenschaftstheoretische Begründung der Methoden (Abschn. 2.1).

Quantitative Sozialforschung

Quantitative Sozialforschung („quantitative social research“) steht in der wissenschaftstheoretischen Tradition der Naturwissenschaften. Sie bedient sich im Zuge eines sequenziell organisierten Forschungsprozesses quantitativer d. h. strukturierter bzw. standardisierter Methoden der Datenerhebung (z. B. standardisierte Fragebogenerhebungen, psychologische Testverfahren, physiologische Messungen), aus denen quantitative bzw. numerische Daten (Messwerte) resultieren, die statistischen Methoden der Datenanalyse unterzogen werden.

Kritischer Rationalismus als Wissenschaftstheorie

Wissenschaftstheoretische Basis des quantitativen Paradigmas in der empirischen Sozialforschung ist vor allem der Kritische Rationalismus („critical rationalism“). Er geht davon aus, dass Erkenntnisgewinn dadurch zustande kommt, dass man zunächst Theorien formuliert, daraus Hypothesen ableitet und diese in nachvollziehbarer Weise anhand von Daten prüft. Dabei wird die Erfahrungswirklichkeit anhand ihrer einzelnen Merkmale (Variablen) und deren Relationen untereinander anhand größerer Stichproben von Untersuchungseinheiten analytisch untersucht.

Wichtige quantitative Methodologien

Wichtige quantitative Methodologien sind u. a. die Umfrageforschung („survey research“), die mit sehr großen und teilweise bevölkerungsrepräsentativen Stichproben arbeitet, welche anhand standardisierter Fragebögen untersucht werden, sowie die Experimentalforschung („experimental research“), bei der Ursache-Wirkungs-Relationen durch kontrollierte Variation der Bedingungen und Messung der Effekte im Feld oder im Labor geprüft werden. Typisch für quantitative Sozialforschung ist darüber hinaus der Einsatz von psychometrischen Tests („psychometric tests“) sowie physiologischen Messungen („physiological measurements“), um psychische und physische Merkmale des Menschen präzise zu quantifizieren.

Qualitative Sozialforschung

Qualitative Sozialforschung („qualitative social research“) steht in der wissenschaftstheoretischen Tradition der Geisteswissenschaften. Sie bedient sich im Zuge eines zirkulär bzw. iterativ organisierten Forschungsprozesses qualitativer d. h. weniger strukturierter bzw. nicht-standardisierter Methoden der Datenerhebung (z. B. teilnehmende Feldbeobachtung, narratives Interview), aus denen qualitative bzw. nicht-numerische Daten (d. h. Text-, Bild-, Videomaterial) resultieren, die interpretativen Methoden der Datenanalyse unterzogen werden.

Sozialkonstruktivismus als Wissenschaftstheorie

Die wissenschaftstheoretische Basis des qualitativen Paradigmas in der empirischen Sozialforschung ist deutlich heterogener als im quantitativen Paradigma. Je nach qualitativem Forschungsfeld wird u. a. mit sozialkonstruktivistischen, interpretativen, poststrukturalistischen, symbolisch-interaktionistischen, phänomenologischen oder dialektischen Erkenntnistheorien gearbeitet. Es existieren aber übergreifende wissenschaftstheoretische Prinzipien qualitativer Sozialforschung. So wird in der Regel davon ausgegangen, dass Erkenntnisgewinn dadurch zustande kommt, dass man zunächst den Untersuchungsgegenstand in seinem Kontext sowie die Sichtweisen der Beteiligten detailliert rekonstruiert, um daraus dann schrittweise Hypothesen und Theorien abzuleiten und in mehreren Überarbeitungsschleifen mit den Daten abzugleichen. Dabei wird die Erfahrungswirklichkeit anhand der Detailbetrachtung weniger Fälle möglichst ganzheitlich untersucht.

Wichtige qualitative Methodologien

Wichtige qualitative Methodologien sind u. a. die ethnografische Feldforschung („ethnographic field research“), bei der die Forschenden über längere Zeiträume hinweg in das untersuchte soziale Feld eintauchen, um durch Miterleben des Alltags ein umfassendes Verständnis zu gewinnen, sowie die Biografieforschung („biographical research“), bei der die interessierenden sozialen Sachverhalte im Kontext der Lebensgeschichten von Menschen betrachtet werden und im Zuge von narrativen Interviews Raum gegeben wird für ausführliche Erzählungen von Lebensereignissen. Ein populärer qualitativer Ansatz ist auch die Grounded-Theory-Methodologie („grounded theory methodology“), die durch theoretische Stichprobenbildung, die Kodiermethode des permanenten Vergleichs sowie systematisches Verfassen von Memos auf der Basis von qualitativem Datenmaterial schrittweise gegenstandsverankerte Theorien generiert (Abschn. 10.6.2).

Mixed-Methods-Sozialforschung

Der Mixed-Methods-Ansatz in der empirischen Sozialforschung („mixed methods approach“, „mixed-methods research“) kombiniert und integriert quantitative und qualitative Forschungsstrategien innerhalb einer Studie bzw. eines Forschungsprojekts, um dadurch den Erkenntnisgewinn zu erhöhen.

Pragmatismus als Wissenschaftstheorie

Es existieren unterschiedliche Auffassungen dazu, ob für erfolgreiche Mixed-Methods-Forschung eine eigenständige wissenschaftstheoretische Grundlage notwendig ist und wie diese aussehen sollte. Manche Beiträge erklären den Mixed-Methods-Ansatz zu einem dritten Paradigma innerhalb der empirischen Sozialforschung und sehen eine Fundierung im philosophischen Pragmatismus, der erkenntnistheoretische Positionen von Kritischem Rationalismus und Interpretationismus vereint.

Wichtige Mixed-Methods-Methodologien

Mixed-Methods-Forschung basiert immer auf einer dezidierten Mixed-Methods-Methodologie („mixed methods methodology“), die quantitative und qualitative Forschungsprozesse miteinander koppelt. Dazu stehen diverse Kombinationsstrategien zur Verfügung, die jeweils Verzahnungen in unterschiedlichen Phasen des Forschungsprozesses – etwa auf der Ebene der Forschungsfrage, des Untersuchungsdesigns, der Datenerhebung, der Datenanalyse und/oder der Interpretation – beinhalten.

Grundlagenforschung bzw. akademische Forschung

Die Grundlagenforschung („basic research“, „pure research“) bzw. akademische Forschung („academic research“) zielt auf die Erweiterung des wissenschaftlichen Kenntnisstandes ab.

Anwendungsforschung

Die Anwendungsforschung („applied research“) widmet sich praxisbezogenen Fragestellungen und erfolgt oft als Auftragsforschung.

Induktion

Die Induktion („induction“) ist eine Schlussfolgerung vom Speziellen auf das Allgemeine, in der empirischen Sozialforschung eine Schlussfolgerung von empirischen Daten über einzelne beobachtete Fälle auf übergeordnete wissenschaftliche Theorien, die über eine Reihe von Fällen verallgemeinerbar sind. Beim induktiven Schließen beginnt der Erkenntnisprozess mit Daten, und es werden aus den Daten schrittweise Muster herausgearbeitet. Mittels Induktion sollen neue Theorien gebildet, aber auch bestätigt werden. Die Induktion ist heute vor allem im qualitativen Paradigma der empirischen Sozialforschung etabliert.

Deduktion

Die Deduktion („deduction“) ist eine Schlussfolgerung vom Allgemeinen auf das Spezielle, in der empirischen Sozialforschung eine Schlussfolgerung von Theorien auf empirische Daten, die von der Theorie vorhergesagt werden. Beim deduktiven Schließen beginnt der Erkenntnisprozess mit einer Theorie, aus der man empirisch prüfbare Hypothesen ableitet und im Falle von deren Widerlegung anhand von Daten die Theorie kritisiert bzw. im Falle ihrer Nicht-Widerlegung die Theorie als vorläufig bestätigt ansieht. Das sog. deduktiv-nomologische Erklärungsmodell dient der Theorieprüfung im quantitativen Paradigma der empirischen Sozialforschung (Abschn. 2.2.8).

Abduktion

Bei der Abduktion („abduction“) beginnt der Erkenntnisprozess wie bei der Induktion mit den Daten, allerdings werden im Unterschied zur Induktion nicht die in den Daten erkennbaren Muster schrittweise systematisch herausgearbeitet, sondern es werden gerade die unverständlichen Merkmalskombinationen betrachtet und durch einen plötzlichen gedanklichen Sprung wird eine neue erklärende Hypothese gebildet. Die Abduktion ist also ein kreativer Prozess der Generierung neuer Hypothesen aus Daten, wobei vor allem die geistige Haltung der Forschenden entscheidend ist (zur Einführung in die Abduktion s. Reichertz, 2003). In der qualitativen Sozialforschung wird neben der Induktion auch die Abduktion zum Erkenntnisgewinn herangezogen.

Kritischer Rationalismus

Gemäß der wissenschaftstheoretischen Position des Kritischen Rationalismus („critical rationalism“) kommt Erkenntnis dadurch zustande, dass der menschliche Verstand (Ratio) zunächst Theorien als Vermutungen über die Realität aufstellt. Aus diesen Theorien werden deduktiv empirisch prüfbare Hypothesen abgeleitet und anhand von Daten kritisch in der Wissenschaftsgemeinschaft geprüft. Die kritische Prüfung von Hypothesen umfasst darüber hinaus immer auch eine kritische Betrachtung der Voraussetzungen der Datengewinnung (d. h. eine Methodenkritik) sowie eine kritische Auseinandersetzung mit konkurrierenden Hypothesen und Theorien.

Verifikation und Falsifikation

Sichere Erkenntnis durch Bestätigung von Theorien anhand von Daten (Verifikation; „verification“) ist im Verständnis des Kritischen Rationalismus nicht möglich, da ein Induktionsschluss nicht logisch zwingend ist. Lediglich die Widerlegung von Theorien durch Daten (Falsifikation; „falsification“) ist – unter bestimmten Bedingungen – zu rechtfertigen auf der Basis des Deduktionsschlusses.

Falsifikationismus bzw. Kritizismus

Der Kritische Rationalismus beschreibt Erkenntnisfortschritt als Aussondern nicht-bestätigter Theorien durch Falsifikation bzw. umgekehrt als Zurückbehalten von nicht-falsifizierten – d. h. vorläufig bestätigten bzw. bewährten – Theorien. Er wird deswegen auch als Falsifikationismus („falsificationism“) sowie als Kritizismus („criticism“) bezeichnet und stellt ein ausdrückliches Gegenmodell zu dem auf Verifikation basierenden Empirismus bzw. Positivismus dar.

Fallibilismus

Gemäß Kritischem Rationalismus ist jedesWissen fehlbar und somit nur hypothetisches Wissen bzw. Vermutungswissen. Ein letztgültiger Wahrheitsanspruch kann, wie dasMünchhausen-Trilemma verdeutlicht, nicht begründet werden (Fallibilismus; „fallibilism“).

Wahrheitssuche

Wissenschaftliche Forschung besteht im Verständnis des Kritischen Rationalismus bzw. Fallibilismus in einer nie endenden Wahrheitssuche („search for truth“) durch kritische Prüfung von Theorien, wobei man sich durch Versuch und Irrtum der Wahrheit zumindest annähert. Dies setzt voraus, dass wissenschaftliche Theorien so zu formulieren sind, dass man sie prinzipiell empirisch prüfen und falsifizieren kann (Falsifizierbarkeit). Nichtfalsifizierbare Behauptungen sind laut Kritischem Rationalismus nicht Gegenstand der Erfahrungswissenschaft.

Kritischer Realismus

Im Kritischen Rationalismus wird die Existenz einer außerhalb des menschlichen Bewusstseins existierenden, bestimmten Gesetzmäßigkeiten folgenden Wirklichkeit angenommen, über die der Mensch prinzipiell Erkenntnisse gewinnen kann, wenn auch das Wissen immer unsicher bleibt (kritischer Realismus; „critical realism“).

Basissatz- und Korrespondenzproblem

Gemäß kritischem Realismus sind empirische Daten keine reinen Abbilder der Realität, sondern im Zuge der Forschung erzeugte, stets von Theorien durchsetzte Beschreibungen, deren Übereinstimmung mit der beobachtbaren Wirklichkeit (sog. Basissatzproblem) sowie deren Entsprechung mit den jeweiligen Begriffen/Konstrukten innerhalb der zu prüfenden Theorie (sog. Korrespondenzproblem) ihrerseits theoretisch zu fassen und kritisch-empirisch zu prüfen sind anhand sog. Hilfs- oder Instrumententheorien.

Basissatzproblem

Das Basissatzproblem („problem of basic statements“) bezieht sich auf die Problematik des Nachweises, dass Beobachtungsprotokolle bzw. die erhobenen empirischen Daten tatsächlich mit der Wirklichkeit übereinstimmen. Die Übereinstimmung kann nicht bewiesen, sondern nur in einem – ständiger Kritik unterzogenen – Konsens der Wissenschaftsgemeinschaft festgelegt werden. Damit handelt es sich bei empirischen Daten im Verständnis des Kritischen Rationalismus nicht einfach um reine Fakten, sondern immer um theoriegeladene Aussagen.

Korrespondenzproblem

Das Korrespondenzproblem („problem of correspondence“) bezieht sich auf die Problematik des Nachweises, dass die in einer empirischen Untersuchung eingesetzten Indikatoren tatsächlich das erfassen, was mit den in der zu prüfenden Theorie verwendeten abstrakten Begriffen bzw. theoretischen Konstrukten gemeint ist. Diese Übereinstimmung kann nicht bewiesen, sondern nur in einem – ständiger Kritik unterzogenen –Konsens derWissenschaftsgemeinschaft festgelegt werden.

Methodologischer Falsifikationismus

Die kritische Prüfung von inhaltlichen Kerntheorien muss im Verständnis des Kritischen Rationalismus wegen des Basissatz- und Korrespondenzproblems immer auch unter Berücksichtigung der für die Studie relevanten Hilfs- oder Instrumententheorien erfolgen (methodologischer Falsifikationismus; „methodological falsificationism“). Dabei sind nicht zuletzt Replikationsstudien (Wiederholungsstudien, „replication studies“) besonders wichtig, die nämlich nicht nur auf derselben inhaltlichen Kerntheorie, sondern auch auf denselben Hilfs- und Instrumententheorien basieren wie die jeweiligen Vorläuferstudien.

Bewährungsgrad einer Theorie

Der Bewährungsgrad („corroboration“) einer erfahrungswissenschaftlichen Theorie zu einem bestimmten Sachverhalt ist im Verständnis des Kritischen Rationalismus von der Anzahl und Strenge der überstandenen Replikations- bzw. Falsifikationsversuche abhängig.

Informationsgehalt einer Theorie

Falsifizierbare Theorien unterscheiden sich in ihrem Informationsgehalt (empirischen Gehalt; „empirical content“) bzw. im Grad der Falsifizierbarkeit („degree of falsifiability“), d. h. gleichzeitig im Grad ihrer Allgemeingültigkeit und Präzision. Eine Theorie mit hohem Informationsgehalt zeichnet sich durch einen breiten Gültigkeitsbereich (Oder-Erweiterung der Wenn-Komponente: höhere Allgemeingültigkeit) und sehr präzise Vorhersagen aus (Und-Erweiterung der Dann-Komponente: höhere Präzision). Für sie existieren mehr Falsifikatoren als für eine Theorie mit geringem Informationsgehalt. Kann sich die Theorie mit hohem Informationsgehalt trotz vielfältiger Falsifikationsmöglichkeiten empirisch dennoch bewähren, trägt dies im Verständnis des Kritischen Rationalismus stärker zum Erkenntnisgewinn bei als die Prüfung informationsärmerer Theorien.

Exhaustion

Theoriekonträre empirische Ergebnisse können zum Anlass genommen werden, die betreffende Theorie nicht komplett zu verwerfen, sondern zu modifizieren. Eine typische Theoriemodifikation besteht in der Exhaustion („exhaustion“), bei der der Geltungsbereich der Theorie eingeschränkt wird, um theoriekonträre Fälle auszuschließen. Diese Einschränkung des Geltungsbereiches läuft auf eine Erweiterung des Wenn-Teils der Theorie durch eine oder mehrere logische Und-Komponenten hinaus. Exhaustion kann den empirischen Bestätigungsgrad einer Theorie steigern, allerdings auf Kosten ihres Informationsgehaltes bzw. Allgemeingültigkeitsanspruchs.

Raffinierter methodologischer Falsifikationismus

Während der klassische methodologische Falsifikationismus Theorien primär anhand ihrer empirischen Bewährung beurteilt, bezieht der raffinierte methodologische Falsifikationismus („refined methodolocial falsificationism“) als zweites Qualitätskriterium von Theorien ihre Erklärungskraft („explanatory power“) ein. Eine Theorie mit großer Erklärungskraft zeichnet sich dadurch aus, dass aus ihr zahlreiche interessante Hypothesen abzuleiten und innovative Ideen für die Forschung zu gewinnen sind. Sie kann den Erkenntnisgewinn stärker fördern als eine gut bewährte Theorie, die jedoch nur wenige Effekte erklären kann. Das Kriterium der Erklärungskraft einer Theorie ist relativ zu anderen Theorien zum selben Sachverhalt zu bewerten.

Begründungszusammenhang von Theorien

Der Kritische Rationalismus konzentriert sich im Zusammenhang mit wissenschaftlichem Erkenntnisgewinn auf den Begründungszusammenhang. Mit dem Begründungs- oder Rechtfertigungszusammenhang („context of justification“) ist die Frage angesprochen, ob und wie eine Theorien intersubjektiv nachvollziehbar als ungültig (falsifiziert) oder als vorläufig bestätigt bzw. bewährt (bislang nicht falsifiziert) ausgewiesen werden kann. Die Prüfung von wissenschaftlichen Theorien soll laut Kritischem Rationalismus in der Forschung gemäß dem deduktiven Falsifikationsprinzip methodisch angeleitet in nachvollziehbarer Weise anhand von empirischen Daten erfolgen. Wobei gemäß raffiniertem methodologischem Falsifikationismus immer auch die Erklärungskraft der Theorie im Vergleich zu anderen Theorien ein Beurteilungskriterium ist.

Entdeckungszusammenhang von Theorien

Im Entdeckungszusammenhang („context of discovery“) geht es darum, wie neue Theorien und Hypothesen von den Forschenden aufgestellt werden. Im Verständnis des Kritischen Rationalismus ist dies keine wissenschaftstheoretische, sondern eine psychologische Frage der Kreativität und Intuition. Eine logisch stringente Methode zur Produktion neuer wissenschaftlicher Ideen wird nicht für möglich gehalten, da gute Einfälle immer auch ein irrationales Moment haben. In der Forschungspraxis haben sich dennoch bestimmte Strategien und Techniken der Bildung neuer Theorien etabliert (z. B. Theoriearbeit, empirische Vorstudien).

Verwendungszusammenhang von Theorien

Mit dem Verwendungszusammenhang („context of application“) ist die Nutzung wissenschaftlicher Theorien und Forschungsergebnisse gemeint. Diese erfolgt teils innerhalb der Wissenschaft (z. B. vorliegende Theorien und Befunde werden als Grundlage weiterer wissenschaftlicher Studien herangezogen), teils aber auch außerhalb der Wissenschaft in diversen Praxisfeldern (z. B. eine psychologische Theorie wird zur Entwicklung einer psychotherapeutischen Intervention herangezogen; eine erziehungswissenschaftliche Theorie wird zur Gestaltung einer Schulreform herangezogen). Eine Theorie, die in der Praxis oft und offenbar erfolgreich genutzt wird, kann einen hohen praktischen Bewährungsgrad beanspruchen. Allerdings sind die Verhältnisse in der Praxis von vielen Faktoren beeinflusst, sodass praktische Verwertbarkeit keine umfassende, systematische Theorieprüfung darstellt (diese ist im Verständnis des Kritischen Rationalismus im Begründungszusammenhang zu leisten).

Wertneutralität im Begründungszusammenhang

Die Prüfung von wissenschaftlichen Theorien soll gemäß Kritischem Rationalismus methodisch angeleitet anhand von Daten erfolgen und zwar im Wissenschaftssystem ergebnisoffen und wertfrei/wertneutral bzw. objektiv hinsichtlich des inhaltlichen Ergebnisses. Dies wird vor allem durch die Strukturierung, Standardisierung und detaillierte Offenlegung des Vorgehens sowie die kritische Prüfung durch Peers (d. h. Forschende im jeweiligen inhaltlichen Gebiet) sichergestellt. Mit Objektivität ist aber nicht gemeint, dass Forschende der sozialen Wirklichkeit gegenüber generell eine „neutrale“ Haltung einnehmen sollen oder können oder dass sie gegenüber ihren eigenen Theorien eine „neutrale“ Haltung haben sollen oder können. Vielmehr gibt der Kritische Rationalismus vor, dass die Wertvorstellungen der Forschenden hinsichtlich des Forschungsproblems im Begründungszusammenhang von Theorien keine Rolle spielen und das Ergebnis der Theorieprüfung nicht vorbestimmten dürfen. Als wichtigstes Korrektiv gilt dabei die kritische Prüfung und Replikation durch Fachkollegen.

Werte im Entdeckungs- und Verwendungszusammenhang

Wertvorstellungen der Forschenden dürfen und sollen darüber mitentscheiden, welchen Forschungsproblemen sie sich zwecks Theoriebildung zuwenden oder nicht zuwenden (Entdeckungszusammenhang) und inwiefern sie eine bestimmte Anwendung ihrer Forschungsergebnisse und ihrer Theorien aktiv fördern oder nicht fördern (Verwendungszusammenhang).

Probabilistische Theorien und Hypothesen

In der empirischen Sozial- und Humanforschung arbeitet man nicht mit deterministischen Theorien und Hypothesen, die den Anspruch erheben, ausnahmslos jeden Einzelfall zu erklären („Alle Raucher entwickeln Lungenkrebs“). Stattdessen setzt man eine (bislang nicht erklärte oder grundsätzlich nicht erklärbare) Individualität der Einzelfälle voraus und erhebt mit probabilistischen (wahrscheinlichkeitstheoretischen) Theorien und Hypothesen („probabilistic theories/hypotheses“) lediglich den Anspruch, die untersuchten Phänomene der Tendenz nach bzw. auf Aggregatebene zu erklären („Raucher entwickeln mit höherer Wahrscheinlichkeit Lungenkrebs als Nichtraucher“).

Prüfung probabilistischer Hypothesen durch statistische Signifikanztests

Da probabilistische Theorien und Hypothesen nicht durch widersprechende Einzelfälle falsifizierbar sind, müssen begründete Falsifikationskriterien eingeführt werden. Zur Prüfung von Forschungshypothesen durch Daten dient im quantitativen Paradigma meist der statistische Signifikanztest, der Stichprobenergebnisse wahrscheinlichkeitstheoretisch bewertet und konventionell mit einem Signifikanzniveau von Alpha = 5 % (oder 1 %) als Falsifikationskriterium operiert. Das Ergebnis eines statistischen Hypothesentests ist deswegen immer mit Unsicherheit behaftet: Statistisch liefert bei einem Signifikanzniveau von 5 % dementsprechend von 20 Signifikanztests ein Signifikanztest ein falsch-positives Ergebnis (d. h. ein statistisch signifikantes Ergebnis, obwohl die Forschungshypothese in der Population nicht zutrifft).

Interpretation der Ergebnisse von statistischen Signifikanztests

Der Rückschluss vom Ergebnis eines statistischen Hypothesentests (signifikantes versus nicht-signifikantes Ergebnis) auf die zu prüfende Theorie ist definitionsgemäß mit einem statistischen Fehler behaftet. Er ist darüber hinaus auf theoretischer Ebene unsicher und muss kritisch diskutiert werden, da die Aussagekraft der Daten von der Gültigkeit diverser Hilfs- und Instrumententheorien abhängt, auf denen die Methodenentscheidungen im Forschungsprozess (z. B. Operationalisierung, Stichprobenauswahl) basieren.

Monokausale Erklärung

Ein Sachverhalt wird durch einen einzigen Ursachenfaktor erklärt. Theorien mit einem einzigen Erklärungsfaktor werden oft als zu stark vereinfachend betrachtet. Sie können durch weitere Theorien ergänzt werden, die andere Ursachen des fraglichen Sachverhalts adressieren.

Multikausale Erklärung

Ein Sachverhalt wird durch mehrere Ursachenfaktoren erklärt. Es wird davon ausgegangen, dass viele soziale Sachverhalte jeweils durch mehrere Ursachen und deren Zusammenwirken hervorgerufen werden, weshalb multikausale Erklärungen den monokausalen meist überlegen sind. Der Kritische Rationalismus strebt danach, die zentralen Ursachenfaktoren analytisch herauszuarbeiten. Eine ganzheitliche (holistische) Herangehensweise, dergemäß alle erdenklichen Einflussfaktoren gleichzeitig betrachtet werden, wird abgelehnt, da hier die Gefahr gesehen wird, dass dogmatische Weltbilder Einzug halten auf Kosten differenzierter empirischer Analyse und theoriekritischer Diskussion.

Prinzip der ganzheitlichen und rekonstruktiven Untersuchung lebensweltlicher Phänomene

Ontologisch wird die im qualitativen Paradigma empirischer Sozialforschung untersuchte soziale Wirklichkeit auf der Ebene der alltäglichen Lebenswelt der Individuen angesiedelt. Denn menschliches Erleben und Handeln lässt sich im Verständnis des qualitativen Paradigmas nicht durch allgemeine Gesetzmäßigkeiten kausal erklären, sondern nur anhand der jeweils individuellen Weltsichten und Sinngebungen der Beteiligten in ihren jeweiligen Alltagszusammenhängen verstehen und intentional erklären. Durch diese Gegenstandsbestimmung befinden sich nicht-lebensweltliche Makro- und Mikro-Phänomene außerhalb des Fokus der qualitativen Sozialforschung.

Prinzip der reflektierten theoretischen Offenheit zwecks Bildung neuer Theorien

Erkenntnisgewinn zielt im Paradigma der qualitativen Sozialforschung vor allem auf die Bildung neuer Hypothesen und Theorien ab, die passgenau auf den jeweiligen Untersuchungsgegenstand (d. h. ein lebensweltliches soziales Phänomen) zugeschnitten sind. Deswegen sollen sich die Forschenden eben nicht mit einer bereits im Vorfeld ausgewählten fertigen Theorie und vordefinierten theoretischen Konstrukten mit einem durchstrukturierten Forschungsprozess dem Gegenstand nähern. Stattdessen sollen sie ihr (immer in gewisser Weise vorhandenes und auch notwendiges) Vorverständnis kritisch hinterfragen und ausdrücklich offen sein für Fälle, Situationen und Daten, die ihren Vorannahmen widersprechen und somit über die bisherigen theoretischen Vorstellungen hinaus neue Kenntnisse über den Untersuchungsgegenstand vermitteln.

Prinzip der Zirkularität und Flexibilität des Forschungsprozesses zwecks Annäherung an den Gegenstand

Der qualitative Forschungsprozess wird nicht vorab vollständig durchgeplant, festgelegt und dann linear abgearbeitet, sondern idealerweise flexibel gestaltet: In mehreren Untersuchungszyklen innerhalb einer Studie sollen anhand der Zwischenergebnisse jeweils das Untersuchungsdesign, die Auswahl der Fälle und/oder die Datenerhebungs- und Datenanalyse-Hilfsmittel überarbeitet (Flexibilität des Vorgehens) und dem untersuchten Gegenstand somit schrittweise immer besser angepasst werden (Zirkularität bzw. Spiralförmigkeit der verstehenden Annäherung an den Untersuchungsgegenstand).

Prinzip der Kommunikation und Kooperation zwischen Forschenden und Beforschten

Da der qualitative Ansatz in der Regel auf die Rekonstruktion der Sichtweisen der am untersuchten sozialen Phänomen Beteiligten abzielt, ist die direkte (zuweilen auch medienvermittelte) Kommunikation zwischen Forschenden und Beforschten das zentrale Erkenntnismittel. Damit diese Kommunikation ein möglichst weitreichendes Fremdverstehen ermöglicht, ist eine kooperative Haltung auf beiden Seiten notwendig. Die Beforschten müssen sich vertrauensvoll öffnen und die Forschenden müssen sich persönlich in den Kontakt einbringen und ein dem jeweiligen Gegenüber und dem Forschungsziel angemessenes Arbeitsbündnis aufbauen, dieses reflektieren und dokumentieren.

Prinzip der Selbstreflexion der Subjektivität und Perspektivität der Forschenden

Das qualitative Paradigma empirischer Sozialforschung vertritt eine subjektivistische Erkenntnistheorie, dergemäß der Erkenntnisprozess immer untrennbar mit der Person der Forschenden – ihrer Subjektivität und Perspektivität – verknüpft ist. Ihr persönliches Verhältnis zum jeweiligen Untersuchungsgegenstand und zu den Untersuchungspersonen müssen Forschende deswegen kritisch reflektieren. Die Reflexion der Subjektivität und Perspektivität gilt als zentrale Erkenntnisquelle und muss entsprechend auch dokumentiert werden. Das betrifft nicht zuletzt die Position und Perspektive der Forschenden im Kontext sozialer Hierarchien und gesellschaftlicher Machtverhältnisse.

Wissenschaft

Wissenschaft („science“) erhebt den Anspruch der Wissenschaftlichkeit und erfüllt alle vier Standards der Wissenschaftlichkeit: 1. wissenschaftliches Forschungsproblem, 2. wissenschaftlicher Forschungsprozess, 3. Wissenschafts- und Forschungsethik sowie 4. Dokumentation des Forschungsprojektes.

Nicht-Wissenschaft

Nicht-Wissenschaft („non science“) befasst sich häufig mit ähnlichen Fragestellungen wie wissenschaftliche Forschung (das gilt besonders für die Human- und Sozialwissenschaften mit ihren oft alltagsnahen Untersuchungsgegenständen). Allerdings wird bei Nicht-Wissenschaft kein geordneter Forschungsprozess durchlaufen und auch nicht der Anspruch der Wissenschaftlichkeit erhoben.

Pseudowissenschaft

Pseudowissenschaft („pseudo science“) erhebt den Anspruch der Wissenschaftlichkeit, ohne ihn jedoch nach gängigen Standards der Wissenschaftlichkeit einzulösen. Grob lassen sich unbeabsichtigte, vorsätzliche und ideologische Pseudowissenschaft voneinander abgrenzen. Die Abgrenzung zwischen Wissenschaft und ideologischer Pseudowissenschaft geht oft mit hochkontroversen öffentlichen Debatten einher.

Parawissenschaft

Parawissenschaft („para science“) beschäftigt sich mit anomalen Sachverhalten, deren Existenz und Beschaffenheit auf dem aktuellen wissenschaftlichen Kenntnisstand nicht erklärbar sind. Dabei wird gemäß wissenschaftlicher Methodologie und Methodik vorgegangen und auch der Anspruch der Wissenschaftlichkeit erhoben. Mit zunehmendem Erkenntnisgewinn kann sich eine Parawissenschaft zu einer regulären Wissenschaft entwickeln.

Offene Wissenschaft

Offene Wissenschaft („open science“) ist ein Arbeitsprinzip innerhalb der Wissenschaft, das vor allem das Veröffentlichen und Teilen von Forschungswerkzeugen, Forschungsdaten und Forschungsergebnissen beinhaltet. Zudem gehören transparentere und inklusivere Prozesse im Wissenschaftsbetrieb zum Open-Science-Gedanken (z. B. Open Peer Review, Citizen Science). Offene Wissenschaft erhebt den Anspruch, die Qualität der Forschung zu steigern.

Konstruktvalidität

Konstruktvalidität („construct validity“): Repräsentieren die verwendeten Messinstrumente (abhängige Variablen) sowie die hergestellten Untersuchungsbedingungen (unabhängige Variablen) inhaltlich in hohem Maße jeweils genau die interessierenden theoretischen Konstrukte? Kann von den empirisch-statistischen Ergebnissen auf die interessierenden theoretischen Konstrukte zurückgeschlossen werden? Die Konstruktvalidität ist vor allem von der Qualität der Theoriearbeit (Konzeptspezifikation) sowie der Operationalisierung abhängig.

Interne Validität

Interne Validität („internal validity“): Wie zweifelsfrei kann für die interessierenden Effekte tatsächlich der vermutete Kausaleinfluss der unabhängigen Variable/n auf die abhängige/n Variable/n belegt werden? Die interne Validität ist vor allem von der Qualität des Untersuchungsdesigns (experimentelle, quasi-experimentelle oder vorexperimentelle Studie) und dessen Umsetzung abhängig.

Externe Validität

Externe Validität („external validity“): Inwiefern können die Ergebnisse der Studie – vor allem im Sinne der Wirkungen einer Maßnahme – auf andere Orte, Zeiten, Wirkvariablen, Treatment-Bedingungen oder Personen als die konkret untersuchten verallgemeinert werden? Die externe Validität ist vor allem von der Qualität des Untersuchungsdesigns und der Stichprobenziehung (in der Umfrageforschung idealerweise probabilistische bzw. repräsentative Stichprobe; in der Experimentalforschung dagegen meist nicht-probabilistische Stichproben) abhängig.

Statistische Validität

Statistische Validität („statistical inference validity“): Wurden die deskriptiv- und inferenzstatistischen Analysen korrekt durchgeführt, sodass für die interessierenden Variablenzusammenhänge bzw. Effekte mit hoher Sicherheit nachgewiesen wurde, ob sie a) statistisch überzufällig (signifikant) sind oder nicht und b) ob sie eine theoretisch und/oder praktisch relevante Effektgröße aufweisen? Die statistische Validität ist vor allem von der Qualität der statistischen Datenanalyse abhängig. Aber auch untersuchungsplanerische Aspekte (z. B. Stichprobenumfang, Messgenauigkeit der gewählten bzw. entwickelten Messinstrumente) sind relevant.

Forschungsethik

Die Forschungsethik („research ethics“, „ethics of research“) umfasst alle ethischen Richtlinien, an denen sich Forschende bei ihrer Forschungstätigkeit – und zwar hier speziell bei der Datenerhebung und Datenanalyse im Rahmen empirischer Studien – orientieren sollen. Im Mittelpunkt stehen der verantwortungsvolle Umgang mit menschlichen und tierischen Untersuchungsteilnehmenden (bzw. ihren Daten) und ihr Schutz vor unnötigen oder unverhältnismäßigen Beeinträchtigungen durch den Forschungsprozess. Dass und wie der Forschungsethik in einer konkreten Studie Genüge getan wird, sollte im Vorfeld genau überlegt und im Forschungsbericht erläutert werden. Immer häufiger wird in verschiedenen human- und sozialwissenschaftlichen Disziplinen auch verlangt, dass geplante Studien mit menschlichen oder tierischen Probanden vor ihrer Durchführung durch eine Ethik-Kommission geprüft und genehmigt werden.

Wissenschaftsethik

Die Wissenschaftsethik umfasst alle ethischen Regeln guter wissenschaftlicher Praxis („codes of scholarly conduct“, „codes of academic conduct“), an denen sich Forschende bei ihrer wissenschaftlichen Tätigkeit jenseits des Umgangs mit Untersuchungspersonen und ihren Rechten (diese sind Gegenstand der Forschungsethik) orientieren sollen, um wissenschaftliches Fehlverhalten („scientific misconduct“) zu verhindern. Im Mittelpunkt steht der verantwortungsvolle Umgang mit wissenschaftlichen Ergebnissen, ihrer Generierung, Interpretation, Bewertung und Veröffentlichung.

Wissenschaftsfälschung

Eine Wissenschaftsfälschung („scientific fraud“) liegt vor, wenn a) empirische Forschungsergebnisse bewusst in Richtung eines Wunschergebnisses manipuliert werden (z. B. gezielte Eliminierung hypothesenkonträrer Fälle oder geschönte Darstellung von Befunden; „data falsification“, „data massaging“) oder wenn b) gar keine empirischen Daten erhoben, sondern die Ergebnisse erfunden wurden (z. B. simulierte Datensätze; „data fabrication“).

Plagiarismus

Plagiarismus („plagiarism“) in der Wissenschaft liegt vor, wenn in wissenschaftlichen Werken Ideen oder Textteile anderer Autorinnen und Autoren übernommen werden, ohne dies entsprechend durch Zitation der Originalquellen kenntlich zu machen. Neben dem Fremdplagiat existiert auch das Selbstplagiat, wenn ohne Kennzeichnung auf eigene frühere Texte zurückgegriffen wird.

Wissenschaftliche Autorschaft

Wissenschaftliche Autorschaft („academic authorship“) meint die namentliche Nennung aller Forschenden, die maßgeblich an der Durchführung und Veröffentlichung einer wissenschaftlichen Studie beteiligt waren. Da human- und sozialwissenschaftliche Studien meist in Teamarbeit durchgeführt werden, muss gemäß den Regeln guter wissenschaftlicher Praxis in sachlich angemessener und fairer Weise festgelegt werden, welche Art von Mitarbeit eine Person zur Mitautorschaft qualifiziert und wie bei kollektiver Autorschaft die Autor:innenreihenfolge festzulegen ist.

Fragwürdige Forschungspraktiken

Fragwürdige Forschungspraktiken („questionable research practices“, QRP) sind ein Überbegriff für wissenschaftsethisch und methodologisch problematische Vorgehensweisen in allen Phasen des Forschungsprozesses, die darauf hinauslaufen, dass Forschende die Ergebnisse von Studien im Sinne ihrer Erwartungen bzw. im Sinne der Bestätigung bestimmter Effekte beeinflussen und beschönigen. Wichtige Gegenmaßnahmen sind die Präregistrierung jeder Studie vor ihrer Durchführung und die Offenlegung aller Daten und Materialien nach ihrer Durchführung.

Registrierung

Die Registrierung („registration“) von klinischen Studien (meist randomisierte Kontrollgruppenstudien) meint das Anmelden einer Studie vor ihrer Durchführung anhand definierter Angaben zur Stichprobe sowie zu den unabhängigen und abhängigen Variablen auf einem zertifizierten Registrierungsserver. Die Studie erhält damit ein Registrierungsdatum, eine Identifikationsnummer und ist öffentlich auffindbar. Die Studienregistrierung macht das Forschungsgeschehen transparenter und verschafft einen Überblick darüber, welche Studien bereits durchgeführt wurden, unabhängig davon, ob über die Studie dann auch Publikationen entstehen. Eine führende internationale Registrierungsplattform für klinische Studien ist die von der Weltgesundheitsorganisation WHO betriebene International Clinical Trials Registry Platform (ICTRP; https://www.who.int/clinical-trials-registry-platform).

Präregistrierung

Die Präregistrierung („preregistration“) geht über die Studienregistrierung hinaus, indem sie zusätzlich zur üblichen Registrierung noch sehr detaillierte Angaben zur geplanten Datenanalyse macht. Es existieren unterschiedliche Präregistrierungsformulare, die je nach Studientyp verschiedene Detailangaben verlangen. Präregistrierungen werden mit Präregistrierungsdatum veröffentlicht und können im Nachhinein nicht mehr verändert werden. Weicht die spätere Datenanalyse vom präregistrierten Analyseplan ab, so ist dies begründungspflichtig. Ein führender internationaler und disziplinenübergreifender Präregistrierungsserver ist der Server der Open-Science-Foundation OSF (https://osf.io/).

Forschungsthema

Das Forschungsthema („research subject“) benennt einen Untersuchungsgegenstand.

Forschungsproblem

Das Forschungsproblem („research problem“) kennzeichnet, welche Erkenntnisse zu welchen Aspekten des Untersuchungsgegenstandes auf welcher theoretischen, empirischen und methodischen Basis gewonnen werden sollen. Das Forschungsproblem wird auch oft als Fragestellung einer Studie bezeichnet und in mehrere Forschungshypothesen und/oder Forschungsfragen ausdifferenziert.

Forschungshypothese

Die Forschungshypothese („research hypothesis“) wird aus etablierten Theorien und/oder gut gesicherten empirischen Befunden abgeleitet und postuliert die Existenz, Richtung und Stärke eines bestimmten Effekts. Anhand von Hypothesenprüfungen werden bestehende Theorien getestet und weiterentwickelt.

Forschungsfrage

Die Forschungsfrage („research question“) basiert auf dem bisherigen Forschungsstand und zielt v. a. auf Forschungslücken. Sie fordert dazu auf zu ermitteln, ob Regelhaftigkeiten vorliegen, welche Beschaffenheit sie haben, in welche Richtung sie weisen, wie stark sie sind, wie sie zustande kommen etc. Die Beantwortung von Forschungsfragen trägt zur Erkundung eines Sachverhaltes sowie zur Generierung neuer Theorien bei.

Forschungshypothesen

Forschungshypothesen („research hypotheses“) postulieren die Existenz, die Richtung und die Stärke unterschiedlicher Arten von Effekten. Zu jeder Forschungshypothese bzw. Alternativhypothese („research hypothesis“, „alternative hypothesis“: H1) lässt sich eine komplementäre Nullhypothese („null hypothesis“: H0) aufstellen, die den postulierten Effekt negiert. Das Hypothesenpaar bestehend aus H1 und H0 bildet die Grundlage des Nullhypothesen-Signifikanztests („null hypothesis significance testing“, NHST), einer sehr verbreiteten Methode der statistischen Hypothesenprüfung (Abschn. 12.5.1). Bei der Darstellung der Hypothesen in Forschungsberichten und Publikationen werden nur die Forschungshypothesen (nicht die Nullhypothesen) angegeben.

Art des Effekts

Bei Forschungshypothesen werden nach Art des postulierten Effekts drei inhaltliche Typen von Hypothesen differenziert: Unterschiedshypothesen („hypotheses of difference“), Zusammenhangshypothesen („correlation hypotheses“) und Veränderungshypothesen („hypotheses of change“).

Richtung des Effekts

Unterschieds-, Zusammenhangs- und Veränderungshypothesen können sowohl als ungerichtete bzw. zweiseitige Hypothese („non-directional hypothesis“, „two-sided hypothesis“) als auch – das ist in der Forschungspraxis der übliche Fall – als gerichtete bzw. einseitige Hypothese („directional hypothesis“, „one-sided hypothesis“) formuliert werden. Bei der gerichteten Hypothese wird jeweils die Richtung von Gruppenunterschieden, Merkmalszusammenhängen oder Veränderungen vorab postuliert. Bei der ungerichteten Hypothese bleibt die Richtung offen, lediglich die Existenz eines von Null abweichenden Effekts wird behauptet.

Größe des Effekts (Effektgröße)

(„effect size“) Effekte, d. h. Unterschiede zwischen Gruppen, Zusammenhänge zwischen Variablen oder Veränderungen von Untersuchungsobjekten über die Zeit, können in ganz unterschiedlicher Größe auftreten. Eine Hypothese, bei der die erwartete Effektgröße (oder zumindest die Größenordnung: kleiner, mittlerer oder großer Effekt) angegeben ist, heißt spezifische Hypothese („specific hypothesis“). Wird dagegen die Effektgröße nicht spezifiziert, so handelt es sich um eine unspezifische Hypothese („non-specific hypothesis“).

Forschungsfragen

Bei Forschungsfragen („research question“) wird ergebnisoffen gefragt, ob ein Effekt existiert. Wenn ja, welche Richtung und Größe sowie welche qualitative Beschaffenheit hat er? Empirische Befunde zu Forschungsfragen dienen der Gegenstandsbeschreibung und Hypothesenbildung.

Untersuchungsdesign

Das Untersuchungsdesign (Untersuchungsart, Untersuchungsplan, Forschungsdesign, Studiendesign, „research design“) charakterisiert ganz allgemein die methodische Vorgehensweise einer Studie. Zur Kennzeichnung von Untersuchungsdesigns werden neun verschiedene Klassifikationskriterien herangezogen, die teilweise in einem hierarchischen Verhältnis zueinander stehen. Innerhalb eines konkreten Untersuchungsdesigns können unterschiedliche Stichprobenarten und Datenerhebungs- sowie Datenanalyseverfahren zum Einsatz kommen.

Qualitativer Forschungsansatz

Im qualitativen Forschungsansatz („qualitative research approach/strategy“) werden offene Forschungsfragen an wenigen Untersuchungseinheiten sehr detailliert mit unstrukturierten oder teilstrukturierten Datenerhebungsmethoden untersucht. Ziel ist eine Gegenstandsbeschreibung samt Theoriebildung. Die erhobenen qualitativen (nicht-numerischen, d. h. verbalen, visuellen) Daten werden interpretativ ausgewertet.

Quantitativer Forschungsansatz

Im quantitativen Forschungsansatz („quantitative research approach/strategy“) werden theoretisch abgeleitete Forschungshypothesen an vielen Untersuchungseinheiten mit strukturierten Datenerhebungsmethoden untersucht. Ziel ist meist die Theorieprüfung. Die erhobenen quantitativen (numerischen) Daten werden statistisch ausgewertet.

Mixed-Methods-Ansatz

Der Mixed-Methods-Ansatz („mixed methods approach“) kombiniert qualitative und quantitative Vorgehensweisen zu neuen Mixed-Methods-Designs.

Grundlagenwissenschaftliche Studie

Die grundlagenwissenschaftliche Studie („basic research study“) dient primär dem wissenschaftlichen Erkenntnisfortschritt.

Anwendungswissenschaftliche Studie

Die anwendungswissenschaftliche Studie („applied research study“) dient primär der Lösung praktischer Probleme mithilfe wissenschaftlicher Methoden und Theorien. Anwendungsforschung findet als unabhängige Forschung („independent research“, „non-commercial research“) oder als Auftragsforschung („contract resarch“, „commercial research)“ statt.

Theoriestudie

Die Theoriestudie („theoretical study“, „research/literature review“) präsentiert und bewertet auf der Basis einer Literaturrecherche den Forschungsstand. Der Forschungsstand wird entweder in einem Review bzw. Überblicksartikel zusammengefasst („research review“) oder mittels Metaanalyse („meta analysis“) werden die zentralen statistischen Ergebnisse bisheriger Studien zu einem Gesamtbefund aggregiert.

Methodenstudie

Die Methodenstudie („methodological study“) dient dem Vergleich und der Weiterentwicklung von Forschungsmethoden.

Empirische Studie

Die empirische Studie („empirical study“) dient der Lösung von inhaltlichen Forschungsproblemen auf der Basis systematischer eigener Datenerhebung und/oder Datenanalyse, wobei es sich um eine Originalstudie („original study“) oder um eine Replikationsstudie („replication study“) handeln kann.

Primäranalyse

Bei der Primärstudie bzw. Primäranalyse („primary analysis“) als dem typischen Fall einer empirischen Studie werden die empirischen Daten selbst erhoben und anschließend analysiert.

Sekundäranalyse

Bei der Sekundärstudie bzw. Sekundäranalyse („secondary analysis“) werden vorhandene Datensätze neu ausgewertet. Voraussetzung dafür ist die Beschaffung der Originaldatensätze.

Metaanalyse

Bei der Metastudie bzw. Metaanalyse („meta analysis“) werden die Ergebnisse direkt vergleichbarer Studien zum selben Thema zu einem Gesamtergebnis statistisch zusammengefasst. Da die Metaanalyse mit empirischen Ergebnissen weiterrechnet und somit eine statistische Datenanalyse enthält, kann sie als Sonderform einer empirischen Studie eingeordnet werden. Allerdings arbeitet sie nicht mit Orgininaldatensätzen, sondern stützt sich ausschließlich auf Ergebnisberichte von Studien und wird deswegen auch als Theorie- oder Literaturarbeit eingestuft (Kap. 16).

Explorative Studie

Die explorative Studie („exploratory study“) dient der genauen Erkundung und Beschreibung eines Sachverhaltes mit dem Ziel, wissenschaftliche Forschungsfragen, Hypothesen und Theorien zu entwickeln.

Explanative Studie

Die explanative Studie („explanatory study“) dient der Überprüfung vorher aufgestellter Hypothesen und somit auch der Theorien, aus denen sie abgeleitet wurden (Abschn. 2.2.8).

Deskriptive Studie

Die deskriptive Studie („descriptive study of populations“) dient der Feststellung der Verbreitung von Merkmalen und Effekten in großen Grundgesamtheiten, etwa der Bevölkerung eines Landes.

Experimentelle Studie/randomisierte kontrollierte Studie

Die experimentelle Studie/randomisierte kontrollierte Studie („experimental study“) bildet für die Prüfung einer Kausalhypothese zunächst künstlich nach dem Zufallsprinzip mindestens zwei Gruppen (Randomisierung; „randomization“, „random assignment to groups“), behandelt diese systematisch unterschiedlich (experimentelle Manipulation der unabhängigen Variable/n; „experimental manipulation“, „manipulated independent variable/s“), und misst die in den Experimental- und Kontrollgruppen resultierenden Effekte auf die abhängige/n Variable/n. Man spricht auch von einem echten Experiment (im Unterschied zum Quasi-Experiment) oder von einer randomisierten Kontrollgruppenstudie bzw. einer randomisierten kontrollierten Studie („randomized controlled trial“, RCT).

Quasi-experimentelle Studie/nicht-randomisierte kontrollierte Studie

Die quasi-experimentelle Studie/nicht-randomisierte kontrollierte Studie („quasi-experimental study“) greift zur Prüfung einer Kausalhypothese auf Gruppen zurück, die nicht zufällig zusammengestellt, sondern oft einfach vorgefunden oder anderweitig gebildet wurden (keine Randomisierung), behandelt diese jedoch ebenso wie im echten Experiment systematisch unterschiedlich (experimentelle Variation der unabhängigen Variable/n) und misst die in den Experimental- und Kontrollgruppen resultierenden Effekte auf die abhängige/n Variable/n. Man spricht auch von einer nicht-randomisierten kontrollierten Studie („non-randomized controlled trial“, NRCT).

Nicht-experimentelle Studie

Eine nicht-experimentelle Studie („non-experimental study“, „descriptive study“) greift auf vorgefundene Gruppen zurück (keine Randomisierung) und betrachtet deren vorgefundene Unterschiede (keine experimentelle Variation der unabhängigen Variable/n, sondern vorgefundene Variation). Sie ist zur Prüfung von Kausalhypothesen nur sehr bedingt geeignet, aus forschungsökonomischen sowie forschungsethischen Gründen aber bei manchen Forschungsthemen die einzige Option.

Interne Validität

(„internal validity“) Eine Untersuchung ist intern valide, wenn ihre Ergebnisse kausal eindeutig interpretierbar sind in dem Sinne, dass Effekte in den abhängigen Variablen zweifelsfrei auf die Wirkung der unabhängigen Variablen zurückzuführen sind. Die interne Validität steigt durch die sorgfältige Kontrolle von personenbezogenen Störvariablen (v. a. durch Randomisierung) sowie von untersuchungsbedingten Störvariablen (z. B. Registrieren, Ausschalten oder Konstanthalten von Störeinflüssen durch standardisierten Ablauf des Experimentes; Verblindung von Versuchspersonen und Versuchsleitenden etc.).

Externe Validität

(„external validity“) Eine Untersuchung ist extern valide, wenn ihre Ergebnisse über die Bedingungen der Untersuchungssituation und über die untersuchten Personen hinausgehend generalisierbar sind. Die externe Validität sinkt meist mit wachsender Unnatürlichkeit der Versuchsbedingungen im Hinblick auf die alltägliche Lebenswelt und mit abnehmender Repräsentativität der Versuchspersonen im Hinblick auf die Zielpopulation.

Laborstudie

Die Laborstudie („laboratory study“) findet in einer kontrollierten Umgebung statt, um den Einfluss umwelt- bzw. untersuchungsbedingter Störvariablen möglichst auszuschließen. Erkauft wird die Kontrolle der Störvariablen im Labor meist durch eine gewisse Künstlichkeit des Untersuchungsortes, was die Übertragbarkeit der Befunde auf den Alltag erschwert.

Feldstudie

Die Feldstudie („field study“) findet im natürlichen Umfeld statt, sodass die Untersuchungsbedingungen den Alltagsbedingungen ähneln und auf diese möglichst gut übertragbar sind. Erkauft wird die Natürlichkeit der Bedingungen durch eine verminderte Kontrolle von Störvariablen, was die kausale Interpretierbarkeit der Befunde erschwert.

(Quasi-)experimentelle Studie ohne Messwiederholungen

Eine (quasi-)experimentelle Studie ohne Messwiederholungen („independent measures design“, „between-subjects design“) verzichtet auf eine Messwiederholung im Sinne einer Prä-Post-Messung und beschränkt sich auf die Nachher-Messung. Dies schränkt die interne Validität der Studie ein, wenn die Vorher-Werte nicht in allen Untersuchungsgruppen identisch waren. Zudem werden in einem Design ohne Messwiederholungen in allen Untersuchungs- und Kontrollgruppen jeweils andere Versuchspersonen untersucht.

(Quasi-)experimentelle Studie mit Messwiederholungen

Eine (quasi-)experimentelle Studie mitMesswiederholungen („repeated measures/measurement design“; „withinsubjects design“) beinhaltet a) eine Prä-Post-Messung zur Prüfung individueller Veränderungen durch die Intervention (was die interne Validität der Studie erhöht) und/oder es werden b) ganz oder teilweise dieselben Versuchspersonen in den unterschiedlichen Experimental- und Kontrollgruppen eingesetzt (was sowohl die Zahl der benötigten Probanden als auch den Einfluss personengebundener Störvariablen reduziert). Die Vorteile von Messwiederholungen sind jedoch mit gewissen Nachteilen und Risiken verbunden, sodass die Einsatzmöglichkeiten von Messwiederholungen in Abhängigkeit von Forschungsproblem und Rahmenbedingungen bei der Planung des Untersuchungsdesigns abzuwägen sind.

Querschnittstudie

Bei einer Querschnittstudie („cross-sectional study“) wird eine Stichprobe zu einem Zeitpunkt untersucht. Umfasst die Stichprobe mehrere Altersgruppen, so sind Alterseffekte immer nur im Zusammenhang mit Kohorteneffekten interpretierbar.

Trendstudie

Eine Trendstudie („trend study“) besteht aus mehreren, in zeitlichem Abstand durchgeführten Querschnittstudien, in denen jeweils (zumindest teilweise) dieselben Variablen erhoben werden. Trendstudien dienen der Untersuchung von gesellschaftlichem Wandel.

Längsschnittstudie

Bei einer Längsschnittstudie bzw. Panelstudie („longitudinal study“) wird eine Stichprobe (Panel) über längere Zeit hinweg wiederholt untersucht. Längsschnittstudien dienen der Untersuchung individueller Veränderungen über die Lebensspanne. Diese Alter(n)seffekte sind jedoch mit Kohorten- und Epocheneffekten konfundiert, was man durch komplexere längsschnittliche Designs teilweise auflösen kann.

Gruppenstudie

Bei einer Gruppenstudie („group design“) wird eine Stichprobe von Objekten aus der Grundgesamtheit untersucht und zusammenfassend ausgewertet – dies ist sowohl in der qualitativen als auch in der quantitativen Forschung der häufigste Fall (z. B. quantitative Aggregatwerte wie Mittelwerte, Prozentwerte, Korrelationskoeffizienten oder qualitative Aggregate wie Kategorien und Typen). Eine Gruppenstudie kann nicht nur als Stichprobenstudie, sondern auch als Vollerhebung realisiert werden, indem die gesamte Population untersucht wird, was nur bei kleinen Populationen möglich ist.

Einzelfallstudie

Bei einer Einzelfallstudie bzw. Fallstudie („case study“) wird ein typischer oder untypischer Einzelfall (d. h. eine Person, ein Ereignis, eine Organisation etc.) umfassend untersucht, wobei unterschiedliche Datenerhebungsmethoden zum Einsatz kommen (Beobachtung, Interview, Fragebogen, Dokumentenanalyse etc.). Fallstudien können qualitativ, quantitativ oder nach einem Mixed-Methods-Design angelegt sein. Einen Sonderfall stellen quantitative Einzelfallstudien mit quasi-experimentellen Versuchsplänen dar, die durch Messwiederholungen bei einer Versuchsperson umgesetzt werden („single subject design“, „single participant design“).

Variable

Die Variable („variable“) ist ein Merkmal, das im Unterschied zur Konstante verschiedene Ausprägungen annehmen kann. Man unterscheidet stetige Variablen („continuous variable“) mit unendlich vielen, fein abgestuften Ausprägungen von diskreten Variablen („discrete variable“, „discontinuous variable“) mit einer kleinen und begrenzten Zahl an Ausprägungen.

Manifestes Merkmal bzw. manifeste Variable

Bei einem manifesten Merkmal bzw. einer manifesten Variable („manifest variable“, „observable variable“) sind die Ausprägungen direkt beobachtbar bzw. leicht feststellbar und die theoretische Bedeutung gilt als eindeutig und bekannt.

Latentes Merkmal bzw. latente Variable

Bei einem latenten Merkmal bzw. einer latenten Variable („latent variable“) bzw. einem theoretischen Konzept/Konstrukt („theoretical concept“, „theoretical construct“) sind die Ausprägungen nicht direkt beobachtbar und die theoretische Bedeutung ist erklärungsbedürftig.

Konzeptspezifikation

Unter Konzeptspezifikation („conceptualization“, „concept specification“) versteht man die Nominaldefinition bzw. Explikation eines theoretischen Konzeptes, Konstruktes bzw. latenten Merkmals. Bei komplexen Merkmalen nennt die Definition theoriebasiert in der Regel noch verschiedene Subdimensionen oder Aspekte des Konzeptes.

Operationalisierung

Die Operationalisierung („operationalization“) eines theoretisches Konzepts bzw. einer latenten Variable legt fest, anhand welcher beobachtbaren Variablen (Indikatoren) die Ausprägung des theoretischen Konzepts bei den Untersuchungsobjekten festgestellt werden soll. Neben der Auswahl der Indikatoren gehört zur Operationalisierung auch die Festlegung der Messinstrumente, mittels derer den Ausprägungen der einzelnen Indikatoren jeweils entsprechende numerische Werte zugeordnet und zu einem Gesamtmesswert für das Konstrukt verrechnet werden. Komplexe theoretische Konstrukte werden selten mit einem einzigen Indikator (Einzelindikator als Messinstrument) operationalisiert, sondern meist über einen Satz von Indikatoren (d. h. über eine psychometrische Skala oder einen Index). Mit der Festlegung der Operationalisierung wird für ein theoretisches Konzept (dargelegt über seine Nominaldefinition) eine konkretisierende operationale Definition („operational definition“) vorgenommen.

Reflektives Messmodell

Bei einem reflektiven Messmodell geht man davon aus, dass das zu messende Konstrukt die Ursache für dieMerkmalsausprägungen auf den gewählten Indikatoren ist. Als Messinstrument wird eine psychometrische Skala genutzt, die aus homogenen bzw. inhaltsähnlichen Fragen, Aussagen oder Aufgaben besteht (sog. reflektive Indikatoren, in denen sich das Konstrukt widerspiegelt).

Formatives Messmodell

Bei einem formativen Messmodell geht man davon aus, dass das zu messende Konstrukt die Wirkung oder Folge der Merkmalsausprägungen der Indikatoren ist. Als Messinstrument wird ein Index gebildet, in den heterogene Kennwerte eingehen (sog. formative Indikatoren, durch die das Konstrukt ursächlich gebildet wird).

Messung

Eine Messung („measurement“) meint in der quantitativen Sozialforschung eine Zuordnung von Zahlen zu Objekten oder Ereignissen, sofern diese Zuordnung eine homomorphe (strukturerhaltende) Abbildung eines empirischen Relativs in ein numerisches Relativ ist (Orth, 1983, S. 138).

Skala

Unter einer Skala („scale“) versteht man im Kontext der Messtheorie ein empirisches Relativ, ein numerisches Relativ und eine die beiden Relative verknüpfende, homomorphe Abbildungsfunktion.

Mess- bzw. Skalenniveaus

Messungen in der quantitativen Sozialforschung führen in Abhängigkeit von der Beschaffenheit des empirischen Relativs zu unterschiedlich informationsreichen Messwerten. Man unterscheidet vier Mess- bzw. Skalenniveaus („levels of measurement“, „scales of measurement“) nach aufsteigendem Informationsgehalt: Nominalskala („nominal scale“), Ordinal-/Rangskala („ordinal scale“), Intervallskala („interval scale“) und Verhältnis-/Ratioskala („ratio scale“). Im Ergebnis spricht man von nominal-, ordinal-, intervall- oder verhältnisskalierten Messwerten bzw. Daten. Intervall- und Verhältnisskala werden häufig unter den Begriffen „Kardinalskala“ bzw. „metrische Skala“ („metric scale“) zusammengefasst, da sie mit denselben statistischen Verfahren ausgewertet werden können, während für ordinalskalierte und nominalskalierte Daten jeweils spezifische statistische Auswertungsverfahren indiziert sind (Tab. 8.4).

Nominalskala

Eine Nominalskala („nominal scale“, „categorical scale“) ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass Objekte mit gleicher Merkmalsausprägung gleiche Zahlen und Objekte mit verschiedener Merkmalsausprägung verschiedene Zahlen erhalten.

Ordinalskala (Rangskala)

Eine Ordinalskala („ordinal scale“) ordnet den Objekten eines empirischen Relativs Zahlen (Rangzahlen) zu, die so geartet sind, dass von jeweils zwei Objekten das dominierende Objekt die größere Zahl erhält. Bei Äquivalenz der Merkmalsausprägung sind die Zahlen identisch (Verbundränge).

Konsistenz

Unter Konsistenz („intra-rater consistency“, „intra-rater reliability“) versteht man die Widerspruchsfreiheit der Paarvergleichsurteile, die eine Person über die Urteilsobjekte abgibt.

Konkordanz bzw. Urteilerübereinstimmung

Mit Konkordanz bzw. Urteilerübereinstimmung („inter-rater concordance“, „inter-rater agreement“, „inter-rater reliability“) ist die Übereinstimmung der Paarvergleichsurteile von zwei oder mehr Urteilenden gemeint.

Intervallskala

Eine Intervallskala („interval scale“) ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass die Rangordnung der Zahlendifferenzen zwischen je zwei Objekten der Rangordnung der Merkmalsunterschiede zwischen je zwei Objekten entspricht. Die Intervallskala zeichnet sich durch Äquidistanz bzw. Gleichabständigkeit der Messwerte aus.

Urteilsfehler bzw. Urteilsverzerrungen

Urteilsfehler bzw. Urteilsverzerrungen („rater bias“) liegen vor, wenn Untersuchungspersonen Merkmale ihres eigenen Verhaltens und Erlebens bzw. Merkmale vorgegebener Urteilsobjekte auf Ratingskalen (oder anderen Messinstrumenten) nicht korrekt einstufen, sondern die „wahre“ Merkmalsausprägung unwillentlich systematisch über- oder unterschätzen. Anzahl, Art und Ursachen aller möglichen Urteilsverzerrungen sind nicht vollständig bekannt. Typische Urteilsfehler sollten bei der Konstruktion von Ratingskalen (und anderen Messinstrumenten), bei der Gestaltung von Erhebungssituationen sowie bei der Interpretation von quantitativen Daten in reflektierter Weise berücksichtigt werden.

Verhältnisskala bzw. Ratioskala

Eine Verhältnisskala bzw. Ratioskala („ratio scale“) ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass das Verhältnis zwischen je zwei Zahlen dem Verhältnis derMerkmalsausprägungen der jeweiligen Objekte entspricht. Die Verhältnisskala verfügt über einen absoluten Nullpunkt.

Kardinalskala bzw. metrische Skala

Mit der Kardinalskala bzw. metrischen Skala („metric scale“) sind als Oberbegriff sowohl die Intervall- als auch die Verhältnisskala angesprochen. Denn in der sozialwissenschaftlichen Forschungsstatistik existieren keine wichtigen Verfahren, die speziell nur auf Verhältnisskalen zugeschnitten sind.

Psychometrische Skala

Eine psychometrische Skala („psychometric scale“) dient der Operationalisierung eines theoretischen Konstrukts im Rahmen eines reflektiven Messmodells. Sie besteht aus einem Satz von formal und inhaltlich ähnlichen bzw. reflektiven Indikatorvariablen in Form von Skalen-Items. Skalen-Items („scale items“) sind Fragen, Aussagen oder Aufgaben plus standardisiertem Antwortformat (häufig werden als Antwortformat Ratingskalen verwendet). Anhand der Antworten auf die einzelnen Items wird der Skalenwert („score“) gebildet (z. B. als ungewichteter oder gewichteter Summen- oder Durchschnittswert). Eine psychometrische Skala kann eindimensional (aus allen Items wird ein Gesamtskalenwert gebildet) oder mehrdimensional sein (aus jeweils einem Teil der Items werden Subskalenwerte gebildet, welche die Ausprägung von Unteraspekten des gemessenen Merkmals repräsentieren). Die Dimensionalität einer Skala muss geprüft und bekannt sein. Ebenso müssen die psychometrischen Gütekriterien (v. a. Reliabilität und Validität) der Skala empirisch überprüft sein und Mindestanforderungen erfüllen. Die von psychometrischen Skalen erzeugten Messwerte werden üblicherweise als intervallskaliert aufgefasst. Mit Techniken der probabilistischen Testtheorie bzw. Item-Response-Theorie kann das Skalenniveau auch empirisch geprüft werden.

Likert-Skala

Eine Likert-Skala („Likert scale“) ist eine psychometrische Skala, die aus mehreren (z. B. 10–20) Aussagen besteht, die alle dasselbe Merkmal messen und auf Ratingskalen hinsichtlich des Grades der Zustimmung einzuschätzen sind. Typischerweise werden 5-stufige Ratingskalen verwendet. Die Likert-Items repräsentieren unterschiedliche Intensitäten des gemessenen Merkmals. Der Skalenwert der Likert-Skala berechnet sich als Summen- oder Durchschnittsscore der einzelnen Ratings. Neben eindimensionalen Likert-Skalen existieren auch mehrdimensionale Likert-Skalen; dabei bilden dann Teilmengen der Items jeweils die Subskalen, die Unteraspekte des interessierenden Merkmals erfassen. Für jede der (z. B. 2–4) Subskalen wird ein eigener Skalenwert berechnet. Der Likert-Skala wird üblicherweise Intervallskalenniveau, manchmal auch nur Ordinalskalenniveau zugeschrieben.

Guttman-Skala

Eine Guttman-Skala („Guttman scale“) ist eine psychometrische Skala, die aus mehreren Aussagen besteht, die alle dasselbe Merkmal messen und jeweils mit Zustimmung oder Ablehnung (Ja-/Nein-Format) einzuschätzen sind. Die Guttman-Items einer Skala werden so konstruiert, dass sie graduell jeweils eine immer stärkere Intensität des gemessenen Merkmals repräsentieren. Eine Person, die dem vierten Item auf der Skala zustimmt, muss also alle vorherigen, leichteren Items ebenfalls bejaht haben, wenn das Skalierungsmodell zutrifft. Der Skalenwert der Guttman-Skala berechnet sich als Summe aller zugestimmten Items.

Thurstone-Skala

Eine Thurstone-Skala („Thurstone scale“) ist eine psychometrische Skala, die aus mehreren Aussagen besteht, die alle dasselbe Merkmal messen und jeweils mit Zustimmung oder Ablehnung (Ja-/Nein-Format) einzuschätzen sind. Für alle Thurstone-Items wurden im Zuge der Skalenkonstruktion Expertenurteile darüber eingeholt, welche Intensität des Merkmals das jeweilige Item ausdrückt. Diese Expertenurteile werden auf Ratingskalen abgegeben. Das durchschnittliche Experten-Rating pro Item fungiert als Gewichtungsfaktor, ist jedoch den Befragungspersonen nicht bekannt. Der Skalenwert der Thurstone-Skala berechnet sich als Summe der Gewichtungsfaktoren der zugestimmten Items.

Semantisches Differenzial

Das Semantische Differenzial („semantic differential“ SD, „semantic differential scale“) ist ein spezieller Typ einer psychometrischen Skala, mit dem vor allem die konnotative Bedeutung von Begriffen oder Objekten mithilfe eines Satzes von 20–30 bipolaren Adjektivpaaren erfasst wird. Das Ergebnis ist ein für das betreffende Urteilsobjekt charakteristischer Profilverlauf. Durch die Adjektivpaare werden verschiedene Dimensionen des Urteilsobjekts erfasst, beim klassischen Semantischen Differenzial sind das die drei Dimensionen Evaluation, Potency und Activity (EPA-Struktur). Es existieren Semantische Differenziale mit unterschiedlichen Sätzen von Adjektivpaaren und unterschiedlicher Anzahl von Dimensionen (typisch sind zwei bis vier Dimensionen). Für die Dimensionen werden Subskalenwerte gebildet.

Index

Ein Index („index“) dient der Operationalisierung komplexer bzw. mehrdimensionaler theoretischer Konstrukte auf individueller Ebene (z. B. Merkmale einer Person) sowie oft auch auf kollektiver Ebene (z. B. Merkmale von Märkten oder Gesellschaften) auf der Basis eines formativen Messmodells. Ein Index besteht aus einem Satz von formativen Indikatorvariablen, die formal und inhaltlich sehr heterogen sein können. Der Index schreibt vor, welche Indikatorvariablen in den Index eingehen und in welcher Weise sie zu standardisieren, zu gewichten und additiv oder multiplikativ zu einem Indexwert zu verrechnen sind. Die Aussagekraft von Indexwerten muss theoretisch begründet und möglichst auch empirisch geprüft werden.

Index als standardisierter Wert

Neben dem Index als Messverfahren, das unterschiedliche formative Indikatoren zur Messung eines komplexen Merkmals verknüpft, existiert der Index („index“) bzw. die „Rate“ als ein standardisierter Kennwert für ein einfaches Merkmal. Er wird gebildet, indem man die interessierende Indikatorvariable (z. B. Häufigkeit von Straftaten, Ehescheidungen, Geburten, Körpergewicht, Schwangerschaften trotz Verhütung) mit einer festgelegten Größe in Beziehung setzt, wodurch sich die inhaltliche Aussagekraft und Interpretierbarkeit der Variable erhöht.

Population bzw. Zielpopulation

Unter Population bzw. Zielpopulation („population“; „target population“) versteht man die Gesamtmenge aller Untersuchungseinheiten (z. B. Personen, Verhaltensweisen, Objekte), über die im Rahmen einer quantitativen empirischen Studie wissenschaftliche Aussagen getroffen werden sollen.

Vollerhebung

Unter Vollerhebung (Totalerhebung, „total population survey“) versteht man die Untersuchung aller Objekte einer definierten Population.

Stichprobenerhebung

Eine Stichprobenerhebung (Teilerhebung, „sample“) liegt vor, wenn nur eine Auswahl von Fällen aus der Zielpopulation untersucht wird.

Auswahl- und Inferenzpopulation

Im Zusammenhang mit Stichprobenerhebungen müssen drei Populationskonzepte differenziert werden: Während die Zielpopulation („target population“) die Gesamtheit aller Objekte meint, über die Aussagen getroffen werden sollen, umfasst die Auswahlpopulation („frame population“) die Gesamtheit aller Objekte, die prinzipiell eine Chance haben, in die Stichprobe zu gelangen. Angesichts von Stichprobenausfällen erlaubt eine konkrete Stichprobe meist keinen direkten Rückschluss auf die Auswahlpopulation, sondern nur auf eine sog. Inferenzpopulation („inference population“), also die Gesamtheit aller Objekte, aus der die Stichprobe tatsächlich stammt.

Repräsentativität einer Stichprobe

Die Repräsentativität einer Stichprobe („sample representativeness“) gibt an, wie gut bzw. unverzerrt die Merkmalszusammensetzung in der Stichprobe die Merkmalszusammensetzung in der Population widerspiegelt. Zu unterscheiden sind dabei merkmalsspezifisch-repräsentative sowie global-repräsentative Stichproben.

Merkmalsspezifisch-repräsentative Stichprobe

Eine merkmalsspezifisch-repräsentative Stichprobe liegt vor, wenn die Zusammensetzung der Stichprobe hinsichtlich einiger relevanter Merkmale der Populationszusammensetzung entspricht. Dies wird typischerweise durch eine nicht-probabilistische Quotenstichprobe erreicht.

Global-repräsentative Stichprobe

Eine global-repräsentative Stichprobe liegt vor, wenn die Zusammensetzung der Stichprobe in allen Merkmalen und Merkmalskombinationen der Populationszusammensetzung entspricht. Dies kann nur durch probabilistische Stichprobenverfahren sichergestellt werden, sofern gleichzeitig ein Mindeststichprobenumfang eingehalten wird.

Nicht-probabilistische (nicht zufallsgesteuerte) Stichprobe

Bei einer nicht-probabilistischen (nicht zufallsgesteuerten) Stichprobe erfolgt die Auswahl der Untersuchungsobjekte willkürlich und/oder bewusst/absichtsvoll durch die Forschenden. Bei nicht-probabilistischen Stichproben ist unbekannt, welche Auswahlwahrscheinlichkeit die einzelnen Elemente der Population haben bzw. in welcher Weise und in welchem Ausmaß die Stichprobenzusammensetzung gegenüber einer Zielpopulation verzerrt ist.

Gelegenheitsstichprobe oder Ad-hoc-Stichprobe

Bei einer Gelegenheitsstichprobe oder Ad-hoc-Stichprobe („convenience sample“, „ad hoc sample“, „accidental sample“, „haphazard sample“, „opportunistic sample“), manchmal auch: anfallende/angefallene Stichprobe, werden willkürlich Personen oder Objekte für die Stichprobe einer Untersuchung ausgewählt, die gerade zur Verfügung stehen oder leicht zugänglich sind (z. B. öffentliche Online-Befragung, Passant:innenbefragung).

Quotenverfahren

Die Stichprobenziehung nach dem Quotenverfahren („quota sampling“) setzt voraus, dass man die Populationszusammensetzung hinsichtlich einiger, für die Untersuchungsfrage wichtiger soziodemografischer Merkmale kennt. Diese Merkmalsverteilung wird anhand des Quotenplans („quota plan“) dann durch bewusste bzw. systematische Auswahl von Personen oder Objekten mit bestimmten Merkmalen (oder Merkmalskombinationen) in der Stichprobe nachgebildet. Die resultierende Quotenstichprobe („quota sample“) kann als nicht-probabilistische Stichprobe zwar keine globale Repräsentativität, durch den Quotenplan aber merkmalsspezifische Repräsentativität (hinsichtlich der Quotierungsmerkmale) beanspruchen. Die Quotierungsmerkmale können gekreuzt (Kreuzquoten) – also kombiniert – oder einzeln bzw. ungekreuzt (unabhängige Quoten) in den Quotenplan eingehen.

Schneeballverfahren

Die Stichprobenziehung nach dem Schneeballverfahren („snowball sampling“, „chain sampling“, „chain-referral sampling“, „referral sampling“) ist geeignet für Populationen, die für die Forschenden schwer erreichbar, deren Mitglieder untereinander jedoch gut vernetzt sind. Hierbei werden einzelne Mitglieder aus der Population gebeten, über ihre persönlichen sozialen Netzwerke weitere Untersuchungspersonen zu rekrutieren. Die Schneeballstichprobe („snowball sample“) kann als nicht-probabilistische Stichprobe keine Repräsentativität beanspruchen.

Respondent Driven Sampling

Die Stichprobenziehung nach der Methode des Respondent Driven Sampling (RDS) stellt eine Weiterentwicklung der Schneeballstichprobe dar und ist wie diese geeignet für Populationen, die für die Forschenden schwer erreichbar, deren Mitglieder untereinander jedoch gut vernetzt sind. Das Respondent Driven Sampling ist wesentlich aufwändiger als das Schneeballverfahren, garantiert jedoch durch eine bessere Kontrolle der Rekrutierungswege eine höhere Repräsentativität des Samples.

Targeted Sampling

Die Stichprobenziehung nach der Methode des Targeted Sampling ist besonders geeignet für schwer erreichbare Populationen, deren Mitglieder untereinander nicht besonders eng vernetzt sind. Sie stellt eine ortsbasierte Alternative zu netzwerkbasierten Verfahren wie dem Schneeballverfahren und dem Respondent Driven Sampling dar.

Einfache Zufallsstichprobe

Man zieht eine einfache Zufallsstichprobe („simple random sample“), indem man aus einer vollständigen Liste aller Objekte der finiten Zielpopulation (Auswahlrahmen, „sample frame“) nach einem „blinden“ statistischen Zufallsprinzip (z. B. mittels Zufallszahlen) eine Anzahl von Objekten auswählt, wobei die Auswahlwahrscheinlichkeiten aller Objekte gleich groß sein müssen.

Systematische Stichprobe

Man zieht eine systematische Stichprobe („systematic sample“), indem man ab einem definierten Anfangspunkt jedes n-te Element der Population zieht. Die in diesem Sinne systematische Stichprobenauswahl stellt eine pragmatische Alternative zur einfachen Zufallsstichprobe dar und ist auch auf infinite Populationen anwendbar.

Geschichtete bzw. stratifizierte Stichprobe

Man zieht ein geschichtete bzw. stratifizierte Zufallsstichprobe („stratified random sample“), indem man die Zielpopulation auf der Basis eines Merkmals oder mehrerer Merkmale in Teilpopulationen (Schichten) einteilt – pro Merkmalsausprägung bzw. Merkmalskombination entsteht eine Teilpopulation – und aus jeder dieser Schichten eine einfache Zufallsstichprobe entnimmt. Ziel der geschichteten zufälligen Stichprobenauswahl ist es, gegenüber der einfachen Zufallsstichprobe im Rahmen populationsbeschreibender Studien die Genauigkeit von Parameterschätzungen zu erhöhen.

Klumpenstichprobe

Man zieht eine Klumpenstichprobe („cluster sample“), indem man aus einer in natürliche Gruppen (Klumpen) gegliederten Population nach dem Zufallsprinzip eine ausreichende Anzahl von Klumpen auswählt und diese Klumpen dann vollständig untersucht.

Mehrstufige Stichprobe

Man zieht eine mehrstufige Zufallsstichprobe („multistage random sample“), indem man zunächst eine Klumpenstichprobe mit großen Klumpen zieht (1. Ziehungsstufe). Diese Klumpen werden nicht vollständig untersucht, sondern nur in zufälligen Ausschnitten. Werden aus den Klumpen mittels einfacher Zufallsstichprobe die Untersuchungsobjekte gezogen (2. Ziehungsstufe), so liegt eine zweistufige Klumpen- bzw. Zufallsstichprobe vor („two stage cluster/random sample“). Zieht man auf der zweiten Stufe wieder eine Klumpenstichprobe, ergibt sich durch Ziehung einer Zufallsstichprobe aus diesen Klumpen eine 3. Ziehungsstufe und somit eine dreistufigeKlumpen- bzw. Zufallsstichprobe („three stage cluster/random sample“).

Wissenschaftliche Beobachtung

Unter einer wissenschaftlichen Beobachtung („scientific observation“) versteht man die zielgerichtete, systematische und regelgeleitete Erfassung, Dokumentation und Interpretation von Merkmalen, Ereignissen oder Verhaltensweisen mithilfe menschlicher Sinnesorgane und/oder technischer Sensoren zum Zeitpunkt ihres Auftretens.

Alltagsbeobachtung

Für die Alltagsbeobachtung („everyday observation“) sind willkürliche Einzelbeobachtungen, die subjektiv interpretiert und bewertet werden, typisch (sog. anekdotische Evidenzen).

Wissenschaftliche Beobachtung

Bei der wissenschaftlichen Beobachtung („scientific observation“) erfolgt die Datenerhebung im Rahmen eines empirischen Forschungsprozesses in geplanter und dokumentierter Weise. Perspektivität, Selektivität und Konstruiertheit des Beobachtungsprozesses werden offengelegt, theoretisch reflektiert und kontrolliert (z. B. gleichzeitiger Einsatz mehrerer Beobachtender und Vergleich der Ergebnisse), um Beobachtungsfehler zu minimieren.

Qualitative Beobachtung

Bei der qualitativen Beobachtung („qualitative observation“) werden verbale, visuelle bzw. audiovisuelle Daten erhoben, die den jeweiligen Gegenstand der Beobachtung sehr detailreich repräsentieren. Besonders einschlägig sind verbale Daten in Form von Beobachtungsprotokollen. Qualitative Beobachtung erfolgt häufig als (aktiv oder passiv) teilnehmende Beobachtung („participant observation“) im Feld.

Qualitative Beobachtung mit geringem Komplexitätsgrad

Die Qualitative Beobachtung mit geringem Komplexitätsgrad („qualitative observation with a lesser/lower degree of complexity“) ist eine teilstrukturierte Beobachtung des Handelns anderer Personen (Fremdbeobachtung), die sich auf vorher festgelegte einzelne Aspekte des Verhaltens konzentriert. Die interessierenden sozialen Sachverhalte werden von den Beobachtenden im Beobachtungsprotokoll in eigenen Worten beschrieben. Die qualitative Beobachtung mit geringem Komplexitätsgrad findet häufig als passiv teilnehmende Feldbeobachtung statt, sie kann aber auch im Labor durchgeführt werden.

Ethnografische Feldbeobachtung

Die ethnografische Feldbeobachtung („ethnographic field observation“) ist eine nicht-strukturierte Beobachtung der sozialen Verhaltensweisen anderer Personen im natürlichen Umfeld, wobei kontextgebundene, komplexe Beobachtungseinheiten (z. B. Interaktionsmuster anstelle einzelner Verhaltensweisen) in den Blick genommen und von den Beobachtenden in eigenen Worten in Feldnotizen beschrieben werden. Kennzeichnend für die ethnografische Feldbeobachtung ist ein umfassendes Eintauchen der Forschenden in das zu beobachtende Feld, teilweise für längere Zeitperioden (teilnehmende Feldbeobachtung, „participant observation“, und oft in der Form der aktiven Teilnahme: „participant-as-observer“).

Ethnografische Feldforschung

Da es bei der ethnografischen Feldbeobachtung um die Rekonstruktion komplexer Beobachtungseinheiten geht, wird sie meist durch Feldgespräche sowie die Sammlung von Dokumenten und Artefakten ergänzt und zusammenfassend als ethnografische Feldforschung („ethnographic field research“) bezeichnet.

Autoethnografie

Bei der Autoethnografie („autoethnography“) handelt es sich um eine ethnografische Feldbeobachtung, bei der die Forschenden als vollständig Teilnehmende bzw. Insider („complete participant“, „member researcher“) im untersuchten Beobachtungsfeld agieren und der Fokus der Datenerhebung auf der Selbstbeobachtung und Selbstreflexion liegt. Per Autoethnografie werden vor allem menschliche Ausnahme- und Extremsituationen (z. B. Trennung oder Tod von Angehörigen, Krankheit und Sterben, außergewöhnliche Hobbys und Tätigkeiten) untersucht. In ihrem wissenschaftstheoretischen Verständnis und ihrer Vorgehensweise unterscheidet sich die evokative/emotionale Autoethnografie („evocative/emotional autoethnography“), die mit tradierten Kriterien der Wissenschaftlichkeit bricht und die Gültigkeit ihrer Befunde vor allem von emotionaler Nachvollziehbarkeit abhängig macht, von der analytischen Autoethnografie („analytical autoethnography“), die auf theoretische Analyse des Datenmaterials und intersubjektive Nachvollziehbarkeit setzt.

Quantitative Beobachtung

Bei der quantitativen bzw. vollstrukturierten Beobachtung („quantitative observation“, „fully structured observation“) werden numerische Beobachtungsdaten über das Verhalten anderer Personen (Fremdbeobachtung) erhoben, die einzelne Aspekte des beobachteten Geschehens in ihrer Häufigkeit, Dauer oder Intensität messen. Als Datenerhebungsinstrument fungiert ein standardisierter Beobachtungsplan.

Quantitative Beobachtung mit geringem Komplexitätsgrad

Bei der quantitativen Beobachtung mit geringem Komplexitätsgrad („quantitative observation with a lesser/lower degree of complexity“) werden einige wenige und einfache Aspekte des beobachteten Geschehens in ihrer Häufigkeit, Dauer und/oder Intensität gemessen, sodass numerische Beobachtungsdaten resultieren. Quantitative Beobachtungen mit geringem Komplexitätsgrad finden sowohl im Feld als auch im Labor statt. Sie basieren auf einem einfachen standardisierten Beobachtungsinstrument, das oft selbst konstruiert wird.

Strukturierte Verhaltensbeobachtung

Bei der strukturierten Verhaltensbeobachtung („structured behavioural observation“) werden zahlreiche und komplexe Aspekte des beobachteten Geschehens in ihrer Häufigkeit, Dauer und/oder Intensität gemessen, sodass numerische Beobachtungsdaten entstehen. Strukturierte Verhaltensbeobachtungen finden sowohl im Feld als auch im Labor statt. Sie basieren auf mehr oder minder umfassenden standardisierten Beobachtungsinstrumenten („observation plan/system/scheme/inventory“), deren Gütekriterien (v. a. Validität und Reliabilität) geprüft und mindestens zufriedenstellend ausgeprägt sind. Oft werden etablierte Beobachtungssysteme eingesetzt.

Nonreaktive Verfahren der Datenerhebung

Nonreaktive Verfahren der Datenerhebung („nonreactive/nonintruding/unobstrusive measures“) umfassen allgemein alle Datenerhebungstechniken, bei denen das Verhalten und Erleben der Untersuchungsteilnehmenden nicht durch Interaktion mit den Forschenden beeinflusst werden kann. Die erhobenen Daten sind somit unverzerrt von möglichen Reaktionen der Untersuchten auf den Forschungsprozess selbst.

Nonreaktive Beobachtung

Die nonreaktive Beobachtung („non-reactive observation“) als Spezialform der nonreaktiven Datenerhebung bezieht sich auf die Erfassung von quantifizierbaren Verhaltensspuren im Feld mithilfe menschlicher Sinnesorgane und/oder technischer Sensoren zum Zeitpunkt (oder im Zeitraum) ihres Auftretens. Nonreaktive Beobachtung kann sich dabei auf Offline-Verhaltensspuren („nonreactive offline observation“) sowie auf Online-Verhaltensspuren („non-reactive online observation“) beziehen.

Wissenschaftliche mündliche Befragung bzw. wissenschaftliches Interview

Unter einer wissenschaftlichen mündlichen Befragung bzw. einem wissenschaftlichen Interview („research interview“/„scientific interview“) verstehen wir die zielgerichtete, systematische und regelgeleitete Generierung und Erfassung von verbalen Äußerungen einer Befragungsperson (Einzelbefragung) oder mehrerer Befragungspersonen (Paar-, Gruppenbefragung) zu ausgewählten Aspekten ihres Wissens, Erlebens und Verhaltens in mündlicher Form. Interviews können im persönlichen Face-to-Face-Kontakt sowie telefonisch (fernmündlich), per Videokonferenz oder Online-Chat oder online (schriftliche Mündlichkeit) durchgeführt werden. Die dem Interview zugrunde liegenden verbalen Fragen werden den Befragungspersonen („interviewees“, „respondents“) in einer Interaktion jeweils von einer Interviewerin oder einem Interviewer („interviewer“) gestellt. Die Antworten werden dokumentiert und systematisch analysiert. Die vier zentralen Elemente der mündlichen Befragung sind a) die Befragungspersonen, b) die Interviewerin bzw. der Interviewer, c) die Interviewsituation und d) die Interviewfragen.

Qualitative Interviews

Qualitative Interviews („qualitative interviews“) arbeiten mit offenen Fragen, sodass sich die Befragten mündlich in eigenen Worten äußern können. Zudem wird der Gesprächsverlauf weniger von den Interviewenden und ihren Fragen vorstrukturiert, sondern stärker von den Befragten mitgestaltet. Auf diese Weise sollen die individuellen Sichtweisen der Befragten nicht nur oberflächlich, sondern detailliert und vertieft erschlossen werden. Qualitative Interviews existieren in vielen verschiedenen methodischen Varianten.

Unstrukturiertes Interview

Dem nicht-strukturierten bzw. unstrukturierten Interview („unstructured interview“) liegt kein vorgefertigtes Interviewinstrument zugrunde und der Interviewverlauf wird auch nicht durch die Interviewenden in Form eines Wechselspiels von Fragen und Antworten geleitet. Stattdessen liefern Interviewende mit einer einzelnen biografischen Frage einen Erzählanstoß (narratives Interview), fordern zur Verbalisierung handlungsbegleitender Denkprozesse auf (Methode des lauten Denkens) oder stellen im Zuge einer ethnografischen Feldbeobachtung spontane Verständnisfragen zum Feldgeschehen (ethnografisches Feldinterview). Weil die Interviewsituation durch die Forschenden nicht aktiv vorstrukturiert wird, kommen Strukturierungen durch die Befragten zustande (z. B. anhand ihrer Relevanzstrukturen, subjektiven Theorien etc.).

Narratives Interview

Das narrative Interview („narrative interview“) wird nach einer kurzen Erklärung des Vorgehens durch einen Erzählanstoß der Interviewenden eingeleitet, der sich auf autobiografische Erfahrungen bezieht und eine Stegreiferzählung der Befragungsperson auslösen soll. Im Zuge des freien Erzählens ergeben sich für die Befragten von allein Erzählzwänge, die zum Weitererzählen animieren. An die Haupterzählung schließt sich eine vom Interviewer geleitete Nachfrage- und Bilanzierungsphase an.

Methode des lauten Denkens

Bei der Methode des lauten Denkens („think-aloud method“, „think-aloud protocol“ [TAP], „think-aloud test“) werden Untersuchungsteilnehmende aufgefordert, all ihre Gedanken in Worte zu fassen, die während einer bestimmten Aktivität (z. B. einen Text übersetzen, eine Entscheidung treffen, ein Computerprogramm nutzen) auftreten. Die interessierende Aktivität zusammen mit dem lauten Denken wird in der Regel per Video aufgezeichnet und anschließend verschriftet.

Ethnografische Feldinterviews

Im Rahmen ethnografischer Feldforschung werden neben Feldbeobachtungen häufig ethnografische Feldinterviews („ethnographic interview“, „field interview“) als Einzel- oder Gruppeninterviews geführt. Sie folgen keinem festen Leitfaden, sondern gehen spontan auf die Situation im Feld ein und operieren oft mit W-Fragen (Wer? Wie? Wo? Wozu? Wie oft?). Um ihre Nähe zum Alltagsgespräch hervorzuheben, werden sie auch als Feldgespräche oder ethnografische Forschungsgespräche bezeichnet.

Teilstrukturiertes bzw. halbstrukturiertes Interview

Dem teilstrukturierten bzw. halbstrukturierten Interview („semi-structured interview“) liegt ein Interview-Leitfaden („interview guide“) als Liste offener Fragen (d. h. Fragen ohne festgelegte Antwortmöglichkeiten) zugrunde. Der Interview-Leitfaden bietet ein Grundgerüst, das für eine Vergleichbarkeit der Interviews sorgt. Er kann flexibel an die jeweilige Interviewsituation angepasst werden. Das halbstrukturierte Interview wird synonym auch als Leitfaden-Interview bezeichnet.

Leitfaden-Interview

Das halbstrukturierte bzw. Leitfaden-Interview („semistructured interview“) basiert auf einer geordneten Liste offener Fragen (Interview-Leitfaden). Leitfaden-Interviews können persönlich, telefonisch (telefonisches Leitfaden-Interview) und online (Online-Leitfaden-Interview), mit Laien und mit Experten (Experten-Interview) durchgeführt werden. Sie können sich auf bestimmte Problemlagen konzentrieren (problemzentriertes Interview) oder auf konkrete Medienangebote fokussieren (fokussiertes Interview). Typisch sind bei den verschiedenen Varianten des Leitfaden-Interviews jeweils Einzelinterviews; es existieren aber auch halbstrukturierte Paar- und Gruppeninterviews.

Interview-Leitfaden

Der Interview-Leitfaden („interview guide“) ist ein oft als „halbstandardisiert“ bezeichnetes Instrument der Datenerhebung, weil zwar im Vorfeld ein Fragenkatalog festgelegt wird, aber keinerlei Antwortvorgaben existieren. Zudem kann und soll der Leitfaden flexibel der Interviewsituation angepasst werden (z. B. hinsichtlich Wortwahl, Reihenfolge der Fragen, Zusatzfragen). Die „Standardisierung“ des Leitfadens besteht also nicht in exakt vorgegebenen Fragenformulierungen, sondern in der inhaltlichen Vergleichbarkeit des Fragenkatalogs.

Telefonisches Leitfaden-Interview

Das telefonische Leitfaden-Interview („semi-structured telephone interview“) ist eine medienvermittelte Variante des Leitfaden-Interviews. Hierbei findet der Interviewkontakt telefonisch statt.

Online-Leitfaden-Interview

Das Online-Leitfaden-Interview („semi-structured online interview“, „semi-structured Internet interview“) ist eine medienvermittelte Variante des Leitfaden-Interviews. Hierbei findet der Interviewkontakt computervermittelt entweder zeitversetzt (z. B. E-Mail-Interview) oder zeitgleich (z. B. Chat-Interview, Webcam-Interview) statt. Es wird typischerweise dialogisch eine Frage gestellt, die Antwort abgewartet und dann die nächste Frage gestellt. Im Unterschied zum selbstadministrierten Online-Fragebogen kann bei einem Online-Leitfaden-Interview individuell auf die Antworten der Befragten eingegangen werden.

Experten-Interview

Das Experten-Interview („expert interview“) ist eine Variante des Leitfaden-Interviews, bei der die Befragungspersonen als fachliche Expertinnen und Experten zu einem Thema befragt werden und ihr Spezialwissen (strukturelles Fachwissen und/oder Praxis-/Handlungswissen) erschlossen werden soll. Die Definition und Rekrutierung der Experten stellt hier eine besondere Herausforderung dar. Zudem muss von den Interviewenden eine geeignete Rolle gewählt und eingenommen werden (z. B. als Co-Experte oder Laie).

Fokussiertes Interview

Das fokussierte Interview („focussed interview“, „focused interview“) ist eine Variante des Leitfaden-Interviews, bei der ein bestimmtes Anschauungsobjekt im Mittelpunkt steht bzw. es darum geht, die Reaktionen der Interviewten auf das fokussierte Objekt im Detail qualitativ zu ermitteln. Das fokussierte Objekt ist oft eine mediale Darstellung (z. B. Film, Fernseh- oder Radiosendung, Werbeanzeige) und wird zu Beginn oder im Verlauf des Interviews präsentiert. Ein fokussiertes Interview kann als Einzelinterview („individual focused interview“) oder als Gruppeninterview („focused group interview“) durchgeführt werden.

Unstrukturiertes bzw. halbstrukturiertes Paar- oder Gruppeninterview

Bei einem unstrukturierten bzw. halbstrukturierten Paar- oder Gruppeninterview („joint couple interview“, „paired interview“, „group interview“) werden zwei oder mehr Befragungspersonen gleichzeitig interviewt. Dabei kommt entweder kein Interviewinstrument (unstrukturiertes Interview) oder ein Leitfaden (halbstrukturiertes Interview) zum Einsatz.

Fokusgruppen-Diskussion

Eine Fokusgruppen-Diskussion („focus group interview“, „focus group discussion“) ist eine halbstrukturierte Gruppendiskussion zu einem konkreten Thema oder Produkt, das als Diskussionseinstieg präsentiert wird (Grundreiz). Die Teilnehmerzahl pro Gruppe liegt in der Regel bei 4–8 Personen. Pro Studie werden meist rund 4–8 Fokusgruppen mit einer Länge von jeweils 90–120 Minuten im Forschungslabor durchgeführt. Es wird einerseits eine Selbstläufigkeit der Gruppendiskussion angestrebt, gleichzeitig sorgt eine Moderatorin bzw. ein Moderator („moderator“, „facilitator“) dafür, dass die Gruppe beim Thema bleibt und vorher festgelegte Leitfragen (Diskussionsleitfaden) bearbeitet werden.

Quantitatives bzw. (voll)strukturiertes Interview

Das quantitative bzw. (voll)strukturierte Interview („quantitative interview“, „structured interview“) basiert auf einem (voll)standardisierten Interview-Fragebogen („interview questionnaire“, „survey questionnaire“, „interview schedule“), der den Befragungspersonen von den Interviewenden präsentiert wird, die auch die Antworten registrieren (intervieweradministrierter Fragebogen, „interviewer administered questionnaire“, „interviewer administered survey“). Der vollstandardisierte Interviewfragebogen besteht aus geschlossenen Fragen mit klaren Antwortvorgaben, die in exaktem Wortlaut und festgelegter Reihenfolge zu bearbeiten sind. Vollstandardisierte Interviews können persönlich, telefonisch oder online geführt werden. Eine Ergänzung des standardisierten Instruments um einige offene Fragen ist möglich.

Wissenschaftliche Fragebogenmethode

Unter der wissenschaftlichen Fragebogenmethode („questionnaire method“) verstehen wir die zielgerichtete, systematische und regelgeleitete Generierung und Erfassung von verbalen und numerischen Selbstauskünften von Befragungspersonen zu ausgewählten Aspekten ihres Erlebens und Verhaltens in schriftlicher Form. Als Erhebungsinstrument fungiert ein wissenschaftlicher Fragebogen („research questionnaire“, „scientific questionnaire“), der von den Befragungspersonen eigenständig bzw. selbstadministriert ausgefüllt wird („self-administered questionnaire“). Der Fragebogen kann in einer Face-to-Face-Situation, postalisch, per Internet oder mobilem Endgerät zur Verfügung gestellt werden. Die Antworten werden dokumentiert und systematisch analysiert. Die drei zentralen Elemente der schriftlichen Befragung sind a) die Befragungspersonen, b) der Fragebogen sowie c) die Situation, in der der Fragebogen beantwortet wird.

Qualitative Fragebogenmethode

Die qualitative Fragebogenmethode beinhaltet unstrukturierte und halbstrukturierte schriftliche Befragungen. Dabei kommen als Erhebungsintrumente qualitative Fragebögen („qualitative questionnaires“) zum Einsatz, die offene Fragen beinhalten, sodass sich die Befragten schriftlich in eigenen Worten äußern. Man unterscheidet nichtstandardisierte und teilstandardisierte qualitative Fragebögen.

Nicht-standardisierter Fragebogen

Bei der nicht-strukturierten bzw. unstrukturierten schriftlichen Befragung wird ein nicht-standardisierter Fragebogen („nonstandardized questionnaire“) genutzt. In diesem werden die Befragungspersonen mittels einer einzelnen Frage oder Aufgabe zu einem bestimmten Thema um ausführliche schriftliche Beschreibungen, Erklärungen oder Erzählungen in Aufsatzform gebeten.

Teil-/halbstandardisierter Fragebogen

Bei der teilstrukturierten bzw. halbstrukturierten schriftlichen Befragung kommt ein teil-/halbstandardisierter Fragebogen („semi-standardized questionnaire“) zum Einsatz. Er besteht aus einer Liste offener Fragen, die von den Untersuchungspersonen in eigenen Worten zu beantworten sind. Der halbstandardisierte Fragebogen für halbstrukturierte schriftliche Befragungen ist das Pendant zum Interviewleitfaden bei halbstrukturierten mündlichen Befragungen.

(Voll)standardisierter Fragebogen

Der vollstrukturierten schriftlichen Befragung liegt ein quantitativer bzw. (voll)standardisierter Fragebogen („quantitative questionnaire“, „standardized questionnaire“) zugrunde. Er besteht überwiegend aus geschlossenen Fragen bzw. Aussagen mit Antwortvorgaben, sodass die Befragten die jeweils passenden Antwortalternativen auswählen können.

Befragung per Austeilen und Einsammeln

Bei einer Befragung per Austeilen und Einsammeln („delivery and collection survey“) wird ein Paper-Pencil-Fragebogen an die anwesenden Befragungspersonen (meist in einer Gruppe) ausgeteilt und nach dem Ausfüllen vor Ort direkt wieder eingesammelt.

Postalische Befragung

Bei einer postalischen Befragung („postal survey“) wird ein Paper-Pencil-Fragebogen (oder ein auf einem Datenträger gespeicherter elektronischer Fragebogen) per Post verbreitet und auch auf dem Postweg wieder eingesammelt (beiliegender frankierter Rückumschlag).

Online-Befragung

Bei einer Online-Befragung („online survey“, „web survey“) wird ein elektronischer Fragebogen per Internet (vor allem Web) verbreitet und meist an stationären Computern oder Laptops bearbeitet. Die gewählten Antworten der Befragungspersonen werden auf einem Befragungsserver gespeichert und stehen als digitale Datensätze zur Verfügung.

Mobile Befragung

Bei einer mobilen Befragung („mobile survey“) wird ein elektronischer Fragebogen über drahtlose Netzwerke bzw. Mobilfunknetze und mobile (portable) Endgeräte verbreitet. Die gewählten Antworten werden auf einem Befragungsserver gespeichert und stehen als digitale Datensätze zur Verfügung. Mobile Fragebögen müssen für die angezielten Endgeräte und Umfragesituationen (z. B. das Ausfüllen unterwegs in Nischenzeiten oder im Freien) gestaltet werden und unterscheiden sich somit von herkömmlichen Online-Fragebögen.

Automatische Telefonbefragung

Bei einer automatischen Telefonbefragung („interactive voice response“, IVR; „telephone audio computer assisted self-interviewing“, T-ACASI) wird der Fragebogen über ein telefonisch erreichbares Audiosystem vorgelesen. Bei dieser selbstadministrierten akustischen Fragebogenpräsentation geben die Respondenten ihre Antworten per Tastendruck („touch tone input“) oder per Spracheingabe („voice input“).

Tagebuchmethode

Die vollstrukturierte Tagebuchmethode („diary method“) ist eine genuin sozialwissenschaftliche Befragungsmethode. Das Tagebuch besteht aus einer chronologisch geordneten Serie vollstandardisierter Fragebogenformulare, die von den Befragten fortlaufend (mindestens einmal pro Tag) über längere Zeitperioden (mehrere Tage bis Wochen) hinweg ausgefüllt werden. Ziel ist es, möglichst unverzerrte und detaillierte Angaben über alltägliche Erlebens- und Verhaltensweisen zu erhalten, was jedoch mit großem Aufwand für die Befragten verbunden ist.

Methode des Ambulanten Assessments

Die Methode des Ambulanten Assessments (auch: Ambulantes Monitoring; „ambulatory assessment“, „ambulatory monitoring“, „ecological momentary assessment“, EMA) stammt aus dem klinischen Anwendungsfeld. Beim Ambulanten Assessment werden physiologische Messungen (z.B. Blutdruck, Herzfrequenz, Atmung), Verhaltensmessungen (z. B. Schrittzähler) sowie Messungen von Umweltvariablen (z. B. Lärm, Temperatur, Helligkeit) mithilfe entsprechender mobiler Messgeräte über längere Zeitperioden fortlaufend im Alltag der Untersuchungspersonen (anstatt z. B. in der Klinik oder im Forschungslabor) durchgeführt. Die objektiven Messungen können durch eine fortlaufende Erhebung von Selbstauskunftsdaten im Sinne der vollstrukturierten Tagebuchmethode sinnvoll ergänzt werden.

Delphi-Methode

Die Delphi-Methode („Delphi technique“, „Delphi poll“, „Delphi survey“) ist eine nach dem berühmten griechischen Orakel benannte spezielle Form der vollstrukturierten schriftlichen Befragung, die auf die Suche nach Problemlösungen und die Prognose zukünftiger Entwicklungen abzielt. Kennzeichnend für die Delphi-Methode ist, dass eine Gruppe von Expert:innen („Delphi panel“) in mehreren (mindestens zwei) Runden befragt und ihnen dabei ab Runde zwei jeweils die aggregierten Antworten der Mitexperten zugänglich gemacht werden. Die Befragten können somit ihre eigenen Antworten im Kontext der Antworten des gesamten Delphi-Panels reflektieren und ggf. modifizieren und somit im Idealfall zu besseren Einschätzungen gelangen.

Psychologischer Test

Ein psychologischer Test („psychological test“) ist ein wissenschaftliches Datenerhebungsverfahren, das aus mehreren Testaufgaben (Testbogen/Testmaterial) sowie festgelegten Regeln zu deren Anwendung und Auswertung (Testmanual) besteht. Ziel eines psychologischen Tests ist es, ein latentes psychologisches Merkmal (Konstrukt) – typischerweise eine Fähigkeit oder Persönlichkeitseigenschaft – in seiner absoluten oder relativen Ausprägung zu Forschungszwecken oder für praktische Entscheidungen zu erfassen.

Theoretische und empirische Fundierung von Tests

Grundlage psychologischer Tests sind immer sowohl inhaltsbezogene Theorien (Theorien über das zu erfassende Konstrukt; z. B. Theorie der Intelligenz für einen Intelligenztest) als auch methodenbezogene Theorien (sog. Testtheorien, die Aussagen über Aufbau und Eigenschaften von psychologischen Tests und Testaufgaben treffen; z. B. sog. Klassische oder Probabilistische Testtheorie) sowie empirische Belege, die diese Theorien stützen.

Testpersonen und Testanwender

Im Kontext der Datenerhebung mittels psychologischer Tests sind die untersuchten Testpersonen („test taker“) und die untersuchenden Testanwender („test user“) zu unterscheiden.

Normierung von Tests

Kennzeichnend für einen psychometrischen Test – im Unterschied zum standardisierten Forschungsfragebogen – ist insbesondere seine Normierung bzw. Eichung („standardization“), d. h. die Bereitstellung von Normwerten (Testergebnisse repräsentativer Bevölkerungsgruppen). Erst durch die Normierung sind Testwerte nicht nur für wissenschaftliche Aussagen auf Aggregatebene, sondern auch für die Beurteilung von Einzelpersonen im Rahmen der psychologischen Diagnostik („psychological assessment“) nutzbar.

Normorientiertes und kriteriumsorientiertes Testen

Wird ein individueller Testwert mit empirischen Normwerten verglichen und daraus das Testergebnis abgeleitet (z. B. über- oder unterdurchschnittliche Intelligenz einer Person in Relation zu ihrer Bezugsgruppe), so spricht man von normorientiertem Testen („norm-oriented testing“), hierbei geht es um interindividuelle Vergleiche. Wird ein individueller Testwert mit einem vorab definierten Kriterium oder Schwellenwert verglichen (z. B. Festlegung von Mindestpunktzahl 50 zum Bestehen eines Schulleistungstests), so handelt es sich um kriteriumsorientiertes Testen („criteria-oriented testing“).

Projektive und psychometrische Tests

Man unterscheidet nicht- oder teilstrukturierte projektive Tests („projective tests“) mit offenen Aufgaben (z. B. eine Zeichnung erstellen, ein Bild interpretieren) von vollstrukturierten psychometrischen Tests („psychometric tests“), die aus einer Batterie vollstandardisierter Test-Items (z. B. Rechen- oder Logik-Aufgaben mit genau einer korrekten Lösung; Selbstauskunftsfragen mit Ratingskalen als Antwortformat) bestehen. In Forschung und Praxis dominieren die psychometrischen Tests.

Eindimensionale und mehrdimensionale Tests

Bei einem eindimensionalen Test („one dimensional test“) messen alle Testfragen bzw. Testaufgaben („test items“) dasselbe Konstrukt. Die Beantwortung aller Items wird zu einem einzelnen (Gesamt-)Testwert („test score“, „total test score“) zusammengefasst, der global über die Ausprägung des gemessenen Merkmals informiert (z. B. Ausprägung der Intelligenz). Ein mehrdimensionaler Test („multidimensional test“) dagegen besteht aus zwei oder mehr Untertests (Teiltests, Subtests, „subtests“), die verschiedene Dimensionen des gemessenen Konstruktes separat erfassen. Alle Items, die zu einem Subtest gehören, werden jeweils zu einem Subtest-Wert („subtest score“) zusammengefasst. Im Ergebnis liegen für jede Testperson mehrere Subtest-Werte vor, die über die Ausprägungen verschiedener Teilaspekte des interessierenden Merkmals informieren (z. B. Ausprägungen verschiedener Dimensionen von Intelligenz).

Soziale Erwünschtheit

Soziale Erwünschtheit („social desirability“) meint die Tendenz, Selbstauskunftsfragen – sei es in Interviews, Fragebögen oder Persönlichkeitstests – in der Weise zu beantworten, dass die eigenen Aussagen weniger dem realen Erleben und Verhalten und dafür stärker sozialen Normen und Erwartungen entsprechen. Dies geschieht etwa, indem normverletzende Verhaltensweisen (z. B. Drogenkonsum) heruntergespielt („underreporting“) und sozial konforme Verhaltensweisen (z. B. Hilfsbereitschaft) übertrieben werden („overreporting“).

Projektive Testverfahren

Projektive Testverfahren (Persönlichkeits-Entfaltungstests, „projective tests“) basieren auf der psychoanalytischen Annahme, dass Testpersonen unbewusste psychische Prozesse in eine freie Interpretation von uneindeutigen Reizvorlagen (in der Regel Bildmaterial) oder in die freie Gestaltung von Geschichten und Zeichnungen hinein projizieren. Projektive Testverfahren sind unstrukturierte bzw. teilstrukturierte Verfahren, die mit offenen Aufgabenstellungen den Testpersonen viel Spielraum lassen, um ihre Persönlichkeit darzustellen. Das von den Testpersonen produzierte nicht-numerische Datenmaterial wird von geschulten Testanwendern ausgewertet, um Rückschlüsse auf die Persönlichkeit der Testpersonen zu ziehen.

Leistungs- bzw. Fähigkeitstests

Leistungs- bzw. Fähigkeitstests („achievement tests“) sind vollstrukturierte psychologische Testverfahren, mit denen Leistungsmerkmale (Ausprägungen von Fähigkeiten und Fertigkeiten) gemessen werden. Diese Tests zeichnen sich dadurch aus, dass Testaufgaben zu bearbeiten sind, für die es objektiv richtige und falsche Lösungen gibt und mittels derer die Testpersonen ihre maximalen Fähigkeiten unter Beweis stellen sollen. Als Leistungsindikatoren werden z. B. Lösungsmenge (Anzahl richtiger Lösungen) und Lösungsgüte (Qualität der Lösungen) herangezogen. Leistungstests werden meist unter Zeitdruck durchgeführt (Speed-Test) und/oder arbeiten mit sukzessiver Steigerung der Aufgabenschwierigkeit (Power-Test).

Persönlichkeitstests

Persönlichkeitstests („personality tests“) sind vollstrukturierte psychologische Testverfahren zur Messung von Persönlichkeitsmerkmalen. Hierbei werden individuelle Merkmale anhand von Selbstauskunfts-Items gemessen, die sich auf situations- und zeitüberdauernde Aspekte des emotionalen, motivationalen und sozialen Verhaltens und Erlebens beziehen. Im Unterschied zu Leistungstests gibt es bei den Test-Items in Persönlichkeitstests keine richtigen oder falschen Lösungen und es geht auch nicht um maximale Fähigkeiten, sondern um Selbstauskünfte über typisches Erleben und Verhalten der betreffenden Person.

Klassische Testtheorie

Die Klassische Testtheorie (KTT; „classical test theory“, auch: „true score theory“, TST) nimmt an, dass das Testergebnis direkt dem wahren Ausprägungsgrad des untersuchten Merkmals entspricht, dass aber jede Messung oder jedes Testergebnis zusätzlich von einem Messfehler überlagert ist.

Probabilistische Testtheorie

Die Probabilistische Testtheorie (PTT; „probabilistic test theory“, auch: „modern test theory“, „latent trait theory“, „strong true score theory“) – international meist als Item-Response-Theorie (IRT; „item response theory“) bezeichnet – basiert auf der Annahme, dass die Wahrscheinlichkeit einer bestimmten Antwort auf ein einzelnes Item von Merkmalen des Items (Item-Parameter) und latenten Merkmalen der Person (Personen-Parameter) abhängt.

Reflektives Messmodell

Bei einem reflektiven Messmodell greift man zur Erfassung des latenten Merkmals auf Indikatoren zurück, die durch das latente Merkmal verursacht werden. Diese reflektiven Indikatoren („reflective indicators“, „effect indicators“) sind einander in der Regel sehr ähnlich.

Formatives Messmodell

Bei einem formativen Messmodell greift man zur Erfassung des latenten Merkmals auf Indikatoren zurück, die das latente Merkmal erzeugen. Diese formativen Indikatoren („formative indicators“, „cause indicators“) können einander auch sehr unähnlich sein.

Reliabilität

Die Reliabilität (Messgenauigkeit, Präzision, „reliability“) eines Tests kennzeichnet den Grad der Genauigkeit bzw. Messfehlerfreiheit, mit dem das geprüfte Merkmal gemessen wird. Ein reliabler psychologischer Test liefert Messwerte, die wenig von Messfehlern belastet sind.

Validität

Die Validität („validity“) als psychometrisches Gütekriterium eines Tests gibt an, wie gut der Test in der Lage ist, genau das zu messen, was er laut Testbezeichnung zu messen beansprucht. Ein valider psychologischer Test liefert Messwerte, die sich zielgenau auf das interessierende Merkmal beziehen. Von diesem traditionellen Validitätsverständnis abzugrenzen ist eine übergeordnete Definition von Validität bzw. Konstruktvalidität, die sich auf die Gültigkeit von Interpretationen basierend auf Testergebnissen bezieht. Dabei sind sechs verschiedene Evidenzquellen zur Aussagekraft der Testwerte einzubeziehen (Konstruktvalidität in der Messick-Tradition: Messick, 1995) sowie – vor allem bei einer Testverwendung im Kontext (quasi-)experimenteller Studien – auch diverse Merkmale des Untersuchungsdesigns (Konstruktvalidität in der Campbell-Tradition Abschn. 3.2.2).

Multitrait-Multimethod-Ansatz

Der Multitrait-Multimethod-Ansatz (MTMM-Ansatz; „multitrait multimethod approach“) überprüft systematisch, mit welcher Übereinstimmung verschiedene Methoden dasselbe Konstrukt erfassen (konvergente Validität) und wie gut verschiedene Konstrukte durch eine Methode differenziert werden (diskriminante Validität). Der MTMM-Ansatz spielt für die Konstruktvalidierung von Tests eine zentrale Rolle. Zu unterscheiden sind die korrelationsbasierte MTMM-Analyse (mittels bivariater Korrelationskoeffizienten) und die konfirmatorische MTMM-Analyse (mittels Strukturgleichungsmodellen).

Item-Analyse

Im Rahmen der Item-Analyse („item analysis“) wird anhand einer möglichst repräsentativen Stichprobe der Zielpopulation des Tests die Verteilung der Rohwerte der Items und des Gesamttests betrachtet. Zudem werden die Item-Schwierigkeiten und Item-Trennschärfen berechnet und bewertet. Auch die Dimensionalitätsprüfung – also die Frage, ob sich alle Items eines Messinstruments auf eine Skala zusammenfassen lassen (eindimensionaler Test) oder ob Subskalen zu bilden sind (mehrdimensionaler Test) – wird der Item-Analyse zugerechnet. Ziel der Item-Analyse ist es, problematische Items zu entdecken und durch ihre Modifikation oder Eliminierung die Testgüte des Tests (v. a. Reliabilität und Validität) zu erhöhen.

Item-Schwierigkeit

Die Schwierigkeit eines Items („item difficulty“) wird durch einen Schwierigkeitsindex ausgedrückt. Ein Item ist umso schwieriger, je geringer seine Zustimmungs- bzw. Lösungsrate in der betrachteten Stichprobe ausfällt. Umgekehrt wird ein leichtes Item von fast allen Testpersonen in Schlüsselrichtung beantwortet bzw. korrekt gelöst. Bei nominalskalierten Items wird der Schwierigkeitsindex über den Prozentsatz der Zustimmer/Richtiglöser berechnet. Bei intervallskalierten Items entspricht der Schwierigkeitsindex dem Item-Mittelwert, der wiederum in einen Prozentwert umgerechnet werden kann.

Item-Trennschärfe

Die Trennschärfe eines Items („item discriminability“) gibt an, wie gut die Beantwortung des betreffenden Items das Gesamttestergebnis vorhersagt. Bei trennscharfen Items gilt, dass Personen mit hohem (niedrigem) Testwert auch bei dem betreffenden Item eine hohe (niedrige) Punktzahl erreichen. Der Trennschärfe-Index berechnet sich als Korrelation des Items mit dem Gesamttestwert (als Zusammenfassung aller Items ohne das betrachtete Item).

Dimensionalität eines Tests

Die Dimensionalität eines Tests („test dimensionality“) gibt an, ob er mit seinen verschiedenen Test-Items nur ein globales Konstrukt erfasst (eindimensionaler Test), oder ob er mehrere Teilkonstrukte operationalisiert (mehrdimensionaler Test mit zwei oder mehr Untertest). Im Zuge der Dimensionalitäts-Überprüfung wird mit Korrelationsanalysen bzw. vor allem mit exploratorischen oder konfirmatorischen Faktorenanalysen geprüft, ob a) die Anzahl der Dimensionen sowie b) bei mehrdimensionalen Tests auch die Zuordnung der Items zu den verschiedenen Subtests („item dimensionality“) den inhaltlichen Vorgaben der Konzeptspezifikation entspricht.

Probabilistische Testtheorie bzw. Item-Response-Theorie

Die Probabilistische Testtheorie (PTT; „probabilistic test theory“) bzw. Item-Response-Theorie (IRT; „item response theory“) beschreibt die Zusammenhänge zwischen einem zu testenden Merkmal (latente Variable) und dem in einem Test tatsächlich beobachtbaren Antwortverhalten (manifeste Variable). Während die Klassische Testtheorie (KTT) das Testergebnis unmittelbar als messfehlerbelastete Ausprägung des zu messenden Konstruktes auffasst, ordnet die PTT/IRT dem als Indikator interpretierten Testergebnis mit bestimmter Wahrscheinlichkeit latente Merkmalsausprägungen zu. Die Lösungs- bzw. Zustimmungswahrscheinlichkeiten eines Items bzw. einer Item-Kategorie werden in probabilistischen Testmodellen stets in Abhängigkeit von der Ausprägung des latenten Merkmals sowie – je nach Testmodell – von weiteren Einflussgrößen (z. B. Item-Schwierigkeit, Item-Trennschärfe, Ratewahrscheinlichkeit, Antworttendenz) berechnet.

Physiologische Messungen

Die physiologischen Messungen („physiological measurements“) dienen der objektiven Erfassung und Quantifizierung bestimmter Merkmale physiologischer Prozesse in unterschiedlichen Organsystemen des Körpers mittels entsprechender Messgeräte. Die erhobenen Merkmale (z.B. Herzschlagfrequenz) werden als physiologische Indikatoren („physiological indicator“) oder Biosignale („bio signal“) bezeichnet. Meist werden mehrere Biosignale integriert erfasst und ausgewertet (z. B. Hirnaktivität und Blickbewegungen).

Psychophysiologische Messungen

Die psychophysiologischen Messungen („psychophysiological measurements“) entstehen, wenn man physiologische Messungen mit Merkmalen des Verhaltens und Erlebens zeitbasiert verknüpft (z. B. gleichzeitige Messung von Hirnaktivität und Steuerung eines Computerspiels). Erst dadurch werden die physiologischen Messwerte für die sozial- und humanwissenschaftliche Forschung sinnvoll interpretierbar.

Objektive Messmethoden

Die objektiven Messmethoden („objective measurement methods/techniques“) sind Messverfahren, die nicht auf Selbstauskünften der Untersuchungsobjekte basieren, sondern bei denen die Daten durch Außenstehende oder Apparaturen erfasst werden. Zu den objektiven Messmethoden zählen neben der Fremdbeobachtung und einigen psychologischen Testverfahren vor allem die physiologischen Messungen. Der Hauptvorteil der physiologischen Messung als objektiver Messmethode liegt darin, dass subjektive Verzerrungen durch die Untersuchungsteilnehmenden, wie sie bei Selbstauskunftsdaten vorkommen, weitgehend ausgeschlossen werden können. Ihr Hauptnachteil – neben dem meist hohen untersuchungstechnischen Aufwand – besteht darin, dass von objektiven physiologischen Messdaten kein direkter Rückschluss auf menschliches Erleben und Handeln möglich ist – dazu werden zusätzliche Selbstauskunftsdaten benötigt.

Elektroenzephalografie

Die Elektroenzephalografie („electroencephalography“, EEG) ist eine Methode zur Messung der elektrischen Hirnaktivität der obersten Schicht der Hirnrinde mittels auf der Kopfhaut angebrachter Elektroden. Sie dient der Messung des Spontan-EEG im wachen oder schlafenden Zustand sowie der Messung von gezielt durch Stimuli, motorische Reaktionen, kognitive und emotionale Prozesse hervorgerufener Hirnaktivität (ereigniskorrelierte Potenziale, EKP; „event related potentials“ ERP). Als elektrophysiologisches Verfahren, das direkt die Aktionspotenziale der Nervenzellen der Großhirnrinde misst, hat das EEG eine sehr hohe Zeitauflösung, allerdings eine geringe räumliche Auflösung.

Elektroenzephalogramm

Das Elektroenzephalogramm („electroencephalogram“, EEG) ist das Ergebnis einer Elektroenzephalografie und besteht in einer grafischen Darstellung der Potenzialschwankungen (in Mikrovolt) im Zeitverlauf. Als „das EEG“ wird üblicherweise nicht nur das Elektroenzephalogramm, sondern auch die Methode der Elektroenzephalografie (eigentlich „die EEG“) bezeichnet.

Funktionelle Magnetresonanztomografie (fMRT)

Die funktionelle Magnetresonanztomografie (fMRT; „functional magnetic resonance imaging“, fMRI) ist ein bildgebendes Verfahren, das es erlaubt, im Zuge spezifischer Aufgaben oder Tätigkeiten aktivierte Hirnareale zu lokalisieren oder verschaltete Netzwerke zu identifizieren (z. B. sog. Default-Mode oder Resting-State-Netzwerke). Die untersuchte Person wird dabei in eine Untersuchungskammer (Kernspintomograf) geschoben. Dort werden starke Magnetfelder erzeugt, mit deren Hilfe die Anatomie (festes Gewebe vs. Flüssigkeit) sowie der Blutsauerstoffgehalt des Gehirns messbar sind. In stark durchbluteten Arealen ist das Blut sauerstoffreicher, was seine magnetischen Eigenschaften verändert. Steigt bei einem bestimmten Stimulus oder einer bestimmten Aufgabe im Vergleich zum Ausgangszustand der Sauerstoffgehalt im Blut in einer bestimmten Hirnregion statistisch überzufällig an (sog. BOLD-Kontrast, „blood oxygenation level dependence“), so wird das betreffende Hirnareal als aktiviert interpretiert. Aktivierte Areale werden in der fMRT Aufnahme des Gehirns (fMRT-Scan, Hirn-Scan) farblich markiert. Als hämodynamisches Verfahren, das neuronale Aktivität indirekt über den erhöhten Stoffwechselumsatz der lokal aktiven Nervenzellen erfasst, hat die fMRT eine sehr hohe räumliche Auflösung, allerdings eine geringe Zeitauflösung.

Elektrokardiografie (EKG)

Die Elektrokardiografie (EKG; „electrocardiography“, ECG) ist ein physiologisches Messverfahren, das u. a. zur Erfassung der Herzschlagfrequenz dient. Mittels Elektroden auf dem Oberkörper werden die elektrischen Spannungen abgeleitet, die durch die Herzmuskulatur erzeugt werden. Das Ergebnis der Elekrokardiografie ist das Elektrokardiogramm (EKG) als grafische Darstellung der Potenzialschwankungen (in Mikrovolt) über die Zeit hinweg. Als „das EKG“ wird üblicherweise nicht nur das Elektrokardiogramm, sondern auch dieMethode der Elektrokardiografie (eigentlich „die EKG“) bezeichnet.

Pulsfrequenzmessung

Bei der Pulsfrequenzmessung („pulse rate measurement“) wird die Pulsrate entweder nicht-apparativ an der Halsschlagader oder am Handgelenk getastet und mit der Uhr ausgezählt oder apparativ durch einen Clip-Sensor am Finger, Ohrläppchen oder Zeh mittels Pulsoxymetrie kontinuierlich gemessen und grafisch in einer Pulskurve dargestellt.

Blutdruckmessung

Bei der Blutdruckmessung („blood pressure measurement“) wird der Blutdruck entweder direkt – d. h. invasiv mit Kanüle und Manometer – oder indirekt mit einem nicht-invasiven Manschettendruckverfahren erfasst. Blutdruckwerte können grafisch als Blutdruckkurve dargestellt werden, indem sie kontinuierlich oder in zeitlichen Abständen abgetragen werden.

Messung der Hautleitfähigkeit

Die Messung der Hautleitfähigkeit („skin conductance measurement“) bzw. ihres Kehrwertes, des Hautwiderstandes, dient der Erfassung der elektrodermalen Aktivität („electrodermal activity“, EDA) des Organismus. Die Ableitung erfolgt an der Handinnenfläche mittels zweier Elektroden. Als Ergebnis der Messung werden die Veränderungen der Hautleitfähigkeit (in Mikrosiemens) über die Zeit hinweg in einer Hautleitfähigkeitskurve grafisch dargestellt.

Elektromyografie

Die Elektromyografie („electromyography“, EMG) ist ein Messverfahren zur Erhebung der elektrischen Muskelaktivität. Sie kann invasiv mit Nadelelektroden oder nicht-invasiv mittels Oberflächenelektroden durchgeführt werden, die die Aktivationspotenziale der Muskelzellen ableiten. Als Ergebnis der Elektromyografie werden die Potenzialschwankungen an den Muskelzellen (in Mikrovolt) über die Zeit hinweg grafisch in einem Elektromyogramm (EMG) dargestellt. Als „das EMG“ wird üblicherweise nicht nur das Elektromyogramm, sondern auch die Methode der Elektromyografie (eigentlich „die EMG“) bezeichnet.

Elektrookulografie

Die Elektrookulografie („electrooculography“, EOG) ist ein Verfahren zur Erfassung der elektrischen Aktivität der Augenmuskeln. Diese wird mittels Elektroden abgeleitet, die direkt auf die Haut in der Nähe des Augapfels angebracht werden. Die Elektrookulografie kommt v. a. zum Einsatz, um in der EEG-Forschung Artefakte durch Augenbewegungen zu kontrollieren. Als Ergebnis der Elektrookulografie werden die Potenzialschwankungen am Augapfel (in Mikrovolt) über die Zeit hinweg grafisch in einem Elektrookulogramm (EOG) dargestellt. Als „das EOG“ wird üblicherweise nicht nur das Elektrookulogramm, sondern auch die Methode der Elektrookulografie (eigentlich „die EOG“) bezeichnet.

Eye-Tracking

Das Eye-Tracking („eye tracking“, Blickbewegungsmessung) ist ein Messverfahren zur Erfassung von Blickbewegungen, das mittels hochauflösender Kameras Stellung und Bewegung der Augen registriert. Entsprechende Blickbewegungskameras werden entweder in Brillen integriert oder an einemMonitor oder Display angebracht, auf dem das Stimulusmaterial präsentiert wird. Im Ergebnis kann der Blickbewegungsverlauf auf dem Stimulusmaterial statisch als Grafik oder dynamisch als Video visualisiert werden. Zudem können diejenigen Bereiche des Stimulusmaterials, die besonders häufig fixiert wurden, in einer grafischen Darstellung ähnlich einem Wärmebild (sog. „heat maps“) farblich markiert werden.

Sexuelle Psychophysiologie

Die sexuelle Psychophysiologie („sexual psychophysiology“) meint die Anwendung psychophysiologischer Messmethoden zur Erforschung sexueller Erregung. Dabei wird besonderes Gewicht auf die Untersuchung derWechselwirkungen zwischen einerseits subjektiven und andererseits physiologischen Aspekten der sexuellen Erregung gelegt.

Wissenschaftliche Dokumentenanalyse

Unter einer wissenschaftlichen Dokumentenanalyse („scientific document analysis“) als Datenerhebungsmethode verstehen wir die zielgerichtete, systematische und regelgeleitete Sammlung und Archivierung von vorhandenen (d. h. unabhängig vom Forschungsprozess produzierten) Dokumenten als Manifestationen menschlichen Erlebens und Verhaltens. Dabei kann es sich inhaltlich um persönliche oder offizielle Dokumente sowie formal um textuelle/verbal-schriftliche sowie um nicht-textuelle (visuelle, auditive, audiovisuelle, multimediale, hypermediale etc.) Dokumente handeln. An die Sammlung, Archivierung und Aufbereitung des Rohdatenmaterials schließt sich eine Auswertung der Dokumente hinsichtlich ihrer inhaltlichen und formalen Merkmale an. Bei der qualitativen Dokumentenanalyse stellt die interpretative Auswertung der Dokumente bereits die eigentliche qualitative Datenanalyse dar. Bei der quantitativen Dokumentenanalyse wird das qualitative Ausgangsmaterial mittels quantitativer Inhaltsanalyse in Messwerte überführt, die anschließend einer üblichen quantitativ-statistischen Datenanalyse unterzogen werden.

Qualitative Dokumentenanalyse

Unter einer qualitativen Dokumentenanalyse („qualitative document analysis“) als Datenerhebungsmethode verstehen wir die zielgerichtete, systematische und regelgeleitete Sammlung (qualitative Stichprobenbildung), Archivierung und Auswertung von vorgefundenen textuellen/verbal-schriftlichen sowie nicht-textuellen (visuellen, auditiven, audiovisuellen, multimedialen, hypermedialen etc.) Dokumenten als Manifestationen menschlichen Erlebens und Verhaltens. Die Auswertung der Dokumente erfolgt qualitativ-interpretativ. Dafür stehen zahlreiche qualitative Datenanalysemethoden zur Verfügung, die gleichermaßen für die Auswertung forschungsgenerierter Dokumente genutzt werden. Die verschiedenen qualitativen Analysetechniken unterscheiden sich hinsichtlich ihrer erkenntnistheoretischen Fundierung und inhaltlichen Zielsetzung sowie ihrer Eignung für bestimmte Arten von qualitativem Datenmaterial.

Qualitative Inhaltsanalyse

Die qualitative Inhaltsanalyse („qualitative content analysis“) arbeitet vor allem datengesteuert-induktiv – aber teilweise auch theoriebasiert-deduktiv – durch Kodierung die zentralen manifesten und latenten Bedeutungen von Dokumenten heraus. Sie lässt sich auf sämtliche Arten von vorgefundenen (sowie auch forschungsgenierten) Dokumenten anwenden. Sollen Dokumente im Sinne eines Mixed-Methods-Designs untersucht werden, so ist eine Kombination von qualitativer und quantitativer Inhaltsanalyse üblich.

Interpretative Phänomenologische Analyse

Die Interpretative Phänomenologische Analyse („interpretative phenomenological analysis“, IPA) arbeitet induktiv die zentralen Bedeutungen autobiografischer Dokumente heraus. Sie wird auf vorgefundene autobiografische Texte (z. B. Briefe, Tagebücher) sowie auf im Forschungsprozess generierte Dokumente (v. a. Transkripte von narrativen bzw. biografischen Interviews) angewendet. Zielsetzung ist es, das subjektive Erleben bestimmter autobiografischer Erfahrungen aus den Dokumenteninhalten zu rekonstruieren.

Kodierung gemäß Grounded-Theory-Methodologie

Die Grounded-Theory-Methodologie („grounded theory methodology“, GTM) ist eine qualitative Forschungsstrategie, die auf theoretischer Stichprobenziehung („theoretical sampling“), der Kodiermethode des permanenten Vergleichs („constant comparison coding/analysis“) sowie dem systematischen Verfassen von Memos basiert („memoing, memowriting“). Im Ergebnis läuft die Methode auf eine gegenstandsverankerte Theorie („grounded theory“) hinaus. Die Kodierung gemäß GTM kann auf vorgefundene ebenso wie auf forschungsgenerierte Dokumente angewendet werden, wobei der gesamte Forschungsprozess an der Grounded-Theory-Methodologie auszurichten ist. Im Unterschied zur qualitativen Inhaltsanalyse und zur Interpretativen Phänomenologischen Analyse, deren Kategorien eher zusammenfassend-deskriptiven Charakter haben, werden mit der Kodiermethode des permanenten Vergleichs im Rahmen der GTM Kategorien gebildet, die einen erklärenden Charakter aufweisen. Die Kodiermethode des permanenten Vergleichs beinhaltet dabei das offene Kodieren, das axiale Kodieren und das selektive Kodieren.

Quantitative Dokumentenanalyse

Unter einer quantitativen Dokumentenanalyse („quantitative document analysis“) als Datenerhebungsmethode verstehen wir die zielgerichtete, systematische und regelgeleitete Sammlung (quantitative Stichprobenziehung) und Archivierung von vorgefundenen textuellen/verbalschriftlichen sowie nicht-textuellen (visuellen, auditiven, audio-visuellen, multimedialen, hypermedialen etc.) Dokumenten als Manifestationen menschlichen Erlebens und Verhaltens. Die Auswertung der Dokumente erfolgt quantitativ-statistisch. Um aus dem qualitativen Ausgangsmaterial Messwerte zu gewinnen, werden die Dokumente im ersten Schritt einer quantitativen Inhaltsanalyse unterzogen und mithilfe eines vollstandardisierten Kategoriensystems kodiert. Im zweiten Schritt werden die mit der quantitativen Inhaltsanalyse gewonnenen Messwerte dann mit den üblichen deskriptiv- und inferenzstatistischen Methoden der Datenanalyse ausgewertet.

Quantitative Inhaltsanalyse

Die quantitative Inhaltsanalyse („quantitative content analysis“) erfasst deduktiv anhand eines vollstandardisierten Kategoriensystems die Ausprägungen unterschiedlicher formaler und inhaltlicher Merkmale von Dokumenten. Die Merkmalsausprägungen der Dokumente werden dabei quantifiziert, wobei je nach Definition der einzelnen Kategorien Messwerte auf allen vier Skalenniveaus generiert werden. Die per Inhaltsanalyse gewonnenen Messwerte werden anschließend statistisch ausgewertet.

Inhaltsanalytisches Kategoriensystem

Das inhaltsanalytische Kategoriensystem („content analysis coding system“, „content analytic coding system“, „content analytic coding scheme“) als vollstandardisiertes Erhebungsinstrument operationalisiert theoriebasiert immer genau jene formalen und inhaltlichen Merkmale von Dokumenten, die für das jeweilige Forschungsproblem relevant sind. Damit das Kategoriensystem intersubjektiv nachvollziehbar ist, wird es mit genauen Definitionen aller Kategorien und Kodieranweisungen versehen, dadurch entsteht ein Codebuch. Die Kodierung der Dokumente anhand des Codebuches erfolgt durch geschulte Kodierende. Die psychometrischen Gütekriterien des Kategoriensystems, insbesondere Validität und Reliabilität sind zu prüfen und ihre mindestens ausreichende Qualität ist zu belegen (argumentativer Rückgriff auf Theorien und Forschungsstand zur Definition und Inhaltsvalidierung der Kategorien; Validitäts-Beurteilung der Kategorien bzw. des Kategoriensystems durch Fachexperten; empirische Reliabilitätsprüfung des Kategoriensystems).

Quantitative Online-Inhaltsanalyse

Die quantitative Online-Inhaltsanalyse („quantitative online content analysis“) erfasst anhand eines vollstandardisierten Kategoriensystems die Ausprägungen unterschiedlicher formaler und inhaltlicher Merkmale von Online-Dokumenten. Dabei ist die inhaltsanalytische Vorgehensweise den Besonderheiten der Online-Dokumente anzupassen; dies betrifft z. B. die Festlegung der Analyse- und Kodiereinheiten, die Stichprobenziehung, die Archivierung des Materials, die Medienspezifik der betrachteten formalen und inhaltlichen Kategorien und nicht zuletzt die Darstellung von Materialbeispielen in Publikationen.

Quantitative Inhaltsanalyse von visuellen Dokumenten

Die quantitative Inhaltsanalyse von visuellen Dokumenten („quantitative content analysis of visual documents“) erfasst anhand eines vollstandardisierten Kategoriensystems die Ausprägungen unterschiedlicher formaler und inhaltlicher Merkmale von visuellen Dokumenten (Fotos, Grafiken, Cartoons, Videos, Animationen etc.). Dabei ist die inhaltsanalytische Vorgehensweisen den Besonderheiten der visuellen Dokumente anzupassen, dies betrifft z. B. die Festlegung der Analyse- und Kodiereinheiten, die Stichprobenziehung, die Archivierung des Materials, die Medienspezifik der betrachteten formalen und inhaltlichen Kategorien und nicht zuletzt die Darstellung von Materialbeispielen in Publikationen.

Datenaufbereitung

Zur Datenaufbereitung („data preparation“) gehören all jene begründeten und dokumentierten Bearbeitungen bzw. Veränderungen des Rohdatenmaterials, welche die Aussagekraft und (Wieder-)Verwendbarkeit der Daten steigern und die inhaltliche Datenanalyse vorbereiten. Dazu zählen v. a. die Erstellung strukturierter Datensätze aus dem Rohdatenmaterial, die Kommentierung und die Anonymisierung der Datensätze sowie Datenbereinigung und Datentransformation. Ziel der Datenaufbereitung ist eine Steigerung der Datenqualität.

Qualitative Datenanalyse

Die qualitative Datenanalyse („qualitative data analysis“) wertet qualitatives – in der Regel verbales/textuelles, aber auch visuelles oder sonstiges nicht-numerisches – Datenmaterial im Hinblick auf das Forschungsproblem einer empirischen Studie interpretierend (hermeneutisch) aus. Sie folgt dabei dem explorativen (gegenstandserkundenden, hypothesen- und theoriebildenden) Erkenntnisinteresse qualitativer Forschung und ist stark induktiv (datengesteuert) ausgerichtet. Es liegen eine Reihe von allgemeinen (d. h. auf qualitatives Datenmaterial aller Art anwendbaren) sowie von spezialisierten (d. h. nur für bestimmte Arten von Daten und Fragestellungen einsetzbaren) qualitativen Datenanalysemethoden vor. Bei der sehr verbreiteten kategorienbildenden Analyse wird das Material in sinnvolle Analyseeinheiten segmentiert (z. B. Sätze, Absätze), den Analyseeinheiten werden Codes zugeordnet (Prozess der Kodierung) und die Codes werden zu übergeordneten Kategorien zusammengefasst. Neben der kategorienbildenden existiert noch die sequenzielle Analyse, bei der Ablaufstrukturen aus den Daten herausgearbeitet werden. Die qualitative Datenanalyse erfolgt in der Regel im ersten Schritt fallbezogen und im zweiten Schritt fallübergreifend, indem sie meist Themen, Typen oder Theorien generiert. Schließlich kann eine qualitative Datenanalyse eines einzelnen Datensatzes noch erweitert werden, indem sie – im Rahmen der Bearbeitung desselben Forschungsproblems – mit anderen qualitativen Auswertungen (Methoden-Triangulation) sowie mit quantitativen Analysen (Mixed-Methods-Ansatz) verknüpft wird.

Quantitative Datenanalyse

Im Rahmen der quantitativen Datenanalyse („quantitative data analysis“) wird numerisches Datenmaterial im Hinblick auf das Forschungsproblem einer empirischen Studie statistisch ausgewertet. Die dabei eingesetzten statistischen Verfahren gliedern sich in zwei große Felder: Die Deskriptivstatistik („descriptive statistics“, beschreibende Statistik) fasst die Stichprobendaten anhand von Stichprobenkennwerten (z. B. Mittelwerte, Prozentwerte etc.) zusammen und stellt diese bei Bedarf in Tabellen und Grafiken anschaulich dar. Die Inferenzstatistik („inferential statistics“, schließende Statistik) schließt anhand von Stichprobendaten auf Populationsverhältnisse. Dabei wird zum einen die Ausprägung einzelner Variablen in der Population geschätzt (Methoden der statistischen Parameterschätzung) und zum anderen werden Hypothesen zu Relationen zwischen Variablen in der Population geprüft (Methoden der statistischen Hypothesenprüfung).

Punktschätzung

Bei einer Punktschätzung („point estimation“) wird ein unbekannter Populationsparameter mittels eines einzelnen Stichprobenkennwertes (Punktschätzer, „point estimator“) geschätzt. Die Qualität einer Punktschätzung wird über die Kriterien Erwartungstreue, Konsistenz, Effizienz, Suffizienz und Robustheit ermittelt. Wichtige klassische Schätzmethoden sind a) die Momenten-Methode, b) die Kleinstquadrat-Methode und c) die Maximum-Likelihood-Methode. Hinzu kommen Punktschätzungen mit Resampling- sowie Bayes-Verfahren.

Zufallsexperiment

Ein Zufallsexperiment („experiment“) meint im Kontext derWahrscheinlichkeitstheorie einen Versuch, dessen Ablauf bekannt ist und der mehr als ein Ergebnis hervorbringen kann (die möglichen Ergebnisse müssen bekannt sein), wobei aber bei jedem Versuchsdurchgang das konkrete Ergebnis vorab unbekannt ist. Beispiele für Zufallsexperimente sind das Würfeln (vorab ist nicht bekannt, welche der sechs Augenzahlen erwürfelt wird) oder die Befragung (vorab ist bei einer zufällig ausgewählten Person, die man nach ihrer Depressivität fragt, nicht bekannt, welche Depressionsausprägung sie hat).

Zufallsvariable

Eine Zufallsvariable („random variable“) ordnet allen Ergebnissen eines Zufallsexperiments eine Wahrscheinlichkeit (bei abzählbaren Ergebnissen) oder eine Wahrscheinlichkeits-Dichte (bei nicht abzählbaren Ergebnissen) zu. Sie ist eine Abbildung der Menge aller Elementarereignisse (d. h. aller möglichen Ergebnisse eines Zufallsexperiments) in die reellen Zahlen. Eine Zufallsvariable wird oft mit Großbuchstaben, die konkrete Ausprägung der entsprechenden Zufallsvariablen mit Kleinbuchstaben bezeichnet.

Kriterien für die Güte eines Punktschätzers

Die Güte eines Punktschätzers (d. h. der Schätzmethode) wird v. a. über fünf Kriterien definiert: 1. Erwartungstreue (Unverzerrtheit, Unverfälschtheit, „mean-unbiasedness“): Ein erwartungstreuer Schätzer entspricht im Mittel dem Populationsparameter. 2. Konsistenz („consistency“, „asymptotic consistency“): Ein konsistenter Schätzer wird mit wachsendem Stichprobenumfang genauer, d. h., er ist erwartungstreu und seine Varianz sinkt mit wachsendem Stichprobenumfang. 3. Effizienz („efficiency“): Ein effizienter Schätzer ist genauer (d. h. weist eine geringere Varianz auf) als alternative erwartungstreue Schätzer. 4. Suffizienz („sufficiency“): Ein suffizienter/erschöpfender Schätzer berücksichtigt alle relevanten Informationen in der Stichprobe. 5. Robustheit („robustness“): Ein robuster Schätzer ist gegenüber Ausreißern bzw. Extremwerten in der Stichprobe unempfindlich.

Intervallschätzung

Bei einer Intervallschätzung („interval estimation“) wird ein unbekannter Populationsparameter durch einen auf der Basis der Stichprobenergebnisse konstruierten Wertebereich (Konfidenzintervall, Vertrauenintervall, „confidence interval“, CI) geschätzt. Dieser Wertebereich wird so konstruiert, dass sich in ihm 1-Alpha 99 % oder 1-Alpha 95 % (Konfidenzkoeffizient, Vertrauenswahrscheinlichkeit) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können. Der Konfidenzkoeffizient 1-Alpha ist das Komplement zum Signifikanzniveau Alpha, das als zulässige Obergrenze der Irrtumswahrscheinlichkeit konventionell auf 1 % bzw. 5 % festgelegt ist.

Konfidenzintervall und Signifikanztest

Zwischen dem Konfidenzintervall und dem klassischen Signifikanztest besteht insofern eine Parallele, als ein Konfidenzintervall, das nicht die Null umschließt, gleichzeitig auch impliziert, dass der bestreffende Parameter statistisch signifikant ist (Ablehnung des H0-Modells; Abschn. 12.5.1).

Glaubwürdigkeitsintervall

Bei der Intervallschätzung nach dem Bayes-Ansatz spricht man statt vom Konfidenzintervall vom Glaubwürdigkeitsintervall („credible intervall“), in dessen Berechnung neben den Stichprobendaten auch Vorinformationen der Forschenden (auf der Basis des Forschungsstandes) einfließen.

Zentrales Grenzwerttheorem

Das zentrale Grenzwerttheorem (zentraler Grenzwertsatz; „central limit theorem) besagt, dass die Verteilung von Mittelwerten aus Stichproben des Umfanges n, die einer beliebig verteilten Grundgesamtheit entnommen werden, einer Normalverteilung entspricht – vorausgesetzt, n ist genügend groß (mindestens n größer/gleich 30).

Stichprobenkennwerteverteilung des Mittelwertes

Die Stichprobenkennwerteverteilung des Mittelwertes folgt gemäß zentralem Grenzwerttheorem ab einer Mindeststichprobengröße von N = 30 einer Normalverteilung. Der Mittelwert dieser Stichprobenkennwerteverteilung ist der Erwartungswert der Stichprobenmittelwerte Mü und die Streuung dieser Stichprobenkennwerteverteilung ist der Standardfehler des Mittelwertes Sigma.

z-Transformation

Die z-Transformation („z transformation“) überführt jede beliebige Verteilung in eine entsprechendeVerteilung mit dem Mittelwert Mü = 0 und der Streuung Sigma = 1. Die Anwendung der z-Transformation auf eine Normalverteilung führt zu einer Normalverteilung mit dem Mittelwert von Mü = 0 und der Streuung von Sigma = 1. Diese z-transformierte Normalverteilung wird als Standardnormalverteilung bezeichnet.

Konfidenzintervall

Das Konfidenzintervall („confidence interval“, CI) kennzeichnet denjenigen Bereich von Merkmalsausprägungen, in dem sich 95 % (99 %) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können.

Alternativhypothese und Nullhypothese

Im Kontext des statistischen Nullhypothesen-Signifikanztests wird zu jeder Alternativhypothese (H1, „alternative hypothesis“), die theoriebasiert die Existenz (oft auch die Richtung und zuweilen sogar die Größe) eines Populationseffekts postuliert, eine Nullhypothese (H0, „null hypothesis“) aufgestellt, die den betreffenden Effekt negiert. H1 und H0 bilden zusammen ein Hypothesenpaar, das alle möglichen Ausprägungen des betrachteten Effekts beinhaltet.

Irrtumswahrscheinlichkeit

Wir bezeichnen die bedingte Wahrscheinlichkeit, dass unter Annahme der Gültigkeit der H0 das empirische oder ein extremeres Stichprobenergebnis (D: empirische Daten) auftritt, als Irrtumswahrscheinlichkeit p(D|H0). Grafisch entspricht diese Wahrscheinlichkeit p(D|H0) der Fläche, die der empirische Wert bzw. die empirische Prüfgröße, die aus den Stichprobendaten berechnet wird (z. B. empirischer t-Wert), vom H0-Modell (z. B. einer t-Verteilung mit entsprechenden Freiheitsgraden) abschneidet.

Gerichtete Hypothesen

Gerichtete Hypothesen werden durch einen einseitigen Signifikanztest geprüft, indem zunächst die Richtung des Effekts betrachtet und dann die einseitige Irrtumswahrscheinlichkeit (Fläche des H0-Modells, die vom empirischen Wert auf einer Seite der Prüfverteilung abgeschnitten wird) mit dem Signifikanzniveau von 5 % verglichen wird. Alternativ wird beim Rechnen per Hand (z. B. in Klausuren) für die Signifikanzentscheidung der empirische Wert mit dem kritischen Wert für Alpha = 5 % verglichen, der auf der einen Seite des H0-Modells die Grenze des einseitigen Ablehnungsbereichs für die H0 bildet.

Ungerichtete Hypothesen

Ungerichtete Hypothesen werden durch einen zweiseitigen Signifikanztest geprüft, indem die zweiseitige Irrtumswahrscheinlichkeit (Fläche, die vom empirischen Wert an beiden Seiten der Prüfverteilung abgeschnitten wird)mit dem Signifikanzniveau von 5 % verglichen wird. Alternativ wird beim Rechnen per Hand (z. B. in Klausuren) für die Signifikanzentscheidung der empirische Wert mit dem kritischen Wert für Alpha/2 = 2.5 % verglichen, der auf beiden Seiten des H0-Modells die Grenze des zweiseitigen Ablehnungsbereichs für die H0 bildet.

Optimaler Stichprobenumfang

Um zu vermeiden, dass eine Studie uneindeutige statistische Ergebnisse produziert, sollte bei der Untersuchungsplanung der optimale Stichprobenumfang veranschlagt werden. Es handelt sich dabei um den Stichprobenumfang, der mindestens notwendig ist, um einen Effekt bestimmter Größe mit einer Teststärke von mindestens 80 % aufdecken zu können.

Bivariate Korrelation

Die bivariate Korrelation („bivariate correlation“) bestimmt über einen Korrelationskoeffizienten die Enge des Zusammenhangs (schwacher oder starker Zusammenhang) sowie die Richtung des Zusammenhangs (positiver oder negativer Zusammenhang) zwischen zwei Merkmalen. Für Variablen unterschiedlichen Skalenniveaus existieren verschiedene bivariate Assoziationsmaße. Der bivariate Korrelationskoeffizient hat einen Wertebereich von -1 (perfekter negativer = gegensinniger Zusammenhang) bis +1 (perfekter positiver = gleichsinniger Zusammenhang). Bei Werten um Null existiert kein systematischer Zusammenhang.

Partialkorrelation

Die Partialkorrelation bestimmt über einen Partialkorrelationskoeffizienten („partial correlation coeffizient“) die Enge und Richtung des Zusammenhang zwischen zwei Merkmalen, wobei der Einfluss von einer oder mehreren Drittvariablen kontrolliert (herauspartialisiert) wird.

Multiple Zusammenhangshypothese

Eine multiple Zusammenhangshypothese behauptet, dass zwischen mehreren Prädiktorvariablen und einer Kriteriumsvariablen ein Zusammenhang besteht. Sie wird mit der multiplen Korrelations- und Regressionsanalyse überprüft.

Multipler Korrelationskoeffizient R

Der multiple Korrelationskoeffizient R („multiple correlation coefficient“) quantifiziert die Enge (nicht jedoch die Richtung) des Gesamtzusammenhangs zwischen dem Prädiktorvariablensatz und dem Kriterium. Er wird auf Signifikanz geprüft.

Multiple Regressionsanalyse

Die multiple Regressionsanalyse bestimmt die Regressionskoeffizienten (Beta-Gewichte) der Prädiktoren, die Auskunft über die Enge und Richtung des Einflusses der einzelnen Prädiktoren im Kontext des Gesamtzusammenhangs aller betrachteten Prädiktorvariablen geben. Auch die Beta-Gewichte werden auf Signifikanz geprüft.

Kanonische Zusammenhangshypothese

Eine kanonische Zusammenhangshypothese behauptet, dass zwischen mehreren Prädiktorvariablen einerseits und mehreren Kriteriumsvariablen andererseits ein systematischer Zusammenhang besteht. Sie wird mit der kanonischen Korrelationsanalyse überprüft. Dabei werden die Prädiktoren sowie die Kriterien jeweils zu Faktoren gebündelt (pro Prädiktor- und Kriteriumsvariablensatz entspricht die Zahl der gebildeten Faktoren jeweils der Zahl der Variablen).

Kanonische Korrelationskoeffizienten CR

Kanonische Korrelationskoeffizienten CR („canonical correlation coefficients“) sind die paarweisen Korrelationen zwischen den Prädiktor- und Kriteriumsvariablenfaktoren, sie quantifizieren die Enge (nicht jedoch die Richtung) der Zusammenhänge der Variablensätze. In einer kanonischen Korrelationsanalyse können maximal so viele kanonische Korrelationskoeffizienten berechnet werden, wie sich Variablen im kleineren Variablensatz befinden. Die kanonischen Korrelationskoeffizienten werden auf Signifikanz geprüft. Enge und Richtung des Einflusses der einzelnen Prädiktoren und Kriterien auf den Gesamtzusammenhang sind an deren Faktorladungen ablesbar.

Faktorenanalyse

Die Faktorenanalyse bündelt die Variablen gemäß ihrer Interkorrelationen zu Faktoren. Man unterscheidet explorative Faktorenanalysen („exploratory factor analysis“, EFA), die ohne Vorannahmen durchgeführt werden und keine Signifikanzprüfung enthalten, von konfirmatorischen Faktorenanalysen („confirmatory factor analysis“, CFA), bei denen ein Faktorladungsmuster als Hypothese vorgegeben und inferenzstatistisch geprüft wird.

Interaktionseffekt

Ein signifikanter Interaktionseffekt A x B in der zweifaktoriellen Varianzanalyse besagt, dass beide Faktoren nicht einfach ganz normal additiv, sondern in anderer, nicht-additiver Weise zusammenwirken. Anlässlich eines signifikanten Interaktionseffekts in der zweifaktoriellen Varianzanalyse kann eine ungerichtete Interaktionshypothese angenommen werden. Gerichtete Interaktionshypothesen werden über Interaktionskontraste inferenzstatistisch abgesichert.

Interaktion zweiter Ordnung

Wir sprechen von einer Interaktion zweiter Ordnung (A x B x C-Interaktion, Tripel-Interaktion, „second order interaction“), wenn die Art der Interaktion zwischen zwei Faktoren (Interaktion erster Ordnung, z. B. A x B) von den Stufen eines dritten Faktors (z. B. Faktor C) abhängt.

Quadratische Pläne

Quadratische Pläne sind eine Sonderform der hierarchischen bzw. unvollständigen Pläne, bei denen alle Faktoren die gleiche Stufenzahl aufweisen. Mit Plänen dieser Art können nur Haupteffekte überprüft werden. Varianten quadratischer Pläne sind lateinische sowie griechisch-lateinische Quadrate.

Blockplan

Wenn bei wiederholter Untersuchung derselben Untersuchungspersonen Transfer-Effekte drohen, sollte ein randomisierter Blockplan („randomized block plan“) eingesetzt werden. Die k-fache Messung einer Untersuchungsperson wird hierbei durch Einzelmessungen von k Untersuchungspersonen ersetzt, wobei die k Untersuchungspersonen eines Blocks nach Ähnlichkeit auszuwählen sind (“Matched Samples“) und zufällig den k Messzeitpunkten zugeordnet werden. Die Blöcke werden zufällig der Experimental- bzw. Kontrollbedingung zugeordnet.

Sequenzeffekte

Durchläuft dieselbe Person nacheinander mehrere Untersuchungsbedingungen, können Sequenzeffekte („sequence effects“, „order effects“) auftreten. Um einen verfälschenden Einfluss von Sequenzeffekten zu vermeiden, durchlaufen Teilgruppen der Untersuchungspersonen die Untersuchungsbedingungen systematisch in verschiedener Abfolge. Die verschiedenen Abfolgen werden als zusätzliche unabhängige Variable (Abfolgefaktor) in das Design aufgenommen und im Zuge einer Varianzanalyse statistisch geprüft. Wird der Abfolgefaktor nicht signifikant (und war die Teststärke ausreichend), so spricht dies gegen einen Sequenzeffekt.

Solomon-Viergruppenplan

Der Solomon-Viergruppenplan („Solomon four group design“) stellt eine Erweiterung des klassischen experimentellen Pretest-Posttest-Designs dar (zweifaktorieller Plan mit Treatment-Faktor und Messwiederholungsfaktor). Er dient dazu, die mögliche Wirkung von Pretest-Effekten zu überprüfen.

Regression zur Mitte

Als Regression zur Mitte („regression to the mean“, „regression toward the mean“) bezeichnet man bei Messwiederholungen den Effekt, dass extreme Vorher-Messungen bei Wiederholungs-Messungen zur Mitte der Verteilung (allgemein: zur höchsten Dichte der Verteilung) tendieren. Dies gilt vor allem bei geringer Retest-Reliabilität des Merkmals.

Zeitreihe

Eine Zeitreihe („time series“) ist ein Datensatz, der dadurch entsteht, dass dieselbe Variable bei derselben Person bzw. Untersuchungseinheit (Einzelfalluntersuchung) oder bei denselben Personen bzw. Untersuchungseinheiten (Stichprobenuntersuchung oder Vollerhebung) immer wieder im gleichen Abstand erhoben wird.

Hypothesenprüfende Einzelfalluntersuchung

Bei der hypothesenprüfenden Einzelfalluntersuchung („single-subject research“, „single case research“, „single participant research“) geht es darum, Einzelfallhypothesen – also Annahmen über Merkmale oder Verhaltensweisen einer einzelnen Person bzw. eines einzelnen Objektes – anhand eines systematisch erhobenen quantitativen Datensatzes zu überprüfen. Für hypothesenprüfende Einzelfallanalysen werden Verhaltensstichproben derselben Person in verschiedenen Situationen, zu unterschiedlichen Zeitpunkten und/oder unter variierenden Aufgabenstellungen gezogen. Zur Auswertung eignen sich v. a. visuelle Verfahren sowie nonparametrische (verteilungsfreie) Signifikanztests.

Iterationshäufigkeitstest

Bei einer Einzelfalluntersuchung mit dichotomer abhängiger Variable lässt sich die Alternativhypothese, dass der Wechsel zwischen dem Auftreten beider Merkmalsausprägungen nicht zufällig, sondern systematisch erfolgt, mit dem Iterationshäufigkeitstest prüfen, wobei entweder der exakte Iterationshäufigkeitstest oder – bei größeren Messwertreihen (n1 und n2 > 30) – der asymptotische Iterationshäufigkeitstest (über die Normalverteilung) zu nutzen sind.

Rangsummentest

Bei einer Einzelfalluntersuchung mit dichotomer abhängiger Variable lässt sich die Alternativhypothese, dass im Sinne eines monotonen Trends eine Merkmalsalternative im Verlauf der Zeit immer häufiger auftritt, mit dem Rangsummentest prüfen, wobei entweder der exakte Rangsummentest oder – bei größeren Messwertreihen (n1 oder n2 > 25) – der asymptotische Rangsummentest (über die Normalverteilung) zu nutzen sind.

Teststärke

Die Teststärke („power“) hat das Symbol 1 - Beta und ist definiert als die Wahrscheinlichkeit, mit der ein Signifikanztest einen in der Population vorhandenen „wahren“ Effekt bestimmter Größe durch ein statistisch signifikantes Ergebnis tatsächlich aufdeckt. Bei hoher Teststärke weist ein Signifikanztest eine hohe Sensitivität auf, kann also auch kleine Populationseffekte mit großer Sicherheit aufdecken. Konventionell wird in Anlehnung an Cohen (1988) eine Teststärke von mindestens 80 % gefordert. Das heißt umgekehrt, es wird eine Beta-Fehlerwahrscheinlichkeit (Wahrscheinlichkeit, die H0 fälschlich anzunehmen bzw. die H1 fälschlich zu verwerfen) von maximal 20 % akzeptiert. Man beachte, dass die Konventionen für das Alpha-Fehler-Niveau (.05), das Beta-Fehler-Niveau (.20) sowie die Teststärke (.80) nicht mechanisch anzuwenden, sondern inhaltlich begründet festzulegen sind. Wenn also z. B. inhaltlich ein Alpha-Fehler nicht 4-mal gravierender ist als ein “-Fehler, sollten Alpha- und Beta-Fehler-Niveau entsprechend ausgewogen festgelegt werden (Abschn. 12.5.1).

Post-hoc-Teststärkeanalyse

Bei einer Post-hoc-Teststärkeanalyse („post hoc power analysis“) wird nach Durchführung einer quantitativen empirischen Studie anhand des festgelegten Signifikanzniveaus, des realisierten Stichprobenumfanges sowie der interessierenden Populationseffektgröße die Teststärke geschätzt. Dabei wird die interessierende Populationseffektgröße entweder anhand der Stichprobeneffektgröße festgesetzt (retrospektive Teststärkeanalyse, „retrospective power analysis“), was methodisch problematisch ist, oder anhand theoretischer bzw. praktischer Argumente festgelegt, was die empfehlenswerte Vorgehensweise ist. Bei einem nicht-signifikanten Ergebnis ist die Posthoc-Teststärkeanalyse relevant, um mangelnde Teststärke bzw. eine nicht aussagekräftige Studie zu identifizieren. Bei einem signifikanten Ergebnis ist die Post-hoc-Teststärkeanalyse wichtig, um übermäßige Teststärke zu identifizieren bzw. ein signifikantes Ergebnis als theoretisch und/oder praktisch bedeutungslos zu identifizieren, wobei Effektgrößenmaße zum Einsatz kommen. Aber auch bei einem signifikanten Ergebnis kann zu geringe Teststärke ein Problem sein und als Hinweis auf das mögliche Vorliegen eines Alpha-Fehlers dienen.

Effektstärke bzw. Effektgröße

Die Effektstärke bzw. Effektgröße („effect size“, ES) ist definiert als die Größe des im Zuge einer Hypothesenprüfung interessierenden Populationsparameters. Bei dem interessierenden Populationsparameter kann es sich z. B. um einen Prozentwert oder eine Prozentwertdifferenz, einen Mittelwert oder eine Mittelwertdifferenz, einen bivariaten oder multivariaten Korrelations- oder Regressionskoeffizienten oder eine Korrelationsdifferenz handeln. Die Populations-Effektgröße ist in der Regel unbekannt und wird auf der Basis der Stichproben-Effektgröße geschätzt, sei es als Punktschätzung oder als Intervallschätzung mit einem Konfidenzintervall.

Unstandardisierte bzw. absolute Effektgrößen

Unstandardisierte bzw. absolute Effektgrößen („unstandardized effect size measures“) werden in derMesseinheit der gemessenen Variablen angegeben. Unstandardisierte Effektgrößenmaße sind nur bei verhältnisskalierten Variablen mit absolutem Nullpunkt sinnvoll interpretierbar. So kann der Effekt von Interventionsmaßnahmen direkt beurteilt werden, wenn man z. B. erfährt, um welchen Absolutbetrag diese die Anzahl der gerauchten Zigaretten pro Tag oder das Körpergewicht in Kilogramm reduziert haben.

Standardisierte bzw. relative Effektgrößenmaße

Standardisierte bzw. relative Effektgrößenmaße („standardized effect size measures“) sind durch Relativierung an der Merkmalsstreuung unabhängig von der Messeinheit und vom Stichprobenumfang. Standardisierte Effektgrößenmaße sind notwendig bei nominal-, ordinal- oder intervallskalierten Variablen, die keinen natürlichen Nullpunkt haben (z. B. Ratingskala). Sie erlauben a) eine direkte Vergleichbarkeit verschiedener Studien zum selben Phänomen (auch wenn zur Operationalisierung verschiedene Messeinheiten verwendet werden), b) eine Verrechnung der Effekte vergleichbarer Studien zu einem standardisierten Gesamteffekt im Rahmen der Metaanalyse (Kap. 16) und c) die Einstufung der inhaltlichen Bedeutsamkeit des Effektes. Es existieren verschiedene standardisierte Effektgrößenmaße für unterschiedliche Effekte bzw. unterschiedliche Signifikanztests (Abschn. 14.2.3). Man beachte, dass die Standardisierung stets anhand der Streuung der Werte erfolgt und somit relativ zur Unterschiedlichkeit der erhobenen Werte zu betrachten ist, welche wiederum von der Stichprobenzusammensetzung sowie den Untersuchungsbedingungen – etwa der Dosierung der unabhängigen Variablen – abhängt (Abschn. 14.3.1).

A-priori-Teststärkeanalyse

Bei einer A-priori-Teststärkeanalyse („a priori/prospective power analysis“) werden vor Durchführung einer Untersuchung Signifikanzniveau, Teststärke und interessierende Effektgröße festgelegt, um auf dieser Basis den „optimalen“ Stichprobenumfang („sufficient sample size“) zu bestimmen. Dies ist der notwendige Mindeststichprobenumfang, um anhand eines statistischen Nil-Nullhypothesen-Signifikanztests mit ausreichender Teststärke eine aussagekräftige Entscheidung über das Hypothesenpaar zu treffen. Die notwendige Festlegung der interessierenden Effektgröße ist gleichbedeutend mit der Anforderung, eine (in der Regel gerichtete) spezifische H1 zu formulieren, d. h. bei der Untersuchungsplanung nicht nur zu postulieren, dass ein Effekt existiert, sondern auch seine Größe bzw. zumindest seine Größenordnung anzugeben. In der Praxis wird hier häufig mit groben Effektgrößenklassifikationen gearbeitet, d. h. ein kleiner, mittlerer oder großer Effekt postuliert (Abschn. 14.2.2).

Minimum-Effektgrößen-Test

Minimum-Effektgrößen-Tests („minimum effect tests“, „minimal effects test“, „effect test“) sind statistische Signifikanztests, die nicht mit einer Nil-Nullypothese (Punkthypothese), sondern mit einer Minimum-Effekt-Nullhypothese (Intervallhypothese) arbeiten.

Good-Enough-Prinzip

Das Good-Enough-Prinzip („good enough principle“) besagt, dass für die Annahme einer Alternativhypothese festgelegt werden sollte, welche Effektgrößen hinsichtlich praktischer Bedeutsamkeit „gut genug“ sind. Dass ein Effekt vom Wert Null abweicht, wird als nicht gut genug angesehen. Stattdessen sollte ein ganzer Bereich unbedeutsam kleiner Effekte definiert und die Alternativhypothese nur dann akzeptiert werden, wenn der empirische Effekt außerhalb des Bereichs vernachlässigbar kleiner Effekte liegt.

Minimum-Effekt-Nullhypothese

Eine Minimum-Effekt-Nullhypothese („minimum effect null hypotheses“) postuliert im Sinne des Good-Enough-Prinzips als Bereichshypothese einen Bereich vernachlässigbar kleiner Populationseffekte.

Effektgrößen in Minimum-Effekt-Nullhypothesen

Bei Minimum-Effekt-Nullhypothesen wird als Effektgröße die Varianzaufklärung herangezogen. Dabei wird der Bereich vernachlässigbar kleiner Effektgrößen traditionell entweder auf 0 %–1 % Varianzaufklärung (H01: Etaquadrat kleiner/gleich .01) oder auf 0 %–5 % Varianzaufklärung (H05: Etaquadrat kleiner/gleich .05) festgelegt.

Wunsch-Nullhypothese

Eine Wunsch-Nullhypothese liegt vor, wenn man theoriebasiert mithilfe einer empirischen Studie belegen möchte, dass hinsichtlich der betrachteten Variablen kein Effekt (kein Unterschied, kein Zusammenhang, keine Veränderung) in der Population vorliegt.

Quantitative Metaanalyse

Die quantitative Metaanalyse („meta analysis“, „metaanalytic review“) ist ein spezieller Typ der Forschungssynthese. Sie fasst den Forschungsstand zu einer bestimmten Fragestellung zusammen, indem sie die statistischen Einzelergebnisse inhaltlich vergleichbarer, aber unabhängiger quantitativer Primärstudien integriert. Dazu werden unterschiedliche konzeptionelle und methodische Verfahren verwendet, darunter auch spezielle statistische Analysetechniken. Das Ergebnis der Metaanalyse basiert auf einer Gesamtstichprobe, die sich aus den Stichproben der einzelnen Primärstudien zusammensetzt.

Gesamteffekt

Bei der Metaanalyse wird aus den Effektgrößenmaßen der einzelnen Primärstudien ein gewichteter Mittelwert berechnet, der den Gesamteffekt in der Population schätzt. Im Zuge der Metaanalyse kann überprüft werden, ob ein fraglicher Effekt in der Population vorliegt (Signifikanztest für den Gesamteffekt) und wie groß er ist (Effektgrößenschätzung des Gesamteffekts als Punkt- und/oder Intervallschätzung). Häufig werden dieWirksamkeit einer Maßnahme oder die Auswirkung einer Verhaltensweise mittels Metaanalyse untersucht.

Moderatorvariablen

Neben der Schätzung des Gesamteffekts wird durch die Metaanalyse der Wirkprozess analysiert, indem man diejenigen Moderatorvariablen identifiziert, die dafür verantwortlich sind, dass der Effekt unter bestimmten Bedingungen stärker oder schwächer ausfällt (Moderatorvariablen- bzw. Subgruppen-Analyse).

Effektmodelle der Metaanalyse

Das Effektmodell der Metaanalyse gibt vor, wie die Gewichtungsfaktoren für die Ergebnisse der einzelnen Primärstudien-Effekte zu bestimmen sind, auf deren Basis der Gesamteffekt als gewichteter Mittelwert berechnet wird. Man unterscheidet Fixed-Effect-, Random-Effects- und Mixed-Effects-Modelle der Metaanalyse.

Fixed-Effect-Modell

Das Fixed-Effect-Modell (Modell fester Effekte) geht davon aus, dass die Primärstudien im Studienpool alle denselben Populationseffekt abbilden und Differenzen nur auf Stichprobenfehler zurückgehen. In die Gewichtungsfaktoren geht nur der Stichprobenumfang ein.

Random-Effects-Modell

Das Random-Effects-Modell (Modell zufallsbedingter Effekte) geht davon aus, dass die Primärstudien im Studienpool unterschiedliche Populationseffekte abbilden, dass also Differenzen nicht nur auf Stichprobenfehler, sondern auch auf inhaltliche Unterschiede der Studien zurückzuführen sind. In die Gewichtungsfaktoren geht neben dem Stichprobenumfang auch die Abweichung des Ergebnisses einer Primärstudie von den anderen Untersuchungen im Studienpool ein.

Mixed-Effects-Modell

Das Mixed-Effects-Modell kombiniert das Fixed-Effect- und das Random-Effects-Modell.

Delta-Maß

Das Delta-Maß ist ein universelles Effektgrößenmaß, das als Korrelationsäquivalent der bivariaten Produkt-Moment-Korrelation r entspricht. Es dient dazu, unterschiedliche standardisierte Effektgrößenmaße vergleichbar und aggregierbar zu machen. Praktisch jede testspezifische Effektgröße lässt sich in einen Delta-Wert transformieren.

Direkter und indirekter Effekt

Ein direkter Effekt liegt vor, wenn eine Prädiktorvariable eine Kriteriumsvariable unmittelbar beeinflusst. Als indirekter Effekt wird der Einfluss einer Prädiktorvariablen auf eine Kriteriumsvariable bezeichnet, der durch eine dritte Variable (Mediatorvariable) vermittelt (mediiert) wird: Die Prädiktorvariable hat einen Effekt auf die Mediatorvariable, und diese hat einen Effekt auf die Kriteriumsvariable.

Maximum-Likelihood-Schätzung

Eine Maximum-Likelihood-(ML-)Schätzung in Strukturgleichungsmodellen erfolgt so, dass bei Gültigkeit der – von den Parametern abhängigen – modelltheoretischen Kovarianzmatrix in der Population die Likelihood (Plausibilität, „Wahrscheinlichkeit“) maximal wird, in einer Stichprobe die gegebene empirische Kovarianzmatrix vorzufinden.

Residuen

Residuen sind Differenzen zwischen den empirischen Kovarianzen und den durch das Modell reproduzierten (modelltheoretischen) Kovarianzen. Je kleiner diese Residuen sind, desto besser kann das Modell insgesamt die empirischen Zusammenhänge erklären, d. h., desto besser stimmenModell und Daten überein. Je größer die Residuen sind, desto schlechter ist die Passung zwischen Modell und Daten. Die Residuen sollten nicht verwechselt werden mit den Residualvariablen im Modell, die unerklärte Anteile endogener latenter Variablen darstellen.

Grundlagenforschung

Die Grundlagenforschung widmet sich der Entwicklung und Überprüfung wissenschaftlicher Theorien.

Grundlagenwissenschaftliche Theorien

Grundlagenwissenschaftliche Theorien dienen der Beschreibung, Erklärung und Vorhersage von Sachverhalten jeglicher Art.

Interventionsforschung bzw. anwendungsorientierte Forschung

Die Interventionsforschung bzw. anwendungsorientierte Forschung widmet sich der Entwicklung und Überprüfung technologischer Theorien.

Technologische Theorien

Technologische Theorien dienen der Beschreibung, Erklärung und Vorhersage von Interventionen und geben dadurch Handlungsanweisungen.

Evaluationsforschung

Die Evaluationsforschung widmet sich der Bewertung von Maßnahmen, Programmen (Maßnahmenbündeln), aber auch von anderen Evaluationsgegenständen. Dabei wird auf technologische oder auch grundlagenwissenschaftliche Theorien zurückgegriffen. Evaluationsforschung operiert meist stärker theorieanwendend als theorieentwickelnd.

Programmtheorien

Programmtheorien erklären detailliert die Wirkungsweise einer evaluierten Maßnahme bzw. eines evaluierten Programms. Sie liegen meist nicht im Vorfeld vor, sondern werden im Zuge der Evaluationsforschung entwickelt und geprüft. Bei einer Programmtheorie handelt es sich also um eine Unterform der technologischen Theorien.

Evaluationsforschung bzw. wissenschaftliche Evaluation

Die Evaluationsforschung („evaluation research“) bzw. wissenschaftliche Evaluation („evaluation“) nutzt sozialwissenschaftliche Methoden, um einen Evaluationsgegenstand (z. B. ein Produkt oder eine Maßnahme) unter Berücksichtigung der relevanten Anspruchsgruppen (z. B. Patienten, Angehörige, Produktenwickler, Evaluationsauftraggeber) anhand bestimmter Evaluationskriterien (z. B. Akzeptanz, Wirksamkeit, Effizienz, Nachhaltigkeit) und Maßgaben zu ihren Ausprägungen zu bewerten. Die durch den Prozess der Evaluationsforschung im Ergebnis erlangte Bewertung soll in der Praxis unterschiedliche Evaluationsfunktionen erfüllen (z. B. Legitimations- oder Optimierungsfunktion), was eine aktive Evaluationsnutzung, d. h. ein praktisches Aufgreifen der laufenden und/oder abschließenden Evaluationsergebnisse verlangt (z. B. unterstützt durch schriftliche Reports, mündliche Berichte und/oder Workshops des Evaluationsteams für die relevanten Anspruchsgruppen). Die Evaluationsforschung ist den üblichen Prinzipien der Wissenschaftlichkeit sowie der Wissenschafts- und Forschungsethik verpflichtet, die für die besonderen Bedingungen der Evaluationsforschung zusätzlich in verbindliche Evaluationsstandards als Gütestandards für Evaluationsstudien gefasst wurden. Die Evaluationsforschung stellt über sozialwissenschaftliche Methodenkompetenz hinaus besondere Anforderungen an die Qualifikation der Evaluierenden.

Evaluationsgegenstand oder Evaluationsobjekt

Als Evaluationsgegenstand oder Evaluationsobjekt („evaluation object“, „evaluand“) bezeichnet man den Untersuchungsgegenstand, auf den sich eine wissenschaftliche Evaluation bezieht. Ein besonders typischer Evaluationsgegenstand sind einzelne Interventionsmaßnahmen (z. B. psychotherapeutische, pädagogische oder medizinische Verfahren) bzw. größer angelegte Programme (z. B. Weiterbildungs-, Frauenförder-, Integrationsprogramme), die auf bestimmte individuelle und kollektive Veränderungen abzielen.

Anspruchsgruppen bzw. Stakeholder

Im Kontext der Evaluationsforschung sind mit Anspruchsgruppen bzw. Stakeholdern („stakeholder“) alle direkt und indirekt von der Nutzung und Wirkung des Evaluationsgegenstandes Betroffenen („program beneficiary“ bzw. Zielgruppe: Kunden, Patienten, Teilnehmer sowie deren Angehörige, Freunde etc.) sowie alle an der Entwicklung, Umsetzung und Optimierung des Evaluationsgegenstandes Beteiligten („program developer/provider“: Produkt- und Maßnahmenentwickler, Maßnahmenverantwortliche, Dienstleistungspersonal, politische Entscheidungsträger etc.) gemeint.

Evaluationsklienten

Unter Evaluationsklienten („evaluation client“) versteht man Beteiligte und/oder Betroffene, die eine Evaluation in Auftrag geben bzw. denen das Evaluationsteam Dienstleistungen bietet.

Evaluationsrespondenten

Unter Evaluationsrespondenten („evaluation respondent“) versteht man Betroffene und Beteiligte, die an Datenerhebungen im Zuge einer Evaluationsstudie teilnehmen (z. B. mittels Fragebogen, Interview).

Evaluationskriterien

Evaluationskriterien („evaluation criteria“) beziehen sich auf das Konzept, die Durchführung sowie die Ergebnisse einer Maßnahme bzw. eines Evaluationsobjektes und können ganz unterschiedliche Bewertungsaspekte ansprechen (z. B. ökonomische, ökologische, psychologische, soziale, ethische Kriterien). Die Festlegung der relevanten Kriterien erfolgt anhand der Zielsetzungen der Maßnahme, der Vorgaben der Auftraggebenden, der Erwartungen weiterer relevanter Stakeholder, anhand allgemein konsensfähiger Qualitätsstandards, auf der Basis von Hinweisen aus der Fachliteratur und Fachcommunity und/oder aus der Praxis. Ergänzend zur zielorientierten Evaluation anhand vordefinierter Erfolgskriterien, die sich aus den offiziellen Programmzielen ableiten („goal-based evaluation“), ist es oft sinnvoll, auch für nicht-intendierteWirkungen einer Maßnahme offen zu sein und diese möglichst umfassend zu erheben. Hierzu eignen sich qualitative Methoden besonders gut. Die nicht-intendierten Effekte werden dann nachträglich anhand unterschiedlicher Kriterien bewertet. Bei der spezifischen Methode der zielfreien Evaluation („goal-free evaluation“) werden die offiziellen Maßnahmenziele den Evaluierenden gar nicht mitgeteilt, um so dieWahrscheinlichkeit zu erhöhen, dass sie auch nicht-intendierte Wirkungen aufdecken. Alternativ kann auch so vorgegangen werden, dass die Evaluierenden sich bewusst von den ihnen mitgeteilten offiziellen Maßnahmenzielen lösen und andere Wirkungen und Effekte erkunden. Von besonders großer praktischer Bedeutung ist die zielorientierte Evaluation der Ergebnisse einer Maßnahme im Hinblick auf ihre Effektivität (Wirksamkeit, Ausmaß der Zielerreichung) sowie ihre Effizienz (Kosten für die Zielerreichung bzw. Kosten-Nutzen-Bilanz).

Evaluationsfunktionen

Im Zuge der Evaluationsforschung wird eine wissenschaftlich fundierte Bewertung des Evaluationsgegenstandes erarbeitet, die wiederum dazu dient, übergeordnete praxisbezogene Funktionen zu erfüllen, die sich als Erkenntnis-, Lern- und Dialog-, Optimierungs-, Entscheidungs- und Legitimationsfunktionen fassen lassen.

Pseudoevaluation

Zuweilen werden Evaluationen aber auch für vordefinierte Zwecke instrumentalisiert bzw. missbraucht: Bei einer solchen Pseudoevaluation wird gar nicht ergebnisoffen eine wissenschaftliche Bewertung des Evaluationsgegenstandes vorgenommen, sondern das Ergebnis strategisch beeinflusst, manipuliert oder ignoriert.

Evaluationsnutzung

Mit der Evaluationsnutzung („evaluation utilization“) ist die Verwendung der Ergebnisse einer wissenschaftlichen Evaluation durch Verantwortliche in der Praxis gemeint. Damit die Evaluationsergebnisse zu sachgerechten Entscheidungen (z. B. Weiterführung einer Maßnahme oder nicht) und sinnvollen Veränderungen (z. B. spezifische Verbesserungen einer Maßnahme) führen, ist die Abgabe eines Evaluationsberichtes mit entsprechenden Empfehlungen meist nicht ausreichend. Stattdessen sollten die Bedeutung und Konsequenzen der Evaluationsergebnisse mit den entsprechenden Stakeholdern diskutiert und Umsetzungsprozesse organisiert werden (z. B. durch Workshops, Weiterbildungsmaßnahmen, Einrichtung von Arbeitsgruppen). Insbesondere wenn eine Evaluation die Funktion hat, die Maßnahme fortlaufend zu verbessern, sind Bemühungen um die Evaluationsnutzung nicht nur am Projektende sinnvoll, sondern häufige Rückkopplungen von Evaluationsergebnissen an die für die Entwicklung, Realisierung und Umsetzung des Evaluationsgegenstandes Zuständigen notwendig, etwa im Sinne eines Regelkreissystems.

Computationale Methoden

Computationale Methoden („computational methods“) beinhalten verschiedene Techniken der Erhebung, Aufbereitung und Analyse großer bis extrem großer digitaler Datensätze („big data“). Big Data meint dabei insbesondere Datensätze, die die Verarbeitungskapazitäten gängiger Statistikprogramme und Arbeitsplatzrechner überschreiten. Die Bezeichnung „computational“ (rechenintensiv) leitet sich davon ab, dass diese Methoden komplexe Forschungsprobleme lösen und dazu fortgeschrittene Rechenkapazitäten, Algorithmen, Künstliche Intelligenz und Techniken des maschinellen Lernens einsetzen. Typische Verfahren sind u. a. die automatische Textanalyse, die automatische Bild- und Videoanalyse, die computationale soziale Netzwerkanalyse und die computationale Analyse räumlicher Daten. Computationale Methoden werden inzwischen in allen sozial- und humanwissenschaftlichen Disziplinen eingesetzt.

Computationale Sozialwissenschaften

Computationale Sozialwissenschaften („computational social sciences“, CSS) und computationale Humanwissenschaften („computational human sciences“, CHS) sind interdisziplinäre Forschungsfelder, in denen sozial- und humanwissenschaftliche Fragestellungen auf unterschiedlichen Ebenen (Individuen, Gruppen, Gesellschaften) mit computationalen Methoden bearbeitet werden. Dabei ist eine enge Zusammenarbeit zwischen den jeweiligen Sozial- und Humanwissenschaften einerseits und den Ingenieur- und Formalwissenschaften (Informatik, Statistik, Mathematik) andererseits notwendig.

Datenwissenschaft

Die Datenwissenschaft („data science“) ist eine neue interdisziplinäre Wissenschaftsdisziplin, die sich damit beschäftigt, wie man aus Daten (vor allem aus großen unstrukturierten digitalen Datensätzen) Wissen generiert. Wichtige Forschungsfelder innerhalb der Datenwissenschaft betreffen die Entwicklung, Validierung und wissenschaftstheoretische Fundierung computationaler Methoden. Datenwissenschaftler:innen („data scientists“) sind sowohl in der akademischen als auch der industriellen Forschung tätig.

Zurück zur Übersicht