Bibliotheksforschungsleitfäden – Ebling-Bibliothek der Universität von Wisconsin

Drei experimentelle Designs

Um die Sache einfacher zu machen, dient Folgendes als Darstellung innerhalb bestimmter Designs:

  • X: Behandlung
  • O: Beobachtung oder Messung
  • R: Zufällige Zuordnung

Die drei experimentellen Designs, die in diesem Abschnitt diskutiert werden, sind:

1) Die One Shot-Fallstudie

Es gibt eine einzige Gruppe und sie wird nur einmal untersucht. Eine Gruppe wird in eine Behandlung oder einen Zustand eingeführt und dann auf Änderungen beobachtet, die der Behandlung zugeschrieben werden

X O

Die Probleme mit diesem Design sind:

  • Ein völliger Mangel an Manipulation. Außerdem sind die wissenschaftlichen Beweise in Bezug auf einen Vergleich und die Aufzeichnung von Kontrasten sehr schwach.
  • Es gibt auch eine Tendenz, den Irrtum der unangebrachten Präzision zu haben, wo der Forscher mühsame Sammlung spezifischer Details, sorgfältige Beobachtung, Tests usw. durchführt., und missinterpretiert das als das Erhalten der festen Forschung. Ein detailliertes Datenerhebungsverfahren sollte jedoch nicht mit einem guten Design gleichgesetzt werden. Im Kapitel Konstruktion, Messung und Analyse werden diese drei Komponenten klar voneinander unterschieden.
  • Geschichte, Reifung, Selektion, Mortalität und Interaktion von Selektion und experimenteller Variable sind potenzielle Bedrohungen für die interne Validität dieses Designs.

2) Eine Gruppe Pre-Posttest Design

Dies ist eine Präsentation eines Vortests, gefolgt von einer Behandlung, und dann ein Posttest wo der Unterschied zwischen O1 und O2wird durch X erklärt:

O1 X O2

Es besteht jedoch eine Bedrohung für die Gültigkeit der obigen Behauptung:

  • Geschichte: zwischen O1 und O2 können viele Ereignisse außer X aufgetreten sein, um die Unterschiede in den Ergebnissen zu erzeugen. Je länger der Zeitraum zwischen O1 und O2 ist, desto wahrscheinlicher wird die Geschichte zu einer Bedrohung.
  • Reifung: Zwischen O1- und O2-Schülern können sich ältere oder interne Zustände geändert haben, und daher wären die erhaltenen Unterschiede auf diese Änderungen im Gegensatz zu X zurückzuführen. Wenn die US-Regierung beispielsweise ab 2008 nichts gegen die Wirtschaftskrise unternimmt und die Krise ihren Lauf nimmt (so sagte es Mitt Romney), kann sich die Wirtschaft zehn Jahre später möglicherweise noch verbessern. In diesem Fall ist es problematisch, die Wirtschaft im Jahr 2021 und die im Jahr 2011 zu vergleichen, um festzustellen, ob eine bestimmte Politik wirksam ist; Der richtige Weg besteht vielmehr darin, die Wirtschaft im Jahr 2021 mit der Gesamtwirtschaft (z. B. 2011 bis 2021) zu vergleichen. In SPSS besteht der standardmäßige paarweise Vergleich darin, jede Kennzahl mit der endgültigen Kennzahl zu vergleichen. In SAS ist das Standardkontrastschema die Abweichung, bei der jede Kennzahl mit dem Gesamtmittelwert aller Kennzahlen (insgesamt) verglichen wird.
  • Testen: Der Effekt des Vortests selbst kann sich auf die Ergebnisse des zweiten Tests auswirken (d. H. IQ-Tests, die ein zweites Mal durchgeführt werden, führen zu einem Anstieg von 3-5 Punkten als beim ersten Mal). In den Sozialwissenschaften ist bekannt, dass der Prozess des Messens das ändern kann, was gemessen wird: der reaktive Effekt tritt auf, wenn der Testprozess selbst zu einer Verhaltensänderung führt und nicht zu einer passiven Aufzeichnung des Verhaltens (Reaktivität: Wir möchten nach Möglichkeit nicht reaktive Maßnahmen anwenden).
  • Instrumentierung: Beispiele sind in Bezug auf die Gültigkeit oben
  • Statistische Regression: oder Regression zum Mittelwert. Die zeitumkehrende Kontrollanalyse und die direkte Untersuchung auf Veränderungen der Populationsvariabilität sind proaktive Gegenmaßnahmen gegen solche Fehlinterpretationen des Ergebnisses. Wenn der Forscher eine sehr polarisierte Stichprobe auswählt, die aus extrem geschickten und extrem armen Schülern besteht, zeigt die erstere Gruppe entweder keine Verbesserung (Deckeneffekt) oder verringert ihre Punktzahlen, und die letztere scheint eine gewisse Verbesserung zu zeigen. Um diese Art von Fehlinterpretation zu korrigieren, möchten die Forscher möglicherweise eine Zeitumkehranalyse (Posttest-Pretest) durchführen, um die wahren Behandlungseffekte zu analysieren. Die Forscher können auch Ausreißer aus der Analyse ausschließen oder die Werte anpassen, indem sie die Mittelwert winsorizing (die Ausreißer in Richtung der Mitte der Verteilung schieben).
  • Andere: Geschichte, reifung, prüfung, instrumentierung interaktion von prüfung und reifung, interaktion von prüfung und die experimentelle variable und die interaktion von auswahl und die experimentelle variable sind auch bedrohungen gültigkeit für dieses design.

3) Der statische Gruppenvergleich

Dies ist ein Zwei-Gruppen-Design, bei dem eine Gruppe einer Behandlung ausgesetzt ist und die Ergebnisse getestet werden, während eine Kontrollgruppe nicht der Behandlung ausgesetzt ist und in ähnlicher Weise getestet wird, um die Auswirkungen der Behandlung zu vergleichen.

X O1
O2

Zu den Validitätsbedrohungen gehören:

  • Auswahl: Die ausgewählten Gruppen können vor jeder Behandlung tatsächlich unterschiedlich sein.
  • Sterblichkeit: die Unterschiede zwischen O1 und O2kann auf die Drop-out-Rate von Probanden aus einer bestimmten Versuchsgruppe zurückzuführen sein, was dazu führen würde, dass die Gruppen ungleich sind.
  • Andere: Interaktion von Selektion und Reifung und Interaktion von Selektion und experimenteller Variable.

Drei echte experimentelle Designs

Die nächsten drei diskutierten Designs sind die am stärksten empfohlenen Designs:

1) Das Pretest-Posttest-Kontrollgruppendesign

Dieses Design nimmt diese Form an:

R O1 X O2
R O3 O4

Dieses Design steuert für alle sieben Bedrohungen Gültigkeit im Detail bisher beschrieben. Im Folgenden wird erläutert, wie dieses Design diese Bedrohungen steuert.

  • Verlauf: Dies wird dadurch gesteuert, dass die allgemeinen Verlaufsereignisse, die zu den O1- und O2-Effekten beigetragen haben könnten, auch die O3- und O4-Effekte erzeugen würden. Dies gilt jedoch genau dann, wenn das Experiment auf eine bestimmte Weise ausgeführt wird: der Forscher darf die Behandlungs- und Kontrollgruppen nicht zu unterschiedlichen Zeiten und in sehr unterschiedlichen Umgebungen testen, da diese Unterschiede die Ergebnisse beeinflussen können. Vielmehr muss der Forscher die Kontroll- und Versuchsgruppe gleichzeitig testen. Die Intrasession-Historie muss ebenfalls berücksichtigt werden. Wenn beispielsweise die Gruppen gleichzeitig getestet werden, können verschiedene Experimentatoren beteiligt sein, und die Unterschiede zwischen den Experimentatoren können zu den Effekten beitragen.

    In diesem Fall ist eine mögliche Gegenmaßnahme die Randomisierung von experimentellen Bedingungen, wie z. B. Gegenabgleich in Bezug auf Experimentator, Tageszeit, Woche usw.

  • Reifung und Testung: Diese werden in dem Sinne kontrolliert, dass sie sich sowohl in der Behandlungs- als auch in der Kontrollgruppe gleichermaßen manifestieren.
  • Instrumentierung: Dies wird gesteuert, wenn die Bedingungen für die Intrasession-Historie gesteuert werden, insbesondere wenn dieselben Tests verwendet werden. Wenn jedoch verschiedene Bewerter, Beobachter oder Interviewer beteiligt sind, wird dies zu einem potenziellen Problem. Wenn nicht genügend Rater oder Beobachter vorhanden sind, die zufällig verschiedenen experimentellen Bedingungen zugeordnet werden können, müssen die Rater oder Beobachter für den Zweck des Experiments blind sein.
  • Regression: Dies wird durch die mittleren Unterschiede unabhängig von der Anzahl der Scores oder Merkmale gesteuert, wenn die Behandlungs- und Kontrollgruppen zufällig aus demselben Extrempool zugewiesen werden. In diesem Fall entwickeln sich beide Gruppen unabhängig von der Behandlung in ähnlicher Weise zurück.
  • Auswahl: Dies wird durch Randomisierung gesteuert.
  • Sterblichkeit: dies soll in diesem Design gesteuert werden. Sofern die Mortalitätsrate in Behandlungs- und Kontrollgruppen nicht gleich ist, kann jedoch nicht mit Sicherheit angegeben werden, dass die Mortalität nicht zu den Experimentergebnissen beigetragen hat. Selbst wenn sogar die Mortalität tatsächlich auftritt, bleibt die Möglichkeit komplexer Wechselwirkungen bestehen, die dazu führen können, dass sich die Abbruchquoten zwischen den beiden Gruppen unterscheiden. Die Bedingungen zwischen den beiden Gruppen müssen ähnlich bleiben: wenn beispielsweise die Behandlungsgruppe an der Behandlungssitzung teilnehmen muss, muss die Kontrollgruppe auch an Sitzungen teilnehmen, bei denen entweder keine Behandlung oder eine „Placebo“ -Behandlung stattfindet. Aber auch hier bleibt die Möglichkeit der Bedrohung der Gültigkeit bestehen. Zum Beispiel kann sogar das Vorhandensein eines „Placebos“ zu einem ähnlichen Effekt wie die Behandlung beitragen, die Placebo-Behandlung muss etwas glaubwürdig sein und kann daher zu ähnlichen Ergebnissen führen!

Die bisher beschriebenen Faktoren beeinflussen die interne Validität. Diese Faktoren können zu Veränderungen führen, die als Ergebnis der Behandlung interpretiert werden können. Diese werden als Haupteffekte bezeichnet, die in diesem Design kontrolliert wurden und ihm interne Gültigkeit verleihen.

In diesem Design gibt es jedoch Bedrohungen für die externe Validität (auch Interaktionseffekte genannt, da sie die Behandlung und eine andere Variable betreffen, deren Interaktion die Validitätsbedrohung verursacht). Es ist wichtig zu beachten, dass die externe Validität oder Verallgemeinerbarkeit immer eine Extrapolation in einen Bereich beinhaltet, der in der Stichprobe nicht dargestellt wird.

Im Gegensatz dazu ist die interne Validität durch die Logik der Wahrscheinlichkeitsstatistik lösbar, was bedeutet, dass wir die interne Validität basierend auf Wahrscheinlichkeitsstatistiken innerhalb des durchgeführten Experiments steuern können. Andererseits kann externe Validität oder Verallgemeinerbarkeit nicht logisch auftreten, da wir nicht logisch auf verschiedene Einstellungen extrapolieren können. (Humes Binsenweisheit, dass Induktion oder Verallgemeinerung logisch niemals vollständig gerechtfertigt ist).

Externe Bedrohungen umfassen:

  • Zusammenspiel von Test und X: da die Wechselwirkung zwischen der Durchführung eines Vortests und der Behandlung selbst die Ergebnisse der Versuchsgruppe beeinflussen kann, ist es wünschenswert, ein Design zu verwenden, das keinen Vortest verwendet.
  • Interaktion von Selektion und X: Obwohl die Selektion durch zufällige Zuordnung von Probanden zu Versuchs- und Kontrollgruppen gesteuert wird, besteht die Möglichkeit, dass die nachgewiesenen Effekte nur für die Population gelten, aus der die Versuchs- und Kontrollgruppen ausgewählt wurden. Ein Beispiel ist ein Forscher, der versucht, Schulen auszuwählen, die beobachtet werden sollen, die jedoch von 9 abgelehnt und vom 10. akzeptiert wurden. Die Merkmale der 10. Schule können sich erheblich von den anderen unterscheiden 9, und daher nicht repräsentativ für eine durchschnittliche Schule. Daher sollte der Forscher in jedem Bericht die untersuchte Population sowie alle Populationen beschreiben, die die Einladung abgelehnt haben.
  • Reaktive Anordnungen: Dies bezieht sich auf die Künstlichkeit des Versuchsumfelds und das Wissen des Probanden, dass er an einem Experiment teilnimmt. Diese Situation ist nicht repräsentativ für die Schulumgebung oder eine natürliche Umgebung und kann die Experimentergebnisse ernsthaft beeinträchtigen. Um dieses Problem zu beheben, sollten Experimente als Varianten in die regulären Lehrpläne aufgenommen, Tests in die normale Testroutine integriert und die Behandlung durch reguläres Personal mit einzelnen Schülern durchgeführt werden.

Forschung sollte in Schulen auf diese Weise durchgeführt werden: Ideen für Forschung sollten von Lehrern oder anderem Schulpersonal stammen. Die Entwürfe für diese Forschung sollten mit jemandem ausgearbeitet werden, der Experte für Forschungsmethodik ist, und die Forschung selbst wird von denen durchgeführt, die die Forschungsidee entwickelt haben. Die Ergebnisse sollten vom Experten analysiert werden, und dann die endgültige Interpretation durch einen Vermittler geliefert.

Signifikanztests für dieses Design: Obwohl dieses Design angemessen entwickelt und durchgeführt werden kann, werden statistische Signifikanztests nicht immer angemessen verwendet.

  • Falsche Statistik im allgemeinen Gebrauch: viele verwenden einen t-Test, indem sie zwei ts berechnen, einen für den Pre-Post-Unterschied in der experimentellen Gruppe und einen für den Pre-Post-Unterschied der Kontrollgruppe. Wenn der experimentelle T-Test im Gegensatz zur Kontrollgruppe statistisch signifikant ist, soll die Behandlung eine Wirkung haben. Dies berücksichtigt jedoch nicht, wie „nah“ der T-Test wirklich gewesen sein könnte. Ein besseres Verfahren besteht darin, eine wiederholte 2X2-ANOVA-Messung durchzuführen, bei der der Pre-Post-Unterschied als Faktor innerhalb des Subjekts, der Gruppenunterschied als Faktor zwischen den Subjekten und der Interaktionseffekt beider Faktoren getestet werden.
  • Verwendung von Verstärkungswerten und Kovarianz: Der am häufigsten verwendete Test besteht darin, die Verstärkungswerte vor dem Test für jede Gruppe zu berechnen und dann einen t-Test zwischen der experimentellen und der Kontrollgruppe anhand der Verstärkungswerte zu berechnen. Darüber hinaus ist es hilfreich, randomisiertes „Blockieren“ oder „Nivellieren“ für Pretest-Scores zu verwenden, da das Blockieren die Varianz innerhalb des Subjekts lokalisieren kann, die auch als Fehlervarianz bezeichnet wird. Es ist wichtig darauf hinzuweisen, dass Gain-Scores den Decken- und Bodeneffekten unterliegen. In ersterem beginnen die Probanden mit einem sehr hohen Pretest-Score und in letzterem haben die Probanden eine sehr schlechte Pretest-Performance. In diesem Fall ist die Analyse der Kovarianz (ANCOVA) normalerweise einem einfachen Gain-Score-Vergleich vorzuziehen.
  • Statistik für die zufällige Zuordnung intakter Klassenräume zu Behandlungen: Wenn intakte Klassenräume nach dem Zufallsprinzip Behandlungen zugewiesen wurden (im Gegensatz zu Personen, die Behandlungen zugewiesen wurden), werden Klassenmittelwerte als grundlegende Beobachtungen verwendet, und Behandlungseffekte werden gegen Variationen dieser Mittelwerte getestet. Eine Kovarianzanalyse würde Pretestmittel als Kovariate verwenden.

2) Die Soloman Vier-Gruppe Design

Die design ist als:

R O1 X O2
R O3 O4
R X O5
R O6

In diesem Forschungsdesign werden die Probanden zufällig in vier verschiedene Gruppen eingeteilt: experimentell mit beiden Pre-Posttests, experimentell ohne Pretest, Kontrolle mit Pre-Posttests und Kontrolle ohne Pretests. In dieser Konfiguration werden sowohl die Haupteffekte des Testens als auch das Zusammenspiel von Test und Behandlung gesteuert. Dadurch wird die Generalisierbarkeit verbessert und die Wirkung von X auf vier verschiedene Arten repliziert.

Statistische Tests für dieses Design: Eine gute Möglichkeit, die Ergebnisse zu testen, besteht darin, den Pretest als „Behandlung“ auszuschließen und die Posttest-Scores mit einer 2X2-Analyse des Varianzdesigns zu behandeln – pretested gegen pretested. Alternativ kann der Pretest, der eine Form der vorbestehenden Differenz ist, als Kovariate in ANCOVA verwendet werden.

3) Das Posttest-Only-Kontrollgruppendesign

Dieses Design ist wie folgt:

R X O1
R O2

Dieses Design kann als die letzten beiden Gruppen im aktuellen 4-Gruppen-Design angesehen werden. Und kann als Kontrolle für das Testen als Haupteffekt und Interaktion angesehen werden, aber im Gegensatz zu diesem Design werden sie nicht gemessen. Die Messung dieser Effekte ist jedoch nicht notwendig, um die zentrale Frage zu beantworten, ob Xdid eine Wirkung hat oder nicht. Dieses Design eignet sich für Zeiten, in denen Vortests nicht akzeptabel sind.

Statistische Tests für dieses Design: Die einfachste Form wäre der T-Test. Kovarianzanalyse und Blockierung von Subjektvariablen (vorherige Noten, Testergebnisse usw.) verwendet werden, die die Aussagekraft des Signifikanztests ähnlich wie bei einem Vortest erhöhen.

Diskussion über kausale Inferenz und Verallgemeinerung

Wie oben dargestellt, haben Cook und Campbell große Anstrengungen unternommen, um die Bedrohungen der internen Validität (Ursache und Wirkung) und der externen Validität (Verallgemeinerung) zu vermeiden / zu reduzieren. Einige weit verbreitete Konzepte können jedoch auch andere Arten von Bedrohungen für die interne und externe Gültigkeit beitragen.

Einige Forscher spielen die Bedeutung der kausalen Inferenz herunter und behaupten den Wert des Verstehens. Dieses Verständnis beinhaltet „was,““Wie,“ Und „warum. Wird „Warum“ jedoch als „Ursache-Wirkungs-Beziehung“ betrachtet? Wenn eine Frage „Warum X passiert“ gestellt wird und die Antwort „Y passiert“ lautet, bedeutet dies, dass „Y X verursacht“? Wenn X und Y nur korreliert sind, wird die Frage „Warum. Das Ersetzen von „Ursache und Wirkung“ durch „Verständnis“ macht die Schlussfolgerung verwirrend und führt die Forscher von der Frage der „internen Gültigkeit“ ab.“

Einige Forscher wenden einen engen Ansatz zur „Erklärung “ an.“ In dieser Ansicht wird eine Erklärung nur auf einen bestimmten Fall zu einer bestimmten Zeit und an einem bestimmten Ort kontextualisiert, und daher wird eine Verallgemeinerung als unangemessen angesehen. In der Tat könnte eine überspezifische Erklärung überhaupt nichts erklären. Wenn man zum Beispiel fragt: „Warum Alex Yu sich so verhält“, könnte die Antwort lauten: „Weil er Alex Yu ist. Er ist ein einzigartiger Mensch. Er hat einen bestimmten familiären Hintergrund und einen bestimmten sozialen Kreis.“ Diese “ besonderen“ Aussagen haben immer Recht und führen die Forscher damit von der Frage der externen Gültigkeit ab.

Informationen von Bedrohungen zur Validität des Forschungsdesigns von Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

More: