Biblioteksforskningsguider – University of Wisconsin Ebling Library

tre experimentella mönster

för att göra det lättare kommer följande att fungera som representationer inom särskilda mönster:

  • X: behandling
  • O: Observation eller mätning
  • R: slumpmässig tilldelning

de tre experimentella mönster som diskuteras i detta avsnitt är:

1) fallstudien med ett skott

det finns en enda grupp och den studeras bara en gång. En grupp introduceras till en behandling eller ett tillstånd och observeras sedan för förändringar som tillskrivs behandlingen

X O

problemen med denna design är:

  • total avsaknad av manipulation. Det vetenskapliga beviset är också mycket svagt när det gäller att göra en jämförelse och registrera kontraster.
  • det finns också en tendens att ha felaktigheten av felplacerad precision, där forskaren engagerar sig i tråkig samling av specifika detaljer, noggrann observation, testning och etc., och misstolkar detta som att få solid forskning. Ett detaljerat datainsamlingsförfarande bör dock inte likställas med en bra design. I kapitlet om design, mätning och analys skiljer sig dessa tre komponenter tydligt från varandra.
  • historia, mognad, urval, dödlighet och interaktion mellan urval och den experimentella variabeln är potentiella hot mot den interna giltigheten av denna design.

2) en grupp Pre-Posttest Design

detta är en presentation av ett förtest, följt av en behandling och sedan ett posttest där skillnaden mellan O1 och O2förklaras av X:

O1 X O2

det finns dock hot mot giltigheten av ovanstående påstående:

  • historia: mellan O1 och O2 kan många händelser ha inträffat förutom X för att ge skillnaderna i resultat. Ju längre tid förflutit mellan O1 och O2, desto mer sannolikt blir historien ett hot.
  • mognad: mellan O1 och O2 studenter kan ha blivit äldre eller interna tillstånd kan ha förändrats och därför skulle de erhållna skillnaderna bero på dessa förändringar i motsats till X. Till exempel, om den amerikanska regeringen inte gör något mot den ekonomiska depressionen från och med 2008 och låt krisen gå sin kurs (Det är vad Mitt Romney sa), tio år senare kan ekonomin fortfarande förbättras. I det här fallet är det problematiskt att jämföra ekonomin 2021 och att 2011 för att avgöra om en viss politik är effektiv; snarare är det rätta sättet att jämföra ekonomin 2021 med den övergripande (t.ex. 2011 till 2021). I SPSS är standardparvis Jämförelse att kontrastera varje mått med det slutliga måttet, men det kan vara vilseledande. I SAS är standardkontrastschemat avvikelse, där varje mått jämförs med det stora medelvärdet av alla mått (totalt).
  • testning: effekten av att ge förprovet i sig kan påverka resultaten av det andra testet (dvs IQ-tester som tas en andra gång resulterar i 3-5-punktsökning än de som tar det första gången). Inom samhällsvetenskapen har det varit känt att mätprocessen kan förändra det som mäts: den reaktiva effekten uppstår när testprocessen i sig leder till förändringen i beteende snarare än att det är en passiv registrering av beteende (reaktivitet: vi vill använda icke-reaktiva åtgärder när det är möjligt).
  • instrumentering: exempel är i hot mot giltighet över
  • statistisk regression: eller regression mot medelvärdet. Tidsomvänd kontrollanalys och direkt undersökning för förändringar i befolkningsvariabilitet är proaktiva motåtgärder mot sådana feltolkningar av resultatet. Om forskaren väljer ett mycket polariserat prov som består av extremt skickliga och extremt fattiga studenter, kan den tidigare gruppen antingen inte visa någon förbättring (takeffekt) eller minska sina poäng, och den senare kan tyckas visa viss förbättring. Naturligtvis är detta resultat midleading, och för att korrigera denna typ av feltolkning kanske forskare vill göra en tidsomvänd (posttest-pretest) analys för att analysera de sanna behandlingseffekterna. Forskare kan också utesluta outliers från analysen eller att justera poängen genom att winsorizing medlen (trycka outliers mot mitten av fördelningen).
  • andra: historia, mognad, testning, instrumentation interaktion av testning och mognad, interaktion av testning och den experimentella variabeln och interaktionen mellan urval och den experimentella variabeln är också hot mot giltighet för denna design.

3) Den statiska Gruppjämförelsen

detta är en tvågruppsdesign, där en grupp exponeras för en behandling och resultaten testas medan en kontrollgrupp inte exponeras för behandlingen och på liknande sätt testas för att jämföra effekterna av behandlingen.

X O1
O2

hot mot giltighet inkluderar:

  • urval: valda grupper kan faktiskt vara olika före någon behandling.
  • dödlighet: skillnaderna mellan O1 och O2kan bero på bortfallet av ämnen från en specifik experimentgrupp, vilket skulle få grupperna att vara ojämlika.
  • andra: interaktion mellan urval och mognad och interaktion mellan urval och experimentell variabel.

tre sanna experimentella mönster

de följande tre mönster som diskuteras är de mest rekommenderade designerna:

1) kontrollgruppens design förtest-Posttest

denna design tar på sig denna form:

r O1 X O2
r O3 O4

denna design kontrollerar för alla de sju hot mot giltighet som hittills beskrivits i detalj. En förklaring av hur denna design kontrollerar för dessa hot finns nedan.

  • historia: detta kontrolleras genom att de allmänna historiahändelserna som kan ha bidragit till O1-och O2-effekterna också skulle ge O3-och O4-effekterna. Detta är dock sant om och endast om experimentet körs på ett visst sätt: forskaren får inte testa behandlings-och kontrollgrupperna vid olika tidpunkter och i väldigt olika inställningar eftersom dessa skillnader kan påverka resultaten. Snarare måste forskaren testa kontroll-och experimentgrupperna samtidigt. Intrasessionshistoria måste också beaktas. Till exempel om grupperna testas samtidigt, då olika praktiker kan vara inblandade, och skillnaderna mellan praktiker kan bidra till effekterna.

    i detta fall är en möjlig motåtgärd randomisering av experimentella förhållanden, såsom motbalansering när det gäller experimenterare, tid på dagen, veckan och etc.

  • mognad och testning: dessa kontrolleras i den meningen att de manifesteras lika i både behandlings-och kontrollgrupper.
  • instrumentering: detta styrs där förhållandena kontrollerar för intrasessionshistorik, särskilt där samma test används. Men när olika bedömare, observatörer eller intervjuare är inblandade blir detta ett potentiellt problem. Om det inte finns tillräckligt med bedömare eller observatörer för att slumpmässigt tilldelas olika experimentella förhållanden måste bedömarna eller observatörerna vara blinda för syftet med experimentet.
  • Regression: detta styrs av medelskillnaderna oavsett extremt poäng eller egenskaper, om behandlings-och kontrollgrupperna slumpmässigt tilldelas från samma extrema pool. Om detta inträffar kommer båda grupperna att regressera på samma sätt, oavsett behandling.
  • Val: detta styrs av randomisering.
  • dödlighet: detta sägs kontrolleras i denna design. Om inte dödligheten är lika i behandlings-och kontrollgrupper är det emellertid inte möjligt att med säkerhet ange att dödligheten inte bidrog till experimentets resultat. Även när jämn dödlighet faktiskt uppstår, finns det fortfarande en möjlighet till komplexa interaktioner som kan göra att effekterna avhopp varierar mellan de två grupperna. Förhållandena mellan de två grupperna måste förbli lika: till exempel, om behandlingsgruppen måste delta i behandlingssessionen, måste kontrollgruppen också delta i sessioner där antingen ingen behandling inträffar eller en ”placebo” – behandling inträffar. Men även i detta finns det fortfarande möjligheter till hot mot giltighet. Till exempel kan även närvaron av en ”placebo” bidra till en effekt som liknar behandlingen, placebobehandlingen måste vara något trovärdig och kan därför sluta ha liknande resultat!

de faktorer som hittills beskrivits påverkar intern validitet. Dessa faktorer kan ge förändringar, vilket kan tolkas som resultatet av behandlingen. Dessa kallas huvudeffekter, som har kontrollerats i denna design och ger den intern validitet.

men i denna design Finns det hot mot extern validitet (även kallad interaktionseffekter eftersom de involverar behandlingen och någon annan variabel vars interaktion orsakar hotet mot validiteten). Det är viktigt att notera här att extern validitet eller generaliserbarhet alltid visar sig innebära extrapolering till ett rike som inte representeras i ett prov.

däremot kan Intern validitet lösas av sannolikhetsstatistikens logik, vilket innebär att vi kan kontrollera för intern validitet baserat på sannolikhetsstatistik inom det utförda experimentet. Å andra sidan kan extern validitet eller generaliserbarhet inte logiskt uppstå eftersom vi inte logiskt kan extrapolera till olika inställningar. (Humes truism att induktion eller generalisering aldrig är helt motiverad logiskt).

externa hot inkluderar:

  • interaktion mellan testning och X: eftersom interaktionen mellan att ta ett förtest och själva behandlingen kan påverka resultaten från experimentgruppen är det önskvärt att använda en design som inte använder ett förtest.
  • interaktion mellan urval och X: även om urval kontrolleras genom att slumpmässigt tilldela ämnen till experimentella och kontrollgrupper, finns det fortfarande en möjlighet att de visade effekterna endast gäller för den population från vilken experimentella och kontrollgrupper valdes. Ett exempel är en forskare som försöker välja skolor att observera, men har avvisats av 9 och accepterats av den 10: e. Egenskaperna hos den 10: eskolan kan vara väldigt annorlunda än de andra 9, och därför inte representativ för en genomsnittlig skola. Därför ska forskaren i varje rapport beskriva den studerade befolkningen samt alla populationer som avvisade inbjudan.
  • reaktiva arrangemang: detta hänvisar till den experimentella inställningens artificitet och ämnets kunskap om att han deltar i ett experiment. Denna situation är inte representativ för skolinställningen eller någon naturlig miljö och kan allvarligt påverka experimentets resultat. För att avhjälpa detta problem bör experiment införlivas som varianter av de vanliga läroplanerna, tester bör integreras i den normala testrutinen och behandling bör levereras av regelbunden personal med enskilda studenter.

forskning ska bedrivas i skolor på detta sätt: forskningsförslag ska komma från lärare eller annan skolpersonal. Designerna för denna forskning bör utarbetas med någon expert på forskningsmetodik, och själva forskningen utförs av dem som kom med forskningsideen. Resultaten ska analyseras av experten och sedan den slutliga tolkningen som levereras av en mellanhand.

tester av betydelse för denna design: även om denna design kan utvecklas och genomföras på lämpligt sätt, används statistiska tester av betydelse inte alltid på lämpligt sätt.

  • fel statistik i vanligt bruk: många använder ett T-test genom att beräkna två ts, en för skillnaden före post i experimentgruppen och en för kontrollgruppens skillnad före post. Om det experimentella t-testet är statistiskt signifikant i motsats till kontrollgruppen sägs behandlingen ha en effekt. Men detta tar inte hänsyn till hur ”nära” t-testet verkligen kan ha varit. Ett bättre förfarande är att köra en 2×2 ANOVA upprepade åtgärder, testa skillnaden före post som inom-ämnesfaktorn, gruppskillnaden som mellan-ämnesfaktorn och interaktionseffekten av båda faktorerna.
  • användning av gain-poäng och kovarians: det mest använda testet är att beräkna Pre-posttest gain-poäng för varje grupp och sedan beräkna ett t-test mellan experimentella och kontrollgrupper på gain-poängen. Dessutom är det bra att använda randomiserad ”blockering” eller ”utjämning” på pretest-poäng eftersom blockering kan lokalisera variansen inom ämnet, även känd som felvariationen. Det är viktigt att påpeka att vinst poäng är föremål för tak och golv effekter. I det förra börjar ämnena med ett mycket högt pretest-poäng och i det senare har ämnena mycket dålig pretest-prestanda. I detta fall är analys av kovarians (ANCOVA) vanligtvis att föredra framför en enkel jämförelse mellan vinst och poäng.
  • statistik för slumpmässig tilldelning av intakta klassrum till behandlingar: när intakta klassrum har tilldelats slumpmässigt till behandlingar (i motsats till att individer tilldelas behandlingar) används klassmedel som grundläggande observationer och behandlingseffekter testas mot variationer i dessa medel. En kovariansanalys skulle använda förtestmedel som kovariat.

2) Soloman Four-Group Design

designen är som:

r O1 X O2
r O3 O4
R X O5
R O6

i denna forskningsdesign tilldelas ämnen slumpmässigt i fyra olika grupper: experimentell med både pre-posttests, experimentell utan pretest, kontroll med pre-posttests, och kontroll utan pretest. I denna konfiguration kontrolleras både de viktigaste effekterna av testning och interaktionen mellan testning och behandling. Som ett resultat förbättras generaliserbarheten och effekten av X replikeras på fyra olika sätt.

statistiska tester för denna design: ett bra sätt att testa resultaten är att utesluta förprovet som en ”behandling” och behandla posttestpoängen med en 2×2-analys av variansdesign-pretestad mot unpretested. Alternativt kan förprovet, som är en form av befintlig skillnad, användas som en kovariat i ANCOVA.

3) den posttest-Only kontrollgrupp Design

denna design är som:

r X O1
R O2

denna design kan ses som de två sista grupperna i Solomon 4-gruppdesign. Och kan ses som kontrollerande för testning som huvudeffekt och interaktion, men till skillnad från denna design mäter den inte dem. Men mätningen av dessa effekter är inte nödvändig för den centrala frågan om huruvida Xdid inte har någon effekt. Denna design är lämplig för tider då pretester inte är acceptabla.

statistiska tester för denna design: den enklaste formen skulle vara t-testet. Men kovariansanalys och blockering av ämnesvariabler (tidigare betyg, testresultat etc.) kan användas som ökar kraften i signifikanstestet på samma sätt som vad som tillhandahålls av ett förtest.

diskussion om kausal inferens och generalisering

som illustrerat ovan ägnade Cook och Campbell mycket ansträngningar för att undvika/minska hoten mot intern validitet (orsak och verkan) och extern validitet (generalisering). Vissa utbredda begrepp kan dock också bidra med andra typer av hot mot intern och extern validitet.

vissa forskare bagatelliserar vikten av kausal inferens och hävdar värdet av förståelse. Denna förståelse inkluderar ”vad”, ”hur” och ”varför.”Men är” varför ”betraktas som en” orsak och verkan ” relation? Om en fråga” varför X händer ”ställs och svaret är ”Y händer”, innebär det att ”Y orsakar X”? Om X och Y endast är korrelerade, tar det inte upp frågan ”varför.”Att ersätta” orsak och verkan” med ”förståelse” gör slutsatsen förvirrande och felriktad forskare bort från frågan om ”intern validitet.”

vissa forskare tillämpar en smal inställning till ”förklaring.”I denna uppfattning kontextualiseras en förklaring till endast ett visst fall på en viss tid och plats, och därmed anses generalisering vara olämplig. Faktum är att en överspecifik förklaring kanske inte förklarar någonting alls. Till exempel, om man frågar, ”Varför Alex Yu beter sig på det sättet,” svaret kan vara ”eftersom han är Alex Yu. Han är en unik människa. Han har en viss familjebakgrund och en specifik social cirkel.”Dessa” speciella ” uttalanden är alltid rätt, vilket leder forskare bort från frågan om extern validitet.

Information från hot mot giltigheten av forskningsdesign av Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml

Lämna ett svar

Din e-postadress kommer inte publiceras.

More: