- Tre Eksperimentelle Design
- 1) One Shot Case Study
- 2) En Gruppe Pre-Posttest Design
- 3) Den Statiske Gruppesammenligningen
- Tre Sanne Eksperimentelle Design
- 1) Pretest-Posttest Control Group Design
- 2) Soloman Fire-Gruppedesign
- 3) Den Posttest-Eneste Kontrollgruppedesignen
- Diskusjon om årsakssammenheng og generalisering
Tre Eksperimentelle Design
for å gjøre ting enklere, vil følgende fungere som representasjoner innen bestemte design:
- X: Behandling
- O: Observasjon eller måling
- R: Tilfeldig oppgave
De Tre Eksperimentelle Designene Som Er Omtalt I Denne Delen, Er:
1) One Shot Case Study
Det er en enkelt gruppe Og den studeres bare en gang. En gruppe blir introdusert til en behandling eller tilstand og deretter observert for endringer som tilskrives behandlingen
X O problemene med dette designet er:
- en total mangel på manipulasjon. Også det vitenskapelige beviset er svært svakt når det gjelder å sammenligne og registrere kontraster.
- Det er også en tendens til å ha feilslutning av feilplassert presisjon, hvor forskeren engasjerer seg i kjedelig samling av spesifikke detaljer, nøye observasjon,testing og etc., og feiltolker dette som å skaffe solid forskning. En detaljert datainnsamlingsprosedyre bør imidlertid ikke likestilles med en god design. I kapitlet om design, måling og analyse er disse tre komponentene tydelig skilt fra hverandre.
- Historie, modning, seleksjon, dødelighet og interaksjon mellom seleksjon og eksperimentell variabel er potensielle trusler mot den interne gyldigheten av dette designet.
2) En Gruppe Pre-Posttest Design
Dette er en presentasjon av en pretest, etterfulgt av en behandling, og deretter en posttest hvor forskjellen Mellom O1 Og O2forklares Av X:
O1 X O2 det finnes imidlertid trusler mot gyldigheten av ovennevnte påstand:
- Historie: Mellom O1 Og O2 mange hendelser kan ha skjedd bortsett Fra X for å produsere forskjeller i utfall. Jo lengre tidsavbrudd Mellom O1 Og O2, jo mer sannsynlig blir historien en trussel.
- Modning: mellom o1 og O2-studenter kan ha blitt eldre eller interne tilstander kan ha endret seg, og derfor vil forskjellene oppnådd kunne tilskrives disse endringene i motsetning Til X. For EKSEMPEL, hvis den AMERIKANSKE regjeringen ikke gjør noe med den økonomiske depresjonen fra 2008 og la krisen gå sin gang (Dette er Hva Mitt Romney sa), ti år senere kan økonomien fortsatt bli bedre. I dette tilfellet er det problematisk å sammenligne økonomien i 2021 og det i 2011 å avgjøre om en bestemt politikk er effektiv; snarere er den riktige måten å sammenligne økonomien i 2021 med det samlede (f. eks. 2011 til 2021). I SPSS er standard parvis sammenligning å kontrastere hvert mål med det endelige målet, men det kan være misvisende. I SAS standard kontrast ordningen Er Avvik, der hvert mål er sammenlignet med den store gjennomsnittet av alle tiltak (samlet).
- Testing: effekten av å gi pretesten selv kan påvirke resultatene av den andre testen (DVS.IQ-tester tatt en gang resulterer i 3-5 poeng økning enn de som tar det første gang). I samfunnsvitenskapene har det vært kjent at måleprosessen kan endre det som måles: den reaktive effekten oppstår når testprosessen selv fører til endring i atferd i stedet for at den er en passiv registrering av atferd (reaktivitet: vi vil bruke ikke-reaktive tiltak når det er mulig).
- Instrumentering: eksempler er trusler mot validitet over
- Statistisk regresjon: eller regresjon mot gjennomsnittet. Time-reversed kontrollanalyse og direkte undersøkelse for endringer i populasjonsvariabilitet er proaktive mottiltak mot slike feiltolkninger av resultatet. Hvis forskeren velger en svært polarisert prøve bestående av ekstremt dyktige og ekstremt dårlige studenter, kan den tidligere gruppen enten ikke vise noen forbedring (takeffekt) eller redusere poengsummen, og sistnevnte kan synes å vise noen forbedring. Unødvendig å si, dette resultatet er midtledende, og for å rette opp denne typen feilfortolkning, kan forskere kanskje gjøre en tids-reversert (posttest-pretest) analyse for å analysere de sanne behandlingseffektene. Forskere kan også utelukke outliers fra analysen eller å justere poengsummen ved å winsorisere midlene (skyve outliers mot midten av distribusjonen).
- Andre: Historie, modning, testing, instrumentering interaksjon av testing og modning, interaksjon av testing og eksperimentell variabel og samspillet mellom utvalg og eksperimentell variabel er også trusler mot gyldigheten for denne utformingen.
3) Den Statiske Gruppesammenligningen
Dette er en to-gruppedesign, hvor en gruppe blir utsatt for en behandling og resultatene blir testet mens en kontrollgruppe ikke blir utsatt for behandlingen og tilsvarende testet for å sammenligne effekten av behandlingen.
Trusler mot validitet inkluderer:
X O1 O2
- Utvalg: valgte grupper kan faktisk være ulike før behandling.
- Dødelighet: forskjellene Mellom O1 Og O2kan være på grunn av frafallet av fag fra en bestemt eksperimentell gruppe, noe som vil føre til at gruppene blir ulik.
- Andre: Samspill mellom seleksjon og modning og samspill mellom seleksjon og eksperimentell variabel.
Tre Sanne Eksperimentelle Design
de neste tre designene som diskuteres, er de sterkeste designene:
1) Pretest-Posttest Control Group Design
dette designet tar på seg dette skjemaet:
denne utformingen styrer for alle de syv truslene mot gyldighet beskrevet i detalj så langt. En forklaring på hvordan denne utformingen styrer for disse truslene er under.
R O1 X O2 R O3 O4
- Historie: dette styres ved at de generelle historiehendelsene som kan ha bidratt Til o1-og O2-effektene, også vil produsere O3-og O4effects. Dette er imidlertid sant hvis og bare hvis eksperimentet kjøres på en bestemt måte: forskeren kan ikke teste behandlings – og kontrollgruppene på forskjellige tidspunkter og i svært forskjellige innstillinger, da disse forskjellene kan påvirke resultatene. I stedet må forskeren teste kontroll-og eksperimentelle grupper samtidig. Intrasession historie må også tas i betraktning. For eksempel hvis gruppene testes samtidig, kan forskjellige eksperimenter være involvert, og forskjellene mellom eksperimentene kan bidra til effektene.
i dette tilfellet er et mulig motmål randomisering av eksperimentelle forhold, for eksempel motbalansering når det gjelder eksperimenter,tid på dagen, uken og etc.
- Modning og testing: disse kontrolleres i den forstand at de manifesteres like i både behandlings-og kontrollgrupper.
- Instrumentering: dette styres der forholdene styrer for intrasesjonshistorie, spesielt der de samme testene brukes. Men når forskjellige raters, observatører eller intervjuere er involvert, blir dette et potensielt problem. Hvis det ikke er nok raters eller observatører til å bli tilfeldig tildelt forskjellige eksperimentelle forhold, må raters eller observatører være blinde for formålet med forsøket.
- Regresjon: dette styres av gjennomsnittlige forskjeller uavhengig av ekstremt score eller egenskaper, hvis behandlings-og kontrollgruppene er tilfeldig tildelt fra samme ekstreme basseng. Hvis dette skjer, vil begge gruppene regres på samme måte, uavhengig av behandling.
- Utvalg: dette styres av randomisering.
- Dødelighet: dette ble sagt å være kontrollert i dette designet. Men med mindre dødeligheten er lik i behandlings-og kontrollgrupper, er det ikke mulig å indikere med sikkerhet at dødeligheten ikke bidro til forsøksresultatene. Selv når selv dødelighet faktisk oppstår, er det fortsatt en mulighet for komplekse interaksjoner som kan gjøre effektene frafall varierer mellom de to gruppene. Forholdene mellom de to gruppene må forbli like: for eksempel, hvis behandlingsgruppen må delta i behandlingsøkten, må kontrollgruppen også delta i økter der det ikke oppstår behandling, eller en «placebo» – behandling oppstår. Men selv i dette er det fortsatt muligheter for trusler mot gyldigheten. For eksempel, selv tilstedeværelsen av en «placebo» kan bidra til en effekt som ligner på behandlingen, placebo-behandlingen må være noe troverdig og kan derfor ende opp med å ha lignende resultater!
faktorene beskrevet så langt påvirker intern validitet. Disse faktorene kan gi endringer, som kan tolkes som et resultat av behandlingen. Disse kalles hovedeffekter, som har blitt kontrollert i dette designet, og gir den intern validitet.
i dette designet er det imidlertid trusler mot ekstern validitet (også kalt interaksjonseffekter fordi de involverer behandlingen og en annen variabel som interaksjonen forårsaker trusselen mot validitet). Det er viktig å merke seg at ekstern validitet eller generaliserbarhet alltid viser seg å involvere ekstrapolering i et rike som ikke er representert i ens utvalg.
i kontrast er intern validitet løsbar av logikken i sannsynlighetsstatistikk, noe som betyr at vi kan kontrollere for intern validitet basert på sannsynlighetsstatistikk i eksperimentet utført. På den annen side kan ekstern validitet eller generaliserbarhet ikke logisk oppstå fordi vi ikke logisk kan ekstrapolere til forskjellige innstillinger. (Hume er truisme at induksjon eller generalisering aldri er fullt begrunnet logisk).
Eksterne trusler inkluderer:
- Interaksjon av testing Og X: fordi samspillet mellom å ta en pretest og selve behandlingen kan påvirke resultatene av forsøksgruppen, er det ønskelig å bruke et design som ikke bruker en pretest.
- Interaksjon mellom seleksjon Og X: selv om seleksjon styres for ved tilfeldig å tildele forsøkspersoner til eksperimentelle og kontrollgrupper, er det fortsatt en mulighet for at effektene som er vist gjelder bare for den populasjonen som eksperimentelle og kontrollgruppene ble valgt fra. Et eksempel er en forsker som prøver å velge skoler å observere, men har blitt slått ned av 9, og akseptert av den 10 .. Egenskapene til 10thschool kan være helt annerledes enn de andre 9, og derfor ikke representativ for en gjennomsnittlig skole. Derfor bør forskeren i en rapport beskrive den studerte befolkningen, samt eventuelle populasjoner som avviste invitasjonen.
- Reaktive arrangementer: dette refererer til kunstigheten av eksperimentell setting og fagets kunnskap om at han deltar i et eksperiment. Denne situasjonen er ikke representativ for skoleinnstillingen eller en naturlig setting, og kan på alvor påvirke eksperimentresultatene. For å løse dette problemet, bør eksperimenter innarbeides som varianter av de vanlige læreplanene, tester skal integreres i den normale testrutinen, og behandling skal leveres av vanlig stab med individuelle studenter.
Forskning bør gjennomføres i skolen på denne måten: ideer til forskning bør stamme fra lærere eller annet skolepersonell. Designene for denne forskningen skal utarbeides med noen ekspert på forskningsmetodikk, og selve forskningen utføres av de som kom opp med forskningsideen. Resultatene skal analyseres av eksperten, og deretter den endelige tolkningen levert av en mellommann.
Tester av betydning for dette designet: selv om dette designet kan utvikles og utføres på riktig måte, brukes ikke statistiske tester av betydning alltid på riktig måte.
- Feil statistikk i vanlig bruk: mange bruker en t-test ved å beregne to ts, en for pre-post forskjellen i eksperimentell gruppe og en for pre-post forskjellen i kontrollgruppen. Hvis den eksperimentelle t-testen er statistisk signifikant i motsetning til kontrollgruppen, sies behandlingen å ha en effekt. Men dette tar ikke hensyn til hvor «nær» t-testen kan virkelig ha vært. En bedre prosedyre er å kjøre en 2X2 anova gjentatte tiltak, teste pre-post forskjellen som innen-emne faktor, gruppen forskjellen som mellom-emne faktor, og samspillet effekten av begge faktorene.
- Bruk av gain score og kovarians: den mest brukte testen er å beregne pre-posttest gain score for hver gruppe, og deretter å beregne en t-test mellom eksperimentelle og kontrollgrupper på gain score. I tillegg er det nyttig å bruke randomisert «blokkering » eller» utjevning » på pretest score fordi blokkering kan lokalisere innen-emne varians, også kjent som feil varians. Det er viktig å påpeke at gevinst score er underlagt tak og gulv effekter. I den tidligere fagene starte med en svært høy pretest score og i den sistnevnte fagene har svært dårlig pretest ytelse. I dette tilfellet er analyse av kovarians (ANCOVA) vanligvis å foretrekke for en enkel gain-score sammenligning.
- Statistikk for tilfeldig tildeling av intakte klasserom til behandlinger: når intakte klasserom har blitt tildelt tilfeldig til behandlinger (i motsetning til enkeltpersoner som blir tildelt behandlinger), brukes klassemidler som grunnleggende observasjoner, og behandlingseffekter testes mot variasjoner i disse midlene. En kovariansanalyse vil bruke pretest-midler som kovariatet.
2) Soloman Fire-Gruppedesign
designet er som:
R O1 X O2 R O3 O4 R X O5 R O6 i denne forskningsdesignen blir fagene tilfeldig tildelt i fire forskjellige grupper: eksperimentell med både pre-posttests, eksperimentell uten pretest, kontroll med pre-posttests, og kontroll uten pretests. I denne konfigurasjonen kontrolleres både de viktigste effektene av testing og samspillet mellom testing og behandling. Som et resultat er generaliserbarheten forbedret, og effekten Av X replikeres på fire forskjellige måter.
Statistiske tester for dette designet: en god måte å teste resultatene på er å utelukke pretesten som en «behandling» og behandle posttestresultatene MED EN 2×2 analyse av variansdesign-pretestet mot upretensiøst. Alternativt kan pretesten, som er en form for eksisterende forskjell, brukes som et kovariat I ANCOVA.
3) Den Posttest-Eneste Kontrollgruppedesignen
dette designet er som:
denne designen kan ses som de to siste gruppene I Solomon 4-gruppen design. Og kan ses som kontrollerende for testing som hovedeffekt og interaksjon, men i motsetning til dette designet måler det ikke dem. Men måling av disse effektene er ikke nødvendig for det sentrale spørsmålet om ikke Xdid har en effekt. Dette designet passer for tider når pretests ikke er akseptable.
R X O1 R O2 Statistiske tester for dette designet: den enkleste formen ville være t-testen. Men kovariansanalyse og blokkering på fagvariabler(tidligere karakterer, testresultater, etc.) kan brukes som øker kraften i signifikansprøven på samme måte som det som er gitt av en pretest.
Diskusjon om årsakssammenheng og generalisering
Som illustrert ovenfor, Cook og Campbell viet mye innsats for å unngå / redusere truslene mot intern validitet (årsak og virkning) og ekstern validitet (generalisering). Noen utbredte begreper kan imidlertid også bidra med andre typer trusler mot intern og ekstern validitet.
Noen forskere nedtoner betydningen av årsakssammenheng og hevder verdien av forståelse. Denne forståelsen inkluderer «hva», «hvordan» og » hvorfor.»Men er» hvorfor «betraktet som et» årsak og virkning » forhold? Hvis et spørsmål «hvorfor X skjer» blir spurt og svaret er «Y skjer,» betyr det at «Y forårsaker X»? Hvis X Og Y er korrelert bare, det tar ikke opp spørsmålet » hvorfor.»Erstatte» årsak og virkning» med «forståelse» gjør konklusjonen forvirrende og misdirect forskere bort fra spørsmålet om » intern validitet.»
Noen forskere bruker en smal tilnærming til » forklaring.»I denne visningen er en forklaring kontekstualisert til bare et bestemt tilfelle i en bestemt tid og sted, og dermed generalisering anses upassende. Faktisk kan en overspesifikk forklaring ikke forklare noe i det hele tatt. For eksempel, hvis man spør, «Hvorfor Alex Yu oppfører seg på den måten,» svaret kan være » fordi Han Er Alex Yu. Han er et unikt menneske. Han har en spesiell familiebakgrunn og en bestemt sosial sirkel.»Disse» spesielle » uttalelsene er alltid riktige, og dermed misforstår forskere bort fra spørsmålet om ekstern validitet.
Informasjon Fra Trusler mot gyldigheten Av Forskningsdesign Av Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml