- Tre Disegni Sperimentali
- 1) Il caso di studio One Shot
- 2) Un gruppo Pre-Posttest Design
- 3) Il confronto di gruppo statico
- Tre veri disegni sperimentali
- 1) Il design del gruppo di controllo Pretest-Posttest
- 2) Il Soloman Quattro-Gruppo di Progettazione
- 3) Il post-test-Solo Gruppo di Controllo di Design
- Discussione sull’inferenza causale e generalizzazione
Tre Disegni Sperimentali
Per rendere le cose più facili, il seguente atto come rappresentazioni all’interno di disegni particolari:
- X: Trattamento
- O: Osservazione o misurazione
- R: L’assegnazione casuale
I tre disegni sperimentali riportate in questa sezione sono:
1) Il caso di studio One Shot
Esiste un singolo gruppo e viene studiato una sola volta. Un gruppo viene introdotto in un trattamento o condizione e quindi osservato per i cambiamenti che sono attribuiti al trattamento
X O I problemi con questo disegno sono:
- Una totale mancanza di manipolazione. Inoltre, le prove scientifiche sono molto deboli in termini di confronto e registrazione dei contrasti.
- C’è anche la tendenza ad avere l’errore di precisione fuori luogo, in cui il ricercatore si impegna in una noiosa raccolta di dettagli specifici, un’attenta osservazione, test e così via., e fraintende questo come ottenere ricerca solida. Tuttavia, una procedura dettagliata di raccolta dei dati non dovrebbe essere equiparata a una buona progettazione. Nel capitolo su progettazione, misurazione e analisi, questi tre componenti sono chiaramente distinti l’uno dall’altro.
- Storia, maturazione, selezione, mortalità e interazione della selezione e della variabile sperimentale sono potenziali minacce contro la validità interna di questo disegno.
2) Un gruppo Pre-Posttest Design
Questa è una presentazione di un pretest, seguito da un trattamento, e quindi un posttest in cui la differenza tra O1 e O2è spiegato da X:
O1 X O2 Tuttavia, esistono minacce alla validità dell’asserzione di cui sopra:
- Storia: tra O1 e O2 possono essersi verificati molti eventi a parte X per produrre le differenze nei risultati. Più lungo è il lasso di tempo tra O1 e O2, più è probabile che la storia diventi una minaccia.
- Maturazione: tra gli studenti O1 e O2 potrebbero essere cresciuti o gli stati interni potrebbero essere cambiati e quindi le differenze ottenute sarebbero attribuibili a questi cambiamenti rispetto a X. Ad esempio, se il governo degli Stati Uniti non fa nulla per la depressione economica a partire dal 2008 e lasciare che la crisi fa il suo corso (questo è ciò che ha detto Mitt Romney), dieci anni dopo l’economia può ancora essere migliorata. In questo caso, è problematico confrontare l’economia nel 2021 e quella nel 2011 per determinare se una particolare politica è efficace; piuttosto, il modo giusto è confrontare l’economia nel 2021 con quella complessiva (ad esempio dal 2011 al 2021). In SPSS il confronto a coppie predefinito è quello di contrastare ogni misura con la misura finale, ma potrebbe essere fuorviante. In SAS lo schema di contrasto predefinito è Deviation, in cui ogni misura viene confrontata con la media generale di tutte le misure (complessive).
- Test: l’effetto di dare il pretest stesso può influenzare i risultati del secondo test (cioè, i test IQ presi una seconda volta portano ad un aumento di 3-5 punti rispetto a quelli che lo prendono la prima volta). Nelle scienze sociali, è noto che il processo di misurazione può cambiare ciò che viene misurato: l’effetto reattivo si verifica quando il processo di test porta al cambiamento nel comportamento piuttosto che essere una registrazione passiva del comportamento (reattività: vogliamo usare misure non reattive quando possibile).
- Strumentazione: esempi di minacce alla validità sopra
- Regressione statistica: o regressione verso la media. L’analisi del controllo invertito nel tempo e l’esame diretto dei cambiamenti nella variabilità della popolazione sono contromisure proattive contro tali interpretazioni errate del risultato. Se il ricercatore seleziona un campione molto polarizzato composto da studenti estremamente abili ed estremamente poveri, il primo gruppo potrebbe non mostrare alcun miglioramento (effetto soffitto) o diminuire i loro punteggi, e il secondo potrebbe sembrare mostrare qualche miglioramento. Inutile dire che questo risultato è a metà strada, e per correggere questo tipo di interpretazione errata, i ricercatori potrebbero voler fare un’analisi invertita nel tempo (posttest-pretest) per analizzare i veri effetti del trattamento. I ricercatori possono anche escludere valori anomali dall’analisi o per regolare i punteggi winsorizing i mezzi (spingendo i valori anomali verso il centro della distribuzione).
- Altri: Storia, maturazione, test, strumentazione interazione di test e maturazione, interazione di test e variabile sperimentale e interazione di selezione e variabile sperimentale sono anche minacce alla validità di questo disegno.
3) Il confronto di gruppo statico
Questo è un design a due gruppi, in cui un gruppo è esposto a un trattamento e i risultati sono testati mentre un gruppo di controllo non è esposto al trattamento e similmente testato per confrontare gli effetti del trattamento.
Minacce alla validità includono:
X O1 O2
- Selezione: gruppi selezionati, che può effettivamente essere più disparati prima di qualsiasi trattamento.
- Mortalità: le differenze tra O1 e O2può essere dovuto al tasso di abbandono dei soggetti da uno specifico gruppo sperimentale, che causerebbe la disparità dei gruppi.
- Altri: Interazione di selezione e maturazione e interazione di selezione e variabile sperimentale.
Tre veri disegni sperimentali
I prossimi tre disegni discussi sono i disegni più fortemente raccomandati:
1) Il design del gruppo di controllo Pretest-Posttest
Questo design assume questa forma:
Questo design per tutti i controlli dei sette minacce alla validità descritto in dettaglio finora. Una spiegazione di come questo design controlla queste minacce è di seguito.
R O1 X O2 R O3 O4
- Storia: questo è controllato in quanto gli eventi storici generali che potrebbero aver contribuito agli effetti O1 e O2 produrrebbero anche gli effetti O3 e O4. Tuttavia, questo è vero se e solo se l’esperimento viene eseguito in un modo specifico: il ricercatore non può testare i gruppi di trattamento e di controllo in momenti diversi e in contesti molto diversi in quanto queste differenze possono influenzare i risultati. Piuttosto, il ricercatore deve testare contemporaneamente i gruppi di controllo e sperimentali. Anche la cronologia delle intrasessioni deve essere presa in considerazione. Ad esempio, se i gruppi vengono testati contemporaneamente, potrebbero essere coinvolti diversi sperimentatori e le differenze tra gli sperimentatori possono contribuire agli effetti.
In questo caso, una possibile contromisura è la randomizzazione delle condizioni sperimentali, come il controbilanciamento in termini di sperimentatore, ora del giorno, settimana ed ecc.
- Maturazione e test: questi sono controllati nel senso che si manifestano ugualmente sia nel trattamento che nei gruppi di controllo.
- Strumentazione: questo è controllato dove le condizioni controllano per la storia di intrasessione, specialmente dove vengono utilizzati gli stessi test. Tuttavia, quando sono coinvolti diversi valutatori, osservatori o intervistatori, questo diventa un potenziale problema. Se non ci sono abbastanza valutatori o osservatori da assegnare casualmente a diverse condizioni sperimentali, i valutatori o gli osservatori devono essere ciechi allo scopo dell’esperimento.
- Regressione: questo è controllato dalle differenze medie indipendentemente dall’estremamente dei punteggi o delle caratteristiche, se i gruppi di trattamento e controllo sono assegnati in modo casuale dallo stesso pool estremo. Se ciò si verifica, entrambi i gruppi regrediranno in modo simile, indipendentemente dal trattamento.
- Selezione: questo è controllato dalla randomizzazione.
- Mortalità: questo è stato detto di essere controllato in questo disegno. Tuttavia, a meno che il tasso di mortalità non sia uguale nei gruppi di trattamento e di controllo, non è possibile indicare con certezza che la mortalità non abbia contribuito ai risultati dell’esperimento. Anche quando si verifica effettivamente anche la mortalità, rimane la possibilità di interazioni complesse che possono rendere i tassi di abbandono degli effetti diversi tra i due gruppi. Le condizioni tra i due gruppi devono rimanere simili: ad esempio, se il gruppo di trattamento deve partecipare alla sessione di trattamento, il gruppo di controllo deve anche partecipare a sessioni in cui non si verifica alcun trattamento o si verifica un trattamento “placebo”. Tuttavia, anche in questo rimane possibilità di minacce alla validità. Ad esempio, anche la presenza di un “placebo” può contribuire ad un effetto simile al trattamento, il trattamento con placebo deve essere in qualche modo credibile e quindi può finire per avere risultati simili!
I fattori descritti finora influenzano la validità interna. Questi fattori potrebbero produrre cambiamenti, che possono essere interpretati come il risultato del trattamento. Questi sono chiamati effetti principali, che sono stati controllati in questo disegno dandogli validità interna.
Tuttavia, in questo disegno, ci sono minacce alla validità esterna (chiamate anche effetti di interazione perché coinvolgono il trattamento e qualche altra variabile la cui interazione causa la minaccia alla validità). È importante notare qui che la validità esterna o la generalizzabilità risulta sempre coinvolgere l’estrapolazione in un regno non rappresentato nel proprio campione.
Al contrario, la validità interna è risolvibile dalla logica delle statistiche di probabilità, il che significa che possiamo controllare la validità interna basata sulle statistiche di probabilità all’interno dell’esperimento condotto. D’altra parte, la validità esterna o la generalizzabilità non possono verificarsi logicamente perché non possiamo estrapolare logicamente a impostazioni diverse. (La verità di Hume secondo cui l’induzione o la generalizzazione non sono mai pienamente giustificate logicamente).
Le minacce esterne includono:
- Interazione di test e X: poiché l’interazione tra l’assunzione di un pre-test e il trattamento stesso può influire sui risultati del gruppo sperimentale, è auspicabile utilizzare un progetto che non utilizzi un pre-test.
- Interazione di selezione e X: sebbene la selezione sia controllata assegnando casualmente soggetti in gruppi sperimentali e di controllo, rimane la possibilità che gli effetti dimostrati siano validi solo per quella popolazione da cui sono stati selezionati i gruppi sperimentali e di controllo. Un esempio è un ricercatore che cerca di selezionare le scuole da osservare, tuttavia è stato rifiutato da 9 e accettato da 10. Le caratteristiche del 10thschool possono essere molto diverse rispetto agli altri 9, e quindi non rappresentative di una scuola media. Pertanto, in qualsiasi rapporto, il ricercatore dovrebbe descrivere la popolazione studiata e tutte le popolazioni che hanno respinto l’invito.
- Disposizioni reattive: si riferisce all’artificialità dell’impostazione sperimentale e alla conoscenza del soggetto che sta partecipando a un esperimento. Questa situazione non è rappresentativa dell’ambiente scolastico o di qualsiasi ambiente naturale e può influire seriamente sui risultati dell’esperimento. Per rimediare a questo problema, gli esperimenti dovrebbero essere incorporati come varianti dei programmi di studio regolari, i test dovrebbero essere integrati nella normale routine di test e il trattamento dovrebbe essere fornito da personale regolare con singoli studenti.
La ricerca dovrebbe essere condotta nelle scuole in questo modo: le idee per la ricerca dovrebbero provenire da insegnanti o altro personale scolastico. I progetti per questa ricerca dovrebbero essere elaborati con qualcuno esperto di metodologia di ricerca, e la ricerca stessa effettuata da coloro che si avvicinò con l’idea di ricerca. I risultati dovrebbero essere analizzati dall’esperto e quindi l’interpretazione finale fornita da un intermediario.
Test di significatività per questo progetto: sebbene questo progetto possa essere sviluppato e condotto in modo appropriato, i test statistici di significatività non sono sempre utilizzati in modo appropriato.
- Statistica errata nell’uso comune: molti usano un t-test calcolando due ts, uno per la differenza pre-post nel gruppo sperimentale e uno per la differenza pre-post del gruppo di controllo. Se il t-test sperimentale è statisticamente significativo rispetto al gruppo di controllo, si dice che il trattamento abbia un effetto. Tuttavia questo non prende in considerazione quanto “vicino” il t-test possa essere stato davvero. Una procedura migliore consiste nell’eseguire misure ripetute ANOVA 2X2, testando la differenza pre-post come fattore all’interno del soggetto, la differenza di gruppo come fattore tra soggetto e l’effetto di interazione di entrambi i fattori.
- Uso dei punteggi di guadagno e della covarianza: il test più utilizzato è quello di calcolare i punteggi di guadagno pre-posttest per ciascun gruppo e quindi di calcolare un t-test tra i gruppi sperimentali e di controllo sui punteggi di guadagno. Inoltre, è utile utilizzare “blocco” o “livellamento” randomizzati sui punteggi pre-test perché il blocco può localizzare la varianza all’interno del soggetto, nota anche come varianza di errore. È importante sottolineare che i punteggi di guadagno sono soggetti agli effetti del soffitto e del pavimento. Nel primo i soggetti iniziano con un punteggio di pretest molto alto e nel secondo i soggetti hanno prestazioni di pretest molto scarse. In questo caso, l’analisi della covarianza (ANCOVA) è solitamente preferibile a un semplice confronto gain-score.
- Statistiche per l’assegnazione casuale di aule intatte ai trattamenti: quando le aule intatte sono state assegnate a caso ai trattamenti (al contrario degli individui assegnati ai trattamenti), i mezzi di classe sono usati come osservazioni di base e gli effetti del trattamento sono testati contro le variazioni di questi mezzi. Un’analisi di covarianza userebbe mezzi pretest come covariata.
2) Il Soloman Quattro-Gruppo di Progettazione
Il design è come:
R O1 X O2 R O3 O4 R X O5 R O6 In questo progetto di ricerca, i soggetti sono assegnati in modo casuale in quattro gruppi: sperimentale con entrambi i pre-posttest, sperimentale senza pretest, controllo con pre-posttest e controllo senza pretest. In questa configurazione, sono controllati sia gli effetti principali del test che l’interazione del test e del trattamento. Di conseguenza, la generalizzabilità è migliorata e l’effetto di X viene replicato in quattro modi diversi.
Test statistici per questo progetto :un buon modo per testare i risultati è escludere il pretest come “trattamento” e trattare i punteggi post-test con un’analisi 2X2 del design della varianza-pretestato contro unpretested. In alternativa, il pretest, che è una forma di differenza preesistente, può essere usato come covariata in ANCOVA.
3) Il post-test-Solo Gruppo di Controllo di Design
Questo disegno è come:
Questo disegno può essere visto come l’ultimo due gruppi di Salomone 4-gruppo di progettazione. E può essere visto come il controllo per i test come effetto principale e interazione, ma a differenza di questo design, non li misura. Ma la misurazione di questi effetti non è necessaria alla domanda centrale se di Xdid non abbia un effetto. Questo design è appropriato per i momenti in cui i pretest non sono accettabili.
R X O1 R O2 Test statistici per questo progetto: la forma più semplice sarebbe il t-test. Tuttavia, analisi di covarianza e blocco su variabili soggette(gradi precedenti, punteggi dei test, ecc.) possono essere utilizzati che aumentano la potenza del test di significatività in modo simile a ciò che viene fornito da un pretest.
Discussione sull’inferenza causale e generalizzazione
Come illustrato sopra, Cook e Campbell hanno dedicato molti sforzi per evitare/ridurre le minacce contro la validità interna (causa ed effetto) e la validità esterna (generalizzazione). Tuttavia, alcuni concetti diffusi possono anche contribuire ad altri tipi di minacce contro la validità interna ed esterna.
Alcuni ricercatori minimizzano l’importanza dell’inferenza causale e affermano il valore della comprensione. Questa comprensione include “cosa”, “come” e ” perché.”Tuttavia,” perché “è considerato una relazione di “causa ed effetto”? Se viene posta una domanda “perché X accade” e la risposta è “Y accade”, implica che “Y causa X”? Se X e Y sono correlati solo, non affronta la domanda ” perché.”Sostituire” causa ed effetto ” con “comprensione” rende la conclusione confusa e fuorviante ricercatori lontano dalla questione della ” validità interna.”
Alcuni ricercatori applicano un approccio ristretto alla ” spiegazione.”In questa visione, una spiegazione è contestualizzata solo a un caso particolare in un particolare momento e luogo, e quindi la generalizzazione è considerata inappropriata. In effetti, una spiegazione troppo specifica potrebbe non spiegare nulla. Ad esempio, se si chiede “Perché Alex Yu si comporta in quel modo”, la risposta potrebbe essere “perché è Alex Yu. È un essere umano unico. Ha un particolare background familiare e una specifica cerchia sociale.”Queste affermazioni” particolari ” hanno sempre ragione, allontanando così i ricercatori dalla questione della validità esterna.
Informazioni dalle minacce alla validità del progetto di ricerca di Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml