- Trois Plans expérimentaux
- 1) L’étude de cas One Shot
- 2) Un Plan de pré-test de groupe
- 3) Comparaison de groupes statiques
- Trois véritables Conceptions expérimentales
- 1) La Conception du Groupe de contrôle Pré-Test-Post-Test
- 2) La conception à quatre groupes Soloman
- 3) La conception du Groupe de contrôle Post-Test Uniquement
- Discussion sur l’inférence causale et la généralisation
Trois Plans expérimentaux
Pour faciliter les choses, les éléments suivants serviront de représentations dans des plans particuliers:
- X: Traitement
- O: Observation ou mesure
- R: Affectation aléatoire
Les trois modèles expérimentaux discutés dans cette section sont:
1) L’étude de cas One Shot
Il existe un seul groupe et il n’est étudié qu’une seule fois. Un groupe est introduit dans un traitement ou une affection, puis observé pour des changements qui sont attribués au traitement
X O Les problèmes avec cette conception sont:
- Un manque total de manipulation. En outre, les preuves scientifiques sont très faibles en termes de comparaison et d’enregistrement des contrastes.
- Il y a aussi une tendance à l’erreur de précision mal placée, où le chercheur se livre à une collecte fastidieuse de détails spécifiques, à une observation minutieuse, à des tests, etc., et interprète à tort cela comme l’obtention de recherches solides. Cependant, une procédure de collecte de données détaillée ne doit pas être assimilée à une bonne conception. Dans le chapitre sur la conception, la mesure et l’analyse, ces trois composantes sont clairement distinguées les unes des autres.
- L’histoire, la maturation, la sélection, la mortalité et l’interaction de la sélection et de la variable expérimentale sont des menaces potentielles contre la validité interne de ce plan.
2) Un Plan de pré-test de groupe
Il s’agit d’une présentation d’un pré-test, suivie d’un traitement, puis d’un post-test où la différence entre O1 et O2est expliquée par X:
O1 X O2 Cependant, il existe des menaces à la validité de l’assertion ci-dessus:
- Histoire: entre O1 et O2, de nombreux événements peuvent s’être produits en dehors de X pour produire les différences de résultats. Plus le laps de temps entre O1 et O2 est long, plus l’historique devient une menace.
- Maturation: entre les élèves O1 et O2, ils peuvent avoir vieilli ou les états internes peuvent avoir changé et, par conséquent, les différences obtenues seraient attribuables à ces changements par opposition à X. Par exemple, si le gouvernement américain ne fait rien à la dépression économique à partir de 2008 et laisse la crise suivre son cours (c’est ce qu’a dit Mitt Romney), dix ans plus tard, l’économie pourrait encore s’améliorer. Dans ce cas, il est problématique de comparer l’économie en 2021 et celle en 2011 pour déterminer si une politique particulière est efficace; la bonne façon est plutôt de comparer l’économie en 2021 avec l’ensemble (par exemple de 2011 à 2021). Dans SPSS, la comparaison par paire par défaut consiste à comparer chaque mesure avec la mesure finale, mais elle peut être trompeuse. Dans SAS, le schéma de contraste par défaut est l’écart, dans lequel chaque mesure est comparée à la moyenne générale de toutes les mesures (globalement).
- Test: l’effet de donner le pré-test lui-même peut affecter les résultats du deuxième test (c’est-à-dire que les tests de QI pris une deuxième fois entraînent une augmentation de 3 à 5 points par rapport à ceux qui le prennent la première fois). En sciences sociales, on sait que le processus de mesure peut changer ce qui est mesuré: l’effet réactif se produit lorsque le processus de test lui-même conduit à un changement de comportement plutôt qu’à un enregistrement passif du comportement (réactivité: nous voulons utiliser des mesures non réactives lorsque cela est possible).
- Instrumentation: les exemples sont dans les menaces à la validité ci-dessus
- Régression statistique: ou régression vers la moyenne. L’analyse de contrôle inversée dans le temps et l’examen direct des changements dans la variabilité de la population sont des contre-mesures proactives contre de telles interprétations erronées du résultat. Si le chercheur sélectionne un échantillon très polarisé composé d’étudiants extrêmement habiles et extrêmement pauvres, le premier groupe pourrait ne montrer aucune amélioration (effet plafond) ou diminuer leurs scores, et le second pourrait sembler montrer une certaine amélioration. Inutile de dire que ce résultat est à mi-parcours, et pour corriger ce type d’interprétation erronée, les chercheurs pourraient vouloir effectuer une analyse inversée dans le temps (post-test-pré-test) pour analyser les véritables effets du traitement. Les chercheurs peuvent également exclure les valeurs aberrantes de l’analyse ou ajuster les scores en winsorisant les moyennes (en poussant les valeurs aberrantes vers le centre de la distribution).
- Autres: L’histoire, la maturation, les tests, l’interaction instrumentale des tests et de la maturation, l’interaction des tests et de la variable expérimentale et l’interaction de la sélection et de la variable expérimentale sont également des menaces à la validité de cette conception.
3) Comparaison de groupes statiques
Il s’agit d’un plan à deux groupes, dans lequel un groupe est exposé à un traitement et les résultats sont testés alors qu’un groupe témoin n’est pas exposé au traitement et testé de la même manière afin de comparer les effets du traitement.
Les menaces à la validité incluent: Sélection
X O1 O2
- : les groupes sélectionnés peuvent en fait être disparates avant tout traitement.
- Mortalité: les différences entre O1 et O2 peuvent être dues au taux d’abandon des sujets d’un groupe expérimental spécifique, ce qui entraînerait une inégalité entre les groupes.
- Autres: Interaction de la sélection et de la maturation et interaction de la sélection et de la variable expérimentale.
Trois véritables Conceptions expérimentales
Les trois conceptions suivantes discutées sont les conceptions les plus fortement recommandées:
1) La Conception du Groupe de contrôle Pré-Test-Post-Test
Cette conception prend cette forme:
Cette conception contrôle l’ensemble des sept menaces à la validité décrites en détail jusqu’à présent. Une explication de la façon dont cette conception contrôle ces menaces est ci-dessous.
R O1 X O2 R O3 O4
- Historique: ceci est contrôlé en ce sens que les événements historiques généraux qui ont pu contribuer aux effets O1 et O2 produiraient également les effets O3 et O4. Cependant, cela est vrai si et seulement si l’expérience est exécutée d’une manière spécifique: le chercheur ne peut pas tester les groupes de traitement et de contrôle à des moments différents et dans des contextes très différents car ces différences peuvent influencer les résultats. Le chercheur doit plutôt tester simultanément les groupes témoin et expérimental. L’historique de l’intrasession doit également être pris en compte. Par exemple, si les groupes sont testés en même temps, différents expérimentateurs peuvent être impliqués et les différences entre les expérimentateurs peuvent contribuer aux effets.
Dans ce cas, une contre-mesure possible est la randomisation de conditions expérimentales, telles que le contre-équilibrage en termes d’expérimentateur, d’heure de la journée, de semaine, etc.
- Maturation et tests: ceux-ci sont contrôlés en ce sens qu’ils se manifestent également dans les groupes de traitement et de contrôle.
- Instrumentation: ceci est contrôlé lorsque les conditions contrôlent l’historique de l’intrasession, en particulier lorsque les mêmes tests sont utilisés. Cependant, lorsque différents évaluateurs, observateurs ou intervieweurs sont impliqués, cela devient un problème potentiel. S’il n’y a pas assez de évaluateurs ou d’observateurs pour être assignés au hasard à différentes conditions expérimentales, les évaluateurs ou les observateurs doivent être aveugles au but de l’expérience. Régression
- : ceci est contrôlé par les différences moyennes indépendamment de l’extrême des scores ou des caractéristiques, si les groupes de traitement et de contrôle sont assignés au hasard à partir du même pool extrême. Si cela se produit, les deux groupes régresseront de la même manière, quel que soit le traitement.
- Sélection: ceci est contrôlé par randomisation.
- Mortalité: cela a été dit être contrôlé dans cette conception. Cependant, à moins que le taux de mortalité ne soit égal dans les groupes de traitement et de contrôle, il n’est pas possible d’indiquer avec certitude que la mortalité n’a pas contribué aux résultats de l’expérience. Même lorsque même la mortalité se produit réellement, il reste une possibilité d’interactions complexes qui peuvent faire en sorte que les effets des taux d’abandon diffèrent entre les deux groupes. Les conditions entre les deux groupes doivent rester similaires: par exemple, si le groupe de traitement doit assister à la séance de traitement, le groupe témoin doit également assister à des séances où aucun traitement ne se produit ou un traitement « placebo » se produit. Cependant, même en cela, il reste des possibilités de menaces à la validité. Par exemple, même la présence d’un « placebo » peut contribuer à un effet similaire au traitement, le traitement placebo doit être quelque peu crédible et peut donc finir par avoir des résultats similaires!
Les facteurs décrits jusqu’à présent affectent la validité interne. Ces facteurs pourraient produire des changements, qui peuvent être interprétés comme le résultat du traitement. Ceux-ci sont appelés effets principaux, qui ont été contrôlés dans cette conception lui donnant une validité interne.
Cependant, dans cette conception, il existe des menaces à la validité externe (également appelées effets d’interaction car elles impliquent le traitement et une autre variable dont l’interaction entraîne la menace de validité). Il est important de noter ici que la validité externe ou la généralisabilité s’avère toujours impliquer une extrapolation dans un domaine non représenté dans l’échantillon.
En revanche, la validité interne est résoluble par la logique des statistiques de probabilité, ce qui signifie que nous pouvons contrôler la validité interne en fonction des statistiques de probabilité dans l’expérience menée. D’un autre côté, la validité externe ou la généralisabilité ne peuvent pas logiquement se produire car nous ne pouvons pas logiquement extrapoler à différents paramètres. (Le truisme de Hume selon lequel l’induction ou la généralisation n’est jamais pleinement justifiée logiquement).
Les menaces externes comprennent:
- Interaction des tests et X: étant donné que l’interaction entre la prise d’un pré-test et le traitement lui-même peut avoir une incidence sur les résultats du groupe expérimental, il est souhaitable d’utiliser un plan qui n’utilise pas de pré-test.
- Interaction de la sélection et de X: bien que la sélection soit contrôlée en assignant au hasard des sujets dans des groupes expérimentaux et témoins, il reste possible que les effets démontrés ne soient vrais que pour la population à partir de laquelle les groupes expérimentaux et témoins ont été sélectionnés. Un exemple est un chercheur essayant de sélectionner des écoles à observer, mais a été refusé par 9 et accepté par le 10. Les caractéristiques de la 10e école peuvent être très différentes des 9 autres et ne sont donc pas représentatives d’une école moyenne. Par conséquent, dans tout rapport, le chercheur doit décrire la population étudiée ainsi que les populations qui ont rejeté l’invitation.
- Arrangements réactifs: cela fait référence à l’artificialité du cadre expérimental et à la connaissance du sujet qu’il participe à une expérience. Cette situation n’est pas représentative du milieu scolaire ou de tout milieu naturel et peut avoir un impact sérieux sur les résultats de l’expérience. Pour remédier à ce problème, les expériences devraient être incorporées en tant que variantes des programmes réguliers, les tests devraient être intégrés dans la routine normale des tests et le traitement devrait être dispensé par du personnel régulier avec des étudiants individuels.
La recherche doit être menée dans les écoles de cette manière: les idées de recherche doivent provenir des enseignants ou d’autres membres du personnel scolaire. Les conceptions de cette recherche doivent être élaborées avec quelqu’un d’expert en méthodologie de recherche, et la recherche elle-même effectuée par ceux qui ont eu l’idée de recherche. Les résultats doivent être analysés par l’expert, puis l’interprétation finale délivrée par un intermédiaire.
Tests de signification pour ce plan: bien que ce plan puisse être élaboré et mené de manière appropriée, les tests statistiques de signification ne sont pas toujours utilisés de manière appropriée.
- Statistique erronée en usage courant: beaucoup utilisent un test t en calculant deux ts, une pour la différence pré-post dans le groupe expérimental et une pour la différence pré-post du groupe témoin. Si le test t expérimental est statistiquement significatif par rapport au groupe témoin, on dit que le traitement a un effet. Cependant, cela ne tient pas compte de la « proximité » du test t. Une meilleure procédure consiste à exécuter des mesures répétées ANOVA 2X2, en testant la différence pré-post en tant que facteur interne au sujet, la différence de groupe en tant que facteur entre les sujets et l’effet d’interaction des deux facteurs.
- Utilisation des scores de gain et de la covariance: le test le plus utilisé consiste à calculer les scores de gain pré-post-test pour chaque groupe, puis à calculer un test t entre les groupes expérimental et témoin sur les scores de gain. De plus, il est utile d’utiliser un « blocage » ou un « nivellement » randomisé sur les scores de pré-test, car le blocage peut localiser la variance intra-sujet, également connue sous le nom de variance d’erreur. Il est important de souligner que les scores de gain sont soumis aux effets de plafond et de sol. Dans le premier cas, les sujets commencent par un score de pré-test très élevé et dans le second, les sujets ont de très mauvaises performances de pré-test. Dans ce cas, l’analyse de la covariance (ANCOVA) est généralement préférable à une simple comparaison gain-score.
- Statistiques pour l’affectation aléatoire de salles de classe intactes à des traitements: lorsque des salles de classe intactes ont été affectées au hasard à des traitements (par opposition aux individus affectés à des traitements), les moyennes de classe sont utilisées comme observations de base et les effets du traitement sont testés par rapport aux variations de ces moyennes. Une analyse de covariance utiliserait les moyennes de pré-test comme covariable.
2) La conception à quatre groupes Soloman
La conception est la suivante:
R O1 X O2 R O3 O4 D X O5 D O6 Dans ce plan de recherche, les sujets sont répartis au hasard en quatre groupes différents: expérimental avec les deux pré-tests, expérimental sans pré-test, contrôle avec pré-tests et contrôle sans pré-tests. Dans cette configuration, les principaux effets des tests et l’interaction des tests et du traitement sont contrôlés. En conséquence, la généralisabilité est améliorée et l’effet de X est répliqué de quatre manières différentes.
Tests statistiques pour ce plan: un bon moyen de tester les résultats est d’exclure le pré-test comme « traitement » et de traiter les scores post-test avec une analyse 2X2 du plan de variance – pré-testé contre sans test. Alternativement, le prétest, qui est une forme de différence préexistante, peut être utilisé comme covariable dans ANCOVA.
3) La conception du Groupe de contrôle Post-Test Uniquement
Cette conception est la suivante:
Cette conception peut être considérée comme les deux derniers groupes de la conception du groupe Salomon 4. Et peut être considéré comme contrôlant les tests comme effet principal et interaction, mais contrairement à cette conception, il ne les mesure pas. Mais la mesure de ces effets n’est pas nécessaire à la question centrale de savoir si les Xdid n’ont pas d’effet. Cette conception est appropriée pour les périodes où les prétests ne sont pas acceptables.
R X O1 D O2 Tests statistiques pour cette conception : la forme la plus simple serait le test t. Cependant, analyse de covariance et blocage sur les variables du sujet (notes antérieures, résultats aux tests, etc.) peuvent être utilisés, ce qui augmente la puissance du test de signification de la même manière que ce qui est fourni par un pré-test.
Discussion sur l’inférence causale et la généralisation
Comme illustré ci-dessus, Cook et Campbell ont consacré beaucoup d’efforts pour éviter / réduire les menaces contre la validité interne (cause à effet) et la validité externe (généralisation). Cependant, certains concepts répandus peuvent également contribuer à d’autres types de menaces contre la validité interne et externe.
Certains chercheurs minimisent l’importance de l’inférence causale et affirment la valeur de la compréhension. Cette compréhension comprend « quoi », « comment » et « pourquoi ». » Cependant, le « pourquoi » est-il considéré comme une relation de « cause à effet »? Si une question « pourquoi X arrive » est posée et que la réponse est « Y arrive », cela implique-t-il que « Y cause X »? Si X et Y sont corrélés uniquement, cela ne répond pas à la question « pourquoi. »Remplacer « cause et effet » par « compréhension » rend la conclusion déroutante et déroutante pour les chercheurs, loin de la question de la « validité interne ». »
Certains chercheurs appliquent une approche étroite à « explication. »De ce point de vue, une explication n’est contextualisée qu’à un cas particulier dans un moment et un lieu particuliers, et la généralisation est donc considérée comme inappropriée. En fait, une explication trop spécifique pourrait ne rien expliquer du tout. Par exemple, si l’on demande « Pourquoi Alex Yu se comporte de cette façon », la réponse pourrait être « parce qu’il est Alex Yu. C’est un être humain unique. Il a un milieu familial particulier et un cercle social spécifique. »Ces déclarations « particulières » sont toujours justes, éloignant ainsi les chercheurs de la question de la validité externe.
Informations sur les menaces à la validité du Plan de recherche par Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml