- Tres Diseños experimentales
- 1) El Estudio de caso de una sola toma
- 2) Diseño Pre-Post-Prueba de un Grupo
- 3) La Comparación estática de grupos
- Tres Diseños Experimentales Verdaderos
- 1) El Diseño del Grupo de Control Pretest-Postest
- 2) El Salomon de Cuatro grupos de Diseño
- 3) El Diseño de Grupo de Control solo posterior a la Prueba
- Discusión sobre inferencia causal y generalización
Tres Diseños experimentales
Para facilitar las cosas, lo siguiente actuará como representación dentro de diseños particulares:
- X: Tratamiento
- O: Observación o medición
- R: Asignación aleatoria
Los tres diseños experimentales discutidos en esta sección son:
1) El Estudio de caso de una sola toma
Hay un solo grupo y se estudia solo una vez. Un grupo es introducido a un tratamiento o condición y luego observado por cambios que se atribuyen al tratamiento
X O Los problemas con este diseño son:
- Una falta total de manipulación. Además, la evidencia científica es muy débil en términos de hacer una comparación y registrar contrastes.
- También hay una tendencia a tener la falacia de la precisión fuera de lugar, donde el investigador se dedica a la tediosa recopilación de detalles específicos,observación cuidadosa, pruebas, etc., y malinterpreta esto como obtener una investigación sólida. Sin embargo, un procedimiento detallado de recopilación de datos no debe equipararse a un buen diseño. En el capítulo sobre diseño, medición y análisis, estos tres componentes se distinguen claramente entre sí.
- La historia, la maduración, la selección, la mortalidad y la interacción de la selección y la variable experimental son amenazas potenciales contra la validez interna de este diseño.
2) Diseño Pre-Post-Prueba de un Grupo
Esta es una presentación de una prueba previa, seguida de un tratamiento, y luego una prueba posterior donde la diferencia entre O1 y O2 se explica por X:
O1 X O2 Sin embargo, existen amenazas a la validez de la afirmación anterior:
- Historia: entre O1 y O2 pueden haber ocurrido muchos eventos aparte de X para producir las diferencias en los resultados. Cuanto más largo sea el lapso de tiempo entre O1 y O2, más probable es que la historia se convierta en una amenaza.
- Maduración :entre O1 y O2 los estudiantes pueden haber crecido o los estados internos pueden haber cambiado y, por lo tanto, las diferencias obtenidas serían atribuibles a estos cambios en lugar de X. Por ejemplo, si el gobierno de los Estados Unidos no hace nada a la depresión económica a partir de 2008 y deja que la crisis siga su curso (esto es lo que dijo Mitt Romney), diez años después, la economía aún podría mejorar. En este caso, es problemático comparar la economía en 2021 y en 2011 para determinar si una política en particular es efectiva; más bien, la forma correcta es comparar la economía en 2021 con la economía en general (por ejemplo, 2011 a 2021). En SPSS, la comparación por pares predeterminada es contrastar cada compás con el compás final, pero puede ser engañosa. En SAS, el esquema de contraste predeterminado es la desviación, en el que cada medida se compara con la media general de todas las medidas (en general). Pruebas
- : el efecto de realizar la prueba previa en sí puede afectar los resultados de la segunda prueba (es decir, las pruebas de coeficiente intelectual realizadas por segunda vez dan como resultado un aumento de 3-5 puntos que las que se realizaron la primera vez). En las ciencias sociales, se ha sabido que el proceso de medición puede cambiar lo que se está midiendo: el efecto reactivo ocurre cuando el proceso de prueba en sí conduce al cambio de comportamiento en lugar de ser un registro pasivo de comportamiento (reactividad: queremos usar medidas no reactivas cuando sea posible).
- Instrumentación: los ejemplos están en amenazas a la validez por encima de
- Regresión estadística: o regresión hacia la media. El análisis de control invertido en el tiempo y el examen directo de los cambios en la variabilidad de la población son contramedidas proactivas contra tales interpretaciones erróneas del resultado. Si el investigador selecciona una muestra muy polarizada que consiste en estudiantes extremadamente hábiles y extremadamente pobres, el primer grupo podría no mostrar mejoría (efecto techo) o disminuir sus puntajes, y el segundo podría parecer mostrar alguna mejoría. No hace falta decir que este resultado es intermedio, y para corregir este tipo de interpretaciones erróneas, es posible que los investigadores quieran hacer un análisis de tiempo invertido (post-prueba-prueba previa) para analizar los verdaderos efectos del tratamiento. Los investigadores también pueden excluir los valores atípicos del análisis o ajustar las puntuaciones winsorizando los medios (empujando los valores atípicos hacia el centro de la distribución).
- Otros: Historia, maduración, pruebas, instrumentación interacción de pruebas y maduración, interacción de pruebas y la variable experimental y la interacción de selección y la variable experimental también son amenazas para la validez de este diseño.
3) La Comparación estática de grupos
Este es un diseño de dos grupos, donde un grupo está expuesto a un tratamiento y los resultados se prueban mientras que un grupo de control no está expuesto al tratamiento y se prueban de manera similar para comparar los efectos del tratamiento.
Amenazas a la validez incluyen:
X O1 O2
- Selección: los grupos seleccionados pueden ser realmente dispares, antes de cualquier tratamiento.
- Mortalidad: las diferencias entre O1 y O2 pueden deberse a la tasa de abandono de los sujetos de un grupo experimental específico, lo que provocaría que los grupos fueran desiguales.
- Otros: Interacción de selección y maduración e interacción de selección y la variable experimental.
Tres Diseños Experimentales Verdaderos
Los siguientes tres diseños discutidos son los diseños más recomendados:
1) El Diseño del Grupo de Control Pretest-Postest
Este diseño toma este formulario:
Este diseño de controles para todas las siete amenazas a la validez describe en detalle hasta ahora. A continuación encontrará una explicación de cómo controla este diseño estas amenazas.
R O1 X O2 R O3 O4
- Historia: esto se controla en el sentido de que los eventos de historia general que pueden haber contribuido a los efectos de O1 y O2 también producirían los Efectos de O3 y O4. Sin embargo, esto es cierto si y solo si el experimento se ejecuta de una manera específica: el investigador puede no probar los grupos de tratamiento y control en diferentes momentos y en entornos muy diferentes, ya que estas diferencias pueden influir en los resultados. Más bien, el investigador debe probar los grupos de control y experimentales simultáneamente. También se debe tener en cuenta la historia intrasesional. Por ejemplo, si los grupos se prueban al mismo tiempo, pueden estar involucrados diferentes experimentadores, y las diferencias entre los experimentadores pueden contribuir a los efectos.
En este caso, una posible contra-medida es la aleatorización de condiciones experimentales, como el contra-equilibrio en términos de experimentador,hora del día, semana, etc.
- Maduración y pruebas: se controlan en el sentido de que se manifiestan por igual en los grupos de tratamiento y de control.
- Instrumentación: se controla cuando las condiciones controlan el historial de intrasesión, especialmente cuando se utilizan las mismas pruebas. Sin embargo, cuando diferentes evaluadores, observadores o entrevistadores están involucrados, esto se convierte en un problema potencial. Si no hay suficientes evaluadores u observadores para ser asignados aleatoriamente a diferentes condiciones experimentales, los evaluadores u observadores deben ser ciegos al propósito del experimento. Regresión
- : esto se controla mediante las diferencias medias independientemente de las puntuaciones o características extremas, si los grupos de tratamiento y control se asignan aleatoriamente del mismo grupo extremo. Si esto ocurre, ambos grupos retrocederán de manera similar, independientemente del tratamiento. Selección
- : se controla mediante aleatorización.
- Mortalidad: se decía que esto estaba controlado en este diseño. Sin embargo, a menos que la tasa de mortalidad sea igual en los grupos de tratamiento y de control, no es posible indicar con certeza que la mortalidad no contribuyó a los resultados del experimento. Incluso cuando se produce realmente la mortalidad, sigue existiendo la posibilidad de interacciones complejas que pueden hacer que las tasas de abandono de los efectos difieran entre los dos grupos. Las condiciones entre los dos grupos deben seguir siendo similares: por ejemplo, si el grupo de tratamiento debe asistir a la sesión de tratamiento, el grupo de control también debe asistir a sesiones en las que no se realice ningún tratamiento o en las que se realice un tratamiento con «placebo». Sin embargo, incluso en esto sigue habiendo posibilidades de amenazas a la validez. Por ejemplo, incluso la presencia de un «placebo» puede contribuir a un efecto similar al tratamiento, el tratamiento con placebo debe ser algo creíble y, por lo tanto, puede terminar teniendo resultados similares.
Los factores descritos hasta ahora afectan la validez interna. Estos factores podrían producir cambios, que pueden interpretarse como el resultado del tratamiento. Estos se denominan efectos principales, que se han controlado en este diseño dándole validez interna.
Sin embargo, en este diseño, hay amenazas a la validez externa (también llamadas efectos de interacción porque involucran el tratamiento y alguna otra variable cuya interacción causa la amenaza a la validez). Es importante notar aquí que la validez externa o generalizabilidad siempre resulta implicar la extrapolación a un reino no representado en la muestra de uno.
En contraste, la validez interna se puede resolver por la lógica de las estadísticas de probabilidad, lo que significa que podemos controlar la validez interna en función de las estadísticas de probabilidad dentro del experimento realizado. Por otro lado, la validez externa o generalizabilidad no puede ocurrir lógicamente porque no podemos extrapolar lógicamente a diferentes configuraciones. (La perogrullada de Hume de que la inducción o generalización nunca se justifica completamente lógicamente).
Las amenazas externas incluyen:
- Interacción de las pruebas y X: debido a que la interacción entre la realización de una prueba preliminar y el tratamiento en sí puede afectar los resultados del grupo experimental, es deseable utilizar un diseño que no utilice una prueba preliminar.
- Interacción de selección y X: aunque la selección se controla mediante la asignación aleatoria de sujetos en grupos experimentales y de control, existe la posibilidad de que los efectos demostrados se mantengan verdaderos solo para la población de la que se seleccionaron los grupos experimentales y de control. Un ejemplo es un investigador que intenta seleccionar escuelas para observar, sin embargo, ha sido rechazado por 9 y aceptado por el 10. Las características de la 10a escuela pueden ser muy diferentes de las otras 9 y, por lo tanto, no son representativas de una escuela promedio. Por lo tanto, en cualquier informe, el investigador debe describir la población estudiada, así como las poblaciones que rechazaron la invitación.
- Arreglos reactivos: se refiere a la artificialidad del entorno experimental y al conocimiento del sujeto de que está participando en un experimento. Esta situación no es representativa del entorno escolar o de cualquier entorno natural, y puede afectar seriamente los resultados del experimento. Para remediar este problema, los experimentos deben incorporarse como variantes del plan de estudios regular, las pruebas deben integrarse en la rutina normal de pruebas y el tratamiento debe ser impartido por personal regular con estudiantes individuales.
La investigación debe llevarse a cabo en las escuelas de esta manera: las ideas para la investigación deben originarse con maestros u otro personal de la escuela. Los diseños para esta investigación deben elaborarse con alguien experto en metodología de investigación, y la investigación en sí realizada por aquellos a quienes se les ocurrió la idea de investigación. Los resultados deben ser analizados por el experto, y luego la interpretación final entregada por un intermediario.
Pruebas de importancia para este diseño: aunque este diseño puede desarrollarse y llevarse a cabo de forma adecuada, las pruebas estadísticas de importancia no siempre se utilizan de forma adecuada.
- Estadística incorrecta de uso común: muchos usan una prueba t calculando dos ts, una para la diferencia pre-post en el grupo experimental y otra para la diferencia pre-post del grupo de control. Si la prueba t experimental es estadísticamente significativa en comparación con el grupo de control, se dice que el tratamiento tiene un efecto. Sin embargo, esto no tiene en cuenta cuán «cerca» pudo haber estado realmente la prueba t. Un mejor procedimiento es ejecutar medidas repetidas de ANOVA de 2X2, probando la diferencia pre-post como el factor dentro del sujeto, la diferencia de grupo como el factor entre sujetos y el efecto de interacción de ambos factores.
- Uso de puntuaciones de ganancia y covarianza: la prueba más utilizada es calcular las puntuaciones de ganancia pre-post-prueba para cada grupo, y luego calcular una prueba t entre los grupos experimental y de control en las puntuaciones de ganancia. Además, es útil usar «bloqueo» aleatorio o» nivelación » en las puntuaciones de la prueba previa porque el bloqueo puede localizar la varianza dentro del sujeto, también conocida como varianza de error. Es importante señalar que las puntuaciones de ganancia están sujetas a los efectos de techo y suelo. En el primero, los sujetos comienzan con una puntuación muy alta en la prueba previa y en el segundo, los sujetos tienen un rendimiento muy bajo en la prueba previa. En este caso, el análisis de covarianza (ANCOVA) suele ser preferible a una simple comparación de puntuación de ganancia.
- Estadísticas para la asignación aleatoria de aulas intactas a tratamientos: cuando las aulas intactas se han asignado al azar a tratamientos (en lugar de que los individuos se asignen a tratamientos), los medios de clase se utilizan como observaciones básicas y los efectos del tratamiento se prueban contra las variaciones en estos medios. Un análisis de covarianza utilizaría medios de prueba previa como covariable.
2) El Salomon de Cuatro grupos de Diseño
El diseño es como:
R O1 X O2 R O3 O4 R X O5 R O6 En el diseño de esta investigación, los sujetos son asignados al azar en cuatro grupos diferentes: experimental con ambas pruebas previas, experimental sin pruebas previas, control con pruebas previas y control sin pruebas previas. En esta configuración, se controlan tanto los efectos principales de las pruebas como la interacción de las pruebas y el tratamiento. Como resultado, se mejora la generalización y el efecto de X se replica de cuatro maneras diferentes.
Pruebas estadísticas para este diseño: una buena manera de probar los resultados es descartar la prueba previa como un «tratamiento» y tratar los puntajes posteriores a la prueba con un análisis de diseño de varianza 2X2, probado previamente contra los no probados. Alternativamente, la prueba previa, que es una forma de diferencia preexistente, se puede usar como covariable en ANCOVA.
3) El Diseño de Grupo de Control solo posterior a la Prueba
Este diseño es como:
Este diseño se puede ver como los dos últimos grupos en el diseño de 4 grupos de Solomon. Y puede verse como un control para las pruebas como efecto principal e interacción, pero a diferencia de este diseño, no los mide. Pero la medición de estos efectos no es necesaria para la cuestión central de si el no Xdid tiene un efecto. Este diseño es apropiado para los momentos en que las pruebas preliminares no son aceptables.
R X O1 R O2 Pruebas estadísticas para este diseño: la forma más simple sería la prueba t. Sin embargo, análisis de covarianzas y bloqueo de variables de asignaturas (calificaciones previas, puntajes de pruebas, etc.) puede utilizarse para aumentar el poder de la prueba de significancia de manera similar a lo que proporciona una prueba previa.
Discusión sobre inferencia causal y generalización
Como se ilustra arriba, Cook y Campbell dedicaron muchos esfuerzos para evitar/reducir las amenazas contra la validez interna (causa y efecto) y la validez externa (generalización). Sin embargo, algunos conceptos generalizados también pueden contribuir a otros tipos de amenazas contra la validez interna y externa.
Algunos investigadores minimizan la importancia de la inferencia causal y afirman el valor de la comprensión. Este entendimiento incluye «qué», » cómo «y» por qué».»Sin embargo, ¿»por qué» se considera una relación de» causa y efecto»? Si se hace una pregunta «por qué sucede X «y la respuesta es» Y sucede», ¿implica que»Y causa X»? Si X e Y se correlacionan solamente, no responde a la pregunta » por qué.»Reemplazar» causa y efecto» por «comprensión» hace que la conclusión confunda y desvíe a los investigadores del tema de la «validez interna».»
Algunos investigadores aplican un enfoque estrecho a la explicación.»En este punto de vista, una explicación se contextualiza solo para un caso particular en un momento y lugar determinados, por lo que la generalización se considera inapropiada. De hecho, una explicación específica podría no explicar nada. Por ejemplo, si uno pregunta «Por qué Alex Yu se comporta de esa manera», la respuesta podría ser » porque es Alex Yu. Es un ser humano único. Tiene un origen familiar particular y un círculo social específico.»Estas declaraciones» particulares » siempre son correctas, por lo que alejan a los investigadores del tema de la validez externa.
Información de Amenazas a la validez del Diseño de Investigación por Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml