- trzy projekty eksperymentalne
- 1) studium przypadku One Shot
- 2) Jedna grupa projekt Pre-Posttest
- 3) Statyczne porównanie grup
- trzy prawdziwe eksperymentalne projekty
- 1) projekt grupy kontrolnej Pretest-Posttest
- 2) Czterogrupowy projekt Soloman
- 3) projekt grupy kontrolnej tylko po testach
- dyskusja na temat wnioskowania przyczynowego i uogólnienia
trzy projekty eksperymentalne
aby ułatwić, następujące będą działać jako reprezentacje w poszczególnych projektach:
- X: leczenie
- O: obserwacja lub pomiar
- R: losowe przypisanie
trzy eksperymentalne projekty omówione w tym dziale To:
1) studium przypadku One Shot
istnieje jedna grupa i jest badana tylko raz. Grupa jest wprowadzana do leczenia lub stanu, a następnie obserwuje się zmiany, które są przypisywane leczeniu
X O problemy z tym projektem są:
- całkowity brak manipulacji. Ponadto dowody naukowe są bardzo słabe pod względem porównywania i rejestrowania kontrastu.
- istnieje również tendencja do błędnej precyzji, w której badacz angażuje się w żmudne zbieranie konkretnych szczegółów, uważną obserwację, testowanie itp. i błędnie interpretuje to jako uzyskanie solidnych badań. Szczegółowa procedura gromadzenia danych nie powinna być jednak utożsamiana z dobrym projektem. W rozdziale poświęconym projektowaniu, pomiarom i analizie te trzy elementy wyraźnie się od siebie odróżniają.
- Historia, dojrzewanie, selekcja, śmiertelność i interakcja selekcji i zmiennej eksperymentalnej są potencjalnymi zagrożeniami dla wewnętrznej ważności tego projektu.
2) Jedna grupa projekt Pre-Posttest
jest to prezentacja pretestu, a następnie leczenie, a następnie posttest, w którym różnica między O1 i O2 jest wyjaśniona przez X:
O1 X O2 jednak istnieją zagrożenia dla ważności powyższego twierdzenia:
- Historia: między O1 i O2 wiele zdarzeń mogło wystąpić poza X, aby uzyskać różnice w wynikach. Im dłużej upływ czasu między O1 i O2, tym bardziej prawdopodobna historia staje się zagrożeniem.
- dojrzewanie: między uczniami O1 i O2 mogli się starzeć lub stany wewnętrzne mogły się zmienić, dlatego uzyskane różnice można przypisać tym zmianom, w przeciwieństwie do X. Na przykład, jeśli rząd USA nie zrobi nic z depresją gospodarczą począwszy od 2008 roku i pozwoli, aby kryzys przebiegł swój bieg (tak powiedział Mitt Romney), dziesięć lat później gospodarka może się jeszcze poprawić. W tym przypadku problematyczne jest porównanie gospodarki w 2021 r.i w 2011 r. w celu ustalenia, czy dana polityka jest skuteczna; właściwym sposobem jest raczej porównanie gospodarki w 2021 r. z całością (np. 2011-2021). W SPSS domyślnym porównaniem par jest kontrast każdej miary z miarą końcową, ale może to być mylące. W przypadku SAS standardowym schematem kontrastu jest odchylenie, w którym każda miara jest porównywana z wielką średnią wszystkich miar (ogólnie).
- testowanie: efekt samego testu wstępnego może mieć wpływ na wyniki drugiego testu (tj. testy IQ wykonane po raz drugi powodują wzrost o 3-5 punktów niż te, które biorą go po raz pierwszy). W naukach społecznych wiadomo, że proces pomiaru może zmienić to, co jest mierzone: efekt reaktywny występuje, gdy sam proces testowania prowadzi do zmiany zachowania, a nie jest pasywnym zapisem zachowania (reaktywność: chcemy używać niereaktywnych miar, jeśli to możliwe).
- Oprzyrządowanie: przykłady są w zagrożeniach ważności powyżej
- regresja statystyczna: lub regresja w kierunku średniej. Analiza kontroli odwróconej w czasie i bezpośrednie badanie zmian w zmienności populacji są proaktywnymi środkami przeciwdziałania takim błędnym interpretacjom wyniku. Jeśli badacz wybierze bardzo spolaryzowaną próbkę składającą się z niezwykle zręcznych i bardzo ubogich studentów, pierwsza grupa może nie wykazywać poprawy (efekt sufitu) lub zmniejszyć swoje wyniki, a ta ostatnia może wydawać się wykazywać pewną poprawę. Nie trzeba dodawać, że wynik ten jest w połowie, a aby skorygować ten rodzaj błędnej interpretacji, naukowcy mogą chcieć wykonać analizę odwróconą w czasie (posttest-pretest), aby przeanalizować Prawdziwe efekty leczenia. Naukowcy mogą również wykluczyć odstających z analizy lub dostosować wyniki przez winsorizing środków (popychając odstających w kierunku środka dystrybucji).
- Inne: Historia, dojrzewanie, testowanie, oprzyrządowanie interakcja testowania i dojrzewania, interakcja testowania i zmiennej eksperymentalnej oraz interakcja selekcji i zmiennej eksperymentalnej są również zagrożeniami dla ważności tego projektu.
3) Statyczne porównanie grup
jest to projekt dwóch grup, w którym jedna grupa jest narażona na leczenie, a wyniki są testowane, podczas gdy grupa kontrolna nie jest narażona na leczenie i podobnie testowane w celu porównania efektów leczenia.
zagrożenia dla ważności obejmują:
X O1 O2
- wybór: wybrane grupy mogą być rzeczywiście rozbieżne przed jakimkolwiek leczeniem.
- : różnice między O1 i O2 mogą wynikać z odsetka osób z określonej grupy eksperymentalnej, co spowodowałoby nierówność grup.
- Inne: interakcja selekcji i dojrzewania oraz interakcja selekcji i zmiennej Doświadczalnej.
trzy prawdziwe eksperymentalne projekty
kolejne trzy omówione projekty są najbardziej zalecanymi projektami:
1) projekt grupy kontrolnej Pretest-Posttest
ten projekt przyjmuje tę formę:
ten projekt kontroluje wszystkie siedem zagrożeń dla ważności opisanych szczegółowo do tej pory. Wyjaśnienie, w jaki sposób ten projekt kontroluje te zagrożenia, znajduje się poniżej.
R O1 X O2 R O3 O4
- historia: jest to kontrolowane w tym, że wydarzenia w historii ogólnej, które mogły przyczynić się do efektów O1 i O2, spowodowałyby również efekty O3 i O4. Jest to jednak prawdą wtedy i tylko wtedy, gdy eksperyment jest prowadzony w określony sposób: badacz nie może testować grup terapeutycznych i kontrolnych w różnym czasie iw znacznie różnych ustawieniach, ponieważ różnice te mogą wpływać na wyniki. Raczej badacz musi testować grupy kontrolne i eksperymentalne jednocześnie. Należy również wziąć pod uwagę historię intrasesji. Na przykład, jeśli grupy są testowane w tym samym czasie, to różne eksperymentatorzy mogą być zaangażowane, a różnice między eksperymentatorami mogą przyczynić się do efektów.
w tym przypadku, możliwym środkiem przeciw-jest randomizacja warunków eksperymentalnych, takich jak równoważenie w kategoriach Eksperymentatora, pory dnia, tygodnia itp.
- dojrzewanie i testowanie: są one kontrolowane w tym sensie, że przejawiają się w równym stopniu zarówno w grupie leczonej, jak i kontrolnej.
- oprzyrządowanie: jest to kontrolowane, gdy kontrola warunków dla historii intrasesji, zwłaszcza gdy stosuje się te same testy. Jednak, gdy różne raterów, obserwatorów lub ankieterów są zaangażowane, staje się to potencjalnym problemem. Jeśli nie ma wystarczającej liczby raterów lub obserwatorów, aby zostać losowo przydzielonymi do różnych warunków eksperymentalnych, raterzy lub obserwatorzy muszą być ślepi na cel eksperymentu.
- regresja: jest to kontrolowane przez średnie różnice niezależnie od skrajnych wyników lub cech, jeśli grupy terapeutyczne i kontrolne są losowo przydzielone z tej samej skrajnej puli. Jeśli tak się stanie, obie grupy ulegną regresji podobnie, niezależnie od leczenia.
- wybór: jest to kontrolowane przez randomizację.
- : miało to być kontrolowane w tym projekcie. Jednakże, o ile wskaźnik śmiertelności nie jest równy w grupach leczenia i grup kontrolnych, nie jest możliwe stwierdzenie z całą pewnością, że śmiertelność nie przyczyniła się do wyników eksperymentu. Nawet wtedy, gdy nawet śmiertelność rzeczywiście występuje, istnieje możliwość złożonych interakcji, które mogą sprawić, że wskaźniki rezygnacji z efektów różnią się między tymi dwiema grupami. Warunki między obiema grupami muszą pozostać podobne: na przykład, jeśli grupa leczona musi uczestniczyć w sesji leczenia, grupa kontrolna musi również uczestniczyć w sesjach, w których albo nie ma leczenia, albo występuje leczenie „placebo”. Jednak nawet w tym pozostają możliwości zagrożeń dla ważności. Na przykład, nawet obecność „placebo” może przyczynić się do efektu podobnego do leczenia, leczenie placebo musi być w pewnym stopniu wiarygodne i dlatego może skończyć się uzyskaniem podobnych wyników!
opisane do tej pory czynniki wpływają na wewnętrzną Ważność. Czynniki te mogą powodować zmiany, które mogą być interpretowane jako wynik leczenia. Są to tzw. efekty główne, które zostały kontrolowane w tym projekcie nadając mu wewnętrzną Ważność.
jednak w tym projekcie istnieją zagrożenia dla zewnętrznej ważności (zwane również efektami interakcji, ponieważ obejmują one leczenie i niektóre inne zmienne, których interakcja powoduje zagrożenie dla ważności). Ważne jest, aby zauważyć, że zewnętrzna ważność lub uogólnienie zawsze okazuje się obejmować ekstrapolację do sfery nie reprezentowanej w czyjejś próbie.
w przeciwieństwie do tego, Ważność wewnętrzna jest rozwiązywana przez logikę statystyki prawdopodobieństwa, co oznacza, że możemy kontrolować wewnętrzną ważność w oparciu o statystyki prawdopodobieństwa w ramach przeprowadzonego eksperymentu. Z drugiej strony, zewnętrzna ważność lub uogólnialność nie może logicznie wystąpić, ponieważ nie możemy logicznie ekstrapolować na różne ustawienia. (Truizm Hume ’ a, że indukcja lub uogólnienie nigdy nie jest w pełni uzasadnione logicznie).
zagrożenia zewnętrzne obejmują:
- interakcja testów i X: ponieważ interakcja między podjęciem wstępnego testu a samym leczeniem może wpływać na wyniki grupy eksperymentalnej, pożądane jest użycie projektu, który nie używa wstępnego testu.
- interakcja selekcji i X: chociaż selekcja jest kontrolowana przez losowe przydzielanie osób do grup eksperymentalnych i kontrolnych, istnieje możliwość, że przedstawione efekty są prawdziwe tylko dla tej populacji, z której wybrano grupy eksperymentalne i kontrolne. Przykładem jest badacz próbujący wybrać szkoły do obserwacji, jednak został odrzucony przez 9, a zaakceptowany przez 10. Cechy 10thschool mogą znacznie różnić się od pozostałych 9, a zatem nie są reprezentatywne dla przeciętnej szkoły. Dlatego w każdym raporcie badacz powinien opisać badaną populację, a także wszystkie populacje, które odrzuciły zaproszenie.
- układy reaktywne: odnosi się to do sztuczności otoczenia eksperymentalnego i wiedzy podmiotu, że bierze udział w eksperymencie. Sytuacja ta jest niereprezentatywna w otoczeniu szkolnym lub jakimkolwiek naturalnym i może poważnie wpłynąć na wyniki eksperymentu. Aby zaradzić temu problemowi, eksperymenty powinny być włączone jako warianty regularnych programów nauczania, testy powinny być włączone do normalnej procedury testowania, a leczenie powinno być prowadzone przez stały personel z indywidualnymi uczniami.
badania powinny być prowadzone w szkołach w ten sposób: pomysły na badania powinny pochodzić od nauczycieli lub innych pracowników szkoły. Projekty tych badań powinny być opracowywane z kimś ekspertem w zakresie metodologii badań, a same badania prowadzone przez tych, którzy wpadli na pomysł badawczy. Wyniki powinny być analizowane przez eksperta, a następnie ostateczna interpretacja dostarczona przez pośrednika.
testy istotności dla tego projektu: chociaż projekt ten może być opracowany i przeprowadzony we właściwy sposób, statystyczne testy istotności nie zawsze są stosowane we właściwy sposób.
- zła statystyka w powszechnym użyciu: wielu używa t-testu, obliczając dwa ts, jeden dla różnicy pre-post w grupie eksperymentalnej i jeden dla różnicy pre-post w grupie kontrolnej. Jeśli eksperymentalny test t jest statystycznie istotny w przeciwieństwie do grupy kontrolnej, leczenie ma wpływ. Nie bierze to jednak pod uwagę, jak bardzo” blisko ” mógł być test T. Lepszą procedurą jest przeprowadzenie powtarzanych pomiarów 2×2 ANOVA, testując różnicę przed postem jako czynnik wewnątrz-podmiotowy, różnicę grupową jako czynnik między-podmiotowy i efekt interakcji obu czynników.
- zastosowanie wyników gain i kowariancji: najczęściej stosowanym testem jest obliczanie wyników gain przed posttestem dla każdej grupy, a następnie obliczanie testu t między grupami eksperymentalnymi i kontrolnymi na podstawie wyników gain. Ponadto pomocne jest użycie losowego „blokowania” lub „wyrównywania” wyników testów wstępnych, ponieważ blokowanie może zlokalizować wariancję wewnątrz obiektu, znaną również jako wariancja błędu. Ważne jest, aby podkreślić, że wyniki gain podlegają efektom sufitu i podłogi. W pierwszym z nich testerzy zaczynają od bardzo wysokiej oceny wstępnej, a w drugim testerzy mają bardzo słabą wydajność. W tym przypadku analiza kowariancji (ANCOVA) jest zwykle lepsza niż proste porównanie gain-score.
- statystyki dotyczące losowego przypisania nienaruszonych sal lekcyjnych do zabiegów: gdy nienaruszone sale lekcyjne zostały przydzielone losowo do zabiegów (w przeciwieństwie do osób przypisanych do zabiegów), środki klasowe są używane jako podstawowe obserwacje, a efekty leczenia są testowane pod kątem różnic w tych środkach. Analiza kowariancji użyłaby środków wstępnych jako kowariaty.
2) Czterogrupowy projekt Soloman
projekt jest jak:
R O1 X O2 R O3 O4 R X O5 R O6 w tym projekcie badawczym obiekty są losowo przydzielane do czterech różnych grup: eksperymentalne z obu Pre-posttestów, eksperymentalne bez pretestów, kontrola z pre-posttestów i kontrola bez pretestów. W tej konfiguracji kontrolowane są zarówno główne efekty testów, jak i interakcje testów i leczenia. W rezultacie poprawia się uogólnialność, a efekt X jest replikowany na cztery różne sposoby.
testy statystyczne dla tego projektu: dobrym sposobem na przetestowanie wyników jest wykluczenie testu wstępnego jako „leczenia” i potraktowanie wyników posttestu za pomocą analizy 2×2 wariancji projektu-wstępnie przetestowane przeciwko bezpretestowi. Alternatywnie, pretest, który jest formą różnicy istniejącej wcześniej, może być użyty jako współzmienna w ANCOVA.
3) projekt grupy kontrolnej tylko po testach
ten projekt jest jak:
konstrukcja ta może być postrzegana jako dwie ostatnie grupy w projekcie Solomon 4-group. I może być postrzegany jako kontrolujący dla testów jako główny efekt i interakcja, ale w przeciwieństwie do tego projektu, nie mierzy ich. Ale pomiar tych efektów nie jest konieczny do centralnego pytania, czy Xdid nie ma wpływu. Ten projekt jest odpowiedni dla czasów, gdy wstępne testy nie są akceptowane.
R X O1 R O2 testy statystyczne dla tego projektu: najprostszą formą byłby test T. Jednak analiza kowariancji i blokowanie zmiennych przedmiotu (wcześniejsze oceny, wyniki testów itp.) mogą być stosowane, które zwiększają moc testu istotności podobnie jak zapewnia to test wstępny.
dyskusja na temat wnioskowania przyczynowego i uogólnienia
jak pokazano powyżej, Cook i Campbell poświęcili wiele wysiłków, aby uniknąć/zmniejszyć zagrożenia dla wewnętrznej ważności (przyczyny i skutku) i zewnętrznej ważności (uogólnienia). Jednak niektóre powszechne pojęcia mogą również przyczyniać się do innych rodzajów zagrożeń dla wewnętrznej i zewnętrznej ważności.
niektórzy badacze bagatelizują znaczenie wnioskowania przyczynowego i twierdzą, że warto zrozumieć. Rozumienie to obejmuje „co”, „jak” i „dlaczego.”Czy jednak” dlaczego ” jest uważane za związek przyczynowo-skutkowy? Jeśli pytanie” dlaczego dzieje się X „jest zadawane, a odpowiedź brzmi „dzieje się y”, czy oznacza to, że”Y powoduje X”? Jeśli tylko X i Y są skorelowane, to nie odpowiada na pytanie ” dlaczego.”Zastąpienie” przyczyny i skutku” „zrozumieniem” sprawia, że wniosek mylący i mylący badaczy oddala się od kwestii ” wewnętrznej ważności.”
niektórzy badacze stosują wąskie podejście do ” wyjaśnienia.”W tym ujęciu Wyjaśnienie jest kontekstualizowane tylko do konkretnego przypadku w określonym czasie i miejscu, a zatem uogólnienie jest uważane za niewłaściwe. W rzeczywistości zbyt szczegółowe wyjaśnienie może niczego nie wyjaśniać. Na przykład, jeśli ktoś zapyta: „Dlaczego Alex Yu zachowuje się w ten sposób”, odpowiedź może brzmieć: „ponieważ jest Alex Yu. Jest wyjątkowym człowiekiem. Ma szczególne pochodzenie rodzinne i specyficzny krąg społeczny.”Te” szczególne ” stwierdzenia są zawsze słuszne, a tym samym mylą badaczy z kwestią zewnętrznej ważności.
informacje o zagrożeniach dla ważności projektu badawczego Chong-ho Yu & Barbara Ohlund (2012) http://www.creative-wisdom.com/teaching/WBI/threat.shtml