effektstørrelse og effekt af en statistisk test
en effektstørrelse er en måling for at sammenligne størrelsen på forskellen mellem to grupper. Det er et godt mål for effektiviteten af en intervention. For eksempel, hvis vi gennemfører en undersøgelse om forbedring af kolesterolniveauer for en gruppe mennesker, kunne vi beregne en effektstørrelse for før/efter forskellige metoder som kost, forskellige typer motion osv. anvendes.
beregning af en effektstørrelse er meget ligetil. Det er en relativ forskel på midler fra to grupper; tælleren er forskellen mellem to middelværdier, og nævneren er en mængde, som du vil bruge til en sammenligning, generelt bruges en standardafvigelse for en af de to grupper. Vi kan relatere denne ide med normale distributions empiriske regel for at finde ud af, hvor meget statistiske distributioner af to grupper overlappes. Når vi bruger den mest relevante standardafvigelse for nævneren, kaldet standarden, kalder vi det Cohens d. Der er en anden stor interaktiv visualisering skabt af Kristoffer Magnusson til fortolkning af Cohens d-effektstørrelse.
når vi beregner en effektstørrelse på to uafhængige sæt, bruger vi ofte en samlet standardafvigelse, som er en kvadratisk rod af en samlet varians.
d = forskel på middel / samlet standardafvigelse,
samlet varians = (nfrarus Varflus + n₂-var₂) / (nfrarus +n₂)
nfrarus, n₂: stikprøvestørrelser for to grupper
Varstrans, Var₂ : afvigelser for to grupper
en effektstørrelse er tæt knyttet til en effekt af en statistisk test, fordi når “forskel” på to grupper er stor, er det “let” at afvise nulhypotesen.
overvej følgende to tilfælde:
sag 1: vi sammenligner to prøver med den samme prøvestørrelse fra to “meget” forskellige fordelinger.
- normalfordeling med lolit = 163, lolit = 7,2
- normalfordeling med lolit₂ = 190, lolit₂ = 7.2
sag 2: vi sammenligner to prøver med den samme prøvestørrelse fra to “små” forskellige fordelinger.
- normalfordeling med lolir = 163, lolir = 7,2
- normalfordeling med lolir₂ = 165, lolir₂ = 7.2
når vi udfører en to-prøve t-test til test af lige gennemsnit i begge tilfælde, ville case 1 ‘s teststatistik være meget større end case 2’ s teststatistik; vi vil have mindre type 2-fejl for case 1 og dermed den højere effekt.