Guide: Statistisk ”power” och urvalsstorlek i experimentell design

I den här guiden ska vi gå igenom:

  • Vad statistisk ”power” är
  • Hur man räknar ut urvalsstorlek för att få rätt power
  • Ett empiriskt test av teorin
  • En kortversion för dig som inte orkar läsa hela inlägget

Experimentell metod lade grunden för den vetenskapliga revolutionen som ledde fram till fantastiska framsteg inom framförallt naturvetenskap och medicin från 1600-talet och framåt. På senare tid har experimentell metod även vunnit insteg inom samhällsvetenskapen.

Grundprincipen för experimentell metod är att jämföra en kontrollgrupp med en experimentgrupp, som man utsätter för någon behandling. Om experimentgruppen skiljer sig tillräckligt mycket åt från kontrollgruppen förkastar vi den så kallade nollhypotesen – att behandlingen inte haft någon effekt. Vanliga metoder för att pröva skillnaden mellan två eller flera grupper är t-test eller variansanalys. Med hjälp av dessa metoder kan vi avgöra om det är troligt att en skillnad mellan grupperna beror på slumpmässig variation, eller om den kan tillskrivas behandlingen.

När vi gör hypotesprövningar av den här typen använder man sig vanligen av signifikansnivån 95 procent. Det betyder att vi undersöker vad sannolikheten är, givet att nollhypotesen är sann, att det bara på grund av slump i urvalsprocessen uppstår en skillnad mellan grupperna som är minst så stor som den vi observerat.

Tänk till exempel att vi har en hypotes om att äldre människor står något mer till höger, ideologiskt sett, än unga människor. För att testa detta gör vi ett urval ur den svenska befolkningen av 500 unga och 500 gamla människor, och ber dem placera sig själva på en vänster/höger-skala, där 0 är ”Långt till vänster” och 10 är ”Långt till höger”. Låt oss säga att vi i den unga gruppen får ett medelvärde på 2, och i den gamla gruppen får ett medelvärde på 8. Om nollhypotesen är sann, det vill säga att det i hela befolkningen inte finns någon skillnad mellan unga och gamla, hur sannolikt är det då att vi bara av slump fått det här resultatet? Det skulle alltså kräva att vi fått alldelse för många unga vänstersympatisörer, och alldeles för många gamla högersympatisörer, bara av slump i urvalsprocessen.

Det här är bara ett tankeexempel, men den sannolikheten är antagligen extremt liten. En signifikansnivå på 95 procent innebär att om det är mindre än 5 procents chans att en sådan här skillnad skulle uppstå slumpmässigt, så antar vi att det istället är troligare att det faktiskt finns en skillnad i ideologi mellan unga och gamla i befolkningen.

I det här tankeexemplet skrev jag att vi gjorde ett urval av 500 unga och 500 gamla. Om vi istället hade gjort ett urval av en ung och en gammal person, och fått samma medelvärden (2 och 8), hur sannolikt är det att vi då fått en sådan här skillnad bara av slump? Betydligt mycket större. Här kan vi då inte veta om det är så att det inte finns någon skillnad eller ej, eftersom vi har för litet urval för att avgöra det.

När man gör hypotesprövning av den här typen kan man göra två sorts fel. Det ena är att drar slutsatsen att det finns en skillnad när det i själva verket inte gör det: det kallas ”Typ I-fel”. Det andra är att vi drar slutsatsen att det inte finns en skillnad när det i själva verket gör det: det kallas ”Typ II-fel”.

Vad statistisk ”power” är

Vi behöver alltså ha ett tillräckligt stort urval, för att öka testets ”power”, kraft. Power definieras som sannolikheten att vi ska dra slutsatsen att nollhypotesen bör förkastas, när den faktiskt är fel. I exemplet där vi hade ett urval på totalt två personer har vi väldigt liten power – även om det faktiskt finns en skillnad i befolkningen (nollhypotesen är falsk) så kommer vi inte kunna avgöra det. Om vi istället har ett urval på totalt 1000 personer så får vi istället mycket större power – vi kommer i de allra flesta fall kunna förkasta nollhypotesen, givet att skillnaden mellan grupperna i verkligheten är någorlunda stor.

Power beror alltså på urvalsstorleken, men också på effektstorleken. Om det i befolkningen är så att det finns en skillnad mellan unga och gamla, men den är bara 0.1 på en skala från 0 till 10, så kommer vi behöva ett väldigt stort urval för att kunna slå fast att det är en systematisk skillnad och inte bara slumpmässig variation. Om skillnaden istället är 5 på samma skala kommer det behövas ett mycket mindre urval för att upptäcka skillnaden.

Att ha det här i åtanke är väldigt viktigt när man designar ett experiment. Man måste se till att man har tillräckligt många analysenheter med i experimentgrupp och kontrollgrupp för att ha en möjlighet att faktiskt förkasta nollhypotesen om den faktiskt är falsk. Om man har bra power och inte kan förkasta nollhypotesen så kan man dra slutsatsen att behandlingen inte hade någon effekt. Om man inte har bra power och inte kan förkasta nollhypotesen så är den enda slutsatsen man kan dra att man måste göra ett nytt experiment! Det är alltså viktigt att man funderar över power och urvalsstorlek på förhand.

Hur man räknar ut urvalsstorlek för att få rätt power

Hur ska man då göra detta? Det finns formler för att räkna ut urvalsstorleken givet en viss power-nivå, och vad bättre är, automatiska kalkylatorer för att räkna ut det hela. Det man behöver ange i de här uträkningarna är:

  1. Vilken signifikansnivå man tänkt använda (vanligen 95 procent)
  2. Vilken power man vill ha (ofta 80 procent vad jag förstår, men även 90 procent)
  3. Den förväntade effektstorleken

Signifikansnivån har alltså att göra med Typ I-fel – hur säkra vi ska vara på att inte dra slutsatsen att det finns en effekt när det faktiskt inte finns det. Powernivån har att göra med Typ II-fel – hur säkra vi ska vara på att inte dra slutsatsen att det inte finns en effekt när det i själva verket finns det.

Det riktigt luriga här är att bedöma effektstorleken. Om man kan anta att effekten kommer vara väldigt stor behöver man ett mindre urval. Om effektstorleken är liten behöver man ett större urval.

Men hur ska man veta hur stor effekten är, innan man faktiskt gjort sitt experiment? Jag tycker att de två bästa metoderna här verkar vara att:

  1. Utgå från tidigare forskning. Om man replikerar ett experiment kan man ju undersöka vad effekten var i tidigare experiment.
  2. Utgå ifrån vad som kommer vara ett substantiellt intressant resultat. Om man till exempel ska utvärdera vilken effekt det skulle ha för skolelevers läsförmåga att ge dem extra läxhjälp efter skolan så kanske man vill ha en märkbar förbättring för att det ska vara värt det. En förbättring på 0,005 procent är knappast kostnadseffektiv. 5 eller 10 procent är kanske vad som krävs för att det ska vara intressant.

I kalkylatorerna som finns för att räkna ut urvalsstorlek får man antingen ange förväntade proportioner (alltså 0.1 = 10 procent osv.) i de olika grupperna, ifall det handlar om att undersöka hur många analysenheter som uppnår ett speciellt utfall, eller medelvärden på en skala. I exemplet med läskunnighet kan man tänka sig att man vill undersöka proportionen som får godkänt på nationella provet i svenska. Då anger man proportioner.

Men man kan också undersöka medelvärdet av antalet poäng på nationella provet. Då ska man ange det förväntade medelvärdet i kontrollgruppen och experimentgruppen, och den förväntade standardavvikelsen kring medelvärdet i de olika grupperna. För att avgöra den kan det nog vara en bra idé att kolla på tidigare forskning. I exemplet med läskunnighet kan man ju anta att medelvärdet och standardavvikelsen i kontrollgruppen är desamma som det är nationellt. Sen kan man göra en uppskattning av effektstorleken, och gissa att standardavvikelsen är densamma även i experimentgruppen.

Jag tänkte göra ett exempel där vi ska undersöka en effekt av en påhittad behandling i en grupp där vi ska mäta proportionen som uppnår ett lyckat utfall. Det här är ett helt teoretiskt experiment, bara för att testa hur det här med power fungerar. Jag har konstruerat en datamängd där vi har 2000 personer, som är indelade i en ”experimentgrupp” och en ”kontrollgrupp”. Låt oss säga att vi vet att proportionen som har det lyckade utfallet är 0,4 i befolkningen. Vi har en hypotes om att vår behandling ska öka den här proportionen, men den är bara kostnadseffektiv om den kan öka proportionen till 0,6. Jag har konstruerat datamängden så att proportionen i kontrollgruppen faktiskt är 0,4, och 0,6 i experimentgruppen. Tänk dig nu att vi inte har tillgång till den stora datamängden – den representerar ”verkligheten” eller ”Sveriges befolkning” eller en annan stor population som vi inte kan undersöka i sin helhet.

Nu ska vi räkna ut hur stort urval vi måste ha för att ha en bra chans att kunna upptäcka den här skillnaden mellan 0,4 och 0,6. Man kan då använda sig av den här kalkylatorn, som finns på University of Calgarys hemsida.

Vi klickar i att den förväntade proportionen i grupp 1 (p1) är 0.4, och att den är 0.6 i den andra gruppen (p2). Det ska vara ett två-sidigt test (2 Sided test), vilket har att göra med att det faktiskt skulle kunna vara så att vår behandling fick proportionen att minska, även om vi tror att den ska öka. Alfa-värdet ska vara .05, vilket innebär att vi har 95 procent signifikansnivå.

För att vara extra säkra på att vi kan förkasta nollhypotesen skriver jag in att vi ska ha .90 i power – i 90 procent av fallen ska vi kunna förkasta nollhypotesen om den faktiskt är falsk (vilket vi ju vet att den är, men det låtsas vi inte om!). Om man nu trycker på ”Calculate” så får man fram vilken urvalsstorlek man ska ha (i vardera av de två grupperna). Resultatet dyker upp i rutan ”The sample size”. I det här fallet blir det 130. Resultatet ser man i Bild 1.

Bild 1. En kalkylator för att räkna ut urvalsstorlek.

Om vi har 130 personer i kontrollgruppen och 130 personer i experimentgruppen så kan vi alltså förvänta oss att vi i 90 fall av 100 kommer att kunna förkasta nollhypotesen, givet att den är falsk.

Ett empiriskt test av teorin

För att testa om det verkar stämma har jag gjort ett gäng urval ur den här konstruerade populationen. Vi vet alltså att det faktiskt finns en skillnad som är mellan proportionen 0.4 i kontrollgruppen och 0.6 i experimentgruppen. Först testar jag att göra ett urval på 20 personer i varje grupp, och signifikanstestar skillnaden. Jag sparar här signifikansvärdet (p-värdet). Sen gör jag ett nytt urval på 20 personer i varje grupp och gör om analysen, och sparar signifikansvärdet. Det här gör jag 1000 gånger.

Sedan ökar jag urvalsstorleken till 25 personer i varje grupp, gör 1000 nya urval och sparar alla signifikansvärden. Sedan ökar jag till 30 personer i varje grupp, och så vidare ända upp till en urvalsstorlek på 220 personer i varje grupp (ni behöver inte vara oroliga, det går att programmera vissa statistikprogram för att göra det här automatiskt!).

Vi hade alltså angett att vi i 90 procent av fallen ska kunna förkasta nollhypotesen. I Bild 2 har jag ritat ut en prick för varje p-värde. För varje urvalsstorlek finns det 1000 prickar, men de ligger ovanpå varandra så att det kan vara svårt att urskilja de enskilda prickarna.

Bild 2. Ett test av hur ofta man kan förkasta nollhypotesen vid olika urvalsstorlekar.

Den horisontella röda streckade linjen visar p-värdet 0.05. Alla prickar som hamnar under den röda horisontella linjen har alltså gett rätt resultat – vi vet ju att nollhypotesen är falsk. Alla prickar som hamnar ovanför den horisontella linjen har gett fel resultat. Den blåa linjen visar för varje urvalsstorlek vart den 90:e percentilen går. Det vill säga, vid vilken gräns har vi 90 procent av testen under linjen, och bara 10 procent ovanför? När den blåa linjen går under den röda horisontella linjen har vi hittat en bra urvalsstorlek, för då drar vi rätt slutsats i 90 procent av fallen.

Vid den minsta urvalsstorleken, 20 i varje grupp, ser vi att den blåa linjen hamnar nära 0.8. I massor av fall drar vi alltså fel slutsats när vi har ett så litet urval. När urvalsstorleken ökar sjukner den blåa linjen. Den går till slut under den röda horisontella linjen strax innan den röda vertikala linjen, som markerar en urvalsstorlek på 130. För alla urvalsstorlekar större än 130 kan vi alltså vara säkra på att vi i minst 90 procent av fallen kommer förkasta nollhypotesen om den är fel, vilket vi ju vet att den var i det här fallet. Formlerna för att räkna ut rätt urvalsstorlek verkar alltså stämma!

Kortversion

När man gör experimentella design måste man avgöra hur många analysenheter man ska ha i experiment- och kontrollgruppen. Har man för få kan man inte avgöra om en brist på signifikans beror på att det faktiskt inte finns någon effekt, eller om man bara har för få analysenheter för att avgöra det.

Innan du genomför ditt experiment, gå in på en kalkylator av den här typen:

För att jämföra proportioner
För att jämföra medelvärden

Skriv in vad du förväntar dig för resultat. Du kommer då få veta hur många analysenheter du behöver för att göra ett bra experiment!

3 thoughts on “Guide: Statistisk ”power” och urvalsstorlek i experimentell design

  1. Hej!

    Tack för en hjälpsam blogg. Jag har problem med att räkna ut urvalsstorlek i programmet som du länkade till. Jag blir inte klok på vad jag ska ange som ”common standard deviation”. Du nämner att när man kollar på medelvärden så ska standardavvikelsen anges för de olika grupperna, men om man bara får ange ett värde, vad anger man då?

    Mvh Julia

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s