Guide: Signifikans och one sample t-test

I den här guiden ska vi gå igenom:

  • Kort om statistisk signifikanstestning
  • Skillnaden mellan independent samples t-test och one sample t-test
  • Hur man genomför ett one sample t-test

Är en majoritet i USA för legalisering av marijuana?

Jag har tidigare skrivit om att jämföra medelvärden med t-test. T-testet är väldigt användbart, då man kan jämföra om två medelvärden skiljer sig signifikant ifrån varandra. Om vi har gjort slumpmässiga urval ur två grupper (till exempel kvinnor och män), och medelvärdena i de två grupperna är signifikant skilda på 95%-nivån, betyder det att vi med 95% säkerhet kan säga att medelvärdena i populationen ur vilken vi gjort urvalet (alltså alla kvinnor och män i Sverige) inte är samma. Vi kan inte vara 95% säkra att skillnaden i den stora populationen är just den vi har uppmätt – bara att det finns en skillnad.

Anledningen till att vi använder oss av signifikanstest är att det alltid finns en viss osäkerhet i uppskattningarna av medelvärdena när vi inte undersöker hela populationen. Om vi till exempel tänker oss att vi ska undersöka kvinnors och mäns placering på vänster/höger-skalan. Vi tänker oss att det inte finns någon skillnad. Det skulle ju kunna vara så att vi har otur i vårt urval och får extra många kvinnor med vänstersympatier, och extra många män med högersympatier. Det kanske då verkar som att det finns en skillnad. Signifikansvärdet visar då hur sannolikt det är att vi skulle ha sån ”otur” om det i själva verket är så att det inte finns någon skillnad mellan kvinnor och män. Om signifikansvärdet (även kallat p-värdet) till exempel är 0.005 betyder det att det bara är 5 chanser på 1000 att vi skulle se minst en sån här stor skillnad bara på grund av slump.

Skillnaden mellan independent samples t-test och one sample t-test

I min erfarenhet av samhällsvetenskap så är det oftast relevantast att jämföra olika grupper med varandra, vilket gör att så kallade ”independent samples t-test” är användbar. Men man kan också tänka sig situationer där man vill jämföra en grupps medelvärde med något specifikt värde som man bestämt på förhand, om man har en tillräckligt bra teori. Det skulle till exempel kunna handla om att undersöka om en medicin har en effekt som är större än 0, det vill säga om den har någon effekt över huvud taget. För att göra ett sådant test ska man använda sig av ett så kallat ”one sample t-test” – t-test på ett urval.

Hur man genomför ett one sample t-test

I det här exemplet ska vi undersöka om majoriteten i USA är för en legalisering av marijuana. I det här fallet är det alltså intressant att jämföra ett gruppmedelvärde med ett på förhand specifierat värde – 50%. Data hämtar vi från General Social Survey 2010, som är en enkätundersökning med slumpmässigt utvalda amerikaner.

En fråga i undersökningen lyder ”Should marijuana be made legal?” och har svarsalternativen ja och nej. I datamängden heter variabeln ”grass” och värdet 1 står för att marijuana ska vara lagligt, och värdet 2 för att det inte ska vara det. Jag gör först en ny variabel där jag kodar om värdet 1 till 1, 2 till 0, och resten till missing. I den nya variabeln står alltså värdet 0 för att marijuana ska fortsätta vara olagligt, och 1 för att det ska göras lagligt.

När man tar medelvärdet av en variabel som har värdena 0 och 1 så blir medelvärdet proportionen som har värdet 1. 0,37 betyder alltså att 37% har värdet 1, till exempel. Vi ska alltså här testa om medelvärdet är signifikant skilt från 0,5. Om det är högre än 0,5 och signifikant skilt från 0,5 kan vi vara 95% säkra på att det finns en majoritet som är för legalisering i USA, givet att urvalet har gått rätt till.

För att göra testet går man in på Analyze->Compare means->One sample t-test, som i Bild 1.

Bild 1. Hur man hittar one sample t-test

Därefter klickar man in variabeln man vill testa i rutan ”Test variables” och skriver in värdet man vill testa emot i rutan ”Test value”. Jag har där skrivit in 0,5, som man kan se i Bild 2. Tryck sedan på OK.

Bild 2. Hur man väljer variabel och värde att testa emot.

Outputen ser ut som i Bild 3. Det är framförallt två saker som är intressanta. Dels medelvärdet, som i det här fallet är 0,4790. Det betyder att det är 47,9% som är för en legalisering, alltså under 50%. Men är medelvärdet signifikant skilt från 0,5? Det ser man i tabellen ”One sample t-test” i kolumnen ”Sig.” Signifikansvärdet är 0,135. Det är över det konventionella gränsvärdet 0,05, vilket betyder att skillnaden mellan medelvärdet i urvalet och 0,5 inte är signifikant. Det är 13,5% chans att vi skulle se en så här stor skillnad mellan vårt medelvärde och 0,5 bara på grund av slump även om det inte finns någon skillnad i populationen. Vi kan alltså inte vara säker på att det andelen som är för legalisering är större än 50% – men vi kan inte heller vara säkra på att den är under 50%. Den rimliga slutsatsen är alltså att det är ungefär lika stor andel som är för som är emot legalisering av marijuana i USA.

Bild 3. Output från one sample t-test

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s