Guide: Korstabeller

I den här guiden ska vi gå igenom hur man:
X Skapar bivariata korstabeller
X Skiljer på rad- och kolumnprocent
X Signifikanstestar ett samband i en korstabell
X Tar fram ett mått på sambandets styrka
X Kontrollerar sambandet för ytterligare en variabel i en trivariat korstabell
X Konstruerar en effektparametertabell för den trivariata tabellen

Tror de som röstade på Obama på evolutionen i högre utsträckning än de som röstade på McCain?

En av de enklaste men ändå användbara statistiska analysteknikerna är att göra så kallade korstabeller. I dem kan man se om det finns något samband mellan variabler som kan vara på nominal, ordinal eller intervallskalenivå. En korstabell innebär helt enkelt att man räknar procent. Utifrån en korstabell kan man till exempel undersöka om unga röstar på partier till vänster i högre utsträckning än gamla.

I mitt exempel tänkte jag använda mig av data från den amerikanska General Social Survey, som är en stor enkätundersökning bland ett representativt urval amerikaner. Data är gratis och enkel att ladda ner, och innehåller massor av roliga variabler. I exemplet ska vi utifrån 2010 års undersökning undersöka om det är så att de som röstade på Barack Obama för president 2008 i högre usträckning känner till att människan utvecklades från djuren jämfört med de som röstade på John McCain.

Hur man skapar en bivariat korstabell
Den oberoende variabeln här heter ”PRES08”, och har tre giltiga svarsalternativ: röstade på Obama, röstade på McCain, eller röstade på någon annan. Jag anger i kolumnen ”Missing” att alla som röstade på någon annan än Obama än McCain ska utgå ur analysen, eftersom jag bara är intresserad av att jämföra de två kandidaternas anhängare.

Den beroende variabeln heter ”Evolve” och har två värden: Antingen så har man angett att det är sant att människan utvecklades från djuren, eller så har man angett att det är falskt.

Korstabellen skapar man genom att gå in på ”Analyze->Descriptive Statistics->Crosstabs”. I dialogrutan kan man välja vilken variabel man vill ha i tabellens kolumner och vilken man vill ha i tabellens rader. Man får göra som man vill, men det är viktigt när man sedan räknar procent att man kommer ihåg vart man har lagt sin oberoende variabel. Jag har därför som vana att alltid lägga den oberoende variabeln i rader, och den beroende i kolumner, som i Bild 1. På så sätt minskar man risken för fel.

Bild 1. Oberoende variabel lagd i ”Rows” och beroende variabel lagd i ”Columns”.

Sedan trycker man på knappen ”Cells”. Vi kan nu i rutan ”Percentages” välja att få ut radprocent, kolumnprocent eller totalprocent. Totalprocenten visar helt enkelt hur många av alla respondenter som återfinns i varje ruta i tabellen, vilket sällan är särskilt intressant. Rad- och kolumnprocenten är mycket intressantare. Vi klickar i båda två.

Bild 2. Rad- och kolumnprocent.

Tryck nu på ”Continue” och sedan ”OK”. Vi får nu ut en tabell som ser ut som i Bild 3. Vi kan nu se att 204 personer röstade på Obama och tror att människan utvecklades från djuren, medan 101 personer röstade på Obama och tror inte att människan utvecklades från djuren. 73 personer röstade på McCain och tror på evolutionen, medan 124 personer röstade på McCain och tror inte på evolutionen. Antalen är i sig inte så intressanta – de varierar ju beroende på hur många som tillfrågas i undersökningen. Det är de inbördes relationerna som är intressanta, och för att förstå dem måste vi titta på procenten.

Bild 3. Den bivariata tabellen över sambandet mellan presidentvalsröst 2008 och tro på evolutionen.

Skillnaden mellan rad- och kolumnprocent
I varje ruta återfinns två procenttal. Den övre procenten i varje ruta betecknas med ”% within VOTE OBAMA OR MCCAIN” och den nedre betecknas med ”% within SCI KNOWLEDGE HUMAN BEINGS DEVELOPED FROM ANIMALS”. De övre procenttalen summerar till 100% i varje rad, och kallas därför för radprocent. De nedre procenttalen summerar till 100% i varje kolumn, och kallas därför för kolumnprocent.

Med radprocenten kan vi svara på frågan ”Tror de som röstade på Obama på evolutionen i större utsträckning än de som röstade på McCain?”. Vi kan i tabellen se att 66,9% av de som röstade på Obama tror på evolutionen, medan bara 37,1% av de som röstade på McCain gör det. Det verkar alltså finnas ett samband här.

Med kolumnprocenten kan vi istället svara på frågan ”Röstade de som tror på evolutionen på Obama i högre utsträckning än de som inte tror på evolutionen?”, vilket är en helt annan sak. Vi kan i tabellen se att bland de som tror på evolutionen så röstade 73,6% på Obama, medan bara 44,9% av de som inte tror på evolutionen gjorde det. Det kan vara intressant, men man kan inte använda kolumnprocenten för att svara på den första frågan! Om man gör det riskerar det att bli fel, vilket ett enkelt exempel kan illustrera.

Säg att man vill undersöka om berusning ökar risken för att drunkna när man kör båt, och därför undersöker hur många av de som dog när de körde båt som var berusade, och hur många som var nyktra. Det är inte helt osannolikt att vi då skulle komma fram till att lika många var berusade som nyktra. Om vi då drar slutsatsen att det är ofarligt att vara berusad när man kör båt är vi helt fel ute. Varför? Jo, för att det var antagligen många fler som körde båt nyktra än som körde båt fulla. Rätt fråga att ställa är istället ”Hur många av de som var berusade när de körde båt drunknade, och hur många av de som var nyktra drunknade?” Då skulle vi antagligen komma fram till att det var en mycket lägre procentandel som drunknade av de nyktra än av de fulla.

Det är alltså väldigt viktigt att man räknar procent i den oberoende variabelns riktning. Om man alltid lägger sina oberoende variabler som rader och bara klickar i radprocent så minskar risken för att man drar fel slutsatser.

Bild 4. Den bivariata tabellen med bara radprocent.

Hur man signifikanstestar ett samband och undersöker dess styrka
Nu har vi hittat ett samband i vårt urval, men hur sannolikt är det att vi kan generalisera det här sambandet till den större populationen, de som bor i USA i allmänhet? För att ta reda på det kan vi använda oss av Pearsons Chi2-test. Det visar sannolikheten att vi på grund av slump skulle observera ett samband i vår urvalsgrupp, givet att det inte finns något samband i den stora populationen. Om det är väldigt osannolikt att vi skulle se ett sådant samband i vårt urval bara på grund av slumpen har vi goda grunder för att generalisera sambandet till populationen som helhet.

För att få fram Chi2-värdet gör man om sin korstabell, men klickar också på knappen ”Statistics”. Vi klickar här i ”Chi2”, men också ”Phi and Cramer’s V”. Cramer’s V är ett mått visar oss hur starkt sambandet är när vi undersöker samband mellan två nominalskalevariabler, som i det här fallet.

Bild 5. Hur man hittar Chi2 och Cramer’s V.
När man sedan trycker OK får man ut sin korstabell igen, men nu också med två nya tabeller efteråt, ”Chi-Square Tests” och ”Symmetric Measures”. I den första tabellen är det det översta värdet i kolumnen ”Asymp. Sig. (2-sided)” som är av intresse. Den visar sannolikheten för att vi skulle se ett sånt här samband om det inte funnits något i den stora populationen. Värdet visar nu ,000. Det innebär att det är mindre än en chans på tusen att vi skulle se ett så här starkt samband om det inte fanns något. Det innebär alltså, om vi har ett representativt urval (som är fallet när det gäller General Social Survey) att vi på goda grunder kan säga att Obama-anhängare i högre utsträckning tror på evolutionen än McCain-anhängare.

I tabellen ”Symmetric Measures” ser vi värdet på Cramer’s V. Cramer’s V kan gå mellan 0 (inget samband mellan variablerna) till 1 (perfekt samband mellan variablerna). Vi ser nu att värdet är 0,293, vilket tyder på att det är ett ganska starkt samband.

Bild 6. Chi2-värde och Cramer’s V.

Hur man kontrollerar för en ytterligare variabel
Vi har nu alltså hittat ett ganska starkt samband mellan vilken kandidat man stöttade i presidentvalet 2008 och benägenheten att tro på evolutionen. Men är det verkligen så att man blir mindre vetenskapligt bevandrad av att stödja John McCain, eller är det så att sambandet egentligen fångar upp något annat? Till exempel skulle man kunna tänka sig att religiösa människor i lägre utsträckning tror på evolutionen, men i högre utsträckning stödjer republikanska presidentkandidater. I så fall skulle det kunna ge upphov till sambandet.

För att undersöka om så är fallet är det rimligt att jämföra ej religiösa Obama-anhängare med ej religiösa McCain-anhängare, och religiösa Obama-anhängare med religiösa McCain-anhängare. Det kan vi göra i en trivariat korstabell. Det finns ingen variabel med bara två värden (vilket är bra för att tabellen ska bli överskådlig) så vi kodar om variabeln ”relpersn”, som har fyra värden, till en ny variabel med bara två värden – religiös och inte religiös. De som uppgett att de är ”Very religious” eller ”Moderately religious” räknar vi som religiösa, och de som uppgett att de är ”Slightly religious” och ”Not religious” som ej religiösa.

Vi går en än en gång tillbaka till ”Analyze->Descriptive statistics->Crosstabs”, fast lägger nu in en variabel för religiositet i rutan ”Layers”. Variabeln har två värden, ”Not religious” och ”Religious”. Under knappen ”Cells” ska radprocent fortfarande vara iklickat. När vi nu trycker på OK får vi ut en ny stor tabell, som visas i Bild 7.

Bild 7. En trivariat korstabell.

Den översta delen av tabellen visar bland ej religiösa som röstade på Obama så är det 84,2% som tror på evolutionen, medan det är 64,2% av de ej religiösa McCain-anhängarna som tror på evolutionen. En skillnad på 20%-enheter alltså, vilket är mindre än skillnaden på ca 30% bland Obama-anhängare och McCain-anhängare i allmänhet.

Bland de som är religiösa och röstade på Obama är det 49,7% som tror på evolutionen, medan det är 27,1% av de religiösa som röstade på McCain som tror på evolutionen. Återigen en skillnad på 20%-enheter.

Vi kan här alltså se att sambandet har försvagats något. Inom både den religiösa och den icke-religiösa gruppen är det en mindre skillnad mellan de som röstade på Obama och McCain än bland alla svarande. En del av förklaringen är alltså att fler religiösa röstar på McCain. Men ett ganska tydligt samband kvarstår ändå.

Hur man gör en effektparametertabell
En trivariat korstabell kan bli ganska otymplig, som man ser i Bild 7, och ett pedagogiskt sätt att redovisa resultaten kan då vara genom en effektparametertabell. I den fokuserar man bara på de mest intressanta procentsatserna, och kan på ett överskådligt sätt visa effekten av två variabler.

I tabellen sätter man sin oberoende variabel i raderna, och sin kontrollvariabel i kolumner. I det här fallet får tabellen fyra rutor, en för varje kombination av de två variablerna. Religiös Obamasupporter, ej religiös Obamasupporter, religiös McCainsupporter samt ej religiös McCainsupporter. I tabellens rutor skriver jag sedan i andelen som tror på evolutionen. Jag hade också kunnat skriva i andelen som inte tror på evolutionen – de två värdena är ju varandras spegelbilder. Om man inte angett att man tror på evolutionen så måste man tillhöra dem som inte tror på evolutionen.

Bild 8. Effektparametertabell.

Vi kan i tabellen se att det är ca 21 procentenheter färre som tror på evolutionen bland de som röstade på McCain än bland de som röstade på Obama, under kontroll för religiositet. Vi ser också att det är ca 36 procentenheter färre som tror på evolutionen bland religiösa än bland ickereligiösa, oavsett vilken presidentkandidat man röstade på. Religiositet verkar alltså vara en viktigare förklaring till om man tror på evolutionen än vilken presidentkandidat man röstade på 2008.

20 thoughts on “Guide: Korstabeller

  1. Hej!
    Jag har en fråga som berör en enkel eller multivariat regressionsanalys.
    Jag har gjort en undersökning för att testa om det finns ett samband mellan högutbildade och välmående och får då b-värdet på -0,073. vad betyder det? Det finns alltså inget samband? Det låter ologiskt, kan någon hjälpa?:)

    • Hej!
      Som du kan lasa i guiden om regressionsanalys betyder det att om du okar den oberoende variabeln (utbildning?) med ett steg minskar den beroende variabeln (valmande?) med 0,073 steg. Det finns ju alltsa ett samband, aven om det ar svagt. Sen far du kolla pa signifikansen for att se om vi ska dra nagra vaxlar pa sambandet, eller om det lika garna kan vara ett utslag av slumpmassig variation.

      /Anders

  2. Hej,

    jag har gjort chi-2 analyser men för några utav mina variabler understiger värdet i cellerna 5 och jag vill därför räkna fishers’ exact test på dem istället för att se om det är signifikant. Tydligen var detta något som ”kom upp” automatiskt i version 18, när värdet i en cell understeg 5. Jag har version 20 och lyckas inte någonstans hitta fisher. Har sökt i hjälpavsnittet och inte hittat… Hur gör jag?
    mvh
    Daniella

  3. Hej!
    Vi ska göra en analys om skillnad finns i antal rätt poäng innan och efter en operation. Vi har givit deltagarnas svar poäng:
    0=fel, 1=delvis rätt, 2= rätt.
    Nu räknar SPSS endast ut hur många 0:or, 1:or och 2:or som finns, men vi vill att SPSS ska räkna ihop det totala antalet poäng per situation (alltså före och efter operation). Men detta klurar vi inte ut hur man gör!
    MVH,
    Marie och Sofie

  4. Först vill jag tacka för en bra sida där man hittar nästan alla typer av statistiska analyser.
    Jag håller på och undersöker sambandet mellan ålder och motion (hur ofta man motionerar per vecka). TIll detta tänkte jag även analysera effekten av kön, dvs. en trivariat korstabell.
    I en lärobok har de ett alternativt sätt att analysera multivariata tabeller än det som presenteras ovan, men i och med att jag saknar bokens datamaterial kan jag inte replikera de exempel som finns i boken.

    Enligt boken så börjar man med originalsambandet, fortsätter med partialsambandet och till sist tittar på marginalsambandet.

    I mitt fall blir detta:

    Originalsamband
    Åldersgrupp (x)-Motionspass (y)
    P-värdet för testet är 0.411, dvs. det finns inget samband mellan åldersgrupp (yngre än 24 år respektive 24 eller äldre).

    Partialsamband
    Kön (z)-Åldersgrupp(x)-Motionspass(y)
    så får jag för män p-värdet 0.365 och för kvinnor 0.882 och för totalt (när man inte tar hänsyn till kön) blir p-värdet som förut 0.411.

    Marginalsamband
    Kön (z)-Motionspass (y)
    P-värde=0.182

    Kön (z)-Ålder (y)
    P-värde=0.035

    Det verkar som om det finns fler kvinnor i den yngre åldersgruppen och fler män i den äldre åldersgruppen

    ålderintervall * Kön Crosstabulation
    % within Kön

    Man Kvinna Total
    ålderintervall 32,7% 21,2% 27,7%
    100,0% 100,0% 100,0%

    Vad innebär allt detta för min analys?
    Orginalsambandet var ej signifikant.
    Partialsambandet var ej signifikant.
    Ett av de två marginalsambanden var signifikant.

    Tacksam för ert svar!
    Malin

  5. Hej!
    Jag sitter och gör korskörningar för att undersöka exempelvis hur ålder påverkar huruvida man känner till ett fenomen eller ej. Jag har ålderskategorier samt Ja/Nej angående kännedom. Jag gör korskörningar (crosstabs) men blev instruerad att kolla både chi-sq och gamma för att få fram huruvida det är *, ** eller ***. Vad är det egentligen som gäller, vilken ska jag titta på (pearson eller gamma)? Längesedan jag lärde mig de här sakerna…
    Tack på förhand!

  6. Hej!

    Tack för en bra sida!

    Jag har gjort ett antal olika korstabeller i SPSS enligt beskrivningen ovan. Under tabellerna kommer det upp något i stil med: ”Two cells (50%) have expected count less than 5. The minimum expected count is 1,30.” Vad har detta för inverkan på mina resultat? Har programmet tagit hänsyn till detta i beräkningarna?

    Tack på förhand!
    Niklas

    • Villkoren för testet är inte uppfyllda. Max 20 % av de förväntade frekvenserna får vara < 5. Detta har inverkan på dina resultat att de inte går att lita på.

  7. Hejsan!
    Jag skriver just nu min c-uppsats och är lite ovan att använda mig av SPSS. Till en början hade jag tänkt att endast undersöka medelvärdet på två grupper och sedan göra ett t-test på det.
    MEN nu har jag blivit tillsagd att jag kanske borde göra såhär istället:
    – Först visa frekvenstabeller för att hjälpa läsaren att få en överblick över hur fördelningen ser ut.
    – Sedan skapa en korstabell med chi-2 (för att signifikanstesta korstabellen?)
    – och sist redovisa ett t-test.

    Min fråga är nu:
    Är inte t-test endast till när man ska signifikanstesta medelvärden? och är inte chi-2 motsvarigheten till t-test när man använder korstabeller? Hur anser ni att jag bör göra? Kan man göra ett t-test efter att man gjort en korstabell med chi-2? – och i så fall hur?
    Tack på förhand!
    /Saga

    • Din handledare vill att du först presenterar beskrivande statistik.
      T.ex. hur många män/kvinnor finns det osv?
      T-test testar skillnad i medelvärden.
      Chi-två test testar skillnad i frekvenser/andelar. Dessa två är alltså inte samma sak.
      För t-testet krävs att den beroende variabeln är kontinuerlig och att den oberoende är binär.
      För chi-två testet räcker det med nominal/ordinaldata på både den beroende och oberoende variabeln.

      • Hej Anna! Du verkar ju ha bra koll på detta! Jag sitter och räknar lite statistik och funderar lite kring detta.. Vad jag förstår det så används chi2 för att göra statistiska prövningar/hypotesprövningar när den beroende och/eller den oberoende variabeln befinner sig på nominal eller ordinal skalenivå. Är det inte så? Varför skulle man då behöva göra båda dessa test? Och jag har en till fråga. För att göra en variansanalys (någon form av ANOVA) för data, skiljer sig då variansanalysen för data som man hade kört ett t-test på från en varansanalys som man hade kört ett chi2-test på? Jag förstår det som att variansanalysen ej skiljer sig ifrån de olika datatyperna..
        Är tacksam för svar :)

  8. Hej!

    Mit Chi 2 test visar ,000 och sen står det att 52% av mina celler understiger 5. När det är ett Chi 2 värde på ,000 så är de alltså inte signifikant? Och vad innebär det om värdena understiger 5?

  9. Hej!

    Vi har 24 olika frågeställningar genom en likertskala 1-7. Vi vill kolla och gruppera dem mot en fråga som har tre svarsalternativ för att jämföra om dessa tre har svarat olika på frågorna, går detta att göra via korstabeller?

    Tack på förhand
    Lisa & Erika

  10. Jag sitter och räknar lite statistik och funderar lite kring detta.. Vad jag förstår det så används chi2 för att göra statistiska prövningar/hypotesprövningar när den beroende och/eller den oberoende variabeln befinner sig på nominal eller ordinal skalenivå. Är det inte så? Varför skulle man då behöva göra båda dessa test? Och jag har en till fråga. För att göra en variansanalys (någon form av ANOVA) för data, skiljer sig då variansanalysen för data som man hade kört ett t-test på från en varansanalys som man hade kört ett chi2-test på? Jag förstår det som att variansanalysen ej skiljer sig ifrån de olika datatyperna..
    Är tacksam för svar

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s