Guide: Korrelation

Vi ska i det här inlägget gå igenom:

  • Vad en korrelationsanalys är
  • Hur man gör en korrelationsanalys i SPSS
  • Hur man tolkar resultaten

Korrelationsanalys syftar till att visa om det finns ett samband mellan två variabler. Det kan besvara frågeställningar som: Finns det något samband mellan en persons lönenivå och fritid? Eller: Finns det ett samband mellan spridningen av dagstidningar i ett land och politiskt intresse bland allmänheten?

Hur man gör en korrelationsanalys i SPSS 18

I det här exemplet undersöker vi frågeställningen ”Finns det något samband mellan svenska kommuners geografiska storlek och deras befolkningsstorlek?”.  Analysenheterna är alltså kommuner, och data hämtas från SCB.

Steg 1. Öppna datamängden.

Steg 2. Från menyn överst på skärmen, välj ”Analyze” -> ”Correlate” -> ”Bivariate”.

Bild 1. Hur man hittar korrelationsanalys i SPSS 18.


Steg 3. Lägg in variablerna i rutan ”Variables”. Ordningen spelar ingen roll. Man behöver inte ställa in något i options. Bland ”Correlation Coefficients” ska ”Pearson” vara iklickad. Det är det vanligaste korrelationsmåttet.  I exemplet har vi lagt in variablerna ”ln_folkmängd” och ”ln_area” som anger kommunens folkmängd och areal, uttryckt i kvadratkilometer.

Bild 2. Hur man väljer vilka variabler man ska analysera.

Steg 4. Tolka resultaten. Man får ut en tabell där båda variablerna finns med i både rader och kolumner. I skärningen mellan variablerna står korrelationen, signifikansnivån samt n-talet; alltså hur många analysenheter som ingick i analysen. I vårt fall har vi en korrelation på -0,124, även om det skrivs ut utan nollan först som -,124. Den lilla stjärnan efteråt visar att korrelationen är signifikant på 95 % säkerhetsnivå (man kan också säga på 0.05-nivån). Det kan man också läsa ut av talet under, där det står ,035. Så länge den är under ,050 är korrelationen signifikant på 95 %-nivån. Ju lägre tal, desto bättre. 95 % säkerthetsnivå innebär att vi med 95 % säkerhet kan säga att det finns en korrelation mellan de båda variablerna. Vi ser också att det ingick 290 enheter (kommuner i vårt fall) i analysen.

Bild 3. Hur man tolkar resultaten.

Vad betyder då en korrelation på -,124? Det viktigaste är först att notera att det står ett minustecken framför siffran. Det innebär att det är en negativ korrelation. Hade det inte stått något minustecken framför hade det vart en positiv korrelation.

  • Positiv korrelation: Höga värden på den ena variabeln hänger samman med höga värden på den andra variabeln. Låga värden på den ena variabeln hänger också samman med låga värden på den andra variabeln.
  • Negativ korrelation: Höga värden på den ena variabeln hänger samman med låga värden på den andra variabeln. Låga värden på den ena variabeln hänger samman med höga värden på den andra variabeln.

Vi har en negativ korrelation. Det innebär att om det är stor folkmängd i en kommun, så är arean antagligen ganska liten. Tvärtom innebär det också att om det är liten folkmängd i en kommun, så är arean ganska stor. Detta verkar rimligt, då de stora Norrlandskommunerna inte har så många invånare om man jämför med de till ytan små men folkrika Stockholmskommunerna.

Korrelationen är dock ganska svag. Den svagaste korrelationen som finns har värdet ,000. Det innebär att det inte finns något som helst linjärt samband mellan variablerna (det kan dock finnas ickelinjära samband mellan variablerna, exempelvis kvadratiska). Den starkaste korrelationen har antingen värdet -1 eller +1. Korrelationsvärdet kan alltså variera mellan -1 och +1. Både -1 och +1 är starka korrelationer, fast den första är negativ och den andra är positiv. Ju närmare noll, desto svagare korrelation. Korrelationer på -1 eller +1 visar på perfekta samband mellan variablerna, och såna hittar man sällan i verkligheten (i alla fall inte inom samhällsvetenskapen).

En grafisk illustration av korrelationen

Vanligtvis rapporterar man korrelationstalet (-,124) och om det är signifikant eller inte. Men för att illustrera sambandet mellan de två variablerna tydligare kan man (om man inte har alltför många observationer) göra en scatterplot. Den kommer då visa korrelationen grafiskt. Jag kommer inte att gå igenom hur man gör en scatterplot i det här inlägget, utan visar bara en för att den negativa korrelationen ska framgå tydligare.

Bild 4. En grafisk illustration av korrelationen i en scatterplot.


I bild 5 har de 290 kommunerna ritats ut. Varje kommun har fått en prick som placeras i höjdled efter vilken folkmängd kommunen har, och i sidled efter vilken area kommunen har. Ju större folkmängd, desto högre upp, och ju större areal, desto längre åt höger. Regressionslinjen markeras med ett streck. Den lutar svagt neråt, vilket visar att det är en svag negativ korrelation. Hade den vart helt platt hade det inte funnits något samband mellan variablerna.

I starka positiva samband ligger alla punkterna tätt samlade längs regressionslinjen som pekar snett uppåt åt höger. Det innebär att höga värden på x-axeln (area i vårt fall) hänger samman med höga värden på y-axeln (folkmängd i vårt fall). I starka negativa samband ligger alla punkterna tätt samlade längs regressionslinjen som pekar snett neråt åt höger. Det innebär att höga värden på x-axeln hänger samman med låga värden på y-axeln. Uppe till höger står ett värde: ”R2 Linear = 0,015”. Medan Pearson’s R är ett mått på sambandets riktning och styrka och går mellan -1 och +1, medan R2 går mellan 0 och 1 och är ett mått på hur mycket av variationen i den beroende variabeln som förklaras av den oberoende variabeln. Det är helt enkelt Pearsons R-värdet (0,124) upphöjt till två. Upphöjt till två är samma sak som gånger sig självt. 0,124*0,124=0,015. Sambandet i scatterploten är alltså detsamma som korrelationen vi räknade ut tidigare.

Tack till Stefan Dahlberg för synpunkter på detta inlägg.

51 thoughts on “Guide: Korrelation

  1. Hej Anders!

    Läste ditt inlägg om ”Korrelation 1”.

    Bidrar med några (förhoppningsvis konstruktiva) kommentarer

    o ”Det viktigaste är först att notera att det står ett minustecken framför siffran.”
    Hmmm… notera att -0.124 inte är en ”siffra” utan ett talvärde, i detta fall korrelationskoefficienten.

    o ”I bild 5 har de 290 kommunerna ritats ut”
    Borde vara bild 4.

    o ”Uppe till höger står ett värde: ”R2 Linear = 0,015”
    Olämpligt att skriva R2 när det eg. handlar om en kvadrering.

    o ”Upphöjt till två är samma sak som gånger sig självt”. Ett något ovårdat matematiskt språk. ;-)
    Byt ut ”upphöjt till två” med ”i kvadrat” och förklara sedan att ”Kvadraten av ett tal fås genom att multiplicera talet med sig självt”.

    o ”Sambandet i scatterploten är alltså detsamma som korrelationen vi räknade ut tidigare”
    Inte helt klart vad du menar med detta i relation till den nyss omnämnda determinationskoefficienten.
    (http://www.cs.kau.se/stat/statdist/kap13.html)

    o En allmän reflektion rörande detta med vilken precision som man bör använda. I exemplet anges att korrelationen är -0,124. Detta är ett värde som anges med 3 siffrors noggrannhet och en relativ precision på 0,001/2*100%=0,05%. I detta fall känns det som att precisionen i talvärdet är alldeles för hög i relation till värdets betydelse. Risken med att använda onödigt hög precision i talvärden är att man kan lura läsarna att börja lita/tro mer än tillrådligt på värdets betydelse.

    • Besserwisser, vilket extremt onödigt och oförskämt inlägg. ”Ett något ovårdat matematiskt språk” – det ska ju vara lättförståeligt för oss icke matematiker. Skärpning! Förstå vilken tid han lägger ner på denna sidan för att hjälpa oss!

  2. Tack! Bra skrivet! ”Den svagaste korrelationen som finns har värdet ,000. Det innebär att det inte finns något som helst samband mellan variablerna.” Det kan ju naturligtvis finnas ett ickelinjärt samband mellan variablerna, väl?

  3. Hej!
    Jag är ny på detta med spss… Tänkte fråga, ett värde på .440 i pearsons correlation 2tailed, vad betyder det värdet? är det signifikant eller ej?

    Känner mig lite oklar vad allt betyder…

  4. Hej!
    Hur gör jag för att signifikanstesta skillnaden mellan två korrelationer? Jag har två intraklasskorrelationer som anger samstämmighet i bedömningar av barn med ADHD, jag vill jämföra korrelationen för samstämmighet i skattningar mellan lärare och föräldrar när de skattar flickor (Korrelation 1) med korrelationen för samstämmighet i skattningar mellan lärare och föräldrar när de skattar pojkar (krrelation 2). Jag har alltså två ICC-korrelationer och konfidensintervall. Hur gör jag för att signifikanstesta skillnaden mellan dessa?
    Tacksam för svar!
    Ina

  5. Jag ska analysera om svaret på frågan ”det är viktigt att leva jämställt” har ett samband till nationell tillhörighet. Min oberoende variabel är alltså 5 länder och den beroende variabeln är hur de svarat på frågan. Vilket är då det bästa sambandsmåttet för att se om det finns ett samband?

  6. Hej,
    Det hade varit bra om man kunde få tillgång till datafilen så att man kan använda dummyn till punkt och pricka.

    Finns den att få tag någonstans?

    /daniel

    • Mitt fel. Hittade ett dataset i en annan guide på sidan. För övrigt, grymt bra guider av olika analyser i SPSS.

      /daniel

  7. Hello!
    I am about to investigate if there is a correlation between the results of different subtests and one other variable(X)? And if a significant correlation is found, explore if a specific subtest is more likely then other subtests to impact the variable (X). Shall I use a `linear regression` or is there a better way to do this? And what method and statistics is of extra interested to analyze in SPSS? (my numbers of subjects is rather small, n=aprrox 80). Thank you for a good and useful site / Anna

    • Hello Anna!
      Well, it is a bit difficult to understand your question, but linear regression seems appropriate. Especially for the second part of the question, where different variables are compared with each other. In linear regression, you can get an estimate of the effect of a variable, under control for the other variables.

      /Anders

  8. Hej!

    Ville bara tacka för en otroligt bra blogg!

    Jag håller på med min magisteruppsatts, och din blogg har hjälpt mig enormt!

  9. Hi Anders and all other stat gurus!
    I want to calculate the ICC (intraclass correlation) for the following..
    I have 13 raters – all rating the same 3 (svälnings ljud) samples twice and answering 3 different questions.
    1. Is the swallowing sound normal (y/n)
    2. Is the swallow safe (y/n/unsure)
    3. What is the severity of the swallow abnormality (0-4 scale).

    I, and several other beginners, have looked at how to input this data so that SPSS can compute ICC (via Analyse -> Scale -> Reliability (Stats = ICC -> 2 way random -> Consist= absolute agreement).

    Can you share any pearls of wisdom with me?
    Thanks soooooo much for your time!
    Liza (the Australian who lives in Sweden! :)

    • Hello Liza!
      First, i must say that this is not my area of expertise, so you’ll have to take this advice with a healthy grain of salt. But from what i gather, each rater should have an own column (variable), and in the rows are the rated persons.

      I unfortunately do not know how to account for the three variables – if you need to do separate analyses, or if the answers to the three questions can be used in the same analysis. I guess I would go for three separate analyses, one for each question, as i guess that inter-coding reliability could be different for each of the questions.

      But i think you can find better guidance at Statnotes:
      http://faculty.chass.ncsu.edu/garson/PA765/reliab.htm#intraclass

      Good luck!
      /Anders

      • Thanks Anders! I had also looked up the link you suggested already and have trialed several different ICC approaches. I have not been successful. I am, however, off to see a life-saving statistician tomorrow!
        Thanks so much for your time and assistance though! Have a lovely day! Liza

  10. Hej Anders! Jag fortsätter, eller tar en ny vändning, efter Liza. Jag använder mig också av ICC i SPSS. När uträkningen är klar får man ut svaret i Single measures” eller ”Average measures”. Jag tror jag ska använda mig av värdet i Average measures” men kan inte hitta vad de olika värdena egentligen betyder och varför jag ska välja detta?
    Kan du förklara?

    /Ulla

    • Hej Ulla!
      Det beror på vad du är ute efter. Om du är ute efter att pröva reliabiliteten mellan kodare så är det ”Single measures” du ska välja, enligt länken till Statnotes som jag tipsade om i svaret till Liza. Om du däremot är ute efter att testa skalan som helhet ska du använda ”Average measures”. ”Average measures” ger ett värde som är nära Cronbach’s Alpha.

      Hoppas det var till någon hjälp.

      /Anders

  11. Hej!
    Tack för mycket bra information. Min fråga, när är går värderna över från att vara bra, mycket bra och excellent dvs -1/+1? T.ex är -0,7/+0,7 bra, -0,9/+0,9 mycket bra? Tacksam även för referens till detta!
    Vänliga hälsningar
    Elisabeth

    • Hej Elisabeth!
      Det finns inga sådana generella regler. Det beror på vad det är för variabler man undersöker.
      Inom specifika vetenskapsområden kan det finnas konventioner för vad som räknas som starka respektive svaga korrelationer, när man undersöker vissa specifika typer av variabler, men det finns som sagt inga generella regler.

      /Anders

  12. Ping: Guide: Kontrollvariabler i regressionsanalys « SPSS-AKUTEN

  13. Hej Anders, i ditt fall har du ju alla Sveriges 290 kommuner och inget stickprov av dem. Måste man då ändå signifikans pröva pearsons samband? Eller är det ”r” får ut alltid sant (inte nödvändigtvis ur ett metodologiskt persoektivt) då det är en totalundersökning?

    • Hej Mikael!
      Du har rätt, signifikansprövning handlar ju framförallt om möjligheten att generalisera till populationen ur vilket stickprovet är draget. Och eftersom det här är hela populationen så behövs det ju egentligen inte.

      Man gör ju dock ofta (och ofta oreflekterat!) signifikansprövningar ändå som ett sorts ”viktighetsmått.” Om det inte är signifikant, brukar många resonera, så är det inget att bry sig om.

      Jag har även hört resonemang av typen att man kan tänka sig att kommunerna är dragna ur en teoretisk större population av kommuner, alternativt att man kan tolka signifikansen som ”Hur sannolikt är det att vi skulle se en så här stark korrelation om det i själva verket inte fanns någon koppling mellan variablerna i verkligheten?”, men den enda korrekta tolkningen är ju den med stickprov.

      Så nej, det behövs egentligen inte, men om du vill få din artikel publicerad i en statsvetenskaplig tidskrift (som är de jag känner till) så skadar det mer att inte signifikanstesta än att göra det. Det är min erfarenhet i alla fall.

      /Anders

  14. Tack för kommentaren Anders! Ställer en till fråga och hoppas det är okej.

    Du har följande data.
    Årtal – Antal registrerade fotbollsspelare i Kumla
    1979 – 2
    1980 – 3
    1981 – 10
    1982 – 5
    1983 – 6
    1984 – 7
    1985 – 9
    1986 – 11
    1987 – 13
    1988 – 16
    1989 – 12
    1990 – 17
    1991 – 18
    1992 – 19

    Dels så undrar jag vilken datanivå ”årtal” befinner sig på samt ”antal registrerade fotbollsspelare”, dels så undrar jag om Pearsons är rimligast att använda för att undersöka samvariation mellan variablerna – eller är det ett statistiskt självmord?. Sen undrar jag om det spelar någon roll när ena variabeln är beroende och den andra oberoende (årtal).

    Tack på förhand

  15. Hej!
    Jag får inte ihop det här: Om värdet överstiger ,05 så är det inte signifikant. Så mitt tal som jag fått fram : ,005 som ju är under ,05 borde vara signifikant. Men samtidigt är korrelationen svag eftersom den är så nära ,000?

    • Hej Kim!
      Det är två olika värden. Korrelationsvärdet, R, är svagt om det är nära 0. Signifikansvärdet är ett annat värde. Det indikerar en stark korrelation när det är nära 0.

      /Anders

      • Åh, så imponerande snabbt svar!
        Då är jag med. Nästa fråga: är korrelationsvärdet detsamma som medelvärdet?

  16. Det som förvirrar mig i min tabell är att spss sätter stjärnkommentarer på ”Pearson correlation” att ”correlation is significant at the 0,01-level” och ”…0,05-level” fastän det ju är nästa rad ”sig. (2-tailed)” som väl är signifikansvärdet som ska jämföras?

  17. Hej!

    Jag ska göra en ICC för att utvärdera test-retest reliabilitet på ett skattningsskala. Deltagarna har vid två tillfällen svarat på 18 frågor med en skattning från 1-6. Nu undrar jag vilket värde det är som jag ska använda. Är det personernas sammanlagda summa av skattningen vid testtillfälle 1 och 2 som jag ska jämföra?

    Tack på förhand!
    Jenny

  18. Hej!
    Tack för en bra blogg!
    Jag undrar hur man räknar ut ”medelvärdeskorrelation?” (Behövs eftersom mitt alfa-värde fär för lågt)

    Mvh Ingrid

    • Vad är den engelska termen för ditt begrepp?
      Jag antar att du pratar om Cronbach’s alfa. Om ditt alfa-värde är för lågt är det du avser mäta inte reliabelt. Du kan se vad som händer med din Cronbach’s alfa om tittar i Item-Total Statistics tabellen som skrivs ut–>Cronbach’s Alpha if Item Deleted. Den ska helst vara 0.7 eller större.

  19. Hejhej!

    Vi vill veta hur korrelationen ser ut mellan stavningsförmåga och läsförmåga, auditiv diskrimination, fonologisk medvetenhet och icke-verbal intelligens. Dessa förmågor har vi testat genom olika test och maxresultaten för varje test skiljer sig åt. Exmpelvis är maxpoängen på stavningsförmågan 42 medens maxpoängen på läsförmågan är 12.

    Hur gör man denna uträkning? Pearsons r?

    Mycket tacksam för svar

    MVH M&K

  20. Vi inom vår grupp fajtar med en sak, vi har en hypotes som Manliga revisorer tjänar mer än kvinnliga. Vi har testat vår hypotes i Spearman rho och får data:

    -, 293** och signifikansnivå ,000. Är vår hypotes sann? Att män tjänar mer än kvinnorna?

  21. Hej!
    Jag sitter precis i slutfasen med min C-uppsats i informatik och håller på med en multipel regressionsanalys. Jag har 5 olika oberoende variabler och har gjort en korrelationsmatris sinsemellan dem för att se hur dem hänger ihop. Det optimala är om det är så låg korrelation som möjligt mellan de oberoende variablerna men jag har inte lyckats hitta vad gränsvärdet är? Vad anses få vara max korrelation mellan variablerna för att inte påverka resultatet negativt? Över 0,5 eller ännu högre?

    Skulle bli så tacksam för svar!
    /Caroline

  22. Hejsan. Håller på med en C-uppsats i statsvetenskap. Jag ska kolla på sambandet mellan svenskars inställning till EU och inställning till globalisering. Min data är från SOM-institutet och undersökningen består av två befolkningsgrupper, som tillsammans och var för sig är talande för Sveriges befolkning. Jag har nu stött på problemet eftersom ena variabeln (inställningen till EU) endast är genomförd i en av befolkningsgrupperna, den andra variabeln är genomförd i båda. Är det trots det intressant att se ett samband mellan de två variablerna? Eller är det irrelevant då man inte tydligt kan se individers inställning till båda?

  23. Hej, har en liten nybörjarfråga. Jag sitter för tillfället med min första uppgift inom kvantitativ metodik. Jag vill göra ett signifikanstest på en bivariat analys med 2 variabler på ordinalskalenivå, Stöldbrott som är kategoriserat 0 stölder, 1-2 stölder och 3stölder/fler än 3 stölder. föräldraranknytningen är kodad som låg, medel och hög anknytning.. Är Chi 2 att föredra framför spermans rho för att testa signifikansen? Enligt den ena metodboken är spermans rho att föredra när man har 2 skalor på ordinalnivå. och Chi2 test i den andra boken.
    Jag vill senare göra en multivariat analys och använda en kontrollvariabel på ordinalskalenivå för detta, vilket sambandsmått är lämpligt för detta?
    Tacksam för hjälp i djungeln. vh/Magnus

  24. Hej! Jag är ny inom området så detta är kanske en dum fråga. Jag har gjort en korrelation där jag får fram resultat, problemet är att jag inte klarar av att få fram standardavvikelse och medelvärde för vardera av korrelationerna. Jag kan få fram standardavvikelse och medel för varje faktor, men inte för korrelationerna. Hur gör man det? Tacksam för hjälp!
    Alexander

  25. Hej!
    Jag har en fråga om korrelationen mellan kön och beteende som jag har satt in i ett korrelationstest (pearsons). Hur läser man av skillnaden`?? vi ser att det är en postiv korrelation och att det är signifikant men vi kan inte säga om det är man eller kvinna som påverkar vilket beteende man har.. hur ser man det, går det???

  26. Hej,

    Jag har en fråga gällande korrelationer. Jag vill se hur en specifik variabel är korrelerad med ett antal andra variabler (4 st). Jag använder Spearman’s rho. Problemet är att jag då får ut tabeller där alla vraibler är korrelerade med varandra, vilket blir en onödigt stor tabell i och med att jag endast är intresserad av att se hur en variabel är korrelerad med de andra och inte hur alla variabler är korrelerade. Är det möjligt att ställa in vilka variabler som ska komma med i tabellen?

    Tack på förhand!

  27. Om jag ska göra en korrelation med flera olika obereonde variabler i mitt fall tre stycken. Ska jag då köra den beroende varibeln tre gånger var för sig mot en oberoende variobel i tag?Blir det rätt eller är jag helt ute och cyklar?

  28. Hej! Jag håller på och skriver min cuppsats om attityder gentemot kvinnliga och manliga sexförbrytare. Jag har fått ett negativt samband mellan variablerna kön (på undersökningsdeltagarna) och social distans (ju högre värde desto mer tar studenterna avstånd till förbrytaren). Mitt problem är att jag ska förklara detta resultat med ord och jag vet inte riktigt vad jag faktiskt har kommit fram till? ”Det fanns ett negativt samband mellan variablerna social distans och kön, r (152) = -,189, p < .05, "

    Tack på förhand!

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s