Guide: Regressionsanalys med kurvlinjära effekter

I den här guiden ska vi gå igenom:

  • Varför man ibland ska använda kurvlinjära effekter
  • Hur man genomför en regressionsanalys med kurvlinjära effekter i SPSS
  • Tolka resultaten och ta fram marginaleffekter

Glass

Det vanliga när man gör regressionsanalyser är att man antar att effekten av den oberoende variabeln på den beroende variabeln är linjär, det vill säga att en ökning av den oberoende variabeln kommer ha samma effekt, oavsett vilket värde den oberoende variabeln hade innan ökning. Det finns dock många situationer när det här antagandet är orealistiskt. Ta till exempel effekten av att äta en glass på hur glad man är en varm sommardag. Om man inte har ätit en glass innan, så är det antagligen väldigt gott att äta en glass, och man blir glad och nöjd. Om man däremot äter en glass till blir man antagligen inte lika mycket gladare som av den första glassen. Vid den femtonde glassen är det till och med mycket sannolikt att man blir mindre glad av att äta den.

Effekten av att äta glass på humöret är alltså ickelinjär – den positiva effekten minskar ju fler glassar man äter, och blir antagligen negativ ganska snabbt.

Ett mer samhällsvetenskapligt relevant exempel är effekten av demokrati på korruption. Man tänker sig vanligen att demokrati motverkar korruption – om medborgarna själva får välja sina ledare kommer man rösta bort korrupta ledare och välja ickekorrupta. Mer demokrati borde alltså leda till mindre korruption. Men statsvetare har problematiserat det här antagandet, och menar att det inte är säkert att effekten av mer demokrati alltid är positiv. Det är till exempel tänkbart att en väletablerad diktatur kan bekämpa korruption i statsapparaten mer effektivt än en ny demokrati, där ledare och medborgare fortfarande försöker vänja sig vid det nya styrelsesättet. Hanna Bäck och Axel Hadenius menar i sin artikel ”Democracy and state capacity: Exploring a J-shaped relationship” att I diktaturer finns kontroll ovanifrån, i fungerande demokratier kontroll underifrån. Däremellan blir det varken eller.

För att testa en hypotes av den här typen i regressionsanalys behöver man använda sig av ickelinjära effekter, varav ett exempel är kurvlinjära effekter. Man kan se analyser av den här typen som ett specialfall av regressionsanalyser med interaktionseffekter. Interaktionseffekter gör det möjligt att låta effekten av en variabel variera över värdena på en annan variabel. När man jobbar med kurvlinjära effekter är det nästan samma sak, bara att effekten av en ökning av den oberoende variabeln varierar över värdena på den oberoende variabeln. En ökning av demokratin påverkar korruptionsnivån olika beroende på om det är en diktatur eller etablerad demokrati. Att äta en glass till påverkar humöret olika beroende på hur många glassar man ätit innan.

Hur man genomför en regressionsanalys med kurvlinjära effekter i SPSS
Själva regressionsanalysen genomförs överlag precis som vanligt i SPSS, men vi ska inkludera en speciell variabel. Men först gör vi en vanlig, linjär, regressionsanalys för att undersöka sambandet mellan demokrati och korruption.

Data kommer från Quality of Government-datamängden, och vi kommer att använda oss av två variabler: Transparency International’s Corruptions Perceptions Index (ti_cpi) samt en variabel som kombinerar demokratimätningar från Freedom House och Polity (fh_ipolity2). Båda variablerna går mellan 0 och 10, och högre värden på variablerna indikerar en mer välfungerande statsapparat (där det är mindre korruption) respektive mer demokrati. Vår hypotes är alltså att vi ska se ett positivt samband – mer demokrati leder till en mer välfungerande statsapparat.

Först genomför vi alltså en vanlig regressionsanalys där den beroende variabeln är ”ti_cpi” och den oberoende variabeln är ”fh_ipolity2”. Den som behöver fräscha upp hur man gör en regressionsanalys kan göra det här. Outputen visas i Bild 1.

Bild 1. Resultatet från en linjär regressionsanalys.

Resultaten visar att det finns en positiv effekt av demokrati på korruptionsmåttet (högre värden betyder mindre korruption). Ju mer demokratiskt ett land är, desto mindre korrupt är det. Om ett land skulle öka med ett steg på demokratiskalan förväntas det också öka 0,318 steg på korruptionsvariabeln. R2-värdet visar att 23% av variationen i den beroende variabeln förklaras av variationen i demokrativariabeln.

I Bild 2 visas sambandet mellan de två variablerna i ett spridningsdiagram (scatterplot). Den utritade regressionslinjen visar samma sak som regressionsanalysen – går man ett steg åt höger på x-axeln kommer man 0,318 steg uppåt på y-axeln.

Bild 2. Sambandet illustrerat i ett spridningsdiagram (scatterplot).

I spridningsdiagrammet ser man att länderna som har högst poäng på demokratiskalan generellt har höga nivåer på korruptionsvariabeln, vilket indikerar att det är lite korruption i de länderna. Men man ser också att flera av länderna som har låga värden på demokrativariabeln, under 4, har hyfsat höga värden på korruptionsvariabeln, uppemot 6. De flesta länderna som ligger kring 5 på demokrativariabeln har däremot under 4 på korruptionsvariabeln. Den extrema outliern är Singapore, som har varit väldigt framgångsrikt i kampen mot korruption.

Det verkar alltså ligga någonting i idén att effekten av att öka demokratin på korruptionsnivåer beror på vilken nivå demokratin var innan ökningen. Men hur prövar vi detta i regressionsanalysen?

I analyser med interaktionseffekter skapar man en interaktionsterm, som är den ena variabeln multiplicerat med den andra variabeln. Här vill vi variera effekten av demokrativariabeln över olika värden på demokrativariabeln, vilket innebär att vi ska göra en interaktionsterm som är demokrativariabeln multiplicerat med demokrativariabeln. Den skapar man genom att gå in på ”Transform->Compute variable” och skriver där in att den nya variabeln ska vara fh_ipolity2 * fh_ipolity2. Den nya variabeln kan man kalla fh_ipolity2_square, eftersom det är variabeln i kvadrat (square).

Bild 3. Hur man skapar en kvadratisk demokratiterm.

Därefter gör man en ny regressionsanalys där ”ti_cpi” återigen är den beroende variabeln, och fh_ipolity2 och fh_ipolity2_square är de oberoende variablerna, som i Bild 4.

Bild 4. Både originalvariabeln och den kvadratiska termen ska vara med som oberoende variabler.

Resultatet visas i Bild 5. Vi får en koefficient för den vanliga variabeln och en för den kvadratiska variabeln. Den vanliga variabeln har en negativ effekt, och den kvadratiska variabeln har en positiv effekt. De båda koefficienterna måste dock tolkas tillsammans, men innan vi gör det kollar vi om effekten av den kvadratiska variabeln är signifikant. Om effekten av den kvadratiska variabeln inte är signifikant är det antagligen lika bra att göra en vanlig linjär regressionsanalys. Men det är den alltså i det här fallet. Vi ser också att R2-värdet är betydligt högre i den här analysen än i analysen med bara en vanlig oberoende variabel, 0,469 jämfört med 0,231. Det tyder på att den här modellen är betydligt bättre på att förklara variationen i den beroende variabeln än den första modellen.

Bild 5. Resultatet av regressionsanalysen med kvadratisk effekt.

Hur man räknar ut marginaleffekten
Nu behöver vi räkna ut den så kallade marginaleffekten, det vill säga effekten av en ökning av demokrati vid olika niver av demokrati. För att göra tar vi koefficienten för den vanliga variabeln + koefficienten för den kvadratiska variabeln * värdet på demokrativariabeln * 2.

Den ”vanliga” koefficienten är -1,211 och koefficienten för den kvadratiska variabeln är 0,135. För att räkna ut vad en ökning av demokratin med ett steg förväntas få för effekt när demokratin är 0 tar vi:

-1,211 +( 0,135*0*2) = -1,211

Resultatet blir alltså att en ökning av demokratinivån med ett steg när den är 0 förväntas vara negativ. Att göra den absolut värsta diktaturen lite mer demokratisk förväntas alltså förvärra korruptionen.

Lämpligen räknar man ut effekten vid några olika värden på den oberoende variabeln, i det här fallet till exempel mellan 0 och 10, i intervaller om 1:

-1,211 + (0,135*0*2) = -1,211
-1,211 + (0,135*1*2) = -0,941
-1,211 + (0,135*2*2) = -0,671
-1,211 + (0,135*3*2) = -0,401
-1,211 + (0,135*4*2) = -0,131
-1,211 + (0,135*5*2) = 0,139
-1,211 + (0,135*6*2) = 0,409
-1,211 + (0,135*7*2) = 0,679
-1,211 + (0,135*8*2) = 0,949
-1,211 + (0,135*9*2) = 1,219
-1,211 + (0,135*10*2) = 1,489

Man ser alltså att effekten av en ökning av demokratin är negativ fram till nånstans mellan 4 och 5 på demokratiskalan, då den börjar bli positiv igen. Det här kan vi se om vi tar fram ett spridningsdiagram och ritar ut en kvadratisk regressionslinje. Det gör man genom att i spridningsdiagrammet klicka på knappen ”Add fit line at total” (inringad i Bild 6) och sedan på ”Quadratic” (också inringat).

Bild 6. Hur man ritar ut en kvadratisk regressionslinje i ett spridningsdiagram.

Diagrammet bekräftar det vi sett i regressionsanalysen. Effekten är som vanligt lutningen på linjen, men i det här fallet varierar lutningen. När demokratin har värdet 0 är lutningen -1,211, alltså starkt negativ. Vid värdet 4 är lutningen -0,131, svagt negativ. Vid 5 har det vänt och lutningen är nu +0,139, och därefter ökar linjens lutning.

 

Avslutning
Spridningsdiagrammet visar den kvadratiska ickelinjära effekten på ett tydligt sätt, men man kan ju bara inkludera två variabler i ett spridningsdiagram, och alltså inte kontrollera för andra variabler. Det går däremot att göra i regressionsanalysen. Man kan där alltså både jobba med kurvlinjära effekter och kontrollera för andra variabler.

Avslutningsvis tycker jag att man ska vara restriktiv med användandet av kurvlinjära effekter. Ofta ökar R2-värdet något när man inkluderar en kvadratisk variabel, men det behöver inte betyda att modellen blir så värst mycket bättre. Om man inte har en bra teori om varför effekten borde vara kurvlinjär, eller om inte data väldigt tydligt uppvisar sådana tendenser, tycker jag att man ska avstå. Målsättningen med statistisk analys är ju som bekant inte att beskriva datan så bra som möjligt, utan att pröva teorier.

Med det sagt, så kan det vara lämpligt att använda kurvlinjära effekter när man misstänker att en effekt antingen är avtagande, som i exemplet med glass, eller tilltagande, vilket inträffar om effekten på något sätt förstärker sig själv. Om man till exempel ska undersöka effekten av arbetslivserfarenhet på lön kan en kurvlinjär effekt förväntas, eftersom de flesta får löneförhöjning i procent. I kronor och ören kommer då löneförhöjningen antagligen bli större för den som redan jobbat i 20 år än för den som bara jobbat 1 år, eftersom den som jobbat i 20 år antagligen har en högre lön till att börja med.

15 thoughts on “Guide: Regressionsanalys med kurvlinjära effekter

  1. Hej!
    Tack för ett trevligt inlägg. Jag vet inte om detta är rätt ställe att fråga på, men jag provar.
    Jag och en vän skriver en C-uppsats i arbetsterapi och vi vet inte riktigt hur vi ska komma vidare med den statistiska delen. Vi vill till exempel se om det finns en relation mellan hälsa och familj/arbets-konflikt. Hitills så har vi endast gjort deskriptiv statistik som visar hur många personer som upplever/inte upplever konflikt i relation till hälsa/ohälsa. Våra varibler är dikotomiserade.

    Vi vet inte riktigt hur vi ska komma vidare. Har du något tips?

  2. Thank you again for a fantastic site!

    I am about to find out the correlation between the result of one test and a number of different subtests. Would a linear regression, choosing the method stepwise be wise to do?
    To be honest I don´t really understand the difference between the different methods within linear regression for example ”enter” or ”stepwise” etc.
    Would be greatful for an answer for the question above and a clarification of the different methods in general!
    / Anna

    • Hello Anna!
      I tried to answer this question already, and if I am to help you, you have to be more explicit about what you are trying to do.

      The solution is probably not to try different methods such as ”enter” or ”Stepwise”. THose are just methods of entering the different independent variables. In stepwise, independent variables are not entered all at once, but in steps.

      /Anders

  3. One more Q about stepwise regression… Does it matter in what order you type in the different independet variables? And is there a limit of how many independent variables you can put into the analysis? I have tried to do a stepwise regression but in the output it seems like 1 independend variable is not visible. I cant figure out why… (I have total 31 independent variables). Thank you again!

    • Hello Anna!
      Yes, in stepwise regression, it matters.
      The variables are entered in order according to which ”block” you put them in.
      And there is in general no limit to the number of independent variables, other than the limit based on the number of units in your regression. You can not have more independent variables than you have units of analysis.

      /Anders

  4. Hej!

    Jag har en fundering angående relationen beroende/oberoende variabler.

    Måste antalet enheter (N) på den beroende variabeln vara lika stor som på de oberoende variablerna?

    Martin

    • Hej Martin!
      Ja och nej. Alla analysenheter som ingår i regressionen måste ha värden både på den beroende och de oberoende variablerna.

      Men SPSS sköter det här automatiskt, så att alla som saknar värden på antingen beroende eller oberoende variabler exkluderas i analysen.

      /Anders

  5. Hej Anders,

    Jag har en fråga. Jag har i SPSS gjort en regression av sambandet mellan kvinnors och mäns läskunnighet och födelsetal. Kvinnors läskunnighet har ett negativt statistiskt signifikant samband, dvs för varje procentenhet kvinnors läskunnighet ökar minskar födelsetalet med 0,021 barn per kvinna. Men för mäns läskunnighet får jag ett positivt statistiskt signifikant samband. Hur ska jag tolka detta? Att för varje procentenhet mäns läskunnighet ökar kommer födelsetalet att öka med 0,012 barn per kvinna…. Så är det ju knappast….
    Tacksam för svar!
    /Martin

    • Hej Martin!
      Du ger ett exempel på typen av frågor som gett upphov till uttrycket ”Correlation does not imply causation” – korrelation är inte samma sak som kausalitet.

      Med statistisk analys kan du bara få reda på vilka variabler som samvarierar. De tär inte samma sak som att den ena variabeln har orsakat den andra. Att mäns läskunnighet hänger ihop med barnafödande är väl inte så värst mycket mer osannolikt än att kvinnors läskunnighet gör det. Du får fundera på vilka orsaksmekanismer som kan tänkas göra att de olika variablerna hänger ihop.

      Om du kommer fram till att det kan vara en tredje variabel som orsakar både hög läskunnighet bland män och högt barnafödande kan du föra in det som en kontrollvariabel, vilket eventuellt gör att sambandet försvinner.

      Men framförallt: teoretiskt arbete!
      /Anders

  6. Hej,

    Finns det någon möjlighet att få en övergripande förklaring till vad F-test innebär, samt DF (degrees of freedom). Hittade nämlingen inget inlägg som gick igenom övergripande data.

    P.S visst är det så att om man har ett sig. på 0,036 och man har valt att ha ett konfidensintervall på 0,05 så ska man förkasta (0,036<0,05) Noll hypotesen?

    • Hej Victor!
      Snabbt förklarat så är ett F-test ett test på om någon av variablerna i en regressionsmodell har någon förklaringskraft, eller i en ANOVA på om det finns någon skillnad mellan grupperna. Om man gör många signifikanstest ökar risken för att något av dem blir fel, och därför bör man först kolla på F-testet innan man kollar på enskilda signifikanstest.

      DF har att göra med hur många jämförelser man kan göra utifrån datan, och beror framförallt på hur många analysenheter du har med i analysen. Om du till exempel bara har två analysenheter kan du inte pröva effekten av mer än en variabel: det finns inte tillräckligt med folk för att separera effekterna.

      Och ja, det är ett signifikant resultat.

      /Anders

  7. Hej!
    Jag undrar vad som vanligen brukar redovisas i en artikel (vad gäller statistisk terminoligi och siffror) när man utfört en stepwise regressions analys. Har sätt att många artiklar redovisar en siffra för r / p / β / och % (variansen) i sitt resultat. Jag sitter nu med en output från SPSS som efter en utförd stepwise regressions analys men vet inte riktigt hur jag ska hitta (och tolka) dessa siffror. Var hittar jag siffrorna som matchar ovanstående tecken? (och om du vill får du gärna komma men en kort liten kommentar för resp tecken…)
    Ja, jag har läst din text ovan och finner den jätte givande men det blir liksom lite klurigt hur som helst när man väl ska sätta sig ner med sin data och skriva ner ett resultat.
    Tack på förhand för en supersajt (den har varit behjälplig vid många tillfällen tidigare)

  8. Hej Anders! Tack för en bra sida, här har vi kunnat hitta mycket värdefull hjälp.
    Jag har en fråga angående tvåvägs ANOVA. När man tagit bort mean effects från raw means, hur tolkar man resultaten. Vad innebär ett negativt värde och vad innebär ett positivt värd.

    Tack på förhand!

    Hälsningar,
    Lina

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s