Läsarfråga: Multikollinearitet i dummyvariabler

Q: En av variablerna som jag testar i multipel linjär regression har svarsalternativen 1= aldrig, 2=sällan, 3=ofta, 4= väldigt ofta. Jag har i analysen nu gjort dummyvariabler av samtliga utom nr 4, vilken jag jämför med. Så långt inga problem. Däremot går jag problem med multikollinearitet i variablerna 1 & 2 när jag lägger in dem i en regressionsmodell med andra variabler. Spontant känns det inte så underligt att de kanske är beroende av varandra och verkar liknande på den beroende variabeln eftersomd de är skapade ur samma grundvariabel. Men hur tar jag hänsyn till detta? (väger jag samman svar 1 & 2 har jag åter en tolerabel nivå för multikollinearitet men jag skulle föredra att inte göra på detta vis).

Kommentar: Multikollinaritet innebär att två eller flera av de oberoende variablerna samvarierar väldigt mycket. Det leder till att det blir svårt eller omöjligt att urskilja vilken av variablerna som har effekt på den beroende variabeln, och de kommer därför inte bli signifikanta. Man kan undersöka detta genom att kolla på de bivariata korrelationerna mellan de oberoende variablerna. Korrelationer på ungefär 0.6-0.7 och högre kommer antagligen orsaka multikollinearitet. Man kan också när man gör sin regression trycka på ”Statistics” och klicka i rutan ”Collinearity diagnostics”. Längst ut till höger i regressionstabellen kommer det då fram en kolumn där det står ”VIF”. Ju högre värde, desto mer multikollinearitet. Värden under 4 brukar anses okej.

A: Nej, det är inte så konstigt som du säger. När en av dummyvariablerna är 1 är de andra ju av nödvändighet 0, vilket gör att de korrelerar mycket. Jag skulle tro att svarsalternativen 1 och 2 är de vanligaste svaren, är det så? Ett sätt att undvika multikolinearitet är att använda det vanligaste svaret som referenskategori. Det kommer göra att diagnosvärdena för multikolinearitet sjunker, skulle jag tro.

Det är mitt första och bästa råd, eftersom du inte behöver ändra något i analysen. Kanske blir det bökigt att tolka om referenskategorin blir ett av alternativen i mitten, det är ju enklare om man som du gjort tidigare har ett extremalternativ som referens, eller har ett ”varken eller”-alternativ.

Om du kommer under tolerabla nivåer med ”Aldrig” som referenskategori skulle jag använda det om jag vore du.
Om det inte funkar på det här viset oavsett vilket alternativ du använder som svarskategori lutar det nog att du får dikotomisera variabeln, dvs ha 1 & 2 ihop, samt 3 & 4 ihop, vilket jag tycker är att föredra framför att ha 1 och 2 som en variabel, och 3 och 4 var för sig. Det känns naturligare om kategorierna har lika många svarsalternativ i sig.

8 thoughts on “Läsarfråga: Multikollinearitet i dummyvariabler

  1. Multikollinearitet i logistisk regression.

    Jag håller på att bygga en logistisk regressionsmodell. Då jag kollar korrelationen mellan dessa 2 variabler enligt beskriving ovan så blir det 0.64. Betyder det då att jag intre ska ha med den ena variablern i modellen? Det ena variablen känns också mer som att den är en konsekvens av den andra.

    Kan jag direkt i den logistiska regressions outputen se om det finns multikollinearitet?

    Tack på förhand!

    • Hej! En korrelation på 0.64 är inte så farlig så att du ska ta bort variabeln direkt. Däremot är det en annan sak om den ena variabeln är en konsekvens av den andra. Då får du avgöra teoretiskt om du ska ha med variabeln eller inte.

      Ett exempel: Finns det löneskillnader mellan kvinnor och män? Man kan då ha lön som beroende variabel och kön som oberoende variabel. Effekten av kön är då den faktiska skillnaden mellan kvinnors och mäns lön. Men vi vet också att kvinnor i högre utsträckning jobbar i offentlig sektor, och att lönerna är lägre där.

      Om vi lägger in anställningssektor kommer den direkta effekten av kön minska. Den visar då bara effekten av kön inom respektive sektor.

      Men om det är så att vi tänker att kvinnor och män väljer olika anställningssektor eftersom de har olika kön är det ju inte helt rätt att kontrollera bort den del av könseffekten som går genom anställningssektor. Det beror på om vi vill se på den totala könseffekten eller på den delen av effekten som inte kanaliseras genom anställningssektor.

      I den vanliga outputen från en logistisk regression kan man inte se om det finns multikollinearitet. Jag har inte heller hittat något sätt att få fram sådan diagnostik. Men du kan köra om din logistiska modell med hjälp av en vanlig linjär regression, och då ta fram diagnostik för multikollinearitet, som beskrivs i guiden du kan hitta på sidan. Du får då inte de rätta effekterna för de oberoende variablerna, men multikollineariteten förändras inte. Så gör en logistisk regression, och gör sedan en vanlig regression för att få fram multikollinearitetsdiagnostik.

      /Anders

  2. Måste verkligen börja med att säga att den här sidan är helt fantastisk. Inläggen är skrivna med stor tydlighet och för oss som är nybörjare så är detta till väldigt stor hjälp. Nu till mina frågor:

    I Andy Fields bok om SPSS, så står det att om man har en riktad hypotes så kan man använda ett såkallat ensvansat test men om man har en oriktad hypotes så får man använda ett tvåsvansat test. Vad finns det för för- och nackdelar med de olika testerna? Kan man använda ett tvåsvansat test trots att man har en riktad hypotes och är detta i så fall att föredra?

    En annan fråga gäller korrelationer och regressioner. I vår studie tittar vi på sambandet mellan sömnsvårigheter och minnet för personliga händelser, där vår hypotes är att människor som sover sämre, minns färre positiva personliga händelser och/eller fler negativa personliga händelser. Vi har funnit ett svagt men signifikant positivt samband mellan sömnsvårigheter och minnet för negativa händelser, däremot fann vi inga signifikanta samband avseende sömnsvårigheter och minnet för positiva händelser.

    I vår studie kommer vi att gå vidare med en multipel regression för att titta närmare på hur sambandet ser ut och även kontrollera för variabler som vi tänker kan påverka relationen mellan sömnsvårigheter och minnet för negativa händelser.

    Vår fråga nu är: är det någon idé att gå vidare från en bivariat korrelationsanalys till en multipel regressionsanalys när vi har svaga samband mellan variablerna sömnsvårigheter och negativa personliga händelser samt kan vi i regressionsmodellen ta med variabler som i korrelationsmodellen inte visats samvariera. För att förtydliga vad vi menar:

    I korrelationsanalysen fann vi inga signifikanta samband mellan sömnsvårigheter och minnet för positiva händelser men när vi för in minnet för positiva händelser och minnet för negativa händelser i regressionsmodellen och kontrollerar för emotioner och ålder, så visar det sig att det förklarar en del varians i sömnsvårigheter, vilket vi då tolkar som att hur vi minns våra livshändelser har betydelse för hur vi sover.

    Vi är lite ambivalenta vad gäller de motstridiga resultaten. I den första modellen (bivariat korrelation) så ser vi att sömnbesvär och minnet för positiva händelser inte samvarierar och i den andra modellen (multipel regression) så säger vi att minnet har visst betydelse för hur vi sover.

    Hur förklarar man dessa motstridiga resultat?

    Mycket tacksam för snabb hjälp!

    Vänligen
    C och Y

    • Hej C och Y!
      När man gör ensvansade test är det ”lättare” att få signifikanta resultat. Men jag tycker bara att man ska göra dem om man är väldigt säker på att det bara kan gå åt ena hållet. Jag kör själv bara med tvåsvansade test. Jag har sett exempel på när man använt ett ensvansat test (för att testa en positiv effekt), och sedan har resultaten gått åt andra hållet (signifikant negativ effekt) och författaren har bara accepterat det. Det är inte bra. Det är ju tydligt bevis på att ett tvåsvansat test hade vart mer lämpligt.

      Man kan gå vidare med en multipel regressionsanalys även om man inte hittar bivariata samband. Det kan ibland vara så att det ursprungliga sambandet är undertryckt – dvs att det finns en annan variabel som är negativt korrelerad med den oberoende variabeln och positivt med den beroende, eller tvärtom. Då kan ett samband komma fram mellan de två ursprungliga variablerna, när man kontrollerar för den tredje.

      När det gäller jämförelsen mellan era modeller får ni ju också tänka på att den förklarade variansen tar in alla variabler i modellen. Så det skulle ju kunna vara så, om jag förstår det rätt, att sömnsvårigheter inte samvarierar med minnet för positiva händelser, men att ålder till exempel samvarierar med sömnsvårigheter (inte osannolikt). Då kanske det är ålder som förklarar variansen i den multipla modellen.

      Kolla istället på effekterna av de enskilda variablerna, och om de är signifikanta.

      /Anders

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s