Guide: Stiganalys

I det här inlägget ska vi:

  • Genomföra en stiganalys
  • Göra ett filter för att bara få med de analysenheter som har giltiga värden på alla variabler

I vanlig regressionsanalys undersöker man de direkta effekterna av en eller flera oberoende variabler på en beroende variabel. Men i många teorier så antar man att en effekt kan medieras genom en annan variabel – effekten går så att säga genom en annan variabel.

Ett exempel är sambandet mellan kön och lön. Man kan dels tänka att det finns en direkt negativ effekt av att vara kvinna på lönenivån – kvinnor diskrimineras och får lägre lön utan att det finns något särskilt skäl för det. Men man kan också tänka sig att det finns en indirekt effekt: kvinnor kanske hamnar eller söker sig till yrken där lönen är lägre i högre utsträckning än vad män gör. Anledningen till att kvinnor har lägre lön beror alltså delvis på att kvinnor jobbar i låglöneyrken – effekten av kön medieras genom anställningssektor.

Det här kan man undersöka empiriskt i SPSS med hjälp av så kallad stiganalys. En stiganalys är helt enkelt en serie regressionsanalyser som man sätter ihop till en större helhet. Kan man göra en regressionsanalys kan man också göra en stiganalys.

Teori och operationaliseringar
I det här exemplet ska vi undersöka teorin att demokrati leder till en högre ekonomisk produktivitet i ett land, mätt i BNP per capita. Det kanske känns intuitivt rimligt, men vad är det i demokratins natur som gör att länder som är mer demokratiska har en högre ekonomisk produktivitet? Det finns säkert massor av möjliga mekanismer, men en möjlighet skulle kunna vara att fler människor får chansen att utbilda sig i demokratier, vilket leder till högre tillväxt.

I en stiganalys av den här teorin vill vi veta:
1. Vilken den direkta effekten av demokrati är på BNP
2. Vad effekten av demokrati är på utbildningsnivån
3. Vad effekten av utbildningsnivån är på BNP
4. Hur mycket av effekten av demokrati på BNP som medieras genom utbildningsnivån

VI kommer att använda oss av Quality of Government-datamängden, som finns att ladda ner från QoG-institutets hemsida. Demokrati mäts genom en sammanslagning av två index, ett som är skapat av Freedom House och ett som kallas Polity IV. BNP per capita har beräknats av FN. Utbildningsnivån operationaliserar vi som det genomsnittliga antalet skolår i den del av befolkningen som är 25 år och äldre. För den som vill pröva själv heter variablerna i datamängden följande:

Demokrati: fh_polity2
BNP per capita: unna_gdpc
Utbildningsnivå: bl_asyt25

Skapa ett filter
När man gör en regressionsanalys inkluderar SPSS alla analysenheter som har giltiga värden på variablerna i analysen. Eftersom vi ska göra flera analyser är det troligt att det kommer vara olika antal länder i de olika analyserna. Det är inte bra, eftersom vi när vi jämför dem inte kommer veta om olika resultat beror på att variablernas effekter, eller på att det helt enkelt är olika sorters länder som ingår i analysen. Därför ska vi göra ett filter, så att bara de länder som har värden på alla tre variablerna är med i analysen. Det gör man genom att gå in på Data->Select Cases. I fönstret klickar man i knappen ”If condition is satisfied”.

I fönstret som kommer upp kan man nu skriva in ett villkor som måste vara uppfyllt för att analysenheten ska finnas med i de fortsatta analyserna. I rutan ”function group” till höger kan man välja olika kategorier av funktioner. En kategori är ”missing values”. Om man klickar på den får man upp ett antal funktioner i den kategorin i rutan under, varav en är ”NMISS”. Med ”NMISS” kan man specifiera ett antal variabler, och så räknar funktionen ut hur många av dem som har missing values. Vårt villkor ska vara att antalet variabler som har missing values (av våra tre variabler) ska vara noll – ingen av våra tre variabler har missing values. Det gör man genom att skriva följande:

NMISS(fh_polity2,bl_asyt25,unna_gdpc)=0

Om varken fh_polity2, bl_asyt25 eller unna_gdpc har några missing values kommer analysenheten få vara med i analysen, annars inte. Om man har fler variabler skriver man in alla inom parentesen, separerade med kommatecken.

Bild 1: Hur man filtrerar ut analysenheter som inte har värden på alla variablerna i analysen.

Klicka därefter på ”Continue” och sedan ”OK”. Om man nu kollar i ”Data view” kan man se att en del analysenheter har fått ett streck över siffran i kolumnen till vänster. Det betyder att de inte kommer med i alla analyser vi gör från och med nu. Alla omkodningar kommer dock gälla även för dessa variabler! Om man vill ha med dem igen går man in på Data->Select Cases och klickar i ”All cases”. Observera också att man måste göra om filtret om man startar om SPSS.

Stiganalysen
Det första vi ska göra är att undersöka den direkta effekten av demokrati på BNP per capita. Det gör vi genom att göra en bivariat regressionsanalys med demokrati som oberoende variabel och BNP per capita som beroende variabel.

Regressionsanalys 1:
Oberoende variabel: Demokrati (fh_polity2)
Beroende variabel: BNP per capita (unna_gdpc)

Bild 2: Output från den första regressionsanalysen.

Det intressantaste är det som står i rutan ”Coefficients”. Tolkningen är densamma som alltid i regressionsanalys. Vi ser på b-koefficienten att om demokrati ökar med ett steg (på en tiogradig skala) så förväntas BNP per capita öka med 1878 dollar. Men vi ska i stiganalysen jämföra effekten av variabler som är mätta på olika sätt, vilket gör att det är svårt att jämföra b-koefficienter. Vi ska därför använda oss av måttet ”Beta”, vilket är en standardiserad b-koefficient. I en bivariat regressionsanalys kan den gå mellan -1 (perfekt negativt samband) och +1 (perfekt positivt samband).

I en bivariat regressionsanalys är Beta exakt samma som korrelationskoefficienten mellan de två variablerna. I en multivariat regressionsanalys kan Beta vara större än ett och mindre än minus ett, men är det oftast inte. Beta säger alltså bara hur starkt sambandet mellan de två variablerna är, och om det är positivt eller negativt – inte vad den exakta effekten är. I det här fallet är Beta 0,529, vilket får betraktas som ett relativt starkt samband.

Vi ritar nu ut den direkta effekten av demokrati på BNP per capita i ett enkelt diagram, som ser ut såhär:

Bild 3: Effekten av demokrati på BNP per capita (Beta).

Det kan vara bra att först presentera det här diagrammet, så att man får en uppfattning om vad den totala effekten av demokrati på BNP per capita är. Enligt vår teori ska nu alltså en del av den här effekten medieras, eller kanaliseras, genom utbildningsnivån. Vi undersöker nu därför vad effekten av demokrati är på den genomsnittliga utbildningsnivån.

Regressionsanalys 2:
Oberoende variabel: Demokrati (fh_polity2)
Beroende variabel: Utbildningsnivå (bl_asyt25)

Man kan då se att Beta-koefficienten är 0,595. Eftersom Beta-koefficienterna är jämförbara kan vi alltså dra slutsatsen att sambandet mellan graden av demokrati i ett land är starkare sammankopplat med den genomsnittliga utbildningsnivån än med BNP per capita. Vi skriver ut det i ett diagram där alla tre variablerna finns med, och det går en pil från demokrati till utbildningsnivå, och pilar från demokrati och utbildningsnivå till BNP per capita.

Bild 4. Effekten av demokrati på genomsnittlig utbildningsnivå.

Observera att det nu är tomt ovanför pilen mellan demokrati och BNP per capita – den direkta effekten av demokrati på BNP per capita kommer vara annorlunda när vi tagit in utbildningsnivå i analysen.

Nästa steg är att undersöka de direkta effekterna av demokrati och utbildningsnivå på BNP per capita. Vi gör då en multivariat regressionsanalys där BNP per capita är den beroende variabeln och demokrati och utbildningsnivå är oberoende variabler.

Regressionsanalys 3:
Oberoende variabel 1: Demokrati (fh_polity2)
Oberoende variabel 2: Utbildningsnivå (bl_asyt25)
Beroende variabel: BNP per capita (unna_gdpc)

Bild 5: Output från den tredje regressionsanalysen.

Vi ser där att sambandet mellan genomsnittlig utbildningsnivå i ett land och BNP per capita är mycket starkt, då Beta är 0,700. Vi ser också att sambandet mellan demokrati och BNP per capita försvagats avsevärt nu när vi lagt in utbildningsnivå i analysen, och Beta är nu 0,112. Det är för att vi nu mäter effekten av demokrati under kontroll för utbildningsnivå. Vi skriver in de två beta-koefficienterna vid respektive pil i diagrammet, som nu är färdigt.

Bild 6: Det färdiga stigdiagrammet.

Vad kan man utläsa ur diagrammet? Jo, att det finns en stor effekt av demokrati på utbildning, och en stor effekt av utbildning på BNP per capita, och att den direkta effekten av demokrati på BNP per capita är ganska liten.

Räkna ut totaleffekt, direkt effekt och indirekt effekt
Vi kan nu också räkna ut vad den indirekta effekten av demokrati på BNP per capita är. Det gör man genom att multiplicera effekten av demokrati på utbildning med effekten av utbildning på BNP per capita. Alltså: 0,595*0,700=0,417.

Den del av effekten av demokrati på BNP som inte medieras via utbildning är 0,112. Det är den så kallade direkta effekten.

Om vi lägger ihop den direkta effekten och den indirekta effekten får vi totaleffekten. 0,112+0,417=0,529. Känns det talet igen? Det är samma tal som vi fick fram från den bivariata analysen mellan demokrati och BNP per capita (Bild 2 och bild 3)! Det vi har gjort är alltså att bena upp den effekten, så att vi kan se hur mycket av den totala effekten som går via utbildning.

Man kan nu också dela den direkta och indirekta effekten med totaleffekten för att se hur mycket som går de två olika vägarna. Om vi multiplicerar med hundra får vi det uttryckt i procent.

Andel direkt effekt: (0,112/0,529)*100 = 21,2
Andel indirekt effekt: (0,417/0,529)*100 = 78,8
Summa: 100

78,8 procent av effekten av demokrati på BNP per capita kanaliseras alltså genom utbildning, och 21,2 går andra vägar. Ett nästa steg kan vara att försöka reda ut vilka andra faktorer förutom utbildning vilka demokrati verkar igenom. Man kan också utöka stiganalysen genom att undersöka på vilket sätt utbildningsnivå påverkar BNP per capita – är det för att fler människor startar företag till exempel?

20 thoughts on “Guide: Stiganalys

  1. Intressant, men hur gör man om man har två mellanliggande variabler?
    Och vad gör man om Betavärdena visar på minusvärden?

    • Hej Anna!
      Det enklaste först: Om Betavärdena är negativa betyder det helt enkelt att effekten är negativ. Man gör precis på samma sätt som vanligt när man räknar ut indirekta effekter och totaleffekter. Om till exempel effekten av demokrati på utbildning i exemplet ovan varit negativ hade den indirekta effekten av demokrati på BNP blivit negativ – mer demokrati leder till mindre utbildning, medan mer utbildning leder till mer BNP. Alltså är utbildningen lägre i demokratier, vilket ger lägre BNP.

      Principerna är desamma när man har två mellanliggande variabler. Det blir dock olika beroende på om de mellanliggande variablerna följer på varandra eller representerar två olika mekanismer, om du förstår vad jag menar.

      Det första alternativet är att de följer på varandra. I exemplet ovan skulle vi kunnat lägga in en till variabel, utbyggnad av skolsystemet, mellan demokrati och utbildning. Demokrati->Utbyggnad av skolsystemet->Utbildning->BNP per capita.

      I det fallet behöver vi göra följande regressioner:

      1. Oberoende variabel: Demokrati
      Beroende variabel: BNP per capita
      Den första regressionen gör man av samma anledning som i exemplet, för att få fram totaleffekten.

      2. Oberoende variabel: Demokrati
      Beroende variabel: Utbyggnad av skolsystemet

      3. Oberoende variabler: Demokrati & Utbyggnad av skolsystemet
      Beroende variabel: Utbildning

      4. Oberoende variabler: Demokrati, utbyggnad av skolsystemet & utbildning
      Beroende variabel: BNP per capita

      Det blir då tre indirekta effekter som man får räkna ut. Demokrati kan då påverka BNP per capita på följande sätt:
      1. Demokrati->BNP (direkt effekt)
      2. Demokrati->Skolsystemet->BNP (indirekt effekt 1)
      3. Demokrati->Utbildning->BNP (indirekt effekt 2)
      4. Demokrati->Skolsystemet->Utbildning->BNP (indirekt effekt 3)

      Genom att summera alla de effekterna, alltså inklusive den direkta effekten, får man fram samma som i totaleffekten (den bivariata effekten av demokrati på BNP).

      Det andra alternativet är att de två variablerna representerar två separata effekter. I exemplet skulle man kunna tänka sig att vi lägger till en variabel som är ”Affärsklimat”. Den följer av demokrati, men är inte ett resultat av utbildning (behöver vi inte tänka nu i alla fall).

      Då gör du följande regressioner:

      1. Oberoende variabel: Demokrati
      Beroende variabel: BNP per capita
      Den första regressionen gör man av samma anledning som i exemplet, för att få fram totaleffekten.

      2. Oberoende variabel: Demokrati
      Beroende variabel: Affärsklimat

      3. Oberoende variabler: Demokrati
      Beroende variabel: Utbildning

      4. Oberoende variabler: Demokrati, affärsklimat & utbildning
      Beroende variabel: BNP per capita

      Man får då fram två indirekta effekter. Demokrati kan då påverka BNP på följande sätt:
      1. Demokrati->BNP (direkt effekt)
      2. Demokrati->Affärsklimat->BNP (indirekt effekt 1)
      3. Demokrati->Utbildning->BNP (indirekt effekt 2)

      Det är samma sak där – lägg ihop dem för att få fram den totala effekten. Det gäller att hålla tungan rätt i mun för att hålla reda på alla indirekta effekter, men så länge summan av alla effekterna blir samma som totaleffekten kan man vara säker på att man gjort rätt.

      /Anders

  2. Hej!
    Jag håller på med en analys av lön och kön. I den vill jag undersöka effekten av att ha en viss specialistutbildning. Det finns väldigt många olika typer av specialister och i min första version hade jag bara med de tio största pga tidsbrist och att antalet observationer var över tusen i var och en av dem. Jag gjorde en dummyvariabel för varje specialitet. Vissa specialistgrenar är väldigt små och när man delar upp dem på kön blir det ännu mindre grupper. Mina frågor är om det finns något minimiantal, eller om man kan ta med alla oavsett storlek? Måste man göra en dummyvariabel för varje?
    Hälsningar/Åsa

  3. Hej igen!
    Kom på en fråga till. De faktorer som jag vill ta med i analysen av lön och kön är förutom specialistgren, befattning, ålder/legitimationsår och ev geografiskt arbetsställe. Kan jag göra en stiganalys med alla faktorerna samtidigt eller har du något förslag på hur jag kan bena ut det? Hälsningar,
    /Åsa

    • Hej Åsa!
      Till att börja med undrar jag om du ska göra en stiganalys. Det beror ju lite på frågeställningen. Är frågeställningen att se på den direkta effekten av kön, under kontroll för alla de andra faktorerna (och på så sätt komma åt en eventuell diskrimineringsfaktor) eller att undersöka hur kön leder till olika karriärsval (som i sin tur leder till olika lönenivåer)? Om det du är ute efter är det förstnämnda behöver du inte göra en stiganalys, utan kan göra en vanlig regressionsanalys.

      Hur som helst, minimantalet för varje grupp är väl ett par stycken, såvida du inte ska se vad effekten av kön är inom varje specialisering. Om du bara är intresserad av den övergripande effekten av kön så borde det inte vara lika kritiskt. Om du däremot vill se effekten av kön inom varje grupp, dvs om könsskillnaderna är större för kirurger än för distriktsläkare (det handlar om läkare va?) så bör du nog ha en 20+ i varje grupp.

      Du behöver bara göra dummyvariabler för de specialistgrenar som du vill särskilja. Om du till exempel har en dummyvariabel för ”kirurg” så kan du se hur kirurger skiljer sig från övriga läkare. Om du vill komma åt en eventuell diskrimineringseffekt så blir det antagligen mest övertygande om du har dummyvariabler för alla specialistgrenar, eftersom man annars kan argumentera för att kvinnor är överrepresenterade i vissa grenar, och att det är därför man till exempel ser att de har lägre lön.

      Och ja, du kan ha med variabler för specialistgren, befattning, ålder, legitimationsår och geografiskt arbetsställe samtidigt, givet att du har så många analysenheter som du säger (flera tusen).

      Var det svar på frågorna?

      /Anders

  4. Hej Anders!
    Tack för ditt fantastiskt snabba och bra svar. Det jag vill se är dels om det finns diskriminering. Dvs om jag kontrollerar för ålder, befattning osv, finns det fortfarande oförklarade skillnader till männens fördel.

    Men kan en vanlig regression visa t ex hur mäns och kvinnors benägenhet att välja specialistgren kan påverka löner eller det faktum att fler män återfinns i högre befattningar. En tidigare regression har visat att när man tar med kön och befattning i en interaktionsanalys så ser man en diskrimineringseffekt som inte syns i den vanliga regressionen. Jag skulle vilja gräva djupare och fick som förslag av en kollega interaktionsanalys eller stiganalys. Men det kanske inte behövs?
    /Åsa

    • Med en vanlig regression kan du bara svara på frågan om det finns könsskillnader som inte beror på någon av variablerna du kontrollerar för. Om du vill fördjupa frågeställningen kan du använda dig av interaktionsanalys eller stiganalys.

      Om det behövs eller inte beror helt på vilken fråga du vill svara på. Stiganalys använder du lämpligen för att se hur kvinnors och mäns val av specialistgren inverkar på lönen. Då vill du se på indirekta effekter av kön, medierat genom val av specialistgren (eller befattningar). I olika steg har du då val av av specialistgren eller befattning som beroende variabel. Befattning kan nog gå ganska bra att ha med i en vanlig OLS-regression som någon sorts skala, men det är lurigare om den beroende variabeln är en specialistgren. Det är ju som bekant en nominalskala – de olika specialistgrenarna går ju inte att rangordna. När den beroende variabeln är en dummyvariabel ska du använda dig av logistisk regression, och det krånglar ju till det hela.

      Interaktionsanalys använder du om du vill se om de oförklarade löneskillnaderna är större inom vissa specialistgrenar, eller på olika befattningar.

      /Anders

  5. Hej!

    Jag håller på att göra en undersökning där jag undersöker hyresarbetstagare. och jag vill få reda på ifall jobbets natur (brist på sammanhållning, arbetets osäkerthet och begränsade utvelckligs -och påverkningsmöjigheter) påverkar arbetstagarnas arbetstillfredsställelse. Arbetstillfredställelse är beroende variabeln och brist på sammanhållning, arbetets osäkerthet och begränsade utvelckligs -och påverkningsmöjigheter är obeorende variablerna. Jag vill undersöka ifall jobbrelaterade behov (autonomi, sammanhållning och kompetens) medierar jobbets natur och arbetstillfredsställelse. Tror du att en stiganalys kan fungera i mitt fall?

    Jag vore djupt tacksam för svar.

    Med vänlig hälsning,
    Nicola

    • Hej Nicola!
      Ja, med en stiganalys skulle du till exempel kunna se om vissa jobb leder till mindre sammanhållning, och om mindre sammanhållning i sin tur leder till mindre arbetstillfredsställelse.

      Eller om till exempel hög osäkerhet leder till mindre autonomi och det i sin tur leder till arbetstillfredsställelse.

      Om det är något liknande du vill göra så borde en stiganalys funka bra!

      Sen beror det på hur dina olika variabler är mätta. Om du använder flera enkätfrågor för att mäta varje enskilt begrepp, som till exempel arbetstillfredsställelse, kan en så kallad strukturell ekvationsmodell (SEM) vara lämplig. En SEM är som en stiganalys, fast man kan ha så kallade latenta variabler, variabler som byggs upp av flera mätindikatorer. Du kan läsa mer om SEM här:

      http://faculty.chass.ncsu.edu/garson/PA765/structur.htm

      Var det så du menade?

      /Anders

  6. Hej!

    Jag håller på att göra en stiganalys och jag skulle vilja försäkra mig om en sak. Jag undersöker hyresarbetstagare och jag vill få reda på ifall jobbets natur (brist på sammanhållning, arbetets osäkerthet och begränsade utvelckligs -och påverkningsmöjigheter) påverkar arbetstagarnas arbetstillfredsställelse. Arbetstillfredställelse är beroende variabeln och brist på sammanhållning, arbetets osäkerthet och begränsade utvelckligs -och påverkningsmöjigheter är obeorende variablerna. Jag vill undersöka ifall jobbrelaterade behov (autonomi, sammanhållning och kompetens) medierar jobbets natur och arbetstillfredsställelse.

    Det jag nu undrar är att under jobbets natur har jag tre variabler som jag summat ihop till en summavariabel som heter ”arbetets natur”. Detsamma gäller hyresarbetarnas jobbrelaterade behov. Dessa tre behov har jag gjort summavariabler av som heter (jobbelaterade behov) Nu funderar jag ifall jag trots detta kan göra en stiganalys fastän det finns tre variabler under kategorierna.

    Skulle uppskatta stort Din hjälp.
    Med vänlig hälsning,

    Nicola Köhler

    • Hej Nicola!
      Om du har gjort sammansatta variabler så kan du rent tekniskt använda dem på samma sätt som andra variabler i analysen. Sen får du ju fundera över de teoretiska implikationerna (kan de ingående variablerna förväntas påverkas på samma sätt, till exempel?).

      Men allra bäst hade det nog blivit om du jobbat med så kallade strukturella ekvationsmodeller, SEM. Structural Equation Modelling kallas det på engelska. Det påminner väldigt mycket om stiganalys, men är speciellt anpassat för att ha med så kallade latenta variabler, dvs teoretiska variabler som är uppbyggda av flera olika mätbara indikatorer, precis som i ditt fall. Med SEM kan man ta med det direkt i modellen utan att behöva göra summerade variabler innan. Men det är betydligt mer komplicerat. Googla så hittar du info.

      /Anders

  7. Hej

    Jag har problem med hög multicollinearity mellan mina två oberoende variabler. Det ställer så klart till det i slutdelen av stiganalysen, då koefficienterna i min andra oberoende variabel blir negativ – vilket mest sannolikt beror på just att de korrelerar så högt med varandra (0.822). Finns det något enkelt – något sätt alls, att lösa detta i SPSS? Sökt lite på google men får rätt kryptiska svar på det. Mvh

  8. Hej,

    är det någon skillnad på slutresultatet (dvs indirekta och direkta effekter) att göra en medieringsmodell i flera steg (så som i den beskrivna stiganalysen), mot att genomföra den i en analys mha av t.ex. AMOS eller PROCESS?

    Tack,
    Per

  9. Hej!
    Tack så mycket för en tydlig redogörelse av beräkning av direkt/indirekt/total effekt. Jag undrar över två saker:
    Jag har, enligt dina instruktioner beräknat andel direkta och indirekta effekter i procent och får fram ett värde på 117,33 (direkt effekt av IV på DV) och -17.33 (indirekt effekt av IV på DV). Hur kan jag tolka detta?
    Sedan undrar jag om det finns någon möjlighet att beräkna signifikansvärden på direkt/indirekt/total effekt?
    Tack!

  10. Hej Anders

    Jag sitter nu och gör stiganalyser.
    Har dock lite svårt hur jag skall räkna ut indirekta och totala effekten.
    Exempel total effekt:
    Indirekt effekt A via B: 0.0284 x 0.361 = 0.0103
    Direkt effekt av A: -0.258
    0.0103-0.258=-0.248 eller om det ska vara 0.0103+0.258=0.268.
    Tacksam för hjälp
    Mia

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s