Guide: Faktoranalys

I den här guiden ska vi gå igenom:

  • Varför man använder faktoranalys
  • Hur man genomför faktoranalys i SPSS
  • Hur man tolkar resultaten

I statistiska undersökningar har man ofta en beroende variabel som man är intresserad av och försöker förklara. Men ibland har man fler beroende variabler av intresse, till exempel en mängd frågor om attityder i olika sakfrågor i opinionsundersökningar. Man kan givetvis göra separata analyser för alla de beroende variablerna, men ibland har man anledning att misstänka att det finns bakomliggande faktorer som påverkar flera av de beroende variablerna.

När det till exempel handlar om attityder till politiska frågor kan man misstänka att en persons ideologi påverkar inställningen i många frågor. En person som tycker att det är en bra idé att sänka skatten tycker antagligen också att det är en bra idé att privatisera fler statliga bolag, på grund av att den personen antagligen står till höger politiskt.

Med faktoranalys kan vi genom att titta på samband mellan olika variabler urskilja eventuella bakomliggande faktorer. Om man hittar sådana kan man sedan gå vidare och undersöka dem närmare, istället för att analysera de enskilda indikatorerna. Om vi fortsätter med exemplet med politiska sakfrågor så kan vi först göra en faktoranalys på de olika frågorna, kanske finna att ideologi är en viktig bakomliggande faktor, och sedan försöka förklara varför olika personer har olika ideologi, snarare än att försöka förklara personers inställning i varje enskild fråga. Faktoranalys syftar alltså till att upptäcka latenta, ej observerade variabler, utifrån analys av manifesta, observerade variabler. Bild 1 illustrerar detta.

Bild 1. Bakomliggande faktorer.

Det finns också faktoranalys där man prövar om det finns bakomliggande faktorer som man specifierat på förhand. Detta kallas då konfirmatorisk faktoranalys. Men i den här guiden kommer jag bara ta upp faktoranalys där man inte definierat faktorerna på förhand, så kallad explorativ faktoranalys.

Data
Den data som vi ska jobba med i det här exemplet kommer från World Values Survey, och handlar om förtroende för olika samhällsinstitutioner (exempelvis politiska partier, rättsväsendet, fackföreningar, osv) i olika länder. Analysenheten är alltså länder, som har olika genomsnittsnivåer av förtroende för de olika institutionerna. Datamaterialet finns sammanställt i Quality of Government-datamängden, som finns att ladda ner från http://www.qog.pol.gu.se. Variablerna som vi ska använda heter wvs_e069_01 till wvs_e069_20, arton stycken variabler.

Att genomföra analysen
För att genomföra faktoranalysen går vi in på ”Analyze->Dimension reduction->Factor”. Det heter dimension reduction för att vi reducerar mängden variabler av intresse. I det här exemplet börjar vi med arton variabler – förhoppningsvis kan vi hitta några få bakomliggande faktorer som förklarar en stor del av variationen i de arton variablerna.

Bild 2. Hur man hittar faktoranalys i SPSS.

Man får sedan upp ett fönster, där man i rutan ”variables” klickar i de variabler som man vill analysera. Vi utgår från förinställningarna i SPSS, vilket innebär att vi använder oss av av ”Principal Components” som extraktionsmetod (som man kan se om man klickar på ”Extraction”). Vi ska bara ställa in en sak, och det är den så kallade rotationsmetoden. Jag tänker inte gå in på vad det innebär rent matematiskt, men i faktoranalys får man en så kallad ”oroterad faktorlösning” och en ”roterad faktorlösning”. Det är den roterade lösningen som är intressant att undersöka. Vi trycker därför på knappen ”Rotation”, och klickar i ”Varimax” som rotationsmetod, som i Bild 3.

Bild 3. Hur man hittar ”Varimax” rotation.

Tryck sedan på OK. Man får nu ut en mängd tabeller. Först en tabell som heter ”Communalities”. Den beskriver hur mycket av variationen i de olika variablerna som våra framletade bakomliggande faktorer kan förklara. Men nästa tabell, ”Total Variance Explained” är mer intressant. Den visar hur många bakomliggande faktorer vi fått fram, och hur mycket variation de förklarar.

Tabellen innehåller 18 rader, en för varje ”Component”, numrerade 1-18. Jag kommer nu här bara prata om tre kolumner i tabellen: ”Total”, ”% of Variance” samt ”Cumulative %”. I kolumnen ”Total” står de olika faktorernas ”Eigenvalue”. Ju högre Eigenvalue, desto mer av variationen i datamaterialet förklarar faktorn. Den vanliga gränsen är att man bara bryr sig om de faktorer som har ett Eigenvärde som är över 1. I det här fallet har vi fått ut sex stycken sådana faktorer. I kolumnen ”% of Variance” ser vi hur mycket variation de olika faktorerna förklarar. Den första förklarar 27,5 procent av variationen. I kolumnen ”Cumulative %” kan vi se hur mycket variation de olika faktorerna förklarar tillsammans. De sex faktorerna förklarar tillsammans 86 % av variationen, vilket får anses bra. Ibland talar man om att faktorerna helst ska förklara 60 % av variationen, men det är en ganska godtycklig gräns. I Bild 4 visas tabellen i fråga.

Bild 4. Tabellen ”Total variance explained”.

Anledningen till att vi får ut 18 olika faktorer är för att det krävs 18 faktorer för att perfekt kunna förklara all variation i de här arton variablerna. Men de sista faktorerna kommer bara att förklara en mycken liten del av variationen. Men analysen har alltså gett oss sex faktorer med ett eigenvalue över 1. Nu ska vi försöka ta reda på vad de innebär. Det gör vi genom att titta på ”Rotated Component Matrix”, som är en förtydlig variant av ”Component Matrix”. Strunta i ”Component Matrix” och gå direkt på ”Rotated Component Matrix”. Den ser ut som i Bild 5.

Bild 5. Den roterade komponentmatrisen, ”Rotated Component Matrix”.

Tabellen visar de så kallade faktorladdningarna – hur mycket olika variabler ”laddar” på olika faktorer. Ju högre laddning, desto mer förklaras variabeln av den bakomliggande faktorn. Vi börjar titta på den första faktorn, som ju förklarade den största andelen av variansen (27,5 %). Man tittar undersöker då vilka variabler som har en laddning som överstiger 0,3 eller understiger -0,3. Sju variabler har en laddning som är över 0,3: Förtroende för ”parliament”, ”social security system”, ”the government”, ”major companies”, ”the environmental protection movement”, ”the women’s movement” samt ”the justice system”.

Det är nu upp till forskaren att med hjälp av teoretiska resonemang försöka förstå vad den här faktorn betyder, vilket inte är det lättaste I det här fallet. Å ena sidan är det flera variabler som har med staten att göra: parlamentetet, socialförsäkringssystemet, rättsväsendet och regeringen, men de tre variabler som laddar starkast på faktorn är storföretagen, miljörörelsen samt kvinnorörelsen. Särskilt miljörörelsen och storföretagen brukar man kanske tänka sig står emot varandra, men så verkar inte vara fallet. I de länder där man har högt förtroende för miljörörelsen har man alltså också stort förtroende för storföretagen och kvinnorörelsen. Det motsatta gäller också: i de länder där man har lågt förtroende för miljörörelsen har man också lågt förtroende för storföretagen och kvinnorörelsen.

Jag avstår från någon vidare tolkning av den första faktorn och går vidare till den andra faktorn. Här laddar två variabler starkt negativt: ”the press” och ”television” medan fem variabler laddar positivt: ”armed forces”, ”the police”, ”the civil services”, ”the justice system” och ”NATO”. Här är tolkningen något tydligare. Variablerna som laddar positivt hänger tydligt ihop, då de alla har med säkerhet att göra – polis, armé, rättssystem och NATO, samt även offentlig förvaltning till viss del. I de länder där man har högt förtroende för dessa institutioner har man lågt förtroende för media, och tvärtom.

Fem variabler laddar positivt på den tredje faktorn: ”the police”, ”major companies”, ”the European Union”, ”NATO” och ”the United Nations”. En variabel laddar negativt: ”the women’s movement”. Det är tydligt att någonting har att göra med förtroende för internationella organisationer, eftersom EU, NATO och FN alla laddar starkt positivt på faktorn. De positiva laddningarna för förtroende för polisen och storföretagen tyder kanske på att det är någon sorts nyliberal faktor (vilket kanske förklarar den negativa laddningen för kvinnorörelse-variabeln).

Den fjärde faktorn ser ut att ha något att göra med socialistiska eller socialdemokratiska korporativa stater, då följande sju variabler laddar positivt: ”labor unions”, ”the police”, ”parliament”, ”the civil services”, ”social security system” ”the political parties” samt ”the justice system”. Högt förtroende för statsförvaltningen, de politiska institutionerna samt fackföreningarna tycker jag tyder på en socialdemokratisk faktor.

Den femte faktorn är å andra sidan tyder möjligen på konservativa kristdemokratiska värderingar: ”churches” och ”armed forces” laddar starkt positivt, medan ”social security system” och ”NATO” laddar negativt. Nu kan det verka förvirrande eftersom ”armed forces” och ”NATO” båda laddade positivt på den andra dimensionen, men här laddar den ena variabeln positivt och den andra negativt. Det är ganska svårt att tolka, men innebär troligen att det finns olika strömningar som gör att förtroende för de båda för vissa hänger ihop (om man till exempel har stort förtroende för säkerhetsrelaterade institutioner) medan för andra inte hänger ihop (om man är för starkt nationellt självstyre).

Bar två variabler laddar positivt på den sjätte faktorn: ”the government” och ”the political parties”. Här verkar det alltså handla om förtroende för de politiska institutionerna.

Vi har nu alltså identifierat sex faktorer som förklarar en stor andel av variationen i de 18 beroende variablerna. För vissa är det tydligt vad dessa ej observerbara, ”latenta”, variabler representerar, som i fallet med förtroende för politiska institutioner, men för andra är det inte lika uppenbart.

Redovisning
Hur redovisar man det här på ett snyggt sätt då? Jag tycker att det är lämpligt att man gör ungefär som i den roterade komponentmatrisen, fast renodlar den. Man kan till exempel ta bort de laddningar som inte är över 0,3 eller under -0,3. Sen kan man försöka gruppera variablerna så att de som laddar på samma faktor ligger bredvid varandra, som i Tabell 1. Ibland har jag sett att man skrivit ut namn på de olika faktorerna, men det kan eventuellt vara lite vilseledande, eftersom faktorerna i sig inte betyder något. Man måste ju tolka dem.

Notera också att jag avrundat faktorladdningarna till två decimaler. Överlag bör man inte skriva ut för många decimaler när man gör samhällsvetenskaplig forskning, eftersom vi inte har den precisionen varken i våra mätmetoder eller våra operationaliseringar.

Scree plot
Om man vill presentera ytterligare information om de olika faktorerna kan man redovisa en så kallad ”Scree plot”. Den visar helt enkelt vilket Eigenvalue de olika faktorerna har. Det får man fram genom att göra om sin analys, men klicka på knappen ”Extraction”. I dialogfönstret som dyker upp klickar man då i ”Scree plot”. För den här analysen ser det ut som i Bild 6. Vi ser här, som vi såg i tabellen i Bild 4, vilket Eigenvalue de olika faktorerna har. Den första faktorn har högst Eigenvalue, och förklarar alltså den största andelen varians.

Bild 6. Scree plot.

Slutsats
Faktoranalys kan som vi har sett här ibland ge resultat som inte är helt lätta att tolka. Men den kan också hjälpa oss att minska mängden information vi måste analysera. Det verkar till exempel som att vi inte behöver leta efter förklaringar till högt förtroende för de politiska partierna separat från förtroende för regeringen – de verkar hänga ihop.
När man hittar faktorer där variabler både laddar positivt och negativt kan man tänka på dem som motsatsförhållanden – antingen har man förtroende för det ena eller det andra i det här fallet.

28 thoughts on “Guide: Faktoranalys

  1. Behöver hjälp med SPSS – nedan ser ni bilden:

    http://imageshack.us/f/824/sps sjebacina.jpg /

    Har skapat en variabel (lonekat) som är indelad i 4 kategorier. Den skiljer sig från den bredvid (lonkate) dvs intervallen mellan lönekategorierna skiljer sig åt vilket är medvetet från min sida. Hur ska jag nu få SPSS att avläsa ”lon1994” så att jag slipper gå från case till case? (finns ca 1750 st)

    Får inte riktigt till det – har testat en del men det krånglar. Önskar en noggrann förklarning.

    Tack på förhand!

    • Hej Anders,
      Otroligt bra guide!
      Jag har en population på 144 individer, som har fyllt i en mängd frågeformulär- totalt 24 st. Jag undrar om man kan använda sig av faktoranalys i detta fallet?
      Vad är ”maxgränsen” variabler som man kan ladda in i faktoranalysen?
      Jag har sett att man bör utföra KMO och Bartletts för att kolla sin data om de lämpar sig för faktor analys, stämmer detta?
      Tabellen Component Transformation Matrix – behöver man analysera denna? kommer som utskrift efter Rotated Component Matrix.
      Tack på förhand

  2. I Pallants bok rekommenderas att både pattern pattern coefficients och structure coefficients ska redovisas, Vad är skillnaden mellan dessa?

  3. Hej Anders, Läser det du gjort ovan och har en fråga. Vad är skillnaden mellan en oroterad och roterad PCA? Du beskriver så pedagogiskt så kanske kan du göra det så jag förstår :)

    • Hej Louisa! Jag kan inte redogöra för det tekniskt, men i korta drag går det ut på att man framhäver skillnaderna mellan de olika dimensionerna. Det gör det tydligare vilka frågor som laddar på olika dimensioner.

      /Anders

  4. Hej Anders, är det så att en faktoranalys, lämpar sig bättre för ordinal och nominal variabler? Till skillnad från en regressionsanalys, som lämpar sig bättre för intervall.

    Mvh Alma

  5. Hej Anders,

    Om man har variabler på nominalskalenivå (alt dummies), låt säga från en enkät som endast innehåller ja-nej svar. Kan man göra en faktoranalys på samma sätt som enligt ovan då? Finns någon minimumgräns på skalnivåer?

  6. Hej Anders!
    Jag skriver om motivation och har valt att dela in mina item i 4 index. Dock efter en faktoranaly så visade sig det att de item som lades under ”faktor 2” var negativt laddade men att de som jag ville skulle höra ihop låg ändå där… Kan jag säga att det fanns en koppling mellan dessa då de fanns i faktor 2 eller går inte det då de är negativt laddade?

    Tack på förhand!

  7. Hej,
    Jag har gjort en faktoranalys om förväntningar, vilket gav tre faktorer. Ska vidare göra anova på detta för att försöka se samband och kunna ge förklaring till dessa. Kan man se samband? ge förklaringar till förväntningarna genom anova? Hur gör man? ska man endast summera de som ger faktorladdning över viss tal inom varje faktor och gör anova var för sig? Hoppas ni förstår vad jag menar.

    • Dina faktorer kommer att vara dina förklaringsvariabler (x). Förväntningar kommer att vara din utfallsvariabel (y) och du kommer att testa om det finns någon skillnad i medelvärdena.

  8. Hej!
    Jag jobbar ofta med faktoranalyser, men utifrån en faktoranalys vill man ju gärna veta om till exempel kvinnor eller äldre mer instämmer i de variabler som finns med i de olika faktorerna. Hur går du vidare med det?
    Tack på förhand!

  9. Hej Anders,
    vad är skillnaden mellan PCA och faktoranalys?
    Ser att PCA anges som extraktionsmetod men vet inte vad termen betyder.

  10. Hej!
    Tack för en bra sida.
    Hur går man enklast tillväga om man redan har förbestämda konstrukt, som man vill testa validiteten på i SPSS. Har testat genom Cronbach’s alpha, men skulle gärna vilja göra en faktoranalys också.

  11. Hej!
    Jag har testat en etablerat frågeformulär som översatts till svenska.
    Har utfört en PCA på mitt sample på 163 individer som visar på en två komponentlösning. Tänker ge mig på en konfirmatorisk faktor analys går detta att genomföra i SPSS? Har fått rekomendationen att gå in i under dimension reduction och att under Factor analysis: extraction välja Maximum likelyhood. Detta skulle då motsvara en konfirmatorisk FA. Stämmer det?

  12. Hej! Enkel och tydlig förklaring. Skulle önska lite mer om tillvägagångssättet för konfirmatorisk faktoranalys dock.

  13. Hej! Klockren beskrivning.

    Låt säga att man har gjort en faktoranalys och nu vill ha ett kvantitativt mått på den bakomliggande variabeln/faktorn. Är det då mer korrekt att addera värdena på variablerna som laddar på faktorn eller skall variabelvärdena vägas olika tungt beroende på hur starkt de laddar i faktorn?

  14. Är det alltså okej att ha endast två variabler för en faktor? Finns det något ”krav” på hur många variabler/items som ska ingå i en summerad skala så att säga?

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s