Läsarfråga: Jämföra medelvärden på två variabler

Q: Jag skulle vilja jämföra om två variabler (scale-nivå) är signifikant olika från varandra, det handlar om en grupp, ett tillfälle, två variabler. Jag undrar dels hur man gör detta med normalfördelade variabler och dels med icke normalfördelade variabler.

A: För normalfördelade variabler ska du då använda dig av ett så kallat ”Paired samples t-test”. Du hittar det under ”Analyze->Compare means->Paired samples t-test”. Du klickar där bara i de två variabler du vill jämföra. SPSS tar sedan fram medelvärdet på dessa båda variabler och undersöker om skillnaden i medelvärde är signifikant skilt från 0, det vill säga om vi kan säga att det finns en signifikant skillnad mellan grupperna.

Det intressanta att titta på är alltså medelvärdena i den första tabellen du får ut ”Paired samples statistics”, kolumnen ”Mean”. För att se om de är signifikant åtskilda kollar du i tabellen ”Paired samples test”, kolumnen ”Sig. (2-tailed)”. Om signifikansvärdet understiger .05 så är medelvärdena olika på 95 procents säkerhetsnivå.

Variablerna måste dock vara normalfördelade, och bör ju rimligtvis också vara mätta på samma skala. Om du jämför en variabel som kan ha värdena 0-5 och en annan som kan ha värdena 0-50 så är det inte så konstigt om medelvärdena är olika.

Om data inte är normalfördelade behöver du använda dig av något icke-parametriskt test. Icke-parametrisk statistik, måste jag erkänna, är inte min starka sida. Men vad jag förstår så skulle ”Wilcoxon Signed-Rank test” vara lämpligt. Du hittar det, och andra alternativ, under ”Analyze->Nonparametric tests->Related samples”.

33 thoughts on “Läsarfråga: Jämföra medelvärden på två variabler

  1. Hej! Jag har ett material med hjärtstoppatienter. På alla patienter har jag uppföljning där jag har delat in utfallet i två grupper: good outcome och bad outcome(död eller kraftiga restsymtpom). Ca 40% av patienterna har good outcome. Jag vill på något sätt visualisera grupperna i förhållande till tiden det tog från hjärtstopp tills de återfick spontan hjärtrytm (som är en variabel i min data). Det jag skulle vilja ha är antingen ett histogram eller en linje med ”good outcome” på y axeln och tiden till spontan cirk på x-axeln. Linjen ska börja på 40% alltså alla överlevare och jag vill sen se hur den sjunker ju längre tid det tog till spontan cirk. Alltså att linjen når x-axeln när antalet överlevare är 0 och vid vilken tid detta sker.

    Är det någon som kan hjälpa mighur man gör. Ja lyckas inte få till det i programmet. Hoppas ni förstod vad jag menade.

    • Hej Erik!
      Det låter som att du beskriver ett Kaplan-Meier-diagram. Det illustrerar en så kallad överlevnadsanalys. DU hittar det under ”Analyze->Survival->Kaplan-Meier”. I rutan ”Status” lägger du in variabeln som visar om patienten återfick spontan hjärtrytm eller inte. I rutan ”Time” lägger du in variabeln som visar hur länge det tog innan de återfick spontan hjärtrytm.

      Sen klickar du på ”Options” och kryssar under rubriken ”Plots” i att du vill ha en plot för ”Survival”. Då borde du få det diagram du är ute efter.

      /Anders

  2. Hejsan. Jag ska studera medkänsla hos barn och unga. Elever i årskurs sex, sju och åtta har fått fylla i en enkät. I denna enkät ingår det förutom självskattning också kamratskattningar. Jag har räknat dessa manuellt, men vet inte hur jag ska gå vidare. Det är ju olika antal elever i varje klass, vilket innebär att maxvärdet varierar. Målet är att kunna jämföra deltagarnas självskattningar med kamratskattningarna.

    Hjälp!

    • Hej Micael!
      Jag vet inte riktigt hur ditt upplägg ser ut, men jag skulle gissa att du ska lägga in varje elev som en analysenhet (rad i datamatrisen). En variabel är elevens egen skattning. En annan variabel är andra elevers skattning (genomsnitt?). Sen kan du göra en tredje variabel med hjälp av ”transform->compute” som är differensen mellan den egna skattningen med andra elevers skattning av individen.

      Att maxvärdet varierar borde väl inte vara något problem tänker jag? Men jag är som sagt oklar på hur upplägget ser ut.

      /Anders

  3. Hej!

    Vilken användbar sida!

    Jag har ett problem som uppstår när jag vill göra om ett antal variabler till en. Jag försöker ge en hypotetisk beskrivning.

    Jag ska analysera en enkät där respondenterna fått kryssa i om de tycker om ett antal frukter, alltså om de gillar bananer ska de kryssa i rutan vid bananen osv.Man kan kryssa i alla frukterna om man tycker om alla :). Utifrån dessa har jag skapat lika många variabler, som antar värdena 0 och 1, som det finns svarsalternativ.

    Nu vill jag skapa EN variabel där svar med t.ex. de som kryssat i någon eller några av frukterna med skal ska få värdet 1, alla skal ska få värdet 2, och de som angett att de gillar både frukter med ohc utan skal ska få värdet 3.

    Hur gör jag? Jag har provat med ”compute new variable”, och fått till villkoren för varje kategori, men jag fastnar i hur jag anger att den nya variabeln ska bestå av alla svarsalternativen.

    Jag hoppas att jag är tillräckligt tydlig :). Tack på förhand!

    Mvh,
    Charlotte

    • Hej Charlotte!
      Ett alternativ skulle kunna vara att använda ”transform->compute” och addera ihop de nya variablerna du skapat, som hade värdena 0 och 1.
      Du skriver då bara så här:

      frukt1 + frukt2 + frukt3

      osv. Om man då kryssat i att man gillat en frukt får man värdet 1, har man kryssat i två får man värdet 2, osv.

      /Anders

  4. Hej!
    Vi skulle behöva slå ihop enskilda individer (analysenheter) till en grupp (till en analysenhet) och detsamma med våra variabler (flera varibaler ska slås ihop till en och samma kategori (variabel). Det vi vill få ut utav detta är att vi vill se medelvärdet på kategorin i en grupp.

    Hur ska vi gå tillväga i SPSS för att göra detta?
    Tack på förhand!
    Mvh
    Hanna och Linda

    • Hej Hanna och Linda!
      Jag tror inte att ni ska försöka slå ihop era analysenheter.
      Enklare är nog att helt enkelt använda SPSS för att ta fram medelvärden för de olika grupperna.
      Det gör ni genom Analyze->Compare means.

      Att slå ihop flera variabler (till exempel för att räkna ut ett medelvärde av flera variabler) kan ni göra genom transform->compute. Om ni till exempel vill ha ett medelvärde av två variabler så kan ni skriva såhär:

      (variabel1 + variabel2)/2

      /Anders

  5. Hej Anders,
    Vilken bra blogg du har! Får jag rekommendera din blogg i den blogg som jag skriver i?
    Jag skriver i det som kallas Cognos-bloggen under SPSS-delen, och jag skriver för SPSS-användare.
    http://www.cognosbloggen.se/tag/spss/
    Jag vet att många SPSS-användare vill ha den här typen av hjälp som du tar upp.
    Hälsn Gunilla Rudander

  6. Hej Anders! Vad innebär det ifall man i en regression får en positiv korrelationskoefficient (r) men samtidigt ett negativt b-värde? Är detta möjligt eller har vi gjort något fel? Sambandet visade sig dock vara negativt i scatterploten. Spelar det roll om korrelationskoefficienten är positiv eller negativ? Vänliga hälsningar,

    • Hej Elias!
      Korrelationskoefficienten R betyder inte samma sak i en regression. I en regressionsanalys brukar man bara använda sig av R-square, som är ett mått på förklarad varians. Den är alltid positiv. Det är B-koefficienten ni ska gå på i en regressionsanalys.

      /Anders

  7. För parat t-test är det differenserna som bör vara normalfördelade. Det är alltså ingen ide att studera huruvida respektive variabel för sig är normalfördelad…
    Avvikelser från normalfördelningen kan kompenseras med stor stickprovsstorlek. För små stickprov, säg 10-15 observationer bör differenserna vara så gott som normalfördelade, för stickrpov i häraden 20-30 observatione kan en mindre avvikelse från normalfördelning accepteras. För stickprov runt 50 kan lite större avvikelser accepteras och för stickprov med hundratals observationer behövs det en mycket extrem avvikelse från normalfördelning för att inte kunna lita på testet….
    Icke-parametriska testet är heller inte fritt från fördelningsantagande. Differenserna måste vara symmetrisk fördelade och stämmer det kan man lika gärna använda t-test om stickprovsstorleken är minst 15-20, men för mindre stickprov kan tecken-rang-testet vara ett alternativ … Stämmer det inte bör man använda tecken-test (sign test) som inte ställer krav på fördelningsform.
    När det gäller t-test ska data vara kvantitativ. För tecken-rang-test står det i en del böcker att det krävs intervalldata medan andra böcker hävdar att det är tillräckligt med ordinal. Min åsikt är att differenserna måste gå att rangordna (det är det testet bygger på). Detta innebär att man måste vara säker på att skalan fungerrar på ett sådant sätt att en differens på exempelvis 1 skalsteg alltid måste innebär en mindre skillnad (i attityd eller vad man nu mäter…) än en skillnad på 2 skalsteg, oavsett var skillnaderna är belägna på skalan. Detta är inte alltid sant dock… Antag att vi har en 7 gradig attitydskala (där skalsteg 4 är ”neutral” och de tre första är graden av negativ inställning och tre översta är graden av positiv inställning. En skillnad mellan steg 5 till 7 är en skillnad i hur positivt inställd man är. kanske är den skillnaden (2 skalsteg) en mindre skillnad än att ta ”hoppet” från 4 till 5. Att ändra sig från neutral till positiv kan ju vara ett stort steg..
    Är man tveksam till det meningsfulla i att beräkna differenser och rangordna dessa bör man överväga teckentestet istället. Teckentestet kräver enbart ordinaldata.

  8. Hej Anders, jag ska testa reproducerbarhet på en undersökning, jag har mätning 1 och mätning 2 på 200 patienter som gjordes vid samma tillfälle. Är det “Paired samples t-test” som jag bör använda?
    Hälsningar,

  9. Hej och tack för en bra sida!
    Jag har ett liknande upplägg, men TVÅ grupper, en tidpunkt, tre variabler. Hur göra? Tänker detta som ett komplement till OLS-regression. Tacksam för svar!

    • Hej Johan!
      Jadu, tror du att effekten skiljer sig mellan grupperna? Om inte, så borde du inte behöva ta hänsyn till att det är olika grupper.

      Annars tror jag nästan att du kanske ska fortsätta med OLS, och kanske jobba med interaktionseffekter (så att effekten kan vara olika i de olika grupperna).

      /Anders

  10. Hej Anders,
    Vilken otrolig läroportal du har skapat. Det här är bättre upplagt än något jag har sett på mitt eget universitet!

    Jag har två frågor (i händelse av att du har tid) som rör jämförelse av resultat från en klinisk prövning.

    Vad skulle du rekommendera för signifikansanalys vid jämförelse av en liten grupp om 5 vs 5 patienter med en beskrivande variabel och effektmåttsvariabler som är utfallet i tid vid tre tidpunkter efter behandling, är Mann Whitney ett bra test?

    Är det möjligt att göra signifikansanalys mellan två grupper där den ena gruppen består av 10 individer och den andra bara av tre? Om ja, vilken metod vore att föredra?

    Vänlig hälsning

    J

    • Hej John!
      Mann Whitney låter som ett bra alternativ. T-test kan ju möjligen vara ett också, om den beroende variabeln är kontinuerlig.

      Dock är det ju väldigt små urvalsstorlekar. I den här artikeln menar man att det bör vara minst fyra enheter i varje grupp (givet att grupperna är lika stora) för att det ska finnas en chans att få resultat som är signifikanta med Mann-Whitney, men bara två när man använder t-test:
      http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

      I princip tror jag inte att olika urvalsstorlek ska vara ett problem med Mann-Whitney. Däremot blir det antagligen ett problem att den ena gruppen är väldigt liten.

      /Anders

  11. Tack för ditt svar Anders!
    Som du säger så är T-test ett alternativ, för att göra det måste dock test för normalfördelning göras. När man testar för normalfördelning med ex skewness/kurtosis eller Shapiro-Wilks använder man då:
    1. Den deskriptiva datan som i mitt fall beskriver kön, ålder, vikt, baseline i de två grupper som jag jämför
    eller
    2. Utfallsvariabler, ex förändring från baseline

    3. Om normalfördelning ej råder antar jag att Mann-whitney blir mer lämpligt, stämmer det?

    Vänliga hälsningar
    John

  12. Hej Anders!

    Jag har en variabel där höga värden representerar en grupp och låga värden representerar en annan grupp. Om jag vill kolla hur dessa två grupper skiljer sig i tex grad av subjektivt välbefinnande som är en skala med 5 items, hur gör jag då?

    Din hjälp betyder guld just nu i slutspurten av examensarbetet,

    STORT TACK!

    /Bella

  13. Hej

    Jag ska försöka förklara så gott det går, det är ganska invecklat.

    Jag jobbar i en process som dragerar tuggummin. Vi får våra tuggummin från tillverkningen som skapar själva kärnorna.

    En batch hos dom består av ca. 800 kg fördelat på två pallar. Det är en varierande process där tjocklecken och storleken inte är konstant.

    Av någon anledning vill man ha antal i styck och inte i kilo. Därför skattar man medelvärdet med hjälp av fem urval jämt fördelade över batchen.

    Urvalet bestå av 20 tuggummi som vägs ett och ett på en tablettvåg med tre decimalers noggrannhet. Man får fram en vågremsa som anger medelvärde, standardavvikelse, relativa standardavvikelsen i % , min och max. Man ser dessutom vad alla tuggummina väger.
    Ett tillverkat tuggummi väger ca. 0,95 gram.

    Sedan skickas tuggummina till oss där de drageras. Vi packar först upp ca. 750 kg. Efter det laddar vi en panna med dessa tuggummina där det sprutas på en film, smakämne, sockerlösning, på slutet vaxas dom med ett vaxpulver.

    Så småningom kommer man till slutsteget hos oss vilket är sorteringen. Där väger vi upp dom i sex kärl om ca. 160 kg.
    På varje kärl tar vi liksom tillverkningen ett urval om 20 tuggummin som är identiskt med tillverkningens förfarande. Den enda skillnaden är att vi gör sex provuttag mot deras fem.

    Vår skattade medelvikt blir något större än tillverkningens pga. att vi lägger på ett skal.

    Jag är inte helt säker men jag tror att vi har producerat över 200 dragerade batcher hos oss med det nya svinnredovisningssättet. Svinngränsen är satt till +- 1% och vi har haft 8 avvikande batcher hittills.
    Sättet som svinnet räknas fram är alltså nytt och går till som följande.

    Den mängd som vi kastar in i pannan är omräknad till styck ca. 790000st med en medelvikt som är framtagen från tillverkningen med hjälp av deras fem urvalsprov.

    Denna mängd jämförs sedan mot det antal som vi får fram i sorteringen med hjälp av våra 6 urval.

    Exempel: Vi laddar pannan med 790000st. Därefter väger vi upp dom i kg. Låt säga att vår medelvikt på batchen skattas till 1,250g. Vi räknar då fram producerad mängd i styck samt kasserad mängd i styck.

    Vi säger att producerad mängd efter omräkning till styck blir 729000st (911250gram medelvikt 1,25 gram) . Vi säger att kasserad mängd blir 71000st (88750 gram, samma medelvikt).

    Svinnet får man därefter genom: 790000-729000-71000=-10000.
    -10000/790000*100=1,27%

    Minussvinn innebär att vi har fått ut fler tuggummin än vi laddade pannan med.

    I detta fallet hamnade vi utanför svinngränserna på +- 1%.

    Min fråga är om svinngränserna är för låga och isåfall vad dom skulle ligga på.

    Vi har hittills haft 8 stycken batcher utanför gräns. Dessa kan inte frisläppas om man inte kan hitta något fel.

    Själv är jag lite inne på att gränsen på +-1% är snålt tilltagen eftersom man har två osäkra faktorer i medelviktsskattningen. Låt säga att man träffar medelvikten med en säkerhet på 0,99. Eftersom vi har två medelviktsskattningar blir väl säkerheten bara 0,99*0,99=0,9801

    Jag har lite koll på normalfördelningen samt konfidensintervall. Både tillverkningens och drageringens medelvikter är signifikanta på 95% nivån.

    Jag är dock inte helt övertygad om att de tillsammans är signifikanta.

    Hoppas det var någorlunda klart!

    //Oscar

  14. Hej!

    Vi vill jämföra och se om två gruppers medelvärden har signifikant skillnad och är med på att man gör det med t-test MEN vi har testat barn i årkurs 1 och 2 och vill jämföra inom dessa grupper.

    Vi vill se om det finns en signifikant skillnad mellan flickornas och pojkarnas resultat inom årskurserna. Nu har jag bara lyckats jämföra flickor och pojkar och vet inte hur jag tar bort den ena klassen.

    Tacksam för svar! Vänliga hälsningar Kristina

  15. Hej!

    Jag har en fråga till :) Vi vill undersöka om barn med läs- och skrivsvårigheter svårare att stava låtsasord än de utan läs- och skrivsvårigheter.

    Barnen med och barnen utan läs- och skrivsvårigheter har alla stavat 21 riktiga ord och 21 låtsasord och nu vill vi veta om det finns en skillnad mellan deras resultat.

    För varje barn har vi alltså två resultat mellan 0-21 i två olika kolumner.

    Hjälp! Och tack, mvh Kristina

  16. Hej,
    Jag gillar också din site! Jag sitter och funderar över skillnaden på matched pair och independent t-test? Jag reagerade också på att du skrev att datan bör vara normalfördelad när du ska göra ett matched pair test. Jag har nämligen läst i ”Using statistics to understand the environment”(Wheater and Cook, 2000) att det inte är själva datan som behöver vara normalfördelad utan skillnaderna som behöver vara det. Är det något som jag missförstått?

    mvh/
    Sebastian

  17. Hej! Bra sida! Kan man göra en MRA med en skev DV? Eller måste den transformeras? Värdena blir något annorlunda, men ingen större skillnad. MVH Sandra & Fredrika

  18. Hej!
    Jag vill slå ihop flera variabler till en variabel och ta fram ett medelvärde för standardavvikelsen för den nya variabeln. Hur gör jag? Det är sex variabler som ska slås ihop till en och hälften är motstående variabler. Varje variabel motsvaras av en Likert-skala där människor ha fått ge sitt omdöme om en händelse.
    Kajsa

  19. Hej, Jag skriver just nu en uppsats och tester skillnaden mellan två olika grupper men med samma testbatteri. Det handlar om 3 st olika tester och det är ett test som blev normalfördelat och 2 icke normalfördelat (troligtvis för att 3 fp var sämre och fick dåligt reslutat som sticker ut).
    Vad gör jag med dessa tester?
    Normalfördelade testet = vanligt T-test?
    Icke normalfördelade testerna = icke parametriskt test? och hur kan jag då få dessa att bli jämförda med varandra?

    Nu har jag testat mig fram med icke parametriskt test al´a wilcoxon men vet inte om jag gör rätt

    Tack på förhand
    / Kalle

  20. Hej! Jag behöver akuthjälp med en fråga!!

    Här är frågan:

    Gör en analys på om viktigheten av att få hjälp (hjav), viktigheten av att klara sig själv (klav) samt viktigheten av att anpassa sig till andras önskemål (anpav) skiljer sig åt. Observera att dessa variabler har mätts på samma sätt. Vilken typ av analysmetod använde du och varför? Om lämpligt, utför ett lämpligt post-hoc test och tolka resultaten

    Hur ska jag gå tillväga? Jag har alltså ingen beroende variabler utan endast 3 st oberoende variabler!

    Är det paired-sample t test? Eller gäller detta endast om man har 2 variabler?

    Tack för snabba svar!!

  21. Hej,
    Jag behöver akuthjälp med en liten fråga!
    Jag ska nämligen titta närmare på hur pass demokratiskt länderna är, därför har jag titta närmare påreligionsfriheten och se om skillnaden beror utifrån denna aspekt.
    Jag har därför en beroende variabel som då är: demokrati och en oberoende variabel som är: religionsfriheten.
    Min fråga är hur ska jag veta vilken skalnivå man hamnar på ex: om det blir en nominal, ordinal eller en intervall?, Och hur ska jag sedan veta om jag ska utgå ifrån en korstabell, histogram, etc?
    Blir oerhört tacksam om jag får ett snabbt svar!

  22. Hej! Jag skulle behöva veta varför materialet måste va normalfördelat vid t-test och varför variansen i de olika grupperna behöver vara lika då man genomför anova. Jag vet att det måste vara så men varför?

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s