| Person | Uni | Lön0 | Lön1 | Kausal effekt |
|---|---|---|---|---|
| 1 | 0 | 2200 | 2300 | 100 |
| 2 | 0 | 2000 | 2600 | 600 |
| 3 | 0 | 2800 | 3200 | 400 |
| 4 | 0 | 3000 | 3700 | 700 |
| 5 | 0 | 1600 | 1600 | 0 |
| 6 | 1 | 2600 | 3000 | 400 |
| 7 | 1 | 2400 | 2000 | -400 |
| 8 | 1 | 2500 | 2700 | 200 |
| 9 | 1 | 3700 | 6000 | 2300 |
| 10 | 1 | 2400 | 3100 | 700 |
| medel = 500 |
5 Korrelation kontra kausalitet
En statistisk analys börjar alltid med en frågeställning, dvs. vi samlar in och analyserar data i syfte att besvara en viss fråga. Här är några exempel på sådana frågeställningar:
Leder högre utbildning till högre lön?
Leder arbetslöshet till högre risk för brottslighet?
Orsakar tobak cancer?
Leder sömnstörningar till högre risk för depression?
Leder satsningar på reklam till högre försäljningssiffror?
Ofta gäller den här frågeställningen ett orsakssamband; vi vill veta om x orsakar y. Men vi får ofta nöja oss med att besvara en liknande men annorlunda fråga: Korrelerar x och y?
Tjänar personer med hög utbildning mer än sådana med låg?
Är brottsligheten högre i regioner där arbetslösheten är hög?
Är det vanligare med cancer bland storrökare än bland personer som röker lite eller inte alls?
Finns det en korrelation mellan sömnstörningar och depression?
Finns det en korrelation mellan satsningar på reklam och försäljningssiffror?
Här är det viktigt att notera skillnaden mellan den frågeställning vi egentligen vill besvara, och den frågeställning vi faktiskt besvarar med hjälp av data. Om vi ser att personer med hög utbildning tjänar mer än sådana med låg utbildning så kan det vara lätt att dra slutsatsen att hög utbildning orsakar högre lön. Men en sådan slutsats kommer inte från data; det enda data berättar är att det finns en korrelation. Så vad är egentligen skillnaden? Vad menar vi när vi talar om orsakssamband?
9. Korrelation kontra kausalitet
Vägen du aldrig tog
När du var runt 18 år gammal så stod du inför ett val: Söka till universitetet eller gå direkt in i arbetslivet. Om du läser detta så valde du antagligen att söka till universitetet. Men man kan ju fråga sig hur saker och ting hade blivit om du valt annorlunda, dvs. om du hade valt att gå direkt in i arbetslivet. Genom att jämföra din lön i dessa två scenarion (och göra denna jämförelse för många andra personer) så skulle vi kunna säga om högre utbildning faktiskt orsakar högre lön.
I tabellen nedan har vi gjort ett sådant tankeexperiment. Data gäller tio personer, där variabeln uni har värdet 1 för personer som valde universitetet och värdet 0 för dem som valde arbetslivet. Variabeln lön1 är personens lön givet en universitetsutbildning; lön0 är lönen utan universitetsutbildning. Enbart de röda lönerna visar det som faktiskt hände; de svarta lönerna representerar de kontrafaktiska utfallen. Den genomsnittliga kausala effekten av att skaffa sig en universitetsutbildning är 500 euro. (I litteraturen kallar man också detta för den genomsnittliga behandlingseffekten eller “average treatment effect” på engelska.)
Den här typen av jämförelse kan vi naturligtvis aldrig göra i praktiken, dvs. vi kan bara observera konsekvenserna av de val personer faktiskt gör. I praktiken blir vi därför tvungna att “gissa” hur saker hade gått annars: Hur mycket hade de universitetsutbildade tjänat om de aldrig utbildat sig? En naturlig utgångspunkt är att se på lönerna för personer som gjorde det andra valet, dvs. de som gick direkt in i arbetslivet. Men är dessa personer verkligen en bra jämförelsegrupp? I exemplet ovan är den genomsnittliga lönen bland universitetsutbildade 3360 euro och bland övriga 2320 euro; det är en skillnad på 1040 euro. (Eller uttryckt som en regression: \(\widehat{lön} = 2320 + 1040uni\).) Den genomsnittliga löneskillnaden mellan grupperna är ungefär dubbelt större än den genomsnittliga kausala effekten. Det här är en rätt grov överskattning. Så finns det något sätt att förbättra den här uppskattningen?
Experimentella studier kontra observationella studier
För att se om universitetsexamen orsakar högre lön så vill vi jämföra löner för universitetsutbildade med de löner de skulle ha fått om de aldrig gått på universitetet. Detta kan vi förstås inte göra i praktiken, vilket betyder att kausala effekter aldrig kan observeras. Så hur kan man någonsin uttala sig om kausalitet?
Nyckeln ligger i att hitta en lämplig jämförelsegrupp, dvs. en grupp av individer som på ett trovärdigt sätt kan representera det kontrafaktiska utfallet. Randomiserade experiment är det bästa sättet att skapa en sådan jämförelsegrupp.
Så vad är ett randomiserat experiment? Vi ser detta bäst genom ett exempel: Är kognitiv beteendeterapi bättre på att bota höjdskräck än klassisk psykoterapi? Bland 100 personer med höjdskräck lottar vi ut 50 som får kognitiv beteendeterapi medan de övriga 50 får psykoterapi. Vi mäter därefter terapins framgång (mätt på någon skala) i respektive grupp. Eftersom vi använt lottning så finns det inga andra systematiska skillnader mellan grupperna än just terapiformen. Om vi då observerar en tydlig skillnad i utfall mellan grupperna så kan vi anta att terapiformen är orsaken.
Det som karaktäriserar ett randomiserat experiment är att slumpen avgör vem som får vilken behandling. Men anta nu att vårdpersonalen eller personerna själva väljer terapiform. Eventuella skillnader i utfall mellan grupperna kan då bero på en rad olika faktorer, och inte enbart terapiformen. Kanske extra svåra fall slussas till psykoterapi, bara för att ta ett exempel. När vi jämför utfall mellan personer som själva valt sin behandling, eller där yttre omständigheter valt deras situation, så kallar vi det för en observationell studie eller observationsstudie.
Så varför utför vi inte alltid randomiserade experiment? I många fall (kanske de flesta) är randomiserade experiment inte en realistisk möjlighet. Detta gäller inte minst inom de sociala vetenskaperna. Det skulle exempelvis vara oetiskt att låta slumpen avgöra om en viss person ska få studera vidare. Och det skulle bli folkuppror om slumpmässigt utvalda personer i samhället plötsligt tvingades byta föräldrar eller tvingades ta dubbelt längre fängelsedomar än andra. Observationella data är därför det som vi ofta får jobba med i praktiken, men då är det också bra att vara medveten om begränsningarna. Vi ska nu se närmare på dem.
Tre invändningar mot att tolka korrelationer som bevis för kausalitet (varav två är bra)
Vi har observerat en korrelation mellan reklam och försäljningssiffror; företag som satsas mycket på reklam har i snitt bättre försäljningssiffror. Men betyder det här att reklam leder till bättre försäljningssiffror? Här kommer tre invändningar (varav bara två är bra):
- Vissa företag som satsar hårt på reklam har ändå dåliga försäljningssiffror
Korrelationer handlar om generella mönster i data, och man hittar som regel alltid observationer som avviker från detta mönster. Men detta är inte ett argument mot att tolka korrelationer som bevis för orsakssamband. När vi talar om orsakssamband så menar vi inte att detta samband nödvändigtvis gäller för alla, utan bara att det gäller i snitt. På motsvarande sätt kan vi säga att cellgifter hjälper mot leukemi även om det naturligtvis också finns flera fall där det inte hjälpt.
Här följer de två giltiga invändningarna:
- Omvänd kausalitet
Anta att satsningar på reklam inte leder till bättre försäljningssiffror, men att höga försäljningssiffror leder till att man har råd att satsa mer på reklam. Det här är ett exempel på omvänd kausalitet.
Här är ett annat exempel: En het politisk fråga i USA gäller dödsstraffen. Leder de faktiskt till färre mord? Motståndarna säger “nej” och stödjer sig då på statistik som visar att antalet mord per invånare är högre i stater med dödsstraff än i stater utan. Man hävdar då att dödsstraffen i sig har en förhårdnande inverkan på samhällsklimatet vilket förklarar den höga mordfrekvensen i stater med dödsstraff. Men är det här verkligen historien bakom siffrorna? Eller kan det vara tvärtom; att stater med hög mordfrekvens är mer benägna att ta till dödsstraff.
- Bakomliggande faktorer kan förklara korrelationen
Vi kan observera att företag som satsar mycket på reklam har bättre försäljningssiffror, men är det reklamen i sig som är förklaringen, eller skulle dessa företag haft bättre försäljningssiffror oavsett? Kanske det finns andra bakomliggande faktorer som förklarar försäljningssiffrorna, dvs. sådana faktorer som är gemensamma för företag som satsar på reklam och för företag som har höga försäljningssiffror. Exempel: Företag som satsar på reklam kanske också satsar mer på kundservice och på att skapa en het produkt. Då är det möjligt att dessa faktorer, och inte reklamen i sig, förklarar de höga försäljningssiffrorna. I dessa exempel är kundservice och produktkvalitet bakomliggande faktorer.
Det finns flera exempel på fall där bakomliggande faktorer visat sig vara förklaringen till ett samband. En tid trodde man att hormonbehandlingar minskar på risken för stroke bland kvinnor i klimakteriet. Det finns ett samband; kvinnor som använder hormonbehandlingar är underrepresenterade bland strokepatienter. I dag har forskarna dock ändrat åsikt och anser att hormonbehandlingar sannolikt ökar risken för stroke (om än bara marginellt). Så varför visar data på det motsatta förhållandet? Förklaringen är att det finns skillnader i social bakgrund mellan grupperna; kvinnor som använder hormonbehandlingar tenderar ha högre socioekonomisk ställning, bättre diet och de tränar mer i genomsnitt. Dessa bakomliggande faktorer korrelerar också med risken för stroke.
Här är ett annat exempel. I en uppmärksammad studie kom man fram till att barn som sover med lampan tänd oftare är närsynta. Kanske detta är en delförklaring till närsynthet hos barn? Nja, senare forskning visade att barn som sover med lampan tänd oftare har närsynta föräldrar, och att närsynta föräldrar oftare har närsynta barn.
Man ska med andra ord vara försiktig med att dra allt för långtgående slutsatser utifrån korrelationer. Här är något att tänka på: Du kan plocka vilka två samhällsekonomiska variabler som helst och du kommer sannolikt att hitta en korrelation mellan dem. Här är bara ett exempel: Finns det ett samband mellan cigarettkonsumtionen i ett land och mordfrekvensen? Som figuren nedan visar så är svaret ja, och korrelationen är ganska stark (r = -0,49): Ju mer rökning desto mindre mord. Vad beror det på? En möjlighet är att rökning påverkar folks beteende så att de blir mindre benägna att mörda. Men snarare handlar det om att rökning hänger samman med andra kulturella och samhällsekonomiska faktorer som i sin tur korrelerar med mordfrekvens. Kan du själv hitta en sådan tänkbar faktor som förklarar varför mord är ovanligare i länder där många röker?

Kan man någonsin uttala sig om kausalitet utifrån observationsdata?
Det är definitivt en större utmaning att besvara kausala frågor med hjälp av observationella data, men det är inte omöjligt. I dag är det exempelvis väletablerat att rökning har en kausal effekt på risken för att få cancer, trots att man aldrig utfört ett enda experiment på människor. Forskare är också eniga om att utbildning leder till högre löner, och man kan också säga ungefär hur stor effekten är. Inte heller här har man någonsin utfört ett randomiserat experiment.
Tricket är att hitta en jämförelsegrupp som är så lika behandlingsgruppen som möjligt, och att kontrollera för kvarvarande skillnader mellan grupperna. Exempel: Tidigare såg vi att det finns ett relativt starkt samband mellan rökning och mordfrekvens (r = -0,49; figur A). Men när vi kontrollerar för inkomst per person så försvagas sambandet märkbart (r = -0,21; figur B). “Att kontrollera för inkomst” betyder att vi ställer oss följande fråga: Finns det fortfarande en korrelation mellan rökning och mordfrekvens om vi jämför länder med samma inkomstnivå? Om korrelationen beror på ett orsakssamband så förväntas svaret bli “ja”. Men här försvagas korrelationen märkbart, och då vi ytterligare kontrollerar för världsdel så finns det inte längre någon korrelation att tala om (r = -0,09; figur C).



I nästa kapitel ska vi se på hur vi i praktiken gör för att kontrollera för bakomliggande faktorer. Vi använder då det som kallas för multipel regressionsanalys.
Sammanfattning
Övningsuppgifter
- Några studier har funnit att hudcancer är vanligare bland personer som använder solskyddskrämer än bland dem som inte använder solskyddskrämer. Dessa resultat har lett några forskare till att varna mot användningen av solskyddskrämer. Men är det förhastat att anta att sambandet är kausalt? Ge exempel på två andra möjliga förklaringar till korrelationen.
- Spridningsdiagrammet nedan visar sambandet mellan brottslighet och polisstyrkans storlek i de amerikanska staterna. Brottsligheten (variabeln brott) mäts som antalet egendomsbrott per hundratusen invånare. Polisstyrkans storlek (variabeln polis) mäts som antalet poliser per hundratusen invånare. Regressionslinjen ges av:
\[\widehat{ln(brott)} = 0,17 + 0,64ln(polis), R^{2} = 0,47\]

Betyder det här att en stat som bestämmer sig för att utöka polisstyrkan kan förvänta sig att brottsligheten ökar? Om inte, förklara vad du tror att korrelationen beror på.
- Nedan visas en sammanfattning av en artikel. Är detta ett exempel på en observationell eller experimentell studie? Motivera kortfattat.

- Leder stegräknare till att man promenerar mer än man annars hade gjort? Du vill besvara denna fråga. Förklara hur ett randomiserat experiment hade kunnat se ut i detta fall. Förklara också hur en observationsstudie hade kunnat se ut.
- I en studie jämför man om kommunal läxhjälp kan hjälpa tonåringar med inlärningssvårigheter. Enligt rapporten så utförde man ett randomiserat experiment: Bland ett hundratal föräldrar som anmälde intresse så fick en tredjedel av tonåringarna tillgång till läxhjälp medan två tredjedelar blev utan. Efter en tid jämfördes skolresultaten mellan grupperna. I tabellen nedan visas beskrivande statistik för datamaterialet. Förklara kortfattat varför den beskrivande statistiken inte stödjer att detta faktiskt var ett randomiserat experiment.
| Läxhjälpsgruppen | Kontrollgruppen | |
|---|---|---|
| Flickor (%) | 31,3 | 53,1 |
| Genomsnittlig ålder | 14,7 | 13,4 |
| Snittbetyg före | 6,7 | 7,4 |
| Antal barn | 64 | 128 |
- Nedan beskrivs resultatet från en studie där man tittat på sambandet med användningen av tillväxthormon och förtida död. Läkemedelsverket skriver att “Studien är observationell varför studieresultaten bör tolkas med försiktighet.”. Förklara vad de menar med detta uttalande.
