1 Vad är statistik?
För en tid sedan lyssnade jag på en debatt om lågkolhydratkost. En av debattörerna berättade att hon fått gallsten efter att hon påbörjat dieten. Hur ska man väga ett sådant argument? De flesta tycker kanske inte att argumentet är särskilt tungt; debattören hade kanske fått gallsten oavsett, eller så fick hon gallsten på grund av dieten medan många andra tvärtom undviker gallsten på lågkolhydratkost – detta är omöjligt att avgöra utifrån en persons erfarenheter. Vi kallar den här typen av argument för anekdotiska – en person berättar om sina personliga upplevelser.
Statistiska belägg är motpolen till anekdotiska belägg. Istället för att berätta om en persons erfarenheter så samlar vi in ett datamaterial som täcker flera personer. Detta skulle exempelvis vara fallet om vi låter 200 försökspersoner byta till lågkolhydratkost medan 200 andra får äta enligt tallriksmodellen. Sen jämför vi förekomsten av gallstensbesvär i grupperna.
När man utför en sådan undersökning börjar man ofta med att beskriva data, t.ex. “10 procent av personerna i lågkolhydratgruppen fick gallstensbesvär medan denna siffra var 7 procent i kontrollgruppen [de som fick äta enligt tallriksmodellen]”. Att sammanfatta data på det här sättet kallas för beskrivande statistik eller deskriptiv statistik. Här är tre andra exempel på beskrivande statistik:
“70 procent av de utfrågade anser att homosexuella par ska få adoptera.”
“Företagets marknadsandel har ökat med 100 procent på ett decennium.”
“Personerna som besvarade enkäten var 40 år i genomsnitt.”
Beskrivande statistik handlar med andra ord om att sammanfatta ett datamaterial. Vi kan göra detta genom summerande mått, såsom medelvärden och procentsatser, eller genom att använda figurer, såsom pajdiagram och histogram.
Förutom att beskriva data vill vi också dra generella slutsatser med hjälp av data. Vi vill, med andra ord, inte enbart lära oss om eventuella gallstensbesvär bland försökspersonerna som råkade ingå i studien, utan vi vill kunna säga något generellt om hur lågkolhydratkost påverkar gallstensbesvär hos människor överlag. När vi använder ett datamaterial för att dra generella slutsatser kallar vi detta för statistisk inferens.
Vilka slutsatser kan man då dra utifrån datamaterialet om lågkolhydratkost? Kan vi säga att risken för att få gallstensbesvär är 3 procentenheter högre om man äter lågkolhydratkost än om man äter enligt tallriksmodellen? Nej, det vi vet är att skillnaden är 3 procentenheter i studien, men vi vet inte hur stor den verkliga skillnaden är; skulle vi upprepa studien med nya försökspersoner så skulle vi få ett annat resultat; antagligen ett resultat som pekar i samma riktning, men knappast exakt samma siffror. Det finns med andra ord en viss osäkerhet kring den verkliga skillnaden. En viktig del av den statistiska inferensen är att sätta siffror på den osäkerheten, exempelvis genom att använda statistiska felmarginaler. (“Skillnaden mellan grupperna är 3 \(\pm\) 2 procentenheter.”)
Beskrivande statistik och statistisk inferens bildar tillsammans de två stora bitarna i pusslet “statistiska metoder”. Det är också dessa två bitar som den här boken handlar om. Fortsättningen av boken är uppbyggd enligt följande. Vi börjar med att lära oss hur man beskriver data. Det är bokens första sju kapitel. Vi tittar då dels på hur man beskriver fördelningen för en viss variabel, men också på hur man beskriver olika sorters samband med hjälp av korrelationer och regressioner. I bokens andra del (kapitel 8 och framåt) går vi in på statistisk inferens. Vi utfår från de stora idéerna och gör sedan en djupdykning i sannolikheter och fördelningsteori, samt de vanligaste statistiska testerna för slumpmässigt dragna sampel.
Då sätter vi igång!