E-Post


Kontakta webmaster


 

www.lars-kamel.se


Lite om statistik

Statistik är ett svårt ämne. Jag påstår mig inte alls behärska det bra, men en del har jag begripit i alla fall. Eftersom statistik är så svårt, har de flesta nog ganska grumliga begrepp om statistiska begrepp. Det i sin tur gör att många människor lätt låter sig luras av statistik. Här tänker jag försöka förklara några statiska begrepp.

Medelvärde och median

Tänk dig att du har följande talserie:

14

13

12

11

10

Medelvärdet av dessa fem tal är 12. Det beror inte på att 12 står i mitten utan på att 14+13+12+11+10 dividerat med 5 är just 12. Medianen av dessa fem tal är också 12, och det beror på att 12 faktiskt står i mitten. Det beror dessutom på att talen är sorterade. Medelvärde och median skulle vara samma om de stod i denna ordning:

11

12

14

13

10

Skillnaden blir då att man först behöver sortera dem för att inse att 12 faktiskt är medianen. Medianen är helt enkelt det mittersta talet efter att talen har sorterats, men bara om antalet tal är udda. Är antalet tal jämnt, så är medianen medelvärdet av de två mittersta talen. Ett exempel är denna talserie:

17

16

14

12

11

10

Medianen här är faktiskt 13, alltså ett tal som inte ens finns med i serien, men som är medelvärdet av de två mittersta talen, alltså 14 och 12.

Titta nu i stället på följande talserie:

99

13

12

11

10

Medelvärdet av dessa tal är 29, men medianen är, precis som för den översta serien tal, 12. Det mittersta talet är ju fortfarande 12, så medianen har inte ändrats. Genom att byta det största talet från 14 till 99 har däremot medelvärdet ökat från 12 till 29, alltså en rejäl ökning.

Om du inte visste det tidigare, kanske du nu börjar ana hur knepigt det är med statistik. Både medelvärde och median är ju statistiska parametrar som säger något om en talserie, men genom att byta ut ett eller flera tal i serien kan medelvärdet förändras rejält, medan medianen förblir densamma. Eller omvänt, så kan till exempel forskare eller politiker välja ut den statistiska parameter som de bäst passar för ett givet syfte när det gäller att beskriva en datamängd. Tänk till exempel att den översta talserien skulle vara resultatet av någon mätning, till exempel av någon luftförorening, eller av lönerna hos olika grupper. Tänk sedan att nästa mätning skulle visa att 14 har blivit 99, medan alla andra värden är oförändrade. Den som vill betona förändringen väljer då naturligtvis medelvärdet och säger: “Titta, medelvärdet har ökat från 12 till 29!”. Den som vill tona ner förändringen, säger: “Titta, medianen är fortfarande 12!”.

Vilket ger då den bästa bilden av talserien, medelvärdet eller medianen? Ja, det beror på omständigheterna. I fallet ovan kan ju 14 ha blivit 99 på grund av något fel i en mätapparat, eller för att en person tillfälligt har haft stora inkomster. Då är kanske medianen det bästa måttet. Men om någon beständig förändring verkligen har hänt, så berättar ju medelvärdet det.

Just det här fallet är ju ganska enkelt, med bara fem tal. I verkliga data kan det finnas hundratals, tusentals eller till och med miljontals tal. Då blir det bara förvirrande att titta på alla talen, och det behövs verkligen statistiska parametrar som medelvärde och median för att alls göra alla data begripliga. Med väldigt många tal, betyder förändringar i något tal dessutom inte lika mycket för median eller medelvärde. Lika fullt kan mätfel eller tillfälliga förändringar ställa till det och ge en felaktig bild.

Finns det några få väldigt avvikande värden, kan man dessutom undra vad medelvärdet egentligen visar. Jag ska ge ett exempel. I världen finns drygt sex miljarder människor och knappt 200 länder. Följdaktligen är medelvärdet drygt 30 miljoner människor per land. Här finns dock två väldigt avvikande värden. Kina och Indien har bägge över en miljard människor. Drar man bort bägge dessa länder, blir det cirka 4 miljarder kvar i övriga länder, som fortfarande är knappt 200 stycken. Följdaktligen har medellandet, om Kina och Indien inte räknas med, drygt 20 miljoner människor. Genom att inte räkna med de två folkrikaste länderna, faller alltså medelvärdet med cirka 10 miljoner människor per land, eller ungefär en tredjedel! Vad medianen är för befolkningen per land vet jag inte, med den ändras förmodligen väldigt lite om vi inte räknar med Kina och Indien. Att ta bort dessa två länder innebär ju att gå ner ett steg i den sorterade listan över befolkning per land, och förmodligen är det liten skillnad mellan länder vad gäller befolkning i mitten av listan.

Här kan den lilla grundkursen i statistik i och för sig påstås vara slut. Det viktigaste att komma ihåg här är att statistik kan beskriva olika sanningar beroende på vilken eller vilka parametrar som används. Detta alltså fastän de grundläggande data är desamma. Mark Twain lär ju ha påstått att det finns tre sorters lögn: lögn, förbannad lögn och statistik. När han tog med statistik som den värsta sortens lögn, var det nog det här han tänkte på. Det går inte att få data att berätta vilken sanning som helst, men det går att tänja rejält på vad de berättar, beroende på hur statistiken hanteras.

Tillbaka till startsidan för min vetenskapsavdelning.



Vill du veta mer, kommer dock lite vidareläsning.

Standardavvikelse och andra spridningsmått

Medelvärde och median säger alltså något om hur genomsnittet ser ut. Det kan dock vara intressant att ha en uppfattning om hur stor spridningen är. Medelvärdet och medianen kan ju vara 12, därför att alla talen i serien faktiskt är 12. Då är spridningen noll. Som vi har sett, kan medelvärde och median också vara lika, trots att alla tal i serien inte är lika.

Ett enkelt sätt att mäta spridning, är att ta medelvärdet av det högsta och minsta talet i serien. För den översta serien blir detta medelvärde också 12, precis som för serien som helhet. Att de två medelvärdena är lika tyder på att talen ligger jämt utspridda runt medelvärdet, vilket ju i och för sig är lätt att se ändå om det bara rör sig om fem tal. Om vi byter ut 14 mot 99, blir medelvärdet av högsta och minsta värdet i stället 54½. Detta är mycket större än medelvärdet för alla talen, och den skillnaden visar vad vi i och för sig redan visste för just dessa tal: De flesta ligger nära det minsta talet och bara några få nära det största.

Statistiker brukar dock föredra ett helt annat mått på hur spridda talen är jämfört med medelvärdet, nämligen något som kallas standardavvikelse, och ofta betecknas med den grekiska bokstaven sigma, σ. Standardavvikelsen är kvadratroten ur variansen, och variansen är summan av kvadraterna av skillnaderna mellan värdena och medelvärdet, dividerat med antalet tal minus ett. Förstår du inte helt och hållet detta så spelar det inte så stor roll. Det viktigaste är att standardavvikelsen är liten om talen i genomsnitt ligger nära medelvärdet och stor om talen i genomsnitt ligger långt ifrån medelvärdet.

En bild påstås ju säga mer än tusen ord, så för att besvara mig besväret att skriva tusen ord, presenterar jag detta:




Här kan du tänka dig till exempel att vi har ett stort antal heltal och att bilden/diagrammet visar antalet tal som har ett givet värde, dels om standardavvikelsen är stor och dels om den är liten. Att kurvorna har olika höjd i mitten, vid medelvärdet, beror på att antalet tal i vardera serien är densamma. Sprider man då ut talen mer över alla tillgängliga värden, blir det ju färre tal just runt medelvärdet.

Eller föreställ dig att bilden visade fördelningen av inkomster vid två tidpunkter. Om vi då hade gått från ett läge med liten standardavvikelse, alltså liten spridning på inkomsterna, till stor standardavvikelse, alltså stor spridning, skulle säkert några politiker tala om att klyftorna har växt. Vilka klyftor? Det finns inga klyftor. Bägge kurvorna går kontinuerligt från ena änden av diagrammet till den andra, utan avbrott eller klyftor.

Standardavvikelsen berättar bara hur nära talen i genomsnitt ligger medelvärdet. Däremot säger den ingenting om huruvida de flesta talen ligger på ena sidan av medelvärdet, eller om de är någorlunda jämt fördelade runt om. Därför har statistikerna definierat också andra parametrar, varav en heter skevhet och mäter just om talen ligger skevt jämfört med medelvärdet. Detta är dock en överkurs som jag inte tänker gå in ytterligare på här. I kalkylprogram av olika slag brukar det finnas färdiga funktioner för statistisk analys. Det kan ju vara intressant att experminentera lite med dessa funktioner, och än intressantare blir det om man har lite hum om vad de olika termerna betyder.

Tillbaka till startsidan för min vetenskapsavdelning.