mina-dokument:varians

Varians (vid diskret likformig fördelning)

Variansen är ett mått på hur mycket värdena i ett försök (slumpvariabel) avviker från medelvärdet $\mu$. Det förekommer två formler för denna, jag kallar dem för varians respektive modifierad varians. Här anges bara själva uttrycken. Behöver man lite bakgrund kan man titta här Standardavvikelse (matte2-nivå) eller här Variance (avancerad nivå).

(1)
\begin{align} \textrm{varians} = \frac{(x_1-\mu)^2+(x_2-\mu)^2+ \ldots + (x_n-\mu)^2}{n} \end{align}

Denna formel används vid beräkning av variansen i ett försök (slumpvariabel).

(2)
\begin{align} \textrm{modifierad varians} = \frac{(x_1-\mu)^2+(x_2-\mu)^2+ \ldots + (x_n-\mu)^2}{n-1} \end{align}

Denna formel används vid beräkning av variansen i ett stickprov av ett försök (slumpvariabel).

Exempel 1

Vi kastar en sexsidig tärning, där de möjliga utfallen är 1, 2, 3, 4, 5 och 6. Medelvärdet blir 3.5 och variansen

(3)
\begin{align} \textrm{varians} = \frac{(1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2}{6} \end{align}

Variansen är alltså medelvärdet av de möjliga värdenas "kvadratskillnad" mot medelvärdet. Att dela med talet 6, som är antalet utfall, verkar logiskt. (Att dela med 5 som i formeln för modifierad varians hade känts märkligt.)

Det som kan vara förbryllande är att man använder formeln för modifierad varians för stickprov. Om stickprovet består av n värden delar man alltså med n-1 och inte n. Varför?

Låt oss först notera att formlerna används i två olika situationer. Varians (division med n) används då vi betraktar alla möjliga värden. Detta förutsätter att vi har all information om försöket tillgänglig. Modifierad varians (division med n-1) används när vi studerar ett stickprov av en population. Om vi hade varit intresserade av stickprovets varians från stickprovets medelvärde skulle vi använt formeln för varians. MEN vad vi vill är att använda datan i stickprovet för att uttala oss om hela populationens standardavvikelse. Och då är formeln med n-1 bättre (i vissa avseenden). Vi illustrerar med ett enkelt exempel.

Exempel 2

En slant kastas (singlas). På ena sidan står talet 0 och på andra talet 1, och sannolikheten för att en viss sida kommer upp är 1/2 (i princip har vi en tvåsidig tärning). Vi beräknar medelvärde $\mu$ och varians för försöket

(4)
\begin{align} \mu = \frac{0+1}{2}=\frac{1}{2} \end{align}
(5)
\begin{align} \textrm{varians}= \frac{(0-0.5)^2+(1-0.5)^2}{2}=\frac{1}{4} \end{align}

Låt oss nu göra ett stickprov genom att kasta slanten två gånger, och beräkna medelvärde, varians och modifierad varians för de möjliga utfallen (av vårt stickprov!).

Kast 1 Kast 2 Medelvärde Varians (den med n) Modifierad varians (den med n-1)
0 0 0  0 0
0 1 $\frac{1}{2}$ $\frac{1}{4}$ $\frac{1}{2}$
1 0 $\frac{1}{2}$ $\frac{1}{4}$  $\frac{1}{2}$
1 1 1  0 0

Vad kommer vi då att få för medelvärde, varians och modifierad varians i genomsnitt i vårt stickprov? Jo

(6)
\begin{align} \textrm{Genomsnittligt medelvärde} = \frac{0+\frac{1}{2}+ \frac{1}{2}+ 1}{4} = \frac{1}{2} \end{align}
(7)
\begin{align} \textrm{Genomsnittlig varians} = \frac{0+\frac{1}{4}+ \frac{1}{4}+0 }{4} = \frac{1}{8} \end{align}
(8)
\begin{align} \textrm{Genomsnittlig modifierad varians} = \frac{0+\frac{1}{2}+ \frac{1}{2}+0 }{4} = \frac{1}{4} \end{align}

Observera att det genomsnittliga medelvärdet i vårt stickprov överensstämmer med medelvärdet för försöket, medan den genomsnittliga variansen i stickprovet inte är samma som variansen för försöket. Däremot är den genomsnittliga modifierade variansen samma som försökets varians.

Vi ser alltså att den modifierade variansen (den med n-1) i viss mening ger en bättre approximation av den verkliga variansen, och därför kan vara att föredra. Man kan bevisa detta - att den genomsnittliga modifierade variansen överensstämmer med försökets varians - gäller för alla slumpförsök (inte bara vårt enkla exempel, inte bara likformig fördelning). Se t.ex. Bias of an estimator för allmänt resonemang (men be inte mig reda ut detta). Eller gör några exempel likt det ovan själv.

Anmärkningar

1. Uppenbarligen gäller

(9)
\begin{align} \textrm{varians} < \textrm{modifierad varians} \end{align}

så om man använder formeln för varians på stickprov får man en underskattning av försökets verkliga varians.

Om antalet element i ett stickprov är tillräckligt stort (dvs n stort) blir varians och modifierad varians ungefär samma, så då kvittar det i praktiken vilken formel man använder.

2. Om vi gör stickprov med bara ett element (n=1) så havererar formeln för modifierad varians eftersom nämnaren blir noll. Å andra sidan blir täljaren också noll eftersom medelvärdet i stickprovet är värdet självt. Så vi får ett meningslöst uttryck av formen $\frac{0}{0}$. Detta känns rimligt, ett stickprov med ett element kan inte säga något om försökets (slumpvariabelns) spridning.

3. Att man använder samma "bokstav" n i båda formlerna kan vara förvirrande. Den står för helt olika saker och kanske hade det varit bättre att ha olika bokstäver, n för antalet utfall i ett försök och m för antalet element i ett stickprov. Då har vi en formel för variansen för försöket med n i nämnaren, och en för variansen från stickprovet med m-1 i nämnaren.

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License