T-fordelingen – Henriksen

Når vi har en normalfordeling, vil den være symmetrisk omkring middelværdien, $\mu$, og være fordelt med en standardafvigelse (spredning), $\sigma$. Dette vil vi matematisk kunne skrive som

$$X\sim N(\mu,\sigma)$$

hvor $X$ er den stokastiske variabel, der er normalfordelt, og $\sim$ betyder “er fordelt som”, og $N$ angiver, at der er tale om en normalfordeling.

Vi kan omdanne alle normalfordelinger til en normalfordeling, hvor middelværdien er nul og standardafvigelsen er én. Denne fordeling kaldes for en standardnormalfordeling

$$X\sim N(0,1)$$

Vi kan omdanne en vilkårlig normalfordeling til en standardnormalfordeling ved at lave en z-transformation

$$Z=\dfrac{X-\mu}{\sigma}$$

hvor $Z\sim N(0,1)$.

Dette gælder for en population. Hvis vi i stedet arbejder med en stikprøve, så vil der være usikkerhed, hvilket betyder, at standardafvigelsen er større, og tæthedsfunktionen er bredere. Hvis vi skal kunne bruge tæthedsfunktionen til at sige noget om vores data, skal vi altså gøre den lidt bredere for at afspejle denne usikkerhed. Denne tæthedsfunktion kaldes for tfordelingen.

Hvis vi har en stikprøve af størrelsen $n$, så vil vi være mere sikker på vores resultat, jo større vi gør stikprøven, det vil sige, hvis vi gør n større, fordi så vil tæthedsfunktionen blive smallere.

Dette afspejles i, at tæthedsfunktionen er afhængig af frihedsgraden, som blev introduceret i 2.g. men som vi faktisk allerede i 1.g. havde med i vores formler for variansen.

Hvis I kan huske, så definerede vi formlen for variansen for en population som

$$Var(X)=\dfrac{\sum\limits_{i=1}^n (x_i-\mu)^2}{n}$$

mens at vi for en stikprøve havde

$$Var(X)=\dfrac{\sum\limits_{i=1}^n (x_i-\bar{x})^2}{n-1}$$

At vi dividerer med $n-1$ gør, at variansen bliver lidt større, og at vi derfor får lidt større usikkerhed. De $n-1$ kaldes for frihedsgraden, fordi de angiver, hvor mange “pladser” der er frie.

Hvis vi har fem pladser og fem elever, så vil vi på første plads have valgfrihed mellem alle fem elever. På den anden plads vil vi have valgfrihed mellem fire elever, på den tredje plads vil vi have valgfrihed mellem tre elever, og på den fjerde plads vil der være valgfrihed mellem to elever. Men når først vi har valgt, hvem der skal sidde på den fjerde plads, så er det også givet, hvem der skal sidde på den sidste plads. Den sidste plads er derfor ikke valgfri. Vi har derfor kun valgfrihed på fire af pladserne, én mindre end det antal pladser, vi har. Hvis vi har $n$ pladser, så vil der være valgfrihed på $n-1$ af dem, og dette kaldes for frihedsgraden.

Vi kan også se, at når $n$ bliver større, så vil variansen for stikprøven nærme sig variansen for populationen, da der for $n-1$ ikke er så stor forskel i forhold til $n$. Om vi dividerer med 100 eller 99 gør ikke den store forskel, eller om det er 1.000 eller 999 gør endnu mindre forskel.

Det samme gør sig gældende for tæthedsfunktionen. Hvis vores stikprøve er meget lille, så vil tæthedsfunktionen skulle være bred, men som vi gør stikprøven større, så vil tæthedsfunktionen ændre sig og blive smallere.

Tæthedsfunktionen for t-fordelingen har en middelværdi på nul, ligesom standardnormalfordelingen, men vil være lidt bredere og er afhængig af antallet af frihedsgrader. Hvis vi plotter standardnormalfordelingen sammen med t-fordelingen med en frihedsgrad på 1, kan vi se, at de minder om hinanden, men at t-fordelingen er bredere.

Det ses, at tæthedsfunktionen for t-fordelingen er bredere og lavere. Hvis vi tager og ændrer på frihedsgraden ved at gøre stikprøven større, så vil vi have, at spredningen bliver mindre, vi bliver mere sikre, og derfor vil vores t-fordeling gå hen og ligne standardnormalfordelingen.