- Typer af grader af frihed
- I et mekanisk tilfælde
- I et sæt tilfældige værdier
- eksempler
- Variation og frihedsgrader
- I Chi-firkantfordelingen
- I hypotestesten (med løst eksempel)
- Referencer
De frihedsgrader i statistikker er antallet af uafhængige komponenter i en tilfældig vektor. Hvis vektoren har n-komponenter, og der er p lineære ligninger, der vedrører dets komponenter, er frihedsgraden np.
Begrebet frihedsgrader vises også i teoretisk mekanik, hvor de omtrent svarer til dimensionen af rummet, hvor partiklen bevæger sig minus antallet af bindinger.
Figur 1. En pendel bevæger sig i to dimensioner, men den har kun en frihedsgrad, fordi den er tvunget til at bevæge sig i en bue med radius L. Kilde: F. Zapata.
Denne artikel vil diskutere begrebet frihedsgrader anvendt på statistikker, men et mekanisk eksempel er lettere at visualisere i geometrisk form.
Typer af grader af frihed
Afhængig af den kontekst, hvorpå det anvendes, kan måden til at beregne antallet af frihedsgrader variere, men den underliggende idé er altid den samme: samlede dimensioner mindre antal begrænsninger.
I et mekanisk tilfælde
Lad os overveje en svingende partikel, der er bundet til en streng (en pendul), der bevæger sig i det lodrette xy-plan (2 dimensioner). Partiklen tvinges imidlertid til at bevæge sig på radiusens omkreds lig med akkordets længde.
Da partiklen kun kan bevæge sig på denne kurve, er antallet af frihedsgrader 1. Dette kan ses i figur 1.
Måden til at beregne antallet af frihedsgrader er ved at tage forskellen mellem antallet af dimensioner minus antallet af begrænsninger:
frihedsgrader: = 2 (dimensioner) - 1 (ligatur) = 1
En anden forklaring, der giver os mulighed for at nå frem til resultatet er følgende:
-Vi ved, at positionen i to dimensioner er repræsenteret af et punkt med koordinater (x, y).
-But da punktet skal overholde ligningen af omkredsen (x 2 + y 2 = L 2) for en given værdi af variablen x, er den variable y bestemt af ligning eller begrænsning.
På denne måde er kun en af variablerne uafhængige, og systemet har en (1) grad af frihed.
I et sæt tilfældige værdier
For at illustrere, hvad begrebet betyder, skal du antage, at vektoren
x = (x 1, x 2,…, x n)
Repræsenterer prøven af n normalt fordelte tilfældige værdier. I dette tilfælde har den tilfældige vektor x n uafhængige komponenter, og det siges derfor, at x har n frihedsgrader.
Lad os nu konstruere vektoren r for resterne
r = (x 1 -
Hvor
Så summen
(x 1 -
Det er en ligning, der repræsenterer en restriktion (eller binding) i elementerne i vektoren r af resterne, eftersom hvis n-1-komponenter i vektoren r er kendt, bestemmer restriktionsligningen den ukendte komponent.
Derfor er vektoren r med dimension n med begrænsningen:
∑ (x i -
Det har (n - 1) frihedsgrader.
Igen anvendes det, at beregningen af antallet af frihedsgrader er:
frihedsgrader: = n (dimensioner) - 1 (begrænsninger) = n-1
eksempler
Variation og frihedsgrader
Variansen s 2 er defineret som gennemsnittet af kvadratet for afvigelserne (eller resterne) af prøven af n data:
s 2 = (r • r) / (n-1)
hvor r er vektoren for resterne r = (x1 -
s 2 = ∑ (x i -
Under alle omstændigheder skal det bemærkes, at når man beregner gennemsnittet af kvadratet for resterne, er det divideret med (n-1) og ikke med n, da antallet af frihedsgrader for vektoren r er som omtalt i det foregående afsnit (n-1).
Hvis det til beregningen af variansen blev delt med n i stedet for (n-1), ville resultatet have en bias, der er meget signifikant for værdier på n mindre end 50.
I litteraturen vises variansformlen også med divisoren n i stedet for (n-1), når det kommer til variationen i en befolkning.
Men sættet med den tilfældige variabel af resterne, repræsenteret af vektoren r, selvom den har dimension n, har kun (n-1) frihedsgrader. Hvis antallet af data imidlertid er stort nok (n> 500), konvergeres begge formler til det samme resultat.
Regnemaskiner og regneark indeholder begge versioner af variansen og standardafvigelsen (som er kvadratroten af variansen).
Vores anbefaling, i betragtning af analysen, der er præsenteret her, er altid at vælge versionen med (n-1), hver gang det er nødvendigt at beregne variansen eller standardafvigelsen for at undgå partiske resultater.
I Chi-firkantfordelingen
Nogle sandsynlighedsfordelinger i kontinuerlig tilfældig variabel afhænger af en parameter kaldet frihedsgrad, dette er tilfældet med Chi-kvadratfordelingen (χ 2).
Navnet på denne parameter kommer netop fra graden af frihed for den underliggende tilfældige vektor, som denne distribution gælder for.
Antag, at vi har g-populationer, hvorfra der er taget prøver i størrelse n:
X 1 = (x1 1, x1 2,…..x1 n)
X2 = (x2 1, x2 2,…..x2 n)
….
X j = (xj 1, xj 2,…..xj n)
….
Xg = (xg 1, xg 2,…..xg n)
En befolkning j, der har betydet
Den standardiserede eller normaliserede variabel zj i er defineret som:
zj i = (xj i -
Og vektoren Zj er defineret sådan:
Zj = (zj 1, zj 2,…, zj i,…, zj n) og følger den standardiserede normale fordeling N (0,1).
Så variablen:
Q = ((z1 1 ^ 2 + z2 1 ^ 2 +…. + Zg 1 ^ 2),…., (Z1 n ^ 2 + z2 n ^ 2 +…. + Zg n ^ 2))
følger χ 2 (g) -fordelingen kaldet chi-square distribution med frihedsgrad g.
I hypotestesten (med løst eksempel)
Når du vil teste hypoteser baseret på et vist sæt tilfældige data, skal du vide antallet af frihedsgrader g for at kunne anvende Chi-square-testen.
Figur 2. Er der et forhold mellem præference for is FLAVOR og kundens Køn? Kilde: F. Zapata.
Som et eksempel analyseres de data, der er indsamlet om præferencerne for chokolade- eller jordbæris blandt mænd og kvinder i en bestemt isbar. Den hyppighed, hvorpå mænd og kvinder vælger jordbær eller chokolade, opsummeres i figur 2.
Først beregnes tabellen over forventede frekvenser, som er forberedt ved at multiplicere det samlede antal rækker med det samlede antal kolonner divideret med de samlede data. Resultatet vises i følgende figur:
Figur 3. Beregning af forventede frekvenser baseret på de observerede frekvenser (værdier i blåt i figur 2). Kilde: F. Zapata.
Derefter beregnes Chi-kvadratet (ud fra dataene) ved hjælp af følgende formel:
χ 2 = ∑ (F o - F e) 2 / F e
Hvor F o er de observerede frekvenser (Figur 2) og F e er de forventede frekvenser (figur 3). Summationen går over alle rækker og kolonner, som i vores eksempel giver fire udtryk.
Efter at have udført operationerne får du:
χ 2 = 0,2043.
Nu er det nødvendigt at sammenligne med den teoretiske Chi-firkant, der afhænger af antallet af frihedsgrader g.
I vores tilfælde bestemmes dette antal som følger:
g = (# rækker - 1) (# kolonner - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.
Det viser sig, at antallet af frihedsgrader g i dette eksempel er 1.
Hvis du vil kontrollere eller afvise nulhypotesen (H0: der er ingen sammenhæng mellem smag og køn) med et signifikansniveau på 1%, beregnes den teoretiske Chi-kvadratværdi med frihedsgraden g = 1.
Der søges en værdi, der gør den akkumulerede frekvens (1 - 0,01) = 0,99, det vil sige 99%. Denne værdi (som kan fås fra tabellerne) er 6.636.
Da den teoretiske Chi overstiger den beregnede, bekræftes nulhypotesen.
Med andre ord, med de indsamlede data observeres der ikke noget forhold mellem variablerne TASTE og GENDER.
Referencer
- Minitab. Hvad er graderne af frihed? Gendannes fra: support.minitab.com.
- Moore, David. (2009) Grundlæggende anvendt statistik. Antoni Bosch redaktør.
- Leigh, Jennifer. Sådan beregnes frihedsgrader i statistiske modeller. Gendannes fra: geniolandia.com
- Wikipedia. Frihedsgrad (statistik). Gendannet fra: es.wikipedia.com
- Wikipedia. Frihedsgrad (fysisk). Gendannet fra: es.wikipedia.com