- Betydningen af homoscedasticitet
- Homoscedasticitet versus heteroscedasticitet
- Homoscedasticitetstest
- Standardiserede variabler
- Ikke-grafiske tests af homoscedasticitet
- Referencer
Den homoscedasticity i en prædiktiv statistisk model forekommer, hvis alle de datagrupper af en eller flere observationer, variansen (eller uafhængige) mønster med hensyn til de forklarende variable er konstante.
En regressionsmodel kan være homoscedastisk eller ej, i hvilket tilfælde vi taler om heteroscedasticitet.
Figur 1. Fem datasæt og regressionstilpasning af sættet. Afvigelsen i forhold til den forudsagte værdi er den samme i hver gruppe. (Upav-biblioteca.org)
En statistisk regressionsmodel af flere uafhængige variabler kaldes homoscedastisk, kun hvis afvigelsen af fejlen i den forudsagte variabel (eller standardafvigelsen for den afhængige variabel) forbliver ensartet for forskellige grupper af værdier af de forklarende eller uafhængige variabler.
I de fem datagrupper i figur 1 er variansen i hver gruppe beregnet med hensyn til værdien estimeret af regressionen, hvilket viser sig at være den samme i hver gruppe. Det antages endvidere, at dataene følger den normale distribution.
På det grafiske niveau betyder det, at punkterne er lige spredt eller spredt rundt om den værdi, der er forudsagt af regressionspasningen, og at regressionsmodellen har den samme fejl og gyldighed for området for den forklarende variabel.
Betydningen af homoscedasticitet
For at illustrere betydningen af homoscedasticitet i forudsigelig statistik er det nødvendigt at kontrastere til det modsatte fænomen, heteroscedasticitet.
Homoscedasticitet versus heteroscedasticitet
I tilfælde af figur 1, hvor der er homoscedasticitet, er det sandt, at:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Hvor Var ((yi-Yi); Xi) repræsenterer variansen, repræsenterer parret (xi, yi) data fra gruppe i, mens Yi er den værdi, der er forudsagt af regressionen for gruppens middelværdi Xi. Variansen af n-dataene fra gruppe i beregnes som følger:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Tværtimod, når heteroscedasticitet forekommer, er regressionsmodellen muligvis ikke gyldig for hele regionen, hvor den blev beregnet. Figur 2 viser et eksempel på denne situation.
Figur 2. Gruppe af data, der viser heteroscedasticitet. (Egen uddybning)
Figur 2 repræsenterer tre datagrupper og pasningen af sættet ved hjælp af en lineær regression. Det skal bemærkes, at dataene i den anden og tredje gruppe er mere spredt end i den første gruppe. Grafen i figur 2 viser også middelværdien for hver gruppe og dens fejlbjælke ± σ med σ standardafvigelsen for hver datagruppe. Det skal huskes, at standardafvigelsen σ er kvadratroten af variansen.
Det er klart, at i tilfælde af heteroscedasticitet ændrer regressionsestimeringsfejlen i intervallet af værdier for den forklarende eller uafhængige variabel, og i intervaller, hvor denne fejl er meget stor, er regressionsforudsigelsen upålidelig eller ikke anvendelig.
I en regressionsmodel skal fejlene eller resterne (og -Y) fordeles med samme varians (σ ^ 2) i intervallet mellem værdier for den uafhængige variabel. Det er af denne grund, at en god regressionsmodel (lineær eller ikke-lineær) skal bestå homoscedasticitetstesten.
Homoscedasticitetstest
Punktene vist i figur 3 svarer til dataene fra en undersøgelse, der ser efter et forhold mellem priserne (i dollars) på husene som en funktion af størrelsen eller arealet i kvadratmeter.
Den første model, der testes, er en lineær regression. Først og fremmest bemærkes, at koefficienten for bestemmelse R ^ 2 for pasningen er ret høj (91%), så det kan antages, at pasningen er tilfredsstillende.
To regioner kan imidlertid tydeligt adskilles fra justeringsgrafen. En af dem, den til højre indkapslet i en oval, opfylder homoscedasticitet, mens regionen til venstre ikke har homoscedasticitet.
Dette betyder, at forudsigelsen af regressionsmodellen er tilstrækkelig og pålidelig i området fra 1800 m ^ 2 til 4800 m ^ 2, men meget utilstrækkelig uden for dette område. I den heteroscedastiske zone er fejlen ikke kun meget stor, men også dataene ser ud til at følge en anden tendens end den, der er foreslået af den lineære regressionsmodel.
Figur 3. Boligpriser kontra område og forudsigelsesmodel efter lineær regression, der viser homoscedasticitet og heteroscedasticitetszoner. (Egen uddybning)
Datas spredningsdiagram er den enkleste og mest visuelle test af deres homoscedasticitet, men i tilfælde, hvor det ikke er så indlysende som i eksemplet vist i figur 3, er det nødvendigt at ty til grafer med hjælpevariabler.
Standardiserede variabler
For at adskille de områder, hvor homoscedasticitet er opfyldt, og hvor det ikke er, introduceres de standardiserede variabler ZRes og ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Det skal bemærkes, at disse variabler afhænger af den anvendte regressionsmodel, da Y er værdien af regressionsforudsigelsen. Nedenfor er scatter plot ZRes vs ZPred for det samme eksempel:
Figur 4. Det skal bemærkes, at ZRes i homoscedasticitetszonen forbliver ensartet og lille i forudsigelsesområdet (Egen uddybning).
I grafen i figur 4 med de standardiserede variabler er området, hvor den resterende fejl er lille og ensartet, adskilt klart fra det område, hvor det ikke er. I den første zone opfyldes homoscedasticitet, medens heteroscedasticiteten i den region, hvor den resterende fejl er meget variabel og stor, er opfyldt.
Regressionsjustering anvendes på den samme gruppe af data i figur 3, i dette tilfælde er justeringen ikke-lineær, da den anvendte model involverer en potentiel funktion. Resultatet vises i følgende figur:
Figur 5. Nye zoner med homoscedasticitet og heteroscedasticitet i data, der passer sammen med en ikke-lineær regressionsmodel. (Egen uddybning).
I grafen i figur 5 skal de homoscedastiske og heteroscedastiske områder tydeligt bemærkes. Det skal også bemærkes, at disse zoner blev udskiftet med hensyn til dem, der blev dannet i den lineære pasningsmodel.
I grafen i figur 5 er det tydeligt, at selv når der er en ret høj bestemmelseskoefficient for pasningen (93,5%), er modellen ikke tilstrækkelig til hele intervallet af den forklarende variabel, da dataene for værdier større end 2000 m ^ 2 nuværende heteroscedasticitet.
Ikke-grafiske tests af homoscedasticitet
En af de ikke-grafiske test, der mest bruges til at verificere, om homoscedasticitet er opfyldt eller ej, er Breusch-Pagan-testen.
Ikke alle detaljerne i denne test vil blive givet i denne artikel, men dens grundlæggende egenskaber og trinnene til den samme er groft skitseret:
- Regressionsmodellen anvendes på n-dataene, og variansen af de samme beregnes med hensyn til den værdi, der er estimeret af modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- En ny variabel er defineret ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Den samme regressionsmodel anvendes på den nye variabel, og dens nye regressionsparametre beregnes.
- Den kritiske værdi Chi-kvadrat (χ ^ 2) bestemmes, dette er halvdelen af summen af kvadraterne nye rester i variablen ε.
- Chi-kvadratfordelingstabellen bruges under hensyntagen til signifikansniveauet (normalt 5%) og antallet af frihedsgrader (# af regressionsvariabler minus enheden) på x-aksen i tabellen for at opnå værdien af bestyrelsen.
- Den kritiske værdi opnået i trin 3 sammenlignes med den værdi, der findes i tabellen (χ ^ 2).
- Hvis den kritiske værdi er under værdien i tabellen, har vi nulhypotesen: der er homoscedasticitet
- Hvis den kritiske værdi er over værdien i tabellen, har vi den alternative hypotese: der er ingen homoscedasticitet.
De fleste af de statistiske softwarepakker såsom: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic og flere andre inkorporerer Breusch-Pagan homoscedasticitetstesten. En anden test til at verificere ensartethed af varians er Levene-testen.
Referencer
- Box, Hunter & Hunter. (1988) Statistik for forskere. Jeg vendte redaktører.
- Johnston, J (1989). Econometrics metoder, Vicens -Vives redaktører.
- Murillo og González (2000). Econometrics manual. Universitetet i Las Palmas de Gran Canaria. Gendannes fra: ulpgc.es.
- Wikipedia. Homoscedasticity. Gendannet fra: es.wikipedia.com
- Wikipedia. Homoscedasticity. Gendannet fra: en.wikipedia.com