- Hvordan beregnes bestemmelseskoefficienten?
- Illustrerende sag
- Tolkning
- eksempler
- - Eksempel 1
- Løsning
- - Eksempel 2
- Løsning
- - Eksempel 3
- Løsning
- Fit sammenligning
- konklusioner
- Referencer
Den bestemmelseskoefficienten er et tal mellem 0 og 1, der repræsenterer den del af punkter (x, y), der følger regressionslinien tilpasningsgrad et datasæt med to variable.
Det er også kendt som pasform og betegnes med R 2. For at beregne det tages kvotienten mellem variansen af dataene estimatedi estimeret af regressionsmodellen og variansen af data Yi svarende til hver Xi af dataene.
R 2 = SY / Sy
Figur 1. Korrelationskoefficient for fire datapar. Kilde: F. Zapata.
Hvis 100% af dataene er på linjen med regressionsfunktionen, er bestemmelseskoefficienten 1.
Tværtimod hvis for et sæt af data og en vis tilpasningsfunktion koefficienten R 2 viser sig at være lig med 0,5, så det kan siges, at pasformen er 50% tilfredsstillende eller god.
Tilsvarende når regressionsmodellen udbytter R 2 -værdier lavere end 0,5, indikerer dette, at den valgte indstillingsfunktion ikke tilpasse tilfredsstillende til de data, derfor er det nødvendigt at søge efter en anden justeringsfunktion.
Og når kovariansen eller korrelationskoefficienten tendens til nul, så variablerne X og Y i dataene er uafhængige, og derfor R 2 vil også tendens til nul.
Hvordan beregnes bestemmelseskoefficienten?
I det foregående afsnit blev det sagt, at bestemmelseskoefficienten beregnes ved at finde kvoten mellem variationerne:
-Estimeret af regressionsfunktionen af variabel Y
-Det af variablen Yi svarende til hver af variablen Xi af N-dataparene.
Angivet matematisk ser det sådan ud:
R 2 = SY / Sy
Fra denne formel fremgår det, at R 2 betegner den andel af variansen forklares af regressionsmodellen. Alternativt R 2 kan beregnes efter følgende formel, fuldt ækvivalent til den foregående:
R 2 = 1 - (Sε / Sy)
Hvor Sε repræsenterer variansen for resterne εi = Ŷi - Yi, mens Sy er variansen for datasættet af Yi-værdierne. For at bestemme Ŷi anvendes regressionsfunktionen, hvilket betyder at bekræfte, at Ŷi = f (Xi).
Variationen af datasættet Yi med i fra 1 til N beregnes på denne måde:
Sy =
Og fortsæt derefter på lignende måde for Sŷ eller Sε.
Illustrerende sag
For at vise detaljerne om, hvordan beregningen af bestemmelseskoefficient foretages, tager vi følgende sæt med fire datapar:
(X, Y): {(1, 1); (2. 3); (3, 6) og (4, 7)}.
En lineær regressionspasning foreslås til dette datasæt, der opnås ved hjælp af metoden med mindst kvadrater:
f (x) = 2,1 x - 1
Ved anvendelse af denne justeringsfunktion opnås drejningsmomenterne:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) og (4, 7.4)}.
Derefter beregner vi det aritmetiske middelværdi for X og Y:
Variance Sy
Sy = / (4-1) =
= = 5.583
Variant Sŷ
Sŷ = / (4-1) =
= = 7,35
Bestemmelseskoefficient R 2
R 2 = SY / Sy = 7,35 / 7,58 = 0,97
Tolkning
Bestemmelseskoefficienten for det illustrerende tilfælde, der blev betragtet som det foregående segment, viste sig at være 0,98. Med andre ord, den lineære justering gennem funktionen:
f (x) = 2,1x - 1
Det er 98% pålideligt med at forklare de data, som de blev opnået ved hjælp af metoden med mindst firkanter.
Ud over bestemmelseskoefficienten er der den lineære korrelationskoefficient eller også kendt som Pearsons koefficient. Denne koefficient, betegnet som r, beregnes ved følgende forhold:
r = Sxy / (Sx Sy)
Her repræsenterer tælleren samvariationen mellem variabler X og Y, mens nævneren er produktet af standardafvigelsen for variabel X og standardafvigelsen for variabel Y.
Pearsons koefficient kan tage værdier mellem -1 og +1. Når denne koefficient har en tendens til +1, er der en direkte lineær korrelation mellem X og Y. Hvis den har en tendens til -1 i stedet, er der en lineær korrelation, men når X vokser falder Y. Endelig er det tæt på 0, og der er ingen sammenhæng mellem de to variabler.
Det skal bemærkes, at bestemmelseskoefficienten falder sammen med kvadratet af Pearson-koefficienten, kun når den første er beregnet på baggrund af en lineær pasform, men denne ligestilling er ikke gyldig for andre ikke-lineære pasninger.
eksempler
- Eksempel 1
En gruppe gymnasieelever forsøgte at bestemme en empirisk lov for en pendulperiode som en funktion af dens længde. For at nå dette mål udfører de en række målinger, hvor de måler tiden for en penduloscillation i forskellige længder, der opnår følgende værdier:
Længde (m) | Periode (r) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
en | 1,93 |
1.3 | 2,19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3,62 |
Det anmodes om at lave et scatter plot af dataene og udføre en lineær pasning gennem regression. Vis også regressionsligningen og dens bestemmelseskoefficient.
Løsning
Figur 2. Løsningsgrafik for øvelse 1. Kilde: F. Zapata.
En relativt høj bestemmelseskoefficient (95%) kan observeres, så man kunne tro, at den lineære pasform er optimal. Men hvis punkterne ses sammen, ser de ud til at have en tendens til at krumme nedad. Denne detalje overvejes ikke i den lineære model.
- Eksempel 2
For de samme data i eksempel 1 skal du oprette et scatter-plot af dataene. I denne lejlighed, i modsætning til i eksempel 1, anmodes der om en regressionsjustering ved hjælp af en potentiel funktion.
Figur 3. Løsningsgrafik for øvelse 2. Kilde: F. Zapata.
Vis også fit-funktionen og dens bestemmelseskoefficient R 2.
Løsning
Den potentielle funktion er af formen f (x) = Axe B, hvor A og B er konstanter, der bestemmes ved metoden med mindst kvadrater.
Den forrige figur viser den potentielle funktion og dens parametre samt bestemmelseskoefficienten med en meget høj værdi på 99%. Bemærk, at dataene følger krumningen af trendlinjen.
- Eksempel 3
Ved hjælp af de samme data fra eksempel 1 og eksempel 2, udfør en anden grad polynom pasform. Vis grafen, pasformen polynomium, og den tilsvarende determinationskoefficienten R 2.
Løsning
Figur 4. Løsningsgrafik til øvelse 3. Kilde: F. Zapata.
Med den anden grad af polynomtilpasning kan du se en trendlinje, der passer godt til krumningen af dataene. Bestemmelseskoefficienten er også over den lineære pasform og under den potentielle pasning.
Fit sammenligning
Af de tre viste tilpasninger er den med den højeste bestemmelseskoefficient den potentielle pasning (eksempel 2).
Den potentielle pasning falder sammen med den fysiske teori om pendelen, der som bekendt konstaterer, at pendulens periode er proportional med kvadratroten af dens længde, hvor proportionalitetskonstanten er 2π / √g, hvor g er tyngdekraktionen.
Denne type potentiel pasform har ikke kun den højeste bestemmelseskoefficient, men eksponenten og proportionalitetskonstanten matcher den fysiske model.
konklusioner
-Regressionsjusteringen bestemmer parametrene for den funktion, der sigter mod at forklare dataene ved hjælp af metoden med mindst kvadrater. Denne metode består i at minimere summen af den kvadratiske forskel mellem justering Y-værdien og Yi-værdien af dataene for Xi-værdierne for dataene. Dette bestemmer parametrene for indstillingsfunktionen.
-Som vi har set, er den mest almindelige justeringsfunktion linjen, men den er ikke den eneste, da justeringerne også kan være polynomiske, potentielle, eksponentielle, logaritmiske og andre.
-Under alle omstændigheder afhænger bestemmelseskoefficienten af dataene og typen af justering og er en indikation af godheden for den anvendte justering.
-Finalt angiver bestemmelseskoefficienten procentdelen af den samlede variation mellem Y-værdien af dataene med hensyn til Ŷ-værdien af justeringen for det givne X.
Referencer
- González C. Generel statistik. Gendannes fra: tarwi.lamolina.edu.pe
- IACS. Aragonese Institut for Sundhedsvidenskaber. Gendannes fra: ics-aragon.com
- Salazar C. og Castillo S. Grundlæggende principper for statistik. (2018). Gendannes fra: dspace.uce.edu.ec
- Superprof. Bestemmelseskoefficient. Gendannes fra: superprof.es
- USAC. Beskrivende statistikmanual. (2011). Gendannet fra: Statistics.ingenieria.usac.edu.gt.
- Wikipedia. Bestemmelseskoefficient. Gendannet fra: es.wikipedia.com.