- Hvordan beregnes korrelationskoefficienten?
- Kovarians og varians
- Illustrerende sag
- Covariance Sxy
- Standardafvigelse Sx
- Standardafvigelse Sy
- Korrelationskoefficient r
- Tolkning
- Lineær regression
- Eksempel
- Referencer
Den Korrelationskoefficienten i statistikken er en indikator, der måler tendensen hos to kvantitative variable X og Y at have et forhold af linearitet eller proportionalitet mellem dem.
Generelt er parene af variabler X og Y to karakteristika for den samme population. For eksempel kan X være en persons højde og Y hans vægt.
Figur 1. Korrelationskoefficient for fire datapar (X, Y). Kilde: F. Zapata.
I dette tilfælde vil korrelationskoefficienten indikere, hvorvidt der er en tendens mod et forholdsmæssigt forhold mellem højde og vægt i en given population.
Pearsons lineære korrelationskoefficient er betegnet med små bogstaver r, og dens minimums- og maksimumværdier er henholdsvis -1 og +1.
En værdi r = +1 vil indikere, at sættet af par (X, Y) er perfekt justeret, og at når X vokser, vil Y vokse i den samme andel. På den anden side, hvis det skete, at r = -1, ville parret også være perfekt justeret, men i dette tilfælde, når X stiger, falder Y i den samme andel.
Figur 2. Forskellige værdier for den lineære korrelationskoefficient. Kilde: Wikimedia Commons.
På den anden side ville en værdi r = 0 indikere, at der ikke er nogen lineær sammenhæng mellem variablerne X og Y. Mens en værdi på r = +0,8 ville indikere, at parene (X, Y) har en tendens til at klynge sig på den ene side og en anden af en bestemt linje.
Formlen til beregning af korrelationskoefficient r er som følger:
Hvordan beregnes korrelationskoefficienten?
Den lineære korrelationskoefficient er en statistisk mængde, der er indbygget i videnskabelige regnemaskiner, de fleste regneark og statistiske programmer.
Det er dog praktisk at vide, hvordan den formel, der definerer den anvendes, og for dette vises en detaljeret beregning, der udføres på et lille datasæt.
Og som det blev sagt i det foregående afsnit, er korrelationskoefficienten covariansen Sxy divideret med produktet af standardafvigelsen Sx for variablerne X og Sy for variablen Y.
Kovarians og varians
Covariance Sxy er:
Sxy = / (N-1)
Hvor summen går fra 1 til de N par af data (Xi, Yi).
Standardafvigelsen for variablen X er på sin side kvadratroten af variansen af datasættet Xi med i fra 1 til N:
Sx = √
Tilsvarende er standardafvigelsen for variabel Y kvadratroten af variansen af datasættet Yi med i fra 1 til N:
Sy = √
Illustrerende sag
For at vise detaljeret, hvordan man beregner korrelationskoefficienten, tager vi følgende sæt med fire datapar
(X, Y): {(1, 1); (2. 3); (3, 6) og (4, 7)}.
Først beregner vi det aritmetiske middelværdi for X og Y som følger:
Derefter beregnes de resterende parametre:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardafvigelse Sx
Sx = √ = √ = 1,29
Standardafvigelse Sy
Sx = √ =
√ = 2,75
Korrelationskoefficient r
r = 3,5 / (1,29 * 2,75) = 0,98
Tolkning
I datasættet fra det foregående tilfælde observeres en stærk lineær korrelation mellem variablerne X og Y, som manifesteres både i spredningsdiagrammet (vist i figur 1) og i korrelationskoefficienten, der gav en værdi ganske tæt på enhed.
I den udstrækning, at korrelationskoefficienten er tættere på 1 eller -1, jo mere fornuftig det er at passe dataene til en linje, resultatet af lineær regression.
Lineær regression
Den lineære regressionslinje opnås fra metoden med mindst kvadrater. hvor parametrene for regressionslinjen opnås ved minimering af summen af kvadratet af forskellen mellem den estimerede Y-værdi og Yi for N-dataene.
På den anden side er parametrene a og b for regressionslinjen y = a + bx, opnået ved metoden med mindst kvadrater:
* b = Sxy / (Sx 2) for skråningen
* a =
Husk, at Sxy er den covarians, der er defineret ovenfor, og Sx 2 er variationen eller kvadratet af standardafvigelsen defineret ovenfor.
Eksempel
Korrelationskoefficienten bruges til at bestemme, om der er en lineær korrelation mellem to variabler. Det er relevant, når variablerne, der skal studeres, er kvantitative, og det antages endvidere, at de følger en normal typefordeling.
Vi har et illustrativt eksempel nedenfor: et mål for graden af fedme er kropsmasseindekset, som opnås ved at dele en persons vægt i kilogram med den kvadratiske højde på personen i enheder i kvadratmeter.
Du vil vide, om der er en stærk sammenhæng mellem kropsmasseindeks og koncentrationen af HDL-kolesterol i blodet, målt i millimol pr. Liter. Til dette formål er der udført en undersøgelse med 533 personer, som er sammenfattet i den følgende graf, hvor hvert punkt repræsenterer dataene fra en person.
Figur 3. Undersøgelse af BMI og HDL-kolesterol hos 533 patienter. Kilde: Aragonese Institute of Health Sciences (IACS).
Omhyggelig observation af grafen viser, at der er en vis lineær tendens (ikke særlig markeret) mellem HDL-kolesterolkoncentrationen og kropsmasseindekset. Det kvantitative mål for denne tendens er korrelationskoefficienten, som i dette tilfælde viste sig at være r = -0,276.
Referencer
- González C. Generel statistik. Gendannes fra: tarwi.lamolina.edu.pe
- IACS. Aragonese Institut for Sundhedsvidenskaber. Gendannes fra: ics-aragon.com
- Salazar C. og Castillo S. Grundlæggende principper for statistik. (2018). Gendannes fra: dspace.uce.edu.ec
- Superprof. Korrelationskoefficient. Gendannes fra: superprof.es
- USAC. Beskrivende statistikmanual. (2011). Gendannet fra: Statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearsons korrelationskoefficient. Gendannet fra: es.wikipedia.com.