- Formel
- Egenskaber ved den normale fordeling
- Tillidsintervaller
- Anvendelser af den normale fordeling
- Eksempel
- Træning løst
- Referencer
Den normale fordeling eller Gauss-fordeling er sandsynlighedsfordelingen i en kontinuerlig variabel, hvor sandsynlighedsdensitetsfunktionen er beskrevet af en eksponentiel funktion af kvadratisk og negativ argumentation, der giver anledning til en klokkeform.
Navnet på normalfordeling kommer fra det faktum, at denne distribution er den, der gælder for det største antal situationer, hvor en kontinuerlig tilfældig variabel er involveret i en given gruppe eller befolkning.
Figur 1. Normal fordeling N (x; μ, σ) og dens sandsynlighedstæthed f (s; μ, σ). (Egen uddybning)
Eksempler, hvor den normale fordeling anvendes, er: højden på mænd eller kvinder, variationer i måling af en fysisk størrelse eller i målelige psykologiske eller sociologiske egenskaber, såsom den intellektuelle kvotient eller forbrugsvaner for et bestemt produkt.
På den anden side kaldes det en Gaussisk distribution eller Gaussisk klokke, fordi det er dette tyske matematiske geni, der krediteres hans opdagelse for den brug, han gav den til at beskrive den statistiske fejl ved astronomiske målinger tilbage i år 1800.
Det anføres imidlertid, at denne statistiske distribution tidligere blev offentliggjort af en anden stor matematiker med fransk oprindelse, såsom Abraham de Moivre, allerede i år 1733.
Formel
Den normale fordelingsfunktion i den kontinuerlige variabel x med parametre μ og σ betegnes med:
N (x; μ, σ)
og det er eksplicit skrevet sådan:
N (x; μ, σ) = ∫ -∞ x f (s; μ, σ) ds
hvor f (u; μ, σ) er sandsynlighedsdensitetsfunktionen:
f (s; μ, σ) = (1 / (σ√ (2π)) Exp (- s 2 / (2σ 2))
Konstanten, der multiplicerer den eksponentielle funktion i sandsynlighedsdensitetsfunktionen kaldes normaliseringskonstanten, og den er valgt på en sådan måde, at:
N (+ ∞, μ, σ) = 1
Det forrige udtryk sikrer, at sandsynligheden for, at den tilfældige variabel x er mellem -∞ og + ∞, er 1, det vil sige 100% sandsynlighed.
Parameteren μ er det aritmetiske middelværdi for den kontinuerlige tilfældige variabel x og σ standardafvigelsen eller kvadratroten for variensen af den samme variabel. I tilfælde af μ = 0 og σ = 1, så har vi den normale normalfordeling eller typisk normalfordeling:
N (x; μ = 0, σ = 1)
Egenskaber ved den normale fordeling
1- Hvis en tilfældig statistisk variabel følger en normal fordeling af sandsynlighedstæthed f (s; μ, σ), er de fleste af dataene grupperet omkring middelværdien μ og er spredt omkring den på en sådan måde, at lidt mere end ⅔ af dataene er mellem μ - σ og μ + σ.
2- Standardafvigelsen σ er altid positiv.
3 - Formen på densitetsfunktionen f svarer til en klokke, hvorfor denne funktion ofte kaldes en Gaussisk klokke eller Gaussisk funktion.
4- I en Gaussisk fordeling falder middelværdien, medianen og tilstanden sammen.
5- Bøjningspunktene for sandsynlighedsdensitetsfunktionen er nøjagtigt ved μ - σ og μ + σ.
6- Funktionen f er symmetrisk omkring en akse, der passerer gennem dens middelværdi μ og har asymptotisk nul for x ⟶ + ∞ og x ⟶ -∞.
7- Jo højere værdien af σ, desto større er spredning, støj eller afstand til dataene omkring middelværdien. Med andre ord, jo højere σ er klokkeformen mere åben. På den anden side angiver σ lille, at terningerne er tæt på middelværdien, og formen på klokken er mere lukket eller spids.
8- Fordelingsfunktionen N (x; μ, σ) angiver sandsynligheden for, at den tilfældige variabel er mindre end eller lig med x. For eksempel, i figur 1 (ovenfor), er sandsynligheden P for, at variablen x er mindre end eller lig med 1,5, 84% og svarer til området under sandsynlighedsdensitetsfunktionen f (x; μ, σ) fra -∞ til x.
Tillidsintervaller
9- Hvis dataene følger en normal fordeling, er 68,26% af disse mellem μ - σ og μ + σ.
10- 95,44% af de data, der følger en normal fordeling, er mellem μ - 2σ og μ + 2σ.
11- 99,74% af de data, der følger en normal fordeling, er mellem μ - 3σ og μ + 3σ.
12- Hvis en tilfældig variabel x følger en fordeling N (x; μ, σ), så er variablen
z = (x - μ) / σ følger den normale normale fordeling N (z; 0,1).
Ændring af variablen x til z kaldes standardisering eller indtastning og er meget nyttig, når man anvender tabellerne i standarddistributionen til de data, der følger en ikke-standard normalfordeling.
Anvendelser af den normale fordeling
For at anvende den normale fordeling er det nødvendigt at gennemgå beregningen af integralen af sandsynlighedstætheden, der fra det analytiske synspunkt ikke er let, og der ikke altid er et computerprogram, der tillader dets numeriske beregning. Til dette formål anvendes tabeller med normaliserede eller standardiserede værdier, hvilket ikke er andet end den normale fordeling i tilfælde μ = 0 og σ = 1.
Standardiseret normal distributionstabel (del 1/2)
Standardiseret normal distributionstabel (del 2/2)
Det skal bemærkes, at disse tabeller ikke inkluderer negative værdier. Ved anvendelse af symmetriegenskaber for den Gaussiske sandsynlighedsdensitetsfunktion kan de tilsvarende værdier imidlertid opnås. Den løste øvelse vist nedenfor viser brugen af tabellen i disse tilfælde.
Eksempel
Antag, at du har et sæt tilfældige data x, der følger en normal fordeling af middelværdien 10 og standardafvigelse 2. Du bliver bedt om at finde sandsynligheden for, at:
a) Den tilfældige variabel x er mindre end eller lig med 8.
b) Er mindre end eller lig med 10.
c) At variablen x er under 12.
d) Sandsynligheden for, at en x-værdi er mellem 8 og 12.
Løsning:
a) For at besvare det første spørgsmål skal du blot beregne:
N (x; μ, σ)
Med x = 8, μ = 10 og σ = 2. Vi er klar over, at det er et integral, der ikke har en analytisk løsning i elementære funktioner, men løsningen udtrykkes som en funktion af fejlfunktionen erf (x).
På den anden side er der muligheden for at løse integralen i numerisk form, hvilket er, hvad mange regnemaskiner, regneark og computerprogrammer som GeoGebra gør. Følgende figur viser den numeriske løsning, der svarer til det første tilfælde:
Figur 2. Sandsynlighedstæthed f (x; μ, σ). Det skraverede område repræsenterer P (x ≤ 8). (Egen uddybning)
og svaret er, at sandsynligheden for, at x er under 8, er:
P (x ≤ 8) = N (x = 8; μ = 10, σ = 2) = 0,1587
b) I dette tilfælde prøver vi at finde sandsynligheden for, at den tilfældige variabel x er under middelværdien, som i dette tilfælde er værd 10. Svaret kræver ingen beregning, da vi ved, at halvdelen af dataene er under gennemsnit og den anden halvdel over gennemsnittet. Derfor er svaret:
P (x ≤ 10) = N (x = 10; μ = 10, σ = 2) = 0,5
c) For at besvare dette spørgsmål skal vi beregne N (x = 12; μ = 10, σ = 2), hvilket kan gøres med en lommeregner, der har statistiske funktioner eller gennem software såsom GeoGebra:
Figur 3. Sandsynlighedstæthed f (x; μ, σ). Det skraverede område repræsenterer P (x ≤ 12). (Egen uddybning)
Svaret til del c kan ses i figur 3 og er:
P (x ≤ 12) = N (x = 12; μ = 10, σ = 2) = 0,8413.
d) For at finde sandsynligheden for, at den tilfældige variabel x er mellem 8 og 12, kan vi bruge resultaterne af delene a og c som følger:
P (8 ≤ x ≤ 12) = P (x ≤ 12) - P (x ≤ 8) = 0,8413 - 0,1587 = 0,66826 = 68,26%.
Træning løst
Den gennemsnitlige pris på et selskabs aktie er $ 25 med en standardafvigelse på $ 4. Bestem sandsynligheden for, at:
a) En handling har en pris, der er mindre end $ 20.
b) Det koster mere end $ 30.
c) Prisen er mellem $ 20 og $ 30.
Brug de normale normalfordelingstabeller til at finde svarene.
Løsning:
For at gøre brug af tabellerne er det nødvendigt at gå til den normaliserede eller indtastede z-variabel:
$ 20 i den normaliserede variabel er lig med z = ($ 20 - $ 25) / $ 4 = -5/4 = -1,25 og
$ 30 i den normaliserede variabel er lig med z = ($ 30 - $ 25) / $ 4 = +5/4 = +1,25.
a) $ 20 er lig med -1,25 i den normaliserede variabel, men tabellen har ikke negative værdier, så vi finder værdien +1,25, som giver værdien 0,8944.
Hvis 0,5 trækkes fra denne værdi, vil resultatet være området mellem 0 og 1,25, der forresten er identisk (ved symmetri) til området mellem -1,25 og 0. Resultatet af subtraktionen er 0,8944 - 0,5 = 0,3944, hvilket er området mellem -1,25 og 0.
Men området fra -∞ til -1,25 er af interesse, hvilket vil være 0,5 - 0,3944 = 0,1056. Det konkluderes derfor, at sandsynligheden for, at en bestand er under $ 20, er 10,56%.
b) $ 30 i den indtastede variabel z er 1,25. For denne værdi viser tabellen tallet 0,8944, der svarer til området fra -∞ til +1,25. Området mellem +1,25 og + ∞ er (1 - 0,8944) = 0,1056. Med andre ord er sandsynligheden for, at en andel koster mere end $ 30, 10,56%.
c) Sandsynligheden for, at en handling har en omkostning mellem $ 20 og $ 30, beregnes som følger:
100% -10,56% - 10,56% = 78,88%
Referencer
- Statistik og sandsynlighed. Normal fordeling. Gendannet fra: projectdescartes.org
- GeoGebra. Klassisk geogebra, sandsynlighedsberegning. Gendannes fra geogebra.org
- MathWorks. Gaussisk distribution. Gendannes fra: es.mathworks.com
- Mendenhall, W. 1981. Statistik for ledelse og økonomi. 3rd. udgave. Grupo Redaktion Iberoamérica.
- Stat Trek. Lær dig selv statistik. Poisson Distribution. Gendannes fra: stattrek.com,
- Triola, M. 2012. Elementær statistik. 11.. Ed. Pearson Uddannelse.
- University of Vigo. Vigtigste kontinuerlige fordelinger. Gendannes fra: anapg.webs.uvigo.es
- Wikipedia. Normal fordeling. Gendannet fra: es.wikipedia.org