- Formler og ligninger
- Vigtige statistiske variabler
- Model og egenskaber
- Hovedegenskaber ved den hypergeometriske fordeling
- Tilnærmelse ved hjælp af binomial distribution
- Eksempel 2
- Løst øvelser
- Øvelse 1
- Løsning
- Øvelse 2
- Løsning
- Øvelse 3
- Løsning på
- Opløsning c
- Referencer
Den hypergeometriske fordeling er en diskret statistisk funktion, der er egnet til at beregne sandsynligheden i randomiserede eksperimenter med to mulige resultater. Betingelsen, der kræves for at anvende den, er, at de er små populationer, hvor tilbagetrækningen ikke erstattes, og sandsynlighederne ikke er konstante.
Derfor, når et element i befolkningen vælges for at kende resultatet (sandt eller falskt) af en bestemt egenskab, kan det samme element ikke vælges igen.
Figur 1. I en boltpopulation som denne er der helt sikkert mangelfulde prøver. Kilde: Pixabay.
Bestemt, det næste element er således mere sandsynligt at opnå et sandt resultat, hvis det forrige element havde et negativt resultat. Dette betyder, at sandsynligheden varierer, når elementer ekstraheres fra prøven.
De vigtigste anvendelser af den hypergeometriske fordeling er: kvalitetskontrol i processer med lille befolkning og beregning af sandsynligheder i hasardspil.
Hvad angår den matematiske funktion, der definerer den hypergeometriske fordeling, består den af tre parametre, som er:
- Antal befolkningselementer (N)
- Prøvestørrelse (m)
- Antal begivenheder i hele befolkningen med et gunstigt (eller ugunstigt) resultat af den undersøgte egenskab (n).
Formler og ligninger
Formlen for den hypergeometriske fordeling giver sandsynligheden P for, at der forekommer x gunstige tilfælde af en bestemt egenskab. Måden til at skrive det matematisk, baseret på de kombinatoriske numre er:
I det forrige udtryk er N, n og m parametre, og x er selve variablen.
- Den samlede befolkning er N.
-Tallet af positive resultater af en bestemt binær karakteristik i forhold til den samlede befolkning er n.
-Mængden af elementer i prøven er m.
I dette tilfælde er X en tilfældig variabel, der tager værdien x og P (x) indikerer sandsynligheden for forekomst af x gunstige tilfælde af den studerede karakteristik.
Vigtige statistiske variabler
Andre statistiske variabler for den hypergeometriske fordeling er:
- Middel μ = m * n / N
- Varians σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)
- Standardafvigelse σ, som er kvadratroten af variansen.
Model og egenskaber
For at nå frem til modellen med den hypergeometriske fordeling starter vi fra sandsynligheden for at opnå x gunstige tilfælde i en prøve af størrelse m. Denne prøve indeholder elementer, der er i overensstemmelse med den undersøgte egenskab, og elementer, der ikke gør det.
Husk, at n repræsenterer antallet af gunstige tilfælde i den samlede population af N-elementer. Derefter beregnes sandsynligheden sådan:
Udtrykker ovenstående i form af kombinatoriske numre nås følgende sandsynlighedsfordelingsmodel:
Hovedegenskaber ved den hypergeometriske fordeling
De er som følger:
- Prøven skal altid være lille, selv om befolkningen er stor.
- Elementerne i prøven ekstraheres en efter en uden at inkorporere dem tilbage i befolkningen.
- Egenskaben, der skal studeres, er binær, det vil sige, den kan kun tage to værdier: 1 eller 0 eller sand eller forkert.
I hvert elementekstraktionstrin ændres sandsynligheden afhængigt af de tidligere resultater.
Tilnærmelse ved hjælp af binomial distribution
En anden egenskab ved den hypergeometriske fordeling er, at den kan tilnærmes ved binomialfordelingen, betegnet Bi, så længe populationen N er stor og mindst 10 gange større end prøven m. I dette tilfælde ser det sådan ud:
Sandsynligheden for, at x = 3 skruer i prøven er defekte, er: P (500, 5, 60, 3) = 0.0129.
På sin side er sandsynligheden for, at x = 4 skruer ud af seksti af prøven er defekt: P (500, 5, 60; 4) = 0,0008.
Endelig er sandsynligheden for, at x = 5 skruer i denne prøve er: P (500, 5, 60; 5) = 0.
Men hvis du vil vide sandsynligheden for, at der i den prøve er der mere end 3 defekte skruer, skal du opnå den kumulative sandsynlighed og tilføje:
Dette eksempel er illustreret i figur 2 opnået ved hjælp af GeoGebra, en gratis software, der i vid udstrækning bruges på skoler, institutter og universiteter.
Figur 2. Eksempel på hypergeometrisk fordeling. Udarbejdet af F. Zapata med GeoGebra.
Eksempel 2
Et spansk dækdæk har 40 kort, hvoraf 10 har guld, og de resterende 30 ikke. Antag, at 7 kort er trukket tilfældigt fra det dæk, som ikke er genindarbejdet i bunken.
Hvis X er antallet af guld, der er til stede i de 7 kort, der er trukket, gives sandsynligheden for, at du har x guld i en 7-kortstrækning, ved den hypergeometriske fordeling P (40,10,7; x).
Lad os se det sådan: For at beregne sandsynligheden for at have 4 guld i en 7-kortstrækning bruger vi formlen for den hypergeometriske fordeling med følgende værdier:
Og resultatet er: 4,57% sandsynlighed.
Men hvis du vil vide sandsynligheden for at få mere end 4 kort, skal du tilføje:
Løst øvelser
Det følgende sæt øvelser er beregnet til at illustrere og assimilere de koncepter, der er præsenteret i denne artikel. Det er vigtigt, at læseren forsøger at løse dem på egen hånd, inden han ser på løsningen.
Øvelse 1
En kondomfabrik har fundet, at ud af hver 1000 kondomer, der er produceret af en bestemt maskine, er 5 defekte. For kvalitetskontrol tages 100 kondomer tilfældigt, og partiet afvises, hvis der er mindst en eller flere defekte. Svar:
a) Hvad er muligheden for, at mange 100 kasseres?
b) Er dette kvalitetskontrolkriterium effektivt?
Løsning
I dette tilfælde vises meget store kombinationsnumre. Beregningen er vanskelig, medmindre du har en passende softwarepakke.
Men fordi det er en stor population, og prøven er ti gange mindre end den samlede befolkning, er det muligt at bruge tilnærmelsen af den hypergeometriske fordeling med den binomiale fordeling:
I ovenstående udtryk er C (100, x) et kombinationsnummer. Derefter beregnes sandsynligheden for at have mere end en defekt sådan:
Det er en fremragende tilnærmelse, sammenlignet med den opnåede værdi ved anvendelse af den hypergeometriske fordeling: 0,4102
Det kan siges, at med en 40% sandsynlighed, skal en batch på 100 profylaktik kasseres, hvilket ikke er meget effektivt.
Men at være lidt mindre krævende i kvalitetskontrolprocessen og kassere partiet på 100 kun, hvis der er to eller flere mangler, vil sandsynligheden for at kassere partiet falde til kun 8%.
Øvelse 2
En plastikblokmaskine fungerer på en sådan måde, at for hver 10 stk. Kommer en ud deformeret. I en prøve på 5 stykker, hvor sandsynligt er det, at kun et stykke er defekt?
Løsning
Befolkning: N = 10
Antal n mangler for hvert N: n = 1
Prøvestørrelse: m = 5
Derfor er der en 50% sandsynlighed for, at en blok deformeres i en prøve på 5.
Øvelse 3
I et møde med unge kandidater i gymnasiet er der 7 damer og 6 herrer. Blandt pigerne studerer 4 humaniora og 3 videnskaber. I drengegruppen studerer 1 humaniora og 5 videnskaber. Beregn følgende:
a) Valg af tre piger tilfældigt: hvor sandsynligt er det, at de alle studerer humaniora?
b) Hvis tre deltagere til vennemødet vælges tilfældigt: Hvad er muligheden for, at tre af dem, uanset køn, studerer videnskab alle tre eller humaniora også alle tre?
c) Vælg nu to venner tilfældigt og kald x den tilfældige variabel "antal af dem, der studerer humaniora". Bestem middelværdien eller forventet værdi af x og variationen σ ^ 2 mellem de to valgte.
Løsning på
Værdierne, der skal bruges nu, er:
-Folkning: N = 14
-Dele, der studerer bogstaver, er: n = 6 og the
-Størrelse af prøven: m = 3.
-Antal venner, der studerer humaniora: x
I henhold til dette betyder x = 3, at alle tre studerer humaniora, men x = 0 betyder, at ingen studerer humaniora. Sandsynligheden for, at alle tre studerer det samme, er angivet med summen:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Så har vi en 21% sandsynlighed for, at tre møde deltagere, valgt tilfældigt, vil studere den samme ting.
Opløsning c
Her har vi følgende værdier:
N = 14 samlede antal af venner, n = 6 antal i befolkningen, der studerer humaniora, stikprøvestørrelsen er m = 2.
Håb er:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
Og variansen:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13) = 0,4521
Referencer
- Diskrete sandsynlighedsfordelinger. Gendannes fra: biplot.usal.es
- Statistik og sandsynlighed. Hypergeometrisk fordeling. Gendannet fra: projectdescartes.org
- CDPYE-UGR. Hypergeometrisk fordeling. Gendannes fra: ugr.es
- GeoGebra. Klassisk geogebra, sandsynlighedsberegning. Gendannes fra geogebra.org
- Prøv let. Løst problemer med hypergeometrisk distribution. Gendannes fra: probafacil.com
- Minitab. Hypergeometrisk fordeling. Gendannes fra: support.minitab.com
- University of Vigo. Vigtigste diskrete fordelinger. Gendannes fra: anapg.webs.uvigo.es
- Vitutor. Statistik og kombinatorik. Gendannes fra: vitutor.net
- Weisstein, Eric W. Hypergeometrisk distribution. Gendannes fra: mathworld.wolfram.com
- Wikipedia. Hypergeometrisk fordeling. Gendannet fra: es.wikipedia.com