Den regel Sturges er et kriterium anvendt til at bestemme antallet af klasser eller intervaller som er nødvendige for at afbilde et sæt statistiske data. Denne regel blev udtalt i 1926 af den tyske matematiker Herbert Sturges.
Sturges foreslog en enkel metode baseret på antallet af prøver x, der ville give os mulighed for at finde antallet af klasser og deres rækkevidde. Sturges-regel er vidt brugt, især inden for statistikområdet, specifikt til konstruktion af frekvenshistogrammer.
Forklaring
Sturges 'regel er en empirisk metode, der i vid udstrækning bruges i beskrivende statistik til at bestemme antallet af klasser, der skal eksistere i et frekvenshistogram, for at klassificere et sæt data, der repræsenterer en prøve eller population.
Grundlæggende bestemmer denne regel bredden af de grafiske containere og frekvenshistogrammerne.
For at etablere sin regel betragtes Herbert Sturges som et ideelt frekvensdiagram bestående af K-intervaller, hvor det i-th-interval indeholder et vist antal prøver (i = 0,… k - 1), repræsenteret som:
Dette antal prøver gives med antallet af måder, hvorpå en delmængde af et sæt kan udvindes; det vil sige ved den binomiale koefficient, udtrykt som følger:
For at forenkle udtrykket anvendte han egenskaberne ved logaritmer på begge dele af ligningen:
Sturges konstaterede således, at det optimale antal intervaller k er givet ved udtrykket:
Det kan også udtrykkes som:
I dette udtryk:
- k er antallet af klasser.
- N er det samlede antal observationer i prøven.
- Log er den fælles logaritme for base 10.
For at konstruere et frekvenshistogram, der udtrykker en tilfældig prøve på 142 børn i højden, er antallet af intervaller eller klasser, som fordelingen har:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * log (142)
k = 1 + 3,322 * 2,1523
k = 8,14 ≈ 8
Fordelingen vil således være i 8 intervaller.
Antallet af intervaller skal altid være repræsenteret med hele tal. I tilfælde, hvor værdien er decimal, skal der foretages en tilnærmelse til det nærmeste hele tal.
Applikationer
Sturges 'regel anvendes hovedsageligt i statistikker, da det muliggør en frekvensfordeling ved beregning af antallet af klasser (k) såvel som længden af hver af disse, også kendt som amplitude.
Amplitude er forskellen mellem klassens øvre og nedre grænse divideret med antallet af klasser og udtrykkes:
Der er mange tommelfingerregler, der gør det muligt at foretage en frekvensfordeling. Imidlertid bruges Sturges-regel ofte, fordi den tilnærmer sig antallet af klasser, der generelt spænder fra 5 til 15.
Den betragter således en værdi, der tilstrækkeligt repræsenterer en stikprøve eller en population; dvs. tilnærmelsen repræsenterer ikke ekstreme grupperinger, og den fungerer heller ikke med et for stort antal klasser, der ikke tillader, at prøven kan opsummeres.
Eksempel
Et frekvenshistogram skal laves i henhold til de givne data, der svarer til aldre opnået i en undersøgelse af mænd, der træner i et lokalt fitnesscenter.
For at bestemme intervallerne skal man kende størrelsen på prøven eller antallet af observationer; i dette tilfælde er der 30.
Så gælder Sturges regel:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * log (30)
k = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 intervaller.
Fra antallet af intervaller kan amplituden, som disse har, beregnes; det vil sige bredden af hver bjælke, der er repræsenteret i frekvenshistogrammet:
Den nedre grænse betragtes som den mindste værdi af dataene, og den øvre grænse er den største værdi. Forskellen mellem de øvre og nedre grænser kaldes variablenes rækkevidde eller rækkevidde (R).
Fra tabellen har vi, at den øvre grænse er 46, og den nedre grænse er 13; således vil amplituden for hver klasse være:
Intervallerne består af en øvre og nedre grænse. For at bestemme disse intervaller starter vi med at tælle fra den nedre grænse og tilføje til denne amplitude bestemt ved regel (6) på følgende måde:
Derefter beregnes den absolutte frekvens for at bestemme antallet af mænd, der svarer til hvert interval; i dette tilfælde er det:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- Interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Når du tilføjer den absolutte frekvens for hver klasse, skal dette være lig med det samlede antal af prøven; i dette tilfælde 30.
Derefter beregnes den relative frekvens af hvert interval, der deler sin absolutte frekvens med det samlede antal observationer:
- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Interval 3: fi = 5 ÷ 30 = 0,1666
- Interval 4: fi = 2 ÷ 30 = 0,0666
- Interval 5: fi = 2 ÷ 30 = 0,0666
- Interval 4: fi = 3 ÷ 30 = 0,10
Derefter kan du lave en tabel, der reflekterer dataene, og også diagrammet fra den relative frekvens i forhold til de opnåede intervaller, som det kan ses på følgende billeder:
På denne måde tillader Sturges-reglen bestemmelse af antallet af klasser eller intervaller, som en prøve kan opdeles i, for at opsummere en dataprøve gennem udarbejdelsen af tabeller og grafer.
Referencer
- Alfonso Urquía, MV (2013). Modellering og simulering af diskrete begivenheder. UNED,.
- Altman Naomi, MK (2015). "Enkel lineær regression." Naturmetoder.
- Antúnez, RJ (2014). Statistik inden for uddannelse. Digital ENHED.
- Fox, J. (1997.). Anvendt regressionsanalyse, lineære modeller og relaterede metoder. SAGE-publikationer.
- Humberto Llinás Solano, CR (2005). Beskrivende statistikker og sandsynlighedsfordelinger. Northern University.
- Panteleeva, OV (2005). Grundlæggende om sandsynlighed og statistik.
- O. Kuehl, MO (2001). Design af eksperimenter: Statistiske principper for forskningsdesign og analyse. Thomson Editors.