- Frekvensfordeling
- Hvor mange klasser skal man overveje?
- Hvordan opnås det?
- Eksempel
- ¿Para qué sirve?
- Ejemplo
- Referencias
Den klasse mærke, også kendt som midtpunktet, er værdien i midten af en klasse, som repræsenterer alle de værdier, der er i denne kategori. Grundlæggende bruges klassemærket til at beregne visse parametre, såsom det aritmetiske middelværdi eller standardafvigelsen.
Så klassemærket er midtpunktet i ethvert interval. Denne værdi er også meget nyttig til at finde variansen af et sæt af data, der allerede er grupperet i klasser, hvilket igen giver os mulighed for at forstå, hvor langt fra centrum disse specifikke data er placeret.
Frekvensfordeling
For at forstå, hvad et klassemærke er, er begrebet frekvensfordeling nødvendigt. Givet et datasæt er en frekvensfordeling en tabel, der deler dataene i et antal kategorier kaldet klasser.
Denne tabel viser antallet af elementer, der hører til hver klasse; sidstnævnte er kendt som frekvens.
Denne tabel ofrer en del af de oplysninger, vi får fra dataene, da vi i stedet for at have den individuelle værdi af hvert element kun ved, at den hører til den klasse.
På den anden side får vi en bedre forståelse af datasættet, da det på denne måde er lettere at værdsætte etablerede mønstre, hvilket letter manipulationen af de nævnte data.
Hvor mange klasser skal man overveje?
For at udføre en frekvensfordeling skal vi først bestemme antallet af klasser, vi vil tage, og vælge deres klassegrænser.
Valget af, hvor mange klasser man skal tage, skal være praktisk, idet man tager højde for, at et lille antal klasser kan skjule oplysninger om de data, vi vil studere, og en meget stor kan generere for mange detaljer, der ikke nødvendigvis er nyttige.
De faktorer, som vi skal tage højde for, når vi vælger, hvor mange klasser vi skal tage, er flere, men blandt disse to skiller sig ud: Den første er at tage hensyn til, hvor meget data vi skal overveje; det andet er at vide, hvor stort udbredelsesområdet er (det vil sige forskellen mellem den største og mindste observation).
Når vi allerede har defineret klasser, tæller vi med, hvor meget data der findes i hver klasse. Dette nummer kaldes hyppigheden af klasser og betegnes med fi.
Som vi tidligere havde sagt, har vi, at en frekvensfordeling mister de oplysninger, der kommer individuelt fra hver data eller observation. Af denne grund søges en værdi, der repræsenterer hele klassen, den tilhører; denne værdi er klassemærket.
Hvordan opnås det?
Klassemærket er den kerneværdi, som en klasse repræsenterer. Det opnås ved at tilføje grænserne for intervallet og dele denne værdi med to. Vi kunne udtrykke dette matematisk som følger:
x i = (Nedre grænse + Øvre grænse) / 2.
I dette udtryk betegner x i mærket for ith-klassen.
Eksempel
Givet følgende datasæt, giver en repræsentativ frekvensfordeling og få det tilsvarende klassemærke.
Da dataene med den højeste numeriske værdi er 391 og den laveste er 221, har vi, at området er 391 -221 = 170.
Vi vælger 5 klasser, alle med samme størrelse. En måde at vælge klasser på er som følger:
Nótese que cada dato está en una clase, estas son disjuntas y tienen el mismo valor. Otra forma de elegir las clases es considerando a los datos como parte de una variable continua, la cual podría alcanzar cualquier valor real. En este caso podemos considerar clases de la forma:
205-245, 245-285, 285-325, 325-365, 365-405
No obstante, esta forma de agrupar los datos puede presentar ciertas ambigüedades con las fronteras. Por ejemplo, en el caso del 245 surge la pregunta: ¿a qué clase pertenece, a la primera o a la segunda?
Para evitar estas confusiones se hace una convención de puntos extremos. De esta manera, la primera clase será el intervalo (205,245], la segunda (245,285], y así sucesivamente.
Una vez definidas las clases, procedemos a calcular la frecuencia y nos queda la siguiente tabla:
Luego de obtener la distribución de frecuencia de los datos, procedemos a encontrar las marcas de clases de cada intervalo. En efecto, tenemos que:
x1=(205+ 245)/2=225
x2=(245+ 285)/2=265
x3=(285+ 325)/2=305
x4=(325+ 365)/2=345
x5=(365+ 405)/2=385
Podemos representar esto mediante el siguiente gráfico:
¿Para qué sirve?
Como se mencionó previamente, la marca de clase es muy funcional para hallar la media aritmética y la varianza de un grupos de datos que ya han sido agrupados en distintas clases.
Podemos definir a la media aritmética como la suma de las observaciones obtenidas entre el tamaño de la muestra. Desde un punto de vista físico, su interpretación es como el punto de equilibrio de un conjunto de datos.
Identificar todo un conjunto de datos por un solo número puede ser riesgoso, por lo cual también hay que tomar en cuenta la diferencia entre este punto de equilibrio y los datos reales. A estos valores se les conoce como desviación de la media aritmética, y con estos se busca determinar cuánto varía la media aritmética de los datos.
La manera más común de dar con este valor es por la varianza, que es el promedio de los cuadrados de las desviaciones de la media aritmética.
Para calcular la media aritmética y la varianza de un conjunto de datos agrupados en una clase hacemos uso de las siguientes fórmulas, respectivamente:
En estas expresiones xi es la i-ésima marca de clase, fi representa la frecuencia correspondiente y k el número de clases en que fueron agrupados los datos.
Ejemplo
Haciendo uso de los datos dados en el ejemplo anterior, tenemos que podemos ampliar un poco más los datos de la tabla de distribución de frecuencia. Se obtiene lo siguiente:
Luego, al sustituir los datos en la fórmula, nos queda que la media aritmética es:
Su varianza y desviación estándar son:
De esto podemos concluir que los datos originales tienen una media aritmética de 306,6 y una desviación estándar de 39,56.
Referencias
- Fernandez F. Santiago,Cordoba L. Alejandro, Cordero S. Jose M. Estadística Descriptiva. Esic Editorial.
- Jhonson Richard A.Miller y Freund Probabilidad y Estadistas para Ingenieros.Pearson Educacion.
- Miller I & Freund J. Probabilidad y Estadistas para Ingenieros. REVERTE.
- Sarabia A. Jose Maria, Pascual Marta. Curso Basico de Estadisticas para empresas
- Llinás S. Humberto, Rojas A. Carlos Estadisticas descriptivas y distribuciones de probabilidad.Universidad del Norte Editorial