- eksempler
- Klassificering af kategoriske variabler
- Nominelle kategorier
- Ordinær kategorisk
- Binære kategorier
- Statistik med kategoriske variabler
- Grafisk gengivelse af kategoriske variabler
- Løst øvelser
- Øvelse 1
- Eksempel 2
- Eksempel 3
- Referencer
Den kategoriske variabel er den, der bruges i statistikker til at tildele en ikke-numerisk eller kvalitativ egenskab eller egenskab til et objekt, individ, enhed, betingelse eller procedure. Det er muligt at definere alle slags kategoriske variabler efter hvert behov.
Eksempler på kategoriske variabler er: farve, køn, blodgruppe, ægteskabelig status, type materiale, betalingsform eller bankkontotype, og de bruges meget dagligt.
Figur 1: Farve er en kategorisk variabel. Kilde: pixabay
Ovenstående er variablerne, men deres mulige værdier er kvalitative, det vil sige af kvalitet eller karakteristik og ikke af en numerisk måling. For eksempel er de mulige værdier for det variable køn: han, h embra.
Når denne variabel er gemt i et computerprogram, kan den erklæres som en tekstvariabel, og de eneste accepterede værdier er dem, der allerede er navngivet: Mand, Kvinde.
Imidlertid kan det samme variable køn deklareres og gemmes som et heltal, hvis han er tildelt 1, og hun er tildelt værdien 2. Det er af denne grund, at kategoriske variabler undertiden benævnes en opregnet type.
Det vigtigste kendetegn ved kategoriske variabler er, at det i modsætning til andre variabler, såsom kontinuerlige og diskrete variabler, ikke er muligt at gøre aritmetisk med dem. Der kan dog gøres statistikker med dem, som det vil ses senere.
eksempler
Bemærk følgende eksempler på kategoriske variabler og deres mulige værdier:
- Group_Sanguíneo, Værdiområde: A, B, AB, O
- Civil_Status, kategoriske værdier: Enkelt (A), gift (B), enke (C), skilt (D).
- Tipo_de_Material, kategorier eller værdier: 1 = træ, 2 = metal, 3 = plast
-Form_af_Betaling, værdipapirer eller kategorier: (1) Kontanter, (2) Debitering, (3) Overførsel, (4) Kredit
I de foregående eksempler er der tilknyttet et nummer til hver kategori på en helt vilkårlig måde.
Man kunne derefter tro, at denne vilkårlige numeriske tilknytning gør den lig med en diskret kvantitativ variabel, men det er det ikke, da aritmetiske operationer ikke kan udføres med disse tal.
For at illustrere ideen i variablen Form_of_Payment giver summen ikke nogen mening:
(1) Kontant + (2) Debet er aldrig ens (3) Overførsel
Klassificering af kategoriske variabler
Rangeringen er baseret på, om de har et implicit hierarki eller ej, eller om antallet af mulige resultater er mere end to eller to.
En kategorisk variabel med kun et muligt resultat er ikke en variabel, det er en kategorisk konstant.
Nominelle kategorier
Når de ikke kan repræsenteres med et nummer eller har nogen rækkefølge. For eksempel har variablen: Type_of_Material, nominelle værdier (træ, metal, plast), de har ikke hierarki eller rækkefølge, selv når et vilkårligt nummer er tildelt til hver respons eller kategori.
Ordinær kategorisk
Variabel: Academic_performance
Nominelle værdier: Høj, Medium, Lav
Selvom værdierne for denne variabel ikke er numeriske, har de en implicit rækkefølge eller hierarki.
Binære kategorier
Dette er nominelle variabler med to mulige svar, for eksempel:
-Variable: Response
-Nominalværdier: Sandt, falsk
Bemærk, at responsvariablen ikke har et implicit hierarki og kun har to mulige resultater, så det er en binær kategorisk variabel.
Nogle forfattere kalder denne type en binær variabel og anser den ikke for at høre til kategoriske variabler, der er begrænset til dem med mere end tre mulige kategorier.
Statistik med kategoriske variabler
Statistik kan udføres med kategoriske variabler, selv om de ikke er numeriske eller kvantitative variabler. For at kende tendensen eller den mest sandsynlige værdi af en kategorisk variabel tages tilstanden.
Denne tilstand er i dette tilfælde det mest gentagne resultat eller værdi af en kategorisk variabel. For kategoriske variabler er det ikke muligt at beregne hverken middelværdien eller medianen.
Middelværdien kan ikke beregnes, fordi du ikke kan regne med kategoriske variabler. Medianen er heller ikke, fordi de kvantitative eller kategoriske variabler ikke har en rækkefølge eller hierarki, så det er ikke muligt at bestemme en central værdi.
Grafisk gengivelse af kategoriske variabler
Givet en bestemt kategorisk variabel kan frekvensen eller antallet af gange, hvorpå et resultat af denne variabel gentages, findes. Hvis dette gøres for hvert resultat, kan der laves en graf over frekvensen mod hver kategori eller resultat.
Her er nogle eksempler på, hvordan kategoriske variabler kan repræsenteres grafisk.
Løst øvelser
Øvelse 1
En virksomhed har registreringer af data fra 170 ansatte. En af de variabler, der findes i disse poster, er: Estado_Civil. Denne variabel har fire kategorier eller mulige værdier:
Single (A), gift (B), enke (C), skilt (D).
Selvom det er en ikke-numerisk variabel, er det muligt at vide, hvor mange af de samlede poster er i en bestemt kategori og er repræsenteret i form af en søjlediagram, som vist i følgende figur:
Figur 2. Repræsentation af resultaterne af en kategorisk variabel. Kilde: self made
Eksempel 2
En skobutik holder styr på sit salg. Blandt de variabler, der administrerer deres poster, er skofarven for hver model. Variablen:
Color_Shoe_Model_AW3
Det er af den kategoriske type og har fem kategorier eller mulige værdier. For hver kategori af denne variabel er antallet af salg i alt, og procentdelen af dem fastlægges. Resultaterne præsenteres i grafen for følgende figur:
Figur 3. Kategorisk variabel Farve _Sko. I denne variabel er tilstanden Hvid. Kilde: self made.
Det kan derefter siges, at AW3-skomodellen, der er på mode, den, der sælges hyppigst, er Hvid, efterfulgt af sort.
Det kan også siges, at med en sandsynlighed på 70% vil den næste sko, der sælges af denne model, være hvid eller sort.
Disse oplysninger kan være nyttige for butikken, når du afgiver nye ordrer, eller de kan endda anvende rabatter på de mindst solgte farver på grund af overskydende lagerbeholdning.
Eksempel 3
For en bestemt population af bloddonorer ønsker du at repræsentere antallet af mennesker, der hører til en bestemt blodgruppe. En grafisk måde at visualisere resultaterne er ved hjælp af et piktogram, der er i bunden af en tabel.
Den første kolonne repræsenterer variablen group_sanguíneo og dens mulige resultater eller kategorier. Den anden søjle har repræsentationen i ikonisk eller billedlig form for antallet af mennesker i hver kategori. I vores eksempel bruges en rød dråbe som ikon, der hver repræsenterer 10 personer.
Figur 4. Piktogram. Kilde: self made
Referencer
- Khan Academy. Analyse af kategoriske data. Gendannet fra: khanacademy.org
- Universumformler. Kvalitativ variabel. Gendannes fra: univesoformulas.com
- Minitab. Hvilke er kategoriske, diskrete og kontinuerlige variabler. Gendannes fra: support.minitab.com
- Excel-tutorial. Karakterisering af variabler. Gendannes fra: help.xlslat.com.
- Wikipedia. Statistisk variabel. Gendannes fra wikipedia.com
- Wikipedia. Kategorisk variabel. Gendannes fra wikipedia.com
- Wikipedia. Kategorisk variabel. Gendannes fra wikipedia.com