- Erklæring om problemet i Mann-Whitney U-testen
- Kvalitative variabler mod kvantitative variabler
- Normal sag
- Sag med ikke-normal tendens
- Parrede eller uparrede prøver
- Egenskaber ved Mann Whitney U-testen
- Mann - Whitney formel
- Trin til at anvende testen
- Praktisk anvendelseseksempel
- - Trin 1
- - Trin 2
- Region A
- Region B
- Trin 3
- Trin 4
- Sammenligningskriterier
- Online regnemaskiner til Mann - Whitney U testen
- Referencer
Den Mann - Whitney U test anvendes til sammenligning af to uafhængige stikprøver, når de har få data eller ikke følger en normalfordeling. På denne måde betragtes det som en ikke-parametrisk test, i modsætning til dens modstykke, Studentens t-test, der bruges, når prøven er stor nok og følger den normale fordeling.
Frank Wilcoxon foreslog det for første gang i 1945 for prøver af identiske størrelser, men to år senere blev det udvidet med hensyn til prøver af forskellige størrelser af Henry Mann og DR Whitney.
Figur 1. Mann-Whitney U-test anvendes til sammenligning af uafhængige prøver. Kilde: Pixabay.
Testen anvendes ofte til at kontrollere, om der er en forbindelse mellem en kvalitativ og en kvantitativ variabel.
Et illustrativt eksempel er at tage et sæt hypertensive mennesker og udtrække to grupper, fra hvilke de daglige blodtryksdata registreres i en måned.
Behandling A anvendes til en gruppe og behandling B. En anden her er blodtryk den kvantitative variabel og behandlingstypen er den kvalitative.
Vi vil vide, om medianen og ikke middelværdien af de målte værdier statistisk er den samme eller forskellige, for at fastslå, om der er forskel mellem begge behandlinger. For at få svaret anvendes Wilcoxon-statistikken eller Mann-Whitney U-testen.
Erklæring om problemet i Mann-Whitney U-testen
Et andet eksempel, hvor testen kan anvendes, er følgende:
Antag, at du vil vide, om forbruget af læskedrikke adskiller sig markant i to regioner i landet.
En af dem kaldes region A og den anden region B. Der føres en fortegnelse over de liter, der indtages ugentligt i to prøver: en af 10 personer til region A og en anden af 5 personer til region B.
Dataene er som følger:
-Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Region B: 12,14, 11, 30, 10
Følgende spørgsmål opstår:
Kvalitative variabler mod kvantitative variabler
-Kvalitativ variabel X: Region
-Kvantativ variabel Y: forbrug af læskedrikke
Hvis mængden af forbrugt liter er den samme i begge regioner, vil konklusionen være, at der ikke er nogen afhængighed mellem de to variabler. Måden at finde ud af er at sammenligne den gennemsnitlige eller medianstendens for de to regioner.
Normal sag
Hvis dataene følger en normal fordeling, foreslås to hypoteser: null H0 og alternativ H1 gennem sammenligning mellem midlerne:
- H0: der er ingen forskel mellem gennemsnittet af de to regioner.
- H1: middelene i begge regioner er forskellige.
Sag med ikke-normal tendens
Tværtimod, hvis dataene ikke følger en normal fordeling, eller prøven simpelthen er for lille til at vide det, i stedet for at sammenligne middelværdien, ville medianen for de to regioner sammenlignes.
- H0: der er ingen forskel mellem medianen i de to regioner.
- H1: Medianerne i begge regioner er forskellige.
Hvis medianerne falder sammen, er nullhypotesen opfyldt: der er ingen sammenhæng mellem forbrug af læskedrikke og regionen.
Og hvis det modsatte sker, er den alternative hypotese sand: der er en forbindelse mellem forbrug og region.
Det er i disse tilfælde Mann-Whitney U-testen er indikeret.
Parrede eller uparrede prøver
Det næste vigtige spørgsmål ved beslutning om, hvorvidt man skal anvende Mann Whitney U-testen, er, om antallet af data i begge prøver er identisk, hvilket vil sige, at de er på par.
Hvis de to prøver er parret, vil den originale Wilcoxon-version gælde. Men hvis ikke, som det er tilfældet i eksemplet, anvendes den modificerede Wilcoxon-test, hvilket netop er Mann Whitney U-testen.
Egenskaber ved Mann Whitney U-testen
Mann - Whitney U-testen er en ikke-parametrisk test, der gælder for prøver, der ikke følger den normale distribution eller med ringe data. Det har følgende egenskaber:
1.- Sammenlign medianerne
2.- Det fungerer på bestilte intervaller
3.- Det er mindre magtfuldt, hvilket betyder magt er sandsynligheden for at afvise nulhypotesen, når den faktisk er falsk.
Under hensyntagen til disse egenskaber anvendes Mann - Whitney U-testen, når:
-Dataene er uafhængige
-De følger ikke den normale distribution
-Nulhypotesen H0 accepteres, hvis medianerne af de to prøver falder sammen: Ma = Mb
-Den alternative hypotese H1 accepteres, hvis medianerne af de to prøver adskiller sig: Ma ≠ Mb
Mann - Whitney formel
Variablen U er kontraststatistikken, der bruges i Mann-Whitney-testen og er defineret som følger:
Dette betyder, at U er den mindste af værdierne mellem Ua og Ub, der anvendes til hver gruppe. I vores eksempel ville det være for hver region: A eller B.
Variablerne Ua og Ub er defineret og beregnet efter følgende formel:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Her er Na- og Nb-værdierne størrelserne på prøverne, der svarer til henholdsvis regionerne A og B, og for deres del er Ra og Rb de rangsummer, som vi vil definere nedenfor.
Trin til at anvende testen
1.- Bestil værdierne for de to prøver.
2.- Tildel en ordrerangering til hver værdi.
3.- Rigt de eksisterende bånd i dataene (gentagne værdier).
4.- Beregn Ra = Summen af rækkerne af prøve A.
5.- Find Rb = Summen af rækkerne i prøve B.
6.- Bestem værdien Ua og Ub i henhold til formlerne givet i det foregående afsnit.
7.- Sammenlign Ua og Ub, og den mindste af de to er tildelt den eksperimentelle U-statistik (dvs. dataene), der sammenlignes med den teoretiske eller normale U-statistik.
Praktisk anvendelseseksempel
Nu anvender vi det førnævnte til problemet med læskedrikke, der tidligere er rejst:
Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Region B: 12,14, 11, 30, 10
Afhængigt af om begge prøver er statistisk ens eller forskellige, accepteres eller afvises nulhypotesen: der er intet forhold mellem variablerne Y og X, dvs. at forbruget af læskedrik ikke afhænger af regionen:
H0: Ma = Mb
H1: Ma ≠ Mb
Figur 2. Data om forbrug af sodavand i regionerne A og B. Kilde: F. Zapata.
- Trin 1
Vi fortsætter med at bestille dataene samlet for de to prøver, og vi bestiller værdierne fra laveste til højeste:
Bemærk, at værdien 11 vises 2 gange (en gang i hver prøve). Oprindeligt har det positioner eller intervaller 3 og 4, men for ikke at overvurdere eller undervurdere den ene eller den anden vælges den gennemsnitlige værdi som området, det vil sige 3,5.
På en lignende måde fortsætter vi med værdien 12, som gentages tre gange med intervaller 5, 6 og 7.
Nå, værdien 12 tildeles det gennemsnitlige interval på 6 = (5 + 6 + 7) / 3. Og det samme for værdien 14, som har ligatur (vises i begge prøver) i position 8 og 9, tildeles det gennemsnitlige interval 8,5 = (8 + 9) / 2.
- Trin 2
Dernæst adskilles dataene for region A og B igen, men nu tildeles de tilsvarende intervaller i en anden række:
Region A
Region B
Områderne Ra og Rb opnås fra summerne af elementerne i den anden række for hvert tilfælde eller område.
Trin 3
De respektive Ua- og Ub-værdier beregnes:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Eksperimentel værdi U = min (19, 31) = 19
Trin 4
Det antages, at den teoretiske U følger en normal fordeling N med parametre, der udelukkende er givet ved størrelsen af prøverne:
N ((na⋅nb) / 2, √)
For at sammenligne variablen U opnået eksperimentelt med det teoretiske U er det nødvendigt at foretage en ændring af variablen. Vi flytter fra den eksperimentelle variabel U til dens standardiserede værdi, der vil blive kaldt Z, for at være i stand til at sammenligne den med en standardiseret normalfordeling.
Ændringen af variablen er som følger:
Z = (U - na.nb / 2) / √
Det skal bemærkes, at for ændringen af variablen blev parametrene for den teoretiske fordeling for U anvendt. Derefter kontrasteres den nye variabel Z, som er en hybrid mellem den teoretiske U og den eksperimentelle U, med en standardiseret normalfordeling N (0,1).
Sammenligningskriterier
Hvis Z ≤ Zα ⇒, accepteres nulhypotesen H0
Hvis Z> Zα ⇒ afviser nulhypotesen H0
De standardiserede Za-kritiske værdier afhænger af det krævede niveau af konfidens, for eksempel for et konfidensniveau a = 0,95 = 95%, hvilket er den mest almindelige, opnås den kritiske værdi Za = 1,96.
For de viste data her:
Z = (U - na nb / 2) / √ = -0,73
Hvilket er under den kritiske værdi 1,96.
Så den endelige konklusion er, at nulhypotesen H0 accepteres:
Online regnemaskiner til Mann - Whitney U testen
Der er specifikke programmer til statistiske beregninger, herunder SPSS og MINITAB, men disse programmer betales, og brugen af dem er ikke altid let. Dette skyldes det faktum, at de giver så mange muligheder, at deres anvendelse praktisk taget er forbeholdt eksperter i statistik.
Heldigvis er der en række meget nøjagtige, gratis og brugervenlige online-programmer, der giver dig mulighed for at køre Mann-Whitney U-testen, blandt andre.
Disse programmer er:
-Social Science Statistics (socscistatistics.com), som har både Mann-Whitney U-testen og Wilcoxon-testen i tilfælde af afbalancerede eller parrede prøver.
-AI Therapy Statistics (ai-therapy.com), som har flere af de sædvanlige tests af beskrivende statistik.
-Statistisk at bruge (fysik.csbsju.edu/stats), en af de ældste, så dens interface kan se dateret ud, selvom det ikke desto mindre er et meget effektivt gratis program.
Referencer
- Dietrichson. Kvantitative metoder: rangtest. Gendannet fra: bookdown.org
- Marín J P. SPSS Guide: Analyse og procedurer i ikke-parametriske tests. Gendannes fra: halweb.uc3m.es
- USAL MOOC. Ikke-parametriske test: Mann-Whitney U. Gendannes fra: youtube.com
- Wikipedia. Mann-Whitney U-test. Gendannet fra: es.wikipedia.com
- XLSTAT. Hjælpecenter. Mann - Whitney testvejledning i Excel. Gendannes fra: help.xlsat.com