Mediaan (statistiek)


In de statistiek is de mediaan het midden van een verdeling of gegevensverzameling; de mediaan is een centrummaat. De verzameling kan een concrete populatie of een steekproef zijn, bestaande uit ordinale gegevens. Met midden wordt het middelste element in de verdeling of de geordende verzameling bedoeld. Bij een even aantal elementen is er geen midden; elk element tussen de twee om het midden liggende elementen fungeert dan als mediaan. In het geval van getallen neemt men dan meestal het gemiddelde van die twee. De mediaan is het 0,5-kwantiel en het middelste van de drie kwartielen.

Inhoud

Verdeling


Als de populatie gegeven is door de verdelingsfunctie \({\displaystyle F}\), is de mediaan \({\displaystyle m}\) bepaald als het punt (een van de punten), waarvoor geldt: \({\displaystyle F(m)={\tfrac {1}{2}}}\).

Steekproef


Evenals dat het geval is bij het gemiddelde is het in de praktijk vaak een ondoenlijke zaak de populatiemediaan te bepalen omdat de populatie te groot (of zelfs oneindig groot) is. Ook hier nemen we onze toevlucht tot een steekproef en bepalen de steekproefmediaan als benadering (schatting) van de populatiemediaan. Voor een oneven steekproefomvang is de mediaan het middelste element in de geordende steekproef. Bij even omvang neemt men het gemiddelde van de middelste twee.

Voorbeelden

In de onderstaande tabel staan de geordende uitkomsten \({\displaystyle x_{i}}\) van een steekproef van omvang 13.

\({\displaystyle i}\) 1 2 3 4 5 6 7 8 9 10 11 12 13
\({\displaystyle x_{i}}\) -2,1 -1,6 0,1 0,2 0,5 0,6 0,7 0,8 0,8 0,9 1,1 1,2 6,5

Omdat \({\displaystyle n=13}\) oneven is, is het 7e getal middelste getal. De mediaan van de steekproef is dus 0,7 (en een schatting voor de mediaan van de hele populatie).

Als de steekproef maar 12 elementen bevat is er geen middelste.

\({\displaystyle i}\) 1 2 3 4 5 6 7 8 9 10 11 12
\({\displaystyle x_{i}}\) -2,1 -1,6 0,1 0,2 0,6 0,7 0,8 0,8 0,9 1,1 1,2 6,5

Nu is de mediaan het gemiddelde van de middelste twee data. Dus is de mediaan gelijk aan 0,75.


De mediaan \({\displaystyle m}\) van de exponentiële verdeling met parameter \({\displaystyle \lambda }\) wordt bepaald door:

\({\displaystyle {\tfrac {1}{2}}=\int _{0}^{m}\lambda e^{-\lambda x}\mathrm {d} x=1-e^{-\lambda m}}\)

Dus:

\({\displaystyle e^{-\lambda m}={\tfrac {1}{2}}}\),

waaruit volgt:

\({\displaystyle m={\frac {1}{\lambda }}\ln 2}\)

Eigenschappen van de mediaan


Voor een symmetrische verdeling waarvoor het populatiegemiddelde \({\displaystyle \mu }\) bestaat, zoals de normale verdeling, is de populatiemediaan gelijk aan \({\displaystyle \mu }\).

Dat wil echter niet zeggen dat de steekproefmediaan en het steekproefgemiddelde van een steekproef uit zo'n verdeling, ook aan elkaar gelijk zijn. Zij zijn twee verschillende schattingen van dezelfde grootheid \({\displaystyle \mu }\). Beide schattingen hebben hun sterke en zwakke kanten.

Het steekproefgemiddelde is superieur wanneer het erom gaat tot het uiterste gebruik te maken van de in de steekproef aanwezige informatie. Dit noemt men efficiëntie. Het steekproefgemiddelde onderdrukt de willekeurige fout in de steekproef beter dan de mediaan en is daarmee een nauwkeuriger schatting van \({\displaystyle \mu }\). Daar staat echter iets tegenover. Laten we bijvoorbeeld de bovenstaande getallen nemen, maar een typefout introduceren.

\({\displaystyle i}\) 1 2 3 4 5 6 7 8 9 10 11 12 13
\({\displaystyle x_{i}}\) -2,1 -1,6 0,1 0,2 0,5 0,7 0,7 0,8 0,8 0,9 1,1 1,2 650

Voor het gemiddelde heeft de typefout in het laatste getal (nl. 650) desastreuze gevolgen; de mediaan echter blijft onveranderd. Medianen zijn dus robuust in de aanwezigheid van 'uitbijters'. In de praktijk is dat zeer waardevol omdat bij kleine steekproeven uitbijters veel invloed hebben op de geschatte waardes van populatiegemiddelde en -variantie.

Robuuste statistiek

Hoewel de mediaan al erg lang bekend is, zijn de robuuste eigenschappen lange tijd niet of nauwelijks volledig uitgebuit. Vooral door het werk van de Belgische statisticus Rousseeuw[1] is daar sinds de jaren 80 verandering in gekomen. Het probleem was niet dat er geen robuuste schatting voor \({\displaystyle \mu }\) bestond, maar dat een robuuste schatting voor de standaardafwijking \({\displaystyle \sigma }\) ontbrak. In de op kleinste kwadraten gebaseerde schattingen wordt \({\displaystyle \mu }\) geschat door het steekproefgemiddelde en \({\displaystyle \sigma }\) door de steekproefstandaardafwijking \({\displaystyle s}\). De laatste waarde is echter nog minder robuust dan het gemiddelde, zoals een kleine berekening met de bovenstaande waarden goed laat zien.

Rousseeuw stelde voor de \({\displaystyle {\text{MAD}}}\): mediane absolute deviatie (van de mediaan) daarvoor in de plaats te stellen.

Deze wordt berekend door eerst van alle getallen de mediaan \({\displaystyle m=0{,}7}\) af te trekken en de absolute waarde te nemen.

\({\displaystyle i}\) 1 2 3 4 5 6 7 8 9 10 11 12 13
\({\displaystyle x_{i}}\) -2,1 -1,6 0,1 0,2 0,5 0,7 0,7 0,8 0,8 0,9 1,1 1,2 650
\({\displaystyle |x_{i}-m|}\) 2,8 2,3 0,6 0,5 0,2 0 0 0,1 0,1 0,2 0,4 0,5 649,3

Daarna opnieuw rangschikken:

opnieuw gerangschikt 0 0 0,1 0,1 0,2 0,2 0,4 0,5 0,5 0,6 2,3 2,8 649,3

De mediaan hiervan is \({\displaystyle 0{,}4={\text{MAD}}}\).

Voor data uit een normale verdeling wordt een goede (en robuuste!) schatting van \({\displaystyle \sigma }\) gegeven door \({\displaystyle 1{,}483\,{\text{MAD}}}\).

(De factor 1,483 heeft te maken met het feit dat in een normale verdeling de mediaan \({\displaystyle a}\) van de absolute deviatie gegeven wordt door:

\({\displaystyle {\tfrac {1}{2}}=P(|X-\mu |\leq a)=P\left(\left|{\frac {X-\mu }{\sigma }}\right|\leq {\frac {a}{\sigma }}\right)=P\left(|Z|\leq {\frac {a}{\sigma }}\right)}\),

waaruit volgt dat

\({\displaystyle P\left(Z\leq {\frac {a}{\sigma }}\right)=\Phi \left({\frac {a}{\sigma }}\right)=0{,}75}\)

We zien dus dat \({\displaystyle a/\sigma }\) het 75ste percentiel is van de standaard normale verdeling, dus

\({\displaystyle {\frac {a}{\sigma }}=\Phi ^{-1}(0{,}75)=0{,}6745}\),

zodat:

\({\displaystyle \sigma =1{,}4826a}\)

Met behulp van mediaan en \({\displaystyle {\text{MAD}}}\) is het mogelijk de uitbijter te verwijderen door zijn deviatie (649,3) te vergelijken met de geschatte \({\displaystyle \sigma }\) (0,6). Omdat dit een factor 1000 scheelt is het uiterst onwaarschijnlijk dat dit punt bij de onderliggende verdeling hoort.










Categorieën: Liggingsmaat




Staat van informatie: 28.09.2021 07:15:45 CEST

oorsprong: Wikipedia (Auteurs [Geschiedenis])    Licentie: CC-BY-SA-3.0

Veranderingen: Alle afbeeldingen en de meeste ontwerpelementen die daarmee verband houden, zijn verwijderd. Sommige pictogrammen werden vervangen door FontAwesome-Icons. Sommige sjablonen zijn verwijderd (zoals 'artikel heeft uitbreiding nodig') of toegewezen (zoals 'hatnotes'). CSS-klassen zijn verwijderd of geharmoniseerd.
Specifieke Wikipedia-links die niet naar een artikel of categorie leiden (zoals 'Redlinks', 'links naar de bewerkpagina', 'links naar portals') zijn verwijderd. Elke externe link heeft een extra FontAwesome-Icon. Naast enkele kleine wijzigingen in het ontwerp, werden mediacontainer, kaarten, navigatiedozen, gesproken versies en Geo-microformats verwijderd.

Belangrijke opmerking Omdat de gegeven inhoud op het gegeven moment automatisch van Wikipedia wordt gehaald, was en is een handmatige verificatie niet mogelijk. Daarom garandeert LinkFang.org niet de juistheid en actualiteit van de verkregen inhoud. Als er informatie is die momenteel verkeerd is of een onjuiste weergave heeft, aarzel dan niet om Neem contact op: E-mail.
Zie ook: Afdruk & Privacy policy.