Outlier

gazdasági-szótár

A kiugró érték abnormális és szélsőséges megfigyelés egy statisztikai mintában vagy adatok idősorában, amely potenciálisan befolyásolhatja a paraméterek becslését.

Egyszerűbben fogalmazva, a kiugró érték egy mintán vagy adatok idősorán belüli megfigyelés, amely nincs összhangban a többivel. Képzeljük el például, hogy egy osztály tanulóinak magasságát mérjük.

Képzeljünk el egy 10 tanulóból álló mintát. Mindegyik magassága a következő:

1. minta
TanítványMagasság méterben
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Az osztály átlagos magassága 1,73 lenne. Ha figyelembe vesszük a maximális magasságot és a minimális magasságot, valamint a köztük lévő távolságot az átlagtól, akkor azt látjuk, hogy ez 0,113, illetve 0,117. Amint látjuk, az átlag megközelítőleg az intervallum közepén van, és meglehetősen jó becslésnek tekinthető.

A kiugró hatás

Most gondoljunk egy másik 10 diákból álló mintára, akik magassága a következő:

2. minta
TanítványMagasság méterben
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Ebben az esetben az osztály átlagos magassága 1,81 lenne. Ha most megnézzük a maximális magasságot és a minimális magasságot, valamint a köztük lévő távolságot az átlagtól, akkor azt látjuk, hogy ez 0,39, illetve 0,18. Ebben az esetben az átlag már nincs megközelítőleg a tartomány közepén.

A 2 legszélsőségesebb megfigyelés (2,18 és 2,20) hatására a számtani átlag az eloszlás maximális értéke felé tolódott el.

Ezzel a példával látjuk, hogy a kiugró értékek milyen hatással vannak, és hogyan torzíthatják az átlag kiszámítását.

Hogyan lehet felismerni a kiugró értékeket?

Hogyan lehet korrigálni a kiugró értékek hatását

Az ilyen helyzetekben, amikor abnormális értékek vannak, amelyek lényegesen különböznek a többitől, a medián jobb becslés, hogy megtudja, hol koncentrálódik több megfigyelés.

Mindkét eloszlás esetén és mivel páros számú értékünk van, nem tudjuk pontosan azt az értéket venni, amelyik felezi az eloszlást a medián kiszámításához. Amivel az értékek legalacsonyabbtól a legmagasabbig rendezése után az ötödik és a hatodik megfigyelést vesszük (mindkettő 4 megfigyelést hagy mindkét oldalon), és a mediánt a következőképpen számítjuk ki:

1. minta:

1,75+1,72/2 = 1,73

2. minta:

1,79+1,71/2 = 1,75

Amint látjuk, az 1. számú mintában, mivel nincsenek kiugró vagy abnormális megfigyelések, a medián 1,73, és egybeesik az átlaggal. Ezzel szemben a 2. minta átlaga 1,75. Amint látjuk, ez az érték távolabb van az átlagos magasságtól, amely 1,81 volt, és jobb minőségű pontbecslést ad, hogy megtudjuk, melyik ponton koncentrálódik nagyobb számú megfigyelés.

Pontbecslés

Címkék:  Egyéb passzol kereskedelem 

Érdekes Cikkek

add