Rozdział 5 Standaryzacja i rozkład normalny

5.1 Standaryzacja danych (z-score)

Niekiedy narzędzia statystyki matematycznej, uczenia maszynowego albo analizy danych wymagają standaryzacji danych ilościowych. Standaryzacja zbioru liczb polega na przekształceniu danych za pomocą następującego wzoru:

\[ z = \frac{x - \text{średnia}}{\text{odchylenie standardowe}} \tag{5.1} \]

Powstają w ten sposób wartości standaryzowane, „wyniki z” (po angielsku z scores).

5.2 Rozkład normalny

Rozkład normalny to narzędzie matematyczne, które przydaje sie w modelowaniu wielu zbiorów danych ilościowych.

Rozkład wielu zjawisk naturalnych i społecznych jest w przybliżeniu normalny – przykładami mogą być:

  • wzrost człowieka,
  • waga noworodka lub inne cechy biologiczne,
  • odchylenia temperatury od średniej długoterminowej,
  • błędy pomiarowe.

W przypadku danych zbliżonych do rozkładu normalnego, histogram układa się w charakterystyczny kształt, przypominający dzwon (stąd określenie „krzywa dzwonowa”, ang. bell curve).

5.3 Reguła empiryczna

W rozkładzie normalnym lub zbliżonym do normalnego4:

  • około 68% wartości jest oddalonych od średniej co najwyżej o jedno odchylenie standardowe,

  • około 95% wartości jest oddalonych od średniej co najwyżej o dwa odchylenia standardowe,

  • około 99,7% wartości (prawie wszystkie) mieści się w zakresie trzech odchyleń standardowych od średniej.

Reguła empiryczna sprawdza się dość dobrze w wielu zbiorach danych, ale nie we wszystkich.

W szczególności w wielu prawdziwych zbiorach danych można z grubsza oszacować odchylenie standardowe na podstawie zasady 95%. Dlatego też odchylenie standardowe jest często interpretowane przez pryzmat reguły empirycznej.

Reguła empiryczna dla rozkładu normalnego – ilustracja.

Rysunek 5.1: Reguła empiryczna dla rozkładu normalnego – ilustracja.

5.4 Nierówność Czebyszewa

Reguła empiryczna działa dobrze w przypadku danych w kształcie dzwonu, ale nie wszystkie zbiory danych tak wyglądają. Nierówność Czebyszewa jest bardziej ogólna – ma zastosowanie do każdego zbioru danych, bez względu na jego kształt. Zgodnie z regułą Czebyszewa:

  • co najmniej 75% wartości mieści się w zakresie dwóch odchyleń standardowych od średniej,

  • co najmniej 89% w zakresie trzech,

  • co najmniej 94% w zakresie czterech.

Reguła Czebyszewa podaje wartości ograniczające, a nie najczęstsze. Bywa przydatna, gdy dane są asmetryczne lub nieregularne.

Tabela 5.1: Reguła empiryczna a reguła Czebyszewa
Odległość od średniej Reguła empiryczna (rozkład normalny) Reguła Czebyszewa (dowolny rozkład)
1 SD ~68% -
2 SD ~95% ⩾75%
3 SD ~99,7% ⩾89%
4 SD ~100% ⩾94%

5.6 Pytania

Pytanie 5.1 Wzrost w pewnej grupie mężczyzn ma w przybliżeniu rozkład normalny ze średnią 179 i odchyleniem standardowym 7.

Adam ma 186 cm wzrostu. Jego z-score to

Bruno ma 172 cm wzrostu. Jego z-score to

Conrad ma 193 cm wzrostu. Jego z-score to

Daniel ma 179 cm wzrostu. Jego z-score to

Emil ma 161.5 cm wzrostu. Jego z-score to

Pytanie 5.2 Wzrost w pewnej grupie mężczyzn ma w przybliżeniu rozkład normalny ze średnią 179 i odchyleniem standardowym 7.

Jakie jest przybliżone prawdopodobieństwo, że losowo wybrany mężczyzna z tej grupy będzie miał między 172 a 186 cm wzrostu?

Jakie jest przybliżone prawdopodobieństwo, że losowo wybrany mężczyzna z tej grupy będzie wyższy niż 193 cm?

.

Jakie jest przybliżone prawdopodobieństwo, że losowo wybrany mężczyzna z tej grupy będzie niższy niż 193 cm?

.

Jakie jest przybliżone prawdopodobieństwo, że losowo wybrany mężczyzna z tej grupy będzie wyższy niż 172 cm?

.

Pytanie 5.3 Histogram przedstawia rozkład dochodów (w tysiącach USD) w określonej populacji.

Przeciętny dochód w tej populacji to:

Pierwszy kwartyl w tej populacji to w przybliżeniu:

Odchylenie standardowe w tej populacji to w przybliżeniu:

5.7 Zadania

Zadanie 5.1 Wybierz cechę ilościową w wybranym zbiorze danych i sprawdź, na ile dla tej cechy sprawdza się reguła empiryczna (68%, 95%, 99,7%)

Zadanie 5.2 Znajdź w Internecie siatkę centylową wzrostu chłopców lub dziewcząt i spróbuj oszacować na jej podstawie odchylenie standardowe w rozkładzie wzrostu 10-latków i 18-latków.


  1. Dla rozkładu normalnego te wartości wynoszą, zaokrąglone do dwóch miejsc po przecinku: 68,27%, 95,45% i 99,73%.↩︎