Rozdział 2 Rozkład empiryczny cech

2.1 Szeregi statystyczne

Dane statystyczne dotyczące pojedynczej cechy przedstawione w formie tabelarycznej (lub w formie tekstu) nazywa się po polsku często szeregiem statystycznym.

2.1.1 Szereg szczegółowy

Kiedy przedstawiamy wszystkie zebrane informacje bez grupowania, np. w formie kolumny w tabeli lub listy oddzielonej przecinkami, mówimy o szeregu szczegółowym. Inna nazwa tego szeregu to szereg wyliczający. Często też mówi się w tym kontekście o „danych surowych”.

Szereg szczegółowy może dotyczyć zarówno danych jakościowych, jak i ilościowych.

Przykład:

Przypuśćmy, że zapytaliśmy ośmioro studentów o wielkość rodziny, z której pochodzą (a dokładniej, poprosiliśmy o odpowiedź na pytanie „Ile dzieci ma Twoja mama?”) i otrzymaliśmy następujące odpowiedzi:

Tabela 2.1: Przykład szeregu szczegółowego
ID studenta	Wielkość rodziny
1	1
2	6
3	2
4	2
5	3
6	2
7	2
8	2

Szereg szczegółowy możemy zapisać również w postaci listy:

1; 6; 2; 2; 3; 2; 2; 2

2.1.2 Szereg rozdzielczy punktowy

Szereg rozdzielczy to dane pogrupowane. Szereg rozdzielczy punktowy polega na przedstawieniu wszystkich możliwych wartości zmiennej wraz z liczebnością (tzn. informacją, ile razy dana wartość wystąpiła).

Szereg rozdzielczy punktowy może dotyczyć zarówno cech jakościowych, jak i ilościowych dyskretnych.

W przypadku szeregu rozdzielczego punktowego nie następuje utrata informacji, tzn. jesteśmy w stanie odtworzyć szereg szczegółowy.

Przykłady:

Tabela 2.2: Przykład szeregu rozdzielczego punktowego. Dane pochodzą od 91 studentów, którzy odpowiadali na pytanie „Ile dzieci ma Twoja mama?”
Wielkość rodziny	Liczba respondentów
1	14
2	59
3	10
4	6
5	1
6	1

Tabela 2.3: Obwód klatki piersiowej 5738 szkockich żołnierzy. Dane zebrane przez Adolphe’a Queteleta w 1848 r.
Obwód klatki piersiowej w calach	Liczba obserwacji
33	3
34	18
35	81
36	185
37	420
38	749
39	1073
40	1079
41	934
42	658
43	370
44	92
45	50
46	21
47	4
48	1

2.1.3 Szereg rozdzielczy przedziałowy

Szereg rozdzielczy przedziałowy to przedstawienie przedziałów wartości wraz z podaną liczebnością.

W przypadku szeregu rozdzielczego przedziałowego następuje utrata informacji; nie jesteśmy w stanie odtworzyć szeregu szczegółowego z szeregu przedziałowego. Szereg rozdzielczy można sporządzać dla cech ilościowych.

Na podstawie szeregu rozdzielczego przedziałowego można stworzyć histogram.

Przykład:

Tabela 2.4: Czas trwania postępowania w I instancji w sądach okręgowych i rejonowych z wyłączeniem spraw wieczystoksięgowych, KRS i Rejestru Zastawów. Dane dotyczą I kwartału 2022 i pochodzą ze strony internetowej https://isws.ms.gov.pl/pl/baza-statystyczna/opracowania-wieloletnie/
Przedział	Liczba spraw
do 15 dni	161 328
powyżej 15 dni do 1 mies.	118 435
powyżej 1 do 2 mies.	265 533
powyżej 2 do 3 mies.	263 151
powyżej 3 do 6 miesięcy	309 985
powyżej 6 do 12 miesięcy	141 561
powyżej 12 miesięcy do 2 lat	68 070
powyżej 2 do 3 lat	23 978
powyżej 3 do 5 lat	11 973
powyżej 5 do 8 lat	3 911
ponad 8 lat	2 305

2.2 Wizualizacja cech jakościowych

Wizualizacja zmiennych jakościowych pomaga podsumować, jak obserwacje rozkładają się pomiędzy poszczególne kategorie.

Poniżej przedstawiono kilka popularnych form graficznych: wykresy słupkowe, skumulowane wykresy słupkowe oraz wykresy kołowe.

2.2.1 Wykresy słupkowe

Wykresy słupkowe przedstawiają zwykle liczebność (lub częstość, udział) obserwacji w każdej kategorii. Wykresy słupkowe mogą być pionowe lub poziome. Czasem (np. w Microsoft Excel) wykresy z pionowymi słupkoami nazywa się wykresami kolumnowymi.

Rysunek 2.1: Przykład wykresu przestawiającego środek transportu na uczelnię wybierany przez studentów.

Rysunek 2.2: Wersja pozioma wykresu przestawiającego środek transportu na uczelnię wybierany przez studentów.

2.2.2 Skumulowane wykresy słupkowe

Skumulowane wykresy słupkowe umożliwiają jednoczesną wizualizację dwóch zmiennych jakościowych, pokazując zarówno strukturę (skład), jak i porównanie między grupami.

Rysunek 2.3: Przykład skumulowanego wykresu słupkowego.

2.2.3 Wykresy kołowe

Rysunek 2.4: Przykład wykresu kołowego.

Wykresy kołowe zazwyczaj nie są zalecane. Zdaniem specjalistów od wizualizacji danych utrudniają one dokładne porównywanie wielkości kategorii — nasz wzrok znacznie lepiej ocenia długości (jak na wykresach słupkowych) niż kąty czy pola powierzchni. Gdy kategorii jest wiele lub różnice między nimi są niewielkie, poprawna interpretacja udziałów poszczególnych kategorii staje się niemal niemożliwa. W przeciwieństwie do tego wykresy słupkowe umożliwiają łatwe porównywanie kategorii i mogą w czytelny sposób przedstawiać zarówno liczebności, jak i udziały procentowe. Tym samym, chociaż wykresy kołowe sprawdzają się w prostych prezentacjach z kilkoma kategoriami, wykresy słupkowe są na ogół skuteczniejszym narzędziem analizy i porównań.

2.3 Histogram – wizualizacja rozkładu cechy ilościowej

Histogram to wykres, który pozwala poznać kształt rozkładu cechy ilościowej. Stworzenie histogramu wymaga wcześniejszego pogrupowania obserwacji w przedziały klasowe (czyli przygotowania szeregu rozdzielczego przedziałowego). Przedziały zaznacza się na osi X. Dla tak utworzonych przedziałów wyznacza się liczebność obserwacji w poszczególnych przedziałach.

Przedziały są zwykle równej szerokości, jednak jest możliwe przygotowanie przedziałów, których szerokości będą się różnić.

Rysunek 2.5: Przykład histogramu z równymi przedziałami.

Rysunek 2.6: Przykład histogramu z nierównymi przedziałami.

2.3.1 Co jest na osi Y?

W histogramie znaczenie mają pola prostokątów, z których się składa, a ich wysokość jest kwestią wtórną. Jeżeli szerokości przedziałów klasowych są równe, na osi Y mogą znaleźć się po prostu liczebności (w sytuacji równych szerokości przedziałów pola prostokątów są wprost proporcjonalne do ich wysokości) lub udziały w łącznej liczebności zbiorowości (wyrażone jako ułamek lub procent). Jeżeli szerokości przedziałów klasowych histogramu nie są równe, na osi Y nie mogą znaleźć się liczebności, w takiej sytuacji na osi Y najczęściej przedstawia się tzw. gęstość częstości (ang. frequency density).

Rysunek 2.6 przedstawia histogram z nierównymi przedziałami. W tabeli 2.5 zilustrowana sposób obliczenia wartości gęstości potrzebnych do prawidłowego narysowania histogramu.

Tabela 2.5: Przykład wyznaczania gęstości potrzebnej do narysowania histogramu
Przedział	Liczba obserwacji	Częstość względna	Szerokość przedziału	Gęstość ( = Częstość względna / Szerokość przedziału)
(0;5]	74	0,2202381	5	0,0440476
(5;10]	83	0,2470238	5	0,0494048
(10;20]	78	0,2321429	10	0,0232143
(20;50]	87	0,2589286	30	0,0086310
(50;80]	14	0,0416667	30	0,0013889

2.3.2 Kształty histogramów

Typowe kształty histogramów:

rozkład (w przybliżeniu) symetryczny, jednomodalny

rozkład prawostronnie skośny

rozkład skrajnie (prawostronnie) asymetryczny

rozkład lewostronnie skośny

rozkład dwumodalny

rozkład równomierny (jednostajny)

2.3.3 Histogramy a wykresy słupkowe

Niektórzy uważają histogramy za szczególny przypadek wykresów słupkowych, niemniej jednak można powiedzieć, że są to dwa różne byty:

Histogram

zawsze dotyczy cechy ilościowej,
zawsze pokazuje rozkład cechy,
używa przedziałów klasowych (zmienna, której rozkład przedstawia, jest pogrupowana w uporządkowane przedziały),
składa się z prostokątów (słupków), które zwykle przylegają do siebie.

Wykres słupkowy

prezentuje dane za pomocą słupków,
może przedstawiać rozkład zmiennej jakościowej (liczebności lub udział poszczególnych kategorii),
może służyć do porównywania kategorii lub jednostek między sobą (np. średnie dochody w trzech grupach pracowniczych),
może pokazywać wartości cechy w czasie.

2.3.4 Liczba przedziałów klasowych

Istnieją różne reguły dotyczące liczby przedziałów klasowych lub (co jest ściśle powiązane) ich szerokości.

Należą do nich na przykład:

Reguła pierwiastka kwadratowego

\[k=\sqrt{n} \tag{2.1}\]

gdzie:

\(k\) = liczba przedziałów

\(n\) = liczba obserwacji

Reguła Sturgesa

\[k=1+log_2(n) \tag{2.2}\]

Reguła Freedmana-Diaconisa

\[\text{Szerokość przedziału}=\frac{2\cdot IQR}{\sqrt[3]{n}} \tag{2.3}\]

gdzie IQR oznacza rozstęp międzykwartylowy (zob. 4.2).

Reguła Scotta

\[\text{Szerokość przedziału}=\frac{3\cdot s}{\sqrt[3]{n}} \tag{2.4}\]

gdzie \(s\) jest odchyleniem standardowym z próby.

Najważniejszą regułą jest jednak reguła „wzrokowa”. Histogram musi dobrze wyglądać: przedziały nie mogą być ani za szerokie (będzie ich wtedy zbyt mało), ani za wąskie (zbyt liczne).

2.4 Jądrowy estymator gęstości

Jądrowy estymator gęstości to gładka krzywa pokazująca, w których wartościach danych obserwacje pojawiają się częściej, a w których rzadziej². W przeciwieństwie do histogramów, które mają schodkową postać i zależą od szerokości oraz położenia przedziałów, wykresy gęstości jądrowej zapewniają ciągłą i często bardziej estetyczną wizualnie reprezentację rozkładu. Można je traktować jako wygładzone wersje histogramów, pomagające lepiej zobaczyć ogólny kształt rozkładu danych.

Wykresy gęstości jądrowej są szczególnie przydatne do identyfikowania dominanty oraz skośności danych.

Przykład wykresu gęstości ilustrującego wzrost studentek na kursie statystyki nałożonego na histogram przedstawiający te same dane.

Rysunek 2.7: Przykład wykresu gęstości ilustrującego wzrost studentek na kursie statystyki nałożonego na histogram przedstawiający te same dane.

2.5 Wykres skrzypcowy

Wykres skrzypcowy to kolejny rodzaj wykresu stosowany do prezentowania i porównywania rozkładów danych ilościowych. Pojedynczy rozkład na wykresie skrzypcowym jest przedstawiony jako dwa identyczne estymatory jądrowe gęstości, odbite lustrzanie względem pionowej lub poziomej osi symetrii, a następnie połączone ze sobą. Nazwa wykresu pochodzi od domniemanego podobieństwa jego kształtu do skrzypiec.

Wykresy skrzypcowe są szczególnie przydatne do porównywania rozkładów pomiędzy różnymi grupami.

Rysunek 2.8: Przykładowe wykresy skrzypcowe umożliwiające porównanie wzrostu studentów i studentek.

2.6 Dystrybuanta empiryczna

Dystrybuanta empiryczna (ang. empirical cumulative distribution function, ECDF) przedstawia odsetek obserwacji mniejszych lub równych danej wartości.

Rysunek 2.9: Empiryczna dystrybuanta wzrostu według płci.

2.7 Linki

Histogram — jak liczba/szerokość przedziałów klasowych wpływa na histogram? Symulacja internetowa: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_1.html

2.8 Zadania

Zadanie 2.1 Wykorzystując dane z pliku SpeedRadarData.csv sporządź histogram przedstawiający prędność jednośladów w okolicach radaru. Z czego może wynikać kształt histogramu? Jak się nazywa taki kształt rozkładu?

Dane pochodzą z tego wpisu na Facebooku.

Zadanie 2.2 (Freedman, Pisani, and Purves 2007) Wykres przedstawia rozkład rodzin według dochodów w Stanach Zjednoczonych w 1973 r.

Około 1% rodzin przedstawionych na wykresie miało dochody od 0 do 1000 dolarów. Oszacuj odsetek rodzin, które miały dochody:

od 1000 do 2000 dolarów: %
od 2000 do 3000 dolarów: %
od 3000 do 4000 dolarów: %
od 4000 do 5000 dolarów: %
od 4000 do 7000 dolarów: %
od 7000 do 10000 dolarów: %

Do powyższego histogramu dodano skalę osi Y. Liczby (wysokość słupków) pokazują:
Liczbę rodzin w każdym przedziale. Odsetek rodzin w każdym przedziale. Gęstość: odsetek rodzin na 1000 dolarów na osi X.
Czy było więcej rodzin zarabiających od 10 000 do 11 000 dolarów, czy od 15 000 do 16 000 dolarów? A może liczby były mniej więcej takie same? Co sugeruje wykres.

Więcej rodzin zarabiających od 10 000 do 11 000 dolarów Więcej rodzin zarabiających od 15 000 do 16 000 dolarów Mniej więcej tyle samo

Zadanie 2.3 (Freedman, Pisani, and Purves 2007) Poniższy histogram przedstawia rozkład wyników egzaminów końcowych ze statystyki w pewnej grupie studenckiej.

Który blok przedstawia osoby, które uzyskały wynik między 60 a 80?
Dziesięć procent studentów uzyskało wynik między 20 a 40. Jaka część studentów uzyskała wynik między 40 a 60? %
Jaki część studentów uzyskała wynik powyżej 60? %

Zadanie 2.4 (Freedman, Pisani, and Purves 2007) Poniżej przedstawiono szkice histogramów (lub wykresy gęstości) wyników kolokwiów w trzech różnych grupach studenckich. Wyniki mieszczą się w przedziale od 0 do 100; próg zaliczenia wynosił 50. Czy w każdej grupie odsetek osób, które zdały, wynosił około 50%, znacznie powyżej 50% czy znacznie poniżej 50%?

Grupa (a):

Grupa (b):

Grupa (c):

Jedna z grup można uznać za złożoną z dwóch w dużej mierze odrębnych typów studentów: studentów, którzy wypadli raczej słabo i studentów, którzy wypadli bardzo dobrze. Która to była grupa?

Czy w grupie (b) było więcej osób z wynikami w przedziale 30-40 czy 90-100?

Literatura

Freedman, David, Robert Pisani, and Roger Purves. 2007. Statistics, 4th Edition. New York: W. W. Norton & Company.

Oficjalnie: służąca do „estymacji funkcji gęstości prawdopodobieństwa zmiennej ciągłej”↩︎