Rozdział 1 Dane statystyczne

1.1 Badania obserwacyjne i eksperymenty

Skąd się biorą dane? Można powiedzieć, że są dwa podstawowe typy zbierania danych: badania obserwacyjne i eksperymenty.

Eksperymenty to sytuacje, kiedy badacz może zdecydować o pewnych zmiennych („postępowaniach”, „zabiegach”, ang. treatments) i zmierzyć odpowiedź (ang. response) na dane postępowanie. Eksperymenty ułatwiają identyfikację zależności przyczynowo-skutkowych.

Badanie obserwacyjne to sytuacje, w których badacz nie ma wpływu na zmienne, lecz po prostu rejestruje rzeczywistość. W takiej sytuacji trudniej wykazać zależność przyczynowo-skutkową (bez ważnych dodatkowych założeń jest to niemożliwe). Jeżeli jakieś zmienne i potencjalne odpowiedzi są powiązane, mówimy o korelacji, asocjacji („skojarzeniu”), współzależności statystycznej.

1.2 Populacja i próba

Populacja (ang. population) to cały zbiór jednostek, obiektów lub zjawisk będących przedmiotem badania. Może być skończona (np. wszyscy uczniowie w danej szkole) albo bardzo duża, a nawet teoretycznie nieskończona (np. wszystkie rzuty kostką, wszyscy potencjalni pacjenci z daną chorobą).

Próba (ang. sample) to podzbiór populacji, który faktycznie podlega badaniu i na podstawie którego wnioskujemy o całej populacji.

Przykład:

Populacja: wszyscy mieszkańcy Polski.
Próba: 1000 osób, które zostały wylosowane do udziału w badaniu ankietowym.

W praktyce zazwyczaj dysponujemy jedynie próbą, mimo że teoretycznie interesuje nas populacja. Wnioskowaniem statystycznym nazywamy metody pozwalające wyciągać wnioski o populacji na podstawie próby.

1.3 Źródła danych statystycznych

Istnieje wiele sposobów zbierania danych. Można na przykład wyróżnić:

dane z ankiet/kwestionariuszy (informacje samodzielnie podawane przez respondenta),
dane zbierane przez badacza (notatki terenowe, nagrania, badania laboratoryjne, testy kliniczne),
dane pozyskiwane automatycznie: dane pochodzące z czujników (np. internet rzeczy, satelity, smartbandy), dane transakcyjne (zapisy sprzedaży, logi bankowe, aktywność online),
dane tekstowe i multimedialne (dokumenty, media społecznościowe, obrazy, wideo, audio).

Mówiąc o źródłach danych, warto wspomnieć również o tym, że dane pierwotne mogą być następnie przetwarzane i wykorzystywane w innym celu. Z tego punktu widzenia można wyróżnić:

dane pierwotne – zbierane i wykorzystywane do określonego celu,
dane wtórne – zebrane wcześniej przez kogoś innego, a następnie wykorzystanie i przetworzone (np. statystyki urzędowe, raporty firmowe, rejestry administracyjne).
Można wyodrębnić również dane trzeciego rzędu – opracowania i syntezy (np. encyklopedie, metaanalizy).

1.4 Zmienne ilościowe i jakościowe

Dwa podstawowe typy cech statystycznych (zmiennych statystycznych) to zmienne ilościowe (liczbowe, numeryczne, „mierzalne”, ang. quantitative, metric) i jakościowe (kategorialne, skategoryzowane, ang. qualitative, categorical).

Zmienne ilościowe to zmienne, które przyjmują wartości liczbowe. Z perspektywy matematycznej zmienne ilościowe można postrzegać jako (i podzielić na) zmienne dyskretne (inaczej: skokowe) i zmienne ciągłe. Zmienne dyskretne to zmienne, które przyjmują konkretne wartości liczbowe i nic pomiędzy (przykład: liczba dzieci). Zmienne ciągłe to zmienne, które mogą przyjąć dowolną wartość z określonego przedziału (przykład: czas trwania rozmowy, udział okularników w grupie osób)¹.

Zmienne jakościowe to zmienne, które przyjmują wartości inne niż liczbowe. Zmienna jakościowa pozostaje zmienną jakościową nawet, gdy do jej zapisu użyjemy cyfr (np. rasa psa to zmienna jakościowa, nawet jeżeli ponumerujemy różne rasy i będziemy zapisywać rasę za pomocą przyjętych liczb).

1.5 Skale pomiarowe

1.5.1 Cztery główne skale pomiarowe

Przydatnym podziałem zmiennych jest podział ze względu na skale pomiarowe:

Zmienne jakościowe możemy podzielić na zmienne nominalne i porządkowe.

Zmienne ilościowe możemy podzielić na zmienne przedziałowe i ilorazowe.

Zmienne jakościowe nominalne (ang. nominal) to zmienne jakościowe, których kategorie nie mają jednoznacznego uporządkowania.

Przykłady cech o skali nominalnej: kolor oczu, wyznanie, rasa psa.

Zmienne jakościowe porządkowe (ang. ordinal) to zmienne jakościowe, których kategorie nie są liczbami, ale można je uporządkować (istnieje naturalna kolejność poszczególnych kategorii).

Przykłady cech o skali porządkowej: wykształcenie, odpowiedzi na pytanie ankietowe w skali Likerta.

Zmienne ilościowe przedziałowe (interwałowe, ang. interval) to zmienne liczbowe, w przypadku których ma sens obliczać i intepretować różnice, ale proporcje (ilorazy) nie mają sensu. Często mówi się, że w ich przypadku zero jest wyznaczone uznaniowo – arbitralność zera to rzeczywiście dobry sposób na rozpoznanie zmiennych na skali przedziałowej.

Przykłady cech o skali przedziałowej: temperatura w stopniach Celsjusza, rok (kalendarzowy) urodzenia.

Zmienne ilościowe ilorazowe (proporcjonalne, ang. ratio) to zmienne liczbowe, dla których proporcje (ilorazy) mają sens.

Przykłady cech o skali ilorazowej: liczba posiadanych samochodów, cena towaru, wzrost.

1.5.2 Znaczenie skal pomiarowych

Skale pomiarowe ułatwiają ustalenie, które narzędzia i miary statystyczne można stosować w przypadku poszczególnych cech. Przykłady:

Średnią, odchylenie standardowe, skośność itp. możemy stosować tylko dla cech ilościowych.
Współczynnik zmienności ma sens dla zmiennych ilorazowych.
Medianę i inne kwantyle możemy stosować dla zmiennych ilościowych oraz porządkowych.
Dominantę możemy wyznaczyć dla wszystkich rodzajów zmiennych, nawet nominalnych.
Współczynnik korelacji Pearsona możemy stosować, jeżeli obie zmienne są ilościowe (wyjątek i przypadek szczególny: zmienne binarne).
Współczynnik korelacji rang Spearmana możemy stosować dla zmiennych porządkowych i ilościowych.
Histogram stosujemy dla zmiennych ilościowych pogrupowanych uprzednio w szereg rozdzielczy przedziałowy. Warto zwrócić uwagę, że przekształcenie zmiennej w szereg rozdzielczy przedziałowy sprawia, że przekształcona zmienna nie jest już ilościowa, jest na skali porządkowej.
Wykres rozrzutu możemy stworzyć dla pary zmiennych ilościowych.
Zmiennymi objaśniającymi w modelu regresji mogą być tylko zmienne ilościowe oraz zmienne binarne.
Rangi możemy wyznaczyć dla zmiennych ilościowych i porządkowych.

1.5.3 Inne skale pomiarowe

Powyższa typologia zwykle dobrze sprawdza się w praktyce, jednak warto zauważyć, że nie wszystkie zmienne mieszczą się w niej bezdyskusyjnie.

Analitycy danych mają często do czynienia z dwoma skalami, które warto wymienić osobno:

Zmienne binarne (dychotomiczne, zerojedynkowe) to zmienne przyjmujące tylko dwie wartości (często kodowane jako 0 i 1). Jest to szczególny rodzaj zmiennej jakościowej, który posługiwać się w wielu kontekstach w sposób zbliżony do zmiennej ilościowej. Przykład zmiennej dychotomicznej to odpowiedź na pytanie (Tak/Nie).

Skala cykliczna to skala (zwykle ilościowa, ewentualnie porządkowa), gdzie wartości występują w cyklu. Nie ma tutaj zera. Przykłady zmiennych o skali cyklicznej to miesiące w roku, dni w tygodniu, godziny w ciągu dnia, kierunki świata, kąty.

1.6 Inne typologie danych

Typy danych według wymiaru czasowego:

Dane przekrojowe (ang. cross-sectional) – zebrane w jednym momencie w czasie (migawka).
Szeregi czasowe (time series) – powtarzane pomiary w regularnych odstępach czasu.
Dane panelowe / podłużne (panel, longitudinal) – śledzenie tych samych jednostek w czasie, czyli kombinacja przekrojowych i czasowych.

Typy danych według struktury/formatu:

Dane ustrukturyzowane – uporządkowane w tabelach, bazach danych.
Dane nieustrukturyzowane – teksty, obrazy, nagrania audio, wideo, surowe logi.
Dane częściowo ustrukturyzowane (semi-structured) – posiadają częściowy porządek, np. JSON, XML, logi internetowe.

Dane możemy również klasyfikować:

według szczegółowości (granularności) – dane szczegółowe (na poziomie jednostki) i dane zagregowane,
według tego czy zawierają wymiar geograficzny (np. GIS), czy też nie mają odniesienia do lokalizacji,
według dziedziny, np. medyczne, finansowe lub dane uniwersalne (ogólnego przeznaczenia).

1.7 Liczby

1.7.1 Nazwy: krótka/długa skala

Należy uważać przy tłumaczeniu nazw wielkich liczb z polskiego na angielski, ukraiński itp. lub odwrotnie. Nawet Google translate może tutaj popełniać błędy.

pol. miliard = ang. billion

pol. bilion = ang. trillion

pol. biliard = ang. quadrillion

pol. trylion = ang. quintillion

Tabela 1.1: Nazwy dużych liczb
liczba	polski	angielski	ukraiński
1 000 000	milion	million	мільйон
1 000 000 000	miliard	billion	мільярд
1 000 000 000 000	bilion	trillion	трильйон
1 000 000 000 000 000	biliard	quadrillion	квадрильйон
1 000 000 000 000 000 000	trylion	quintillion	квінтильйон

1.7.2 Symbol dziesiętny i separator tysięcy

Przy okazji tłumaczenia między językami warto zaznaczyć, że jako symbol dziesiętny w języku polskim używamy przecinka, natomiast w języku angielskim należy użyć kropki. Przecinek z kolei po angielsku stosujemy jako separator tysięcy – po polsku tę rolę najczęściej pełni spacja (rzadziej kropka).

pol. 1 000,23 = ang. 1,000.23

pol. 1.000.000 = ang. 1,000,000

1.7.3 Notacja inżynierska/naukowa

1.23e8 oznacza \(1{,}23\cdot10^8\), czyli \(123\space000\space000\).

1.23e-6 oznacza \(1{,}23\cdot10^{-6}\), czyli \(0,00000123\).

Taka notacja (z „e” lub „E”) może się pojawić w R lub w Excelu. Nie stosujemy jej jednak w artykułach czy pracach dyplomowych! W takiej sytuacji, jeżeli jest już to konieczne, potrzebna jest notacja z potęgami 10.

1.7.4 Procenty

Procent („%”) oznacza „na sto” (por. „odsetki”). Stosujemy go (czasem wymiennie ze zwykłymi ułamkami), jeżeli chcemy przedstawić między innymi:

udziały w większej całości, częstości,
porównanie dwóch wielkości, stopień realizacji planu,
przyrosty względne, stopy procentowe, stopy zwrotu, stopy wzrostu, dyskonto, rabat itp.
prawdopodobieństwa (w tym przypadku preferewane są ułamki).

Gdy mówimy o procentach, ważne jest do jakiej podstawy odnosi się 100%. Na przykład: w zeszłym roku sprzedaż wynosiła 90 mln dolarów; planowaliśmy, że w tym roku sprzedaż wzrośnie o 10 mln dolarów do 100 mln dolarów. W rzeczywistości osiągnęliśmy 96 mln dolarów sprzedaży. Czy zrealizowaliśmy plan w 96% (96/100) czy w 60% (6/10)?

W szczególności należy zwracać uwagę między procentami a punktami procentowymi. Jeżeli stopy procentowe wzrosły z 6% do 9% to wzrosły o 50%, ale o 3 punkty procentowe.

Indeksy, na przykład indeks cen nieruchomości, często przedstawiane są w postaci procentowej, ale bez znaku „%”.

1.8 Linki

Eksploracja i wizualizacja danych jakościowych – aplikacja webowa: https://istats.shinyapps.io/EDA_categorical/

Eksploracja i wizualizacja danych ilościowych – aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/

1.9 Pytania

1.9.1 Pytania do dyskusji

Pytanie 1.1 Dla każdej zmiennej w poniższej ankiecie określ, do której skali pomiarowej Twoim zdaniem należy. W przypadku zmiennych ilościowych wskaż, czy uznałbyś je za ciągłe czy dyskretne. Uzasadnij wybór. W niektórych przypadkach odpowiedź jest względnie oczywista, ale niektóre pozostawiają pole do dyskusji.

W grupie zajęciowej zbieramy poniższe dane. Udział jest całkowicie dobrowolny, dane są zbierane anonimowo; należy jednak pamiętać, że w zależności od kombinacji odpowiedzi, teoretycznie możliwa może być identyfikacja osób.

Zbierane dane obejmują następujące zmienne (uczestnicy mogą również zdecydować się na nieodpowiadanie na wybrane pytania):

Wzrost (w cm).
Wynik punktowy otrzymany w kwestionariuszu lateralizacji rąk, (zob. również poniżej).
Rozpiętość w pełni rozpostartej prawej dłoni (w cm).
Rozpiętość w pełni rozpostartej lewej dłoni (w cm).
Obwód głowy (w cm).
Kolor oczu (opcje: brązowe, niebieskie, zielone; można wpisać inną odpowiedź).
Płeć.
Odpowiedź na pytanie: „Ile dzieci ma Twoja Mama?”.
Odpowiedź na pytanie: „Ile czasu (w godzinach, można podać ułamki, np. 3,5h) spędziłeś/spędziłaś wczoraj na oglądaniu filmów (TV, Youtube, Netflix, itp.)?”.
Odpowiedź na pytanie: „Ile napojów gazowanych (takich jak cola, Sprite itp., ustalmy, że wliczamy piwo, a nie wliczamy wody gazowanej) wypiłeś/wypiłaś w zeszłym tygodniu (w litrach, mogą być ułamki)?”
Godzina pójścia spać ostatniej nocy.
Sposób dojazdu na uczelnię (opcje: transport publiczny, rower, samochó∂, pieszo, inne).
Czas podróży na uczelnię (w minutach).
Częstotliwość korzystania z Facebooka (odpowiedź wpisywana ręcznie, na przykład: „10 razy dziennie”, „raz w tygodniu” lub „prawie nigdy”).
Liczba znajomych na Facebooku.
Wybór między psami i kotami (opcje: psy, koty, koty i psy w równym stopniu, żadne z tych zwierząt).
Wybór między kawą i herbatą (opcje: herbata, kawa, herbata i kawa w równym stopniu, żaden z tych napojów).
Odpowiedź na pytanie „Czy zwykle słuchasz muzyki podczas nauki?” (opcje: tak lub nie).
Opinia na temat stwierdzenia: „Statystyka to trudny przedmiot” (opcje: „Zdecydowanie się zgadzam”, „Raczej się zgadzam”, „Ani się zgadzam, ani się nie zgadzam”, „Raczej się nie zgadzam”, „Zdecydowanie się nie zgadzam”).

Kwestionariusz lateralizacji rąk:

Rysunek 1.1: Kwestionariusz lateralizacji rąk (ang. handedness questionnaire), Gelman (2022)

Pytanie 1.2 Ankiety i eksperymenty są często postrzegane jako różne metody badawcze. W jakich warunkach, jeśli w ogóle, ankietę można uznać za badanie eksperymentalne?

Pytanie 1.3 Porównaj zmienne ilościowe i jakościowe. Czy zmienna może być jednocześnie ilościowa i jakościowa? Dlaczego lub dlaczego nie?

Pytanie 1.4 Wyjaśnij różnicę między zmianą procentową a różnicą w punktach procentowych. Dlaczego mylenie tych dwóch pojęć może prowadzić do błędnej interpretacji?

Statystyka 1 - skrypt