Rozdział 12 Zmienne dychotomiczne a miary współzależności
12.1 Tabele 2×2
Najmniejszy rozmiar tablicy kontyngencji to 2×2. Tabela 2×2 podsumowuje łączny rozkład dwóch zmiennych dychotomicznych. Na bazie takiej tablicy zaproponowano wiele miar asocjacji i jakości klasyfikacji.
Przykład
381 studentom obu płci zadano następujące pytania: „Czy w dniu wczorajszym oglądałaś/oglądałeś filmy przez dłużej niż pół godziny?” oraz „Czy masz rozdzeństwo?”
Wyniki przedstawiono w poniższej tabeli:
| Oglądał(a) filmy | Nie oglądał(a) filmów | |
|---|---|---|
| Ma rodzeństwo | 270 | 54 |
| Nie ma rodzeństwa | 49 | 8 |
12.1.1 Współczynnik fi
Współczynnik fi (\(\phi\)) mierzy siłę i kierunek zależności pomiędzy dwiema zmiennymi dychotomicznymi.
Niech liczebności w tablicy kontyngencji mają następujące oznaczenia:
| Y = 0 | Y = 1 | Łącznie | |
|---|---|---|---|
| X = 0 | a | b | a+b |
| X = 1 | c | d | c+d |
| Łącznie | a+c | b+d | n |
Niech \(n = a + b + c + d\).
W takiej sytuacji współczynnik \(\phi\) definiuje się następująco:
\[\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \tag{12.1}\]
Współczynnik fi zawiera się w przedziale \([-1, 1]\).
Technicznie rzecz ujmując, współczynnik korelacji jest tożsamy ze współczynnikiem Pearsona między dwiema zmiennymi dychotomicznymi zakodowanymi w postaci zero-jedynkowej (zob. zadanie 12.1).
Współczynnik fi jest również ściśle związany ze statystyką chi-kwadrat (\(\chi^2\)) i V Craméra:
\[ \phi^2 = \chi^2/n \tag{12.2} \]
\[ |\phi| = V \tag{12.3} \]
Tutaj \(n\) oznacza łączną liczbę obserwacji (liczebność próby), zaś \(V\) Craméra obliczone jest dla tabeli 2×2 zgodnie z wzorem (11.3).
Przykład
382 studentów obu płci spytano czy w poprzedzającym tygodniu wypili ponad 2 litry napojów gazowanych. Otrzymano następujące wyniki:
| Kobieta | Mężczyzna | |
|---|---|---|
| Nie | 151 | 106 |
| Tak | 39 | 86 |
Współczynnik fi, miara korelacji między płcią (byciem mężczyzną) a piciem napojów gazowanych, wynosi:
\[\phi = \frac{151\cdot86-39\cdot106}{\sqrt{(151+39)(106+86)(151+106)(39+86)}} \approx 0{,}259\]
12.1.2 Iloraz szans
Iloraz szans, ang. odds ratio (OR) to nierzadko spotykany w analizie danych sposób porównywania prawdopodobieństw jakiegoś zdarzenia (wyrażonych w formie szans) między dwoma grupami.
Zanim zdefiniujemy iloraz szans, należy zdefiniować szansę. Szansa w matematyce odnosi liczbę przypadków wystąpienia jakiegoś zdarzenia do liczby przypadków, gdy to zdarzenie nie wystąpiło w tej samej grupie. Załóżmy, że mamy dychotomię „zdarzenie / brak zdarzenia” i jedną grupę A, oraz że w tej grupie a razy zaobserwowano zdarzenie i b razy tego zdarzenia nie zaobserwowano.
| Zdarzenie | Brak zdarzenia | |
|---|---|---|
| Grupa A | a | b |
Szansa tego zdarzenia jest zdefiniowana jako ułamek:
\[\text{szansa} = \frac{\text{liczba wystąpień zdarzenia}}{\text{liczba wystąpień braku zdarzenia}} = \frac{a}{b} \tag{12.4} \].
Szansa = 1 → oznacza, że równie często występuje zdarzenie i jego brak,
Szansa > 1 → oznacza, że zdarzenie występuje częściej niż brak zdarzenia,
Szansa < 1 → oznacza, że zdarzenie występuje rzadziej niż brak zdarzenia.
Iloraz szans to sposób na porównanie szans w dwóch grupach, oznaczmy te grupy jako A i B:
\[ \text{OR} = \frac{\text{szansa w grupie A}}{\text{szansa w grupie B}} \tag{12.5} \].
Iloraz szans = 1 → oznacza brak różnic między grupami,
OR > 1 → oznacza, że zdarzenie jest bardziej prawdopodobne w grupie A
OR < 1 → oznacza, że zdarzenie w grupie A jest mniej prawdopodobne niż w grupie B.
Szanse i ilorazy szans są popularne w statystyce medycznej oraz w modelowaniu statystycznym (np. w regresji logistycznej).
Przykład: Szanse przeżycia katastrofy Titanica w zależności od płci
Kobiety: przeżyło ~73,4%
Męzczyźni: przeżyło ~20,5%
Tabela 2x2:
| Kobieta | Mężczyzna | |
|---|---|---|
| Przeżył(a) | 359 | 352 |
| Nie przeżył(a) | 130 | 1366 |
Szanse przeżycia:
Kobiety: \(359 / 130 \approx 2{,}76\)
Mężczyźni: \(352 / 1366 \approx 0{,}26\)
Iloraz szans (kobiety/mężczyźni):
\[\text{OR} \approx \frac{2{,}76}{0{,}26} \approx 11\]
Szanse przeżycia katastrofy Titanica były około 11 razy wyższe w przypadku kobiet niż w przypadku mężczyzn.
12.1.3 Macierz pomyłek
Macierz pomyłek to szczególny rodzaj tabeli 2×2 używany do oceny tzw. binarnych modeli klasyfikacyjnych, czyli algorytmów, które przewidują przynależność obiektu do jednej z dwóch klas. Jedna z tych klas jest zwykle nazywana klasą dodatnią/pozytywną i oznaczana symoblem „+” lub liczbą 1, zaś druga nazywana jest ujemną/negatywną i oznaczana jest minusem („-”) lub liczbą 0.
Przykład
W marcu 1884 r. sierżant J. P. Finley rozpoczął publikowanie prognoz tornad dla 18 regionów USA. Prognozy były przygotowywane dwa razy dziennie. Po trzech miesiącach przedstawił wyniki swoich prognoz, wykorzystując następującą tabelę:
| Rzeczywistość: Tornado | Brak tornada | Łącznie | |
|---|---|---|---|
| Prognoza: Tornado | 28 | 72 | 100 |
| Prognoza: Brak tornada | 23 | 2680 | 2703 |
| Łącznie | 51 | 2752 | 2803 |
Każda z czterech komórek macierzy pomyłek ma swoją nazwę:
Prawdziwe wyniki pozytywne, ang. True Positives (TP) to przypadki, w których poprawnie została przewidziana klasa pozytywna. W tabeli sierżanta Finleya było 28 takich obserwacji.
Prawdziwe wyniki negatywne, ang. True Negatives (TN) to przypadki, w których model poprawnie przewidział klasę negatywną. W tabeli sierżanta Finleya było 2680 takich przypadków.
Fałszywe wyniki pozytywne, ang. False Positives (FP) to sytuacje, gdy model omyłkowo przewidzi klasę pozytywną, podczas gdy w rzeczywistości mamy do czynienia z klasą negatywną (72 obserwacji w tabeli).
Fałszywe wyniki negatywne, ang. False Negatives (FN) to sytuacje, gdy błędnie przewidziano klasę negatywną (23 przypadki w tabeli sierżanta Finleya).
Najprostszą miarą jakości predykcji jest dokładność (ang. accuracy). Jest to udział obserwacji, dla których prawidłowo przewidziano rzeczywistą klasę, we wszystkich obserwacjach.
\[ \text{Dokładność} = \frac{TP+TN}{TP+TN+FP+FN}. \tag{12.6}\]
Dokładność w tabeli sierżanta Finleya to:
\[\frac{28+2680}{2803} \approx 0{,}966\]
Dokładność to miara intuicyjna, jednak nie zawsze adekwatna. Zauważmy, że dokładność byłaby większa, gdyby sierżant Finley za każdym razem przewidywał, że tornada nie będzie!
Najczęściej stosuje się parę miar: czułość (ang. sensitivity), udział poprawnych klasyfikacji dla wszystkich rzeczywiście pozytywnych obserwacji, oraz swoistość, ang. specificity, udział poprawnych klasyfikacji, gdy klasa jest w rzeczywistości negatywna:
\[ \text{Czułość} = \frac{TP}{TP+FN}. \tag{12.7}\]
\[ \text{Swoistość} = \frac{TN}{TN+FP}. \tag{12.8}\]
W przykładzie sierżanta Finleya czułość wyniosła:
\[ \text{Czułość} = \frac{28}{51} \approx 0{,}549\]
zaś swoistość:
\[ \text{Swoistość} = \frac{2680}{2752} \approx 0{,}974.\]
12.2 Związek między zmiennymi dychotomicznymi a ilościowymi
Gdy jedna ze zmiennych jest dychotomiczna, a druga ilościowa, do pomiaru asocjacji (szeroko rozumianej korelacji, współzależności) stosuje się między innymi współczynnik korelacji punktowo-dwuseryjnej, d Cohena oraz AUC i D Somersa. Ostatnie dwie z tych miar mogą być również wykorzystywane, żeby opisać asocjację między zmienną dychotomiczną i porządkową (zob. 12.3).
12.2.1 Korelacja punktowo-dwuseryjna
Współczynnik korelacji punktowo-dwuseryjnej jest matematycznie równoważny współczynnikowi korelacji Pearsona obliczonemu gdy zmienna dychotomiczna jest kodowana w postaci zero-jedynkowej.
Można użyć również wzoru:
\[r_{pb} = \frac{ \bar{x}_1- \bar{x}_0}{s_x} \sqrt{ \frac{n_1 n_0}{n(n-1)}} \tag{12.9}\]
W powyższym wzorze \(\bar{x}_1\) to średnia wartość zmiennej ilościowej w pierwszej grupie, gdy zmienna dychotomiczna wynosi 1, zaś \(\bar{x}_0\) to średnia wartość zmiennej ilościowej uwzględniająca obserwacje w drugiej grupie (dla których wartość zmiennej dychotomicznej równej 0). Symbol \(s_x\) oznacza odchylenie standardowe zmiennej ilościowej, \(n_1\) i \(n_0\) to liczebności grup, a \(n\) łączna liczebność zbiorowości.
12.2.2 Siła efektu d Cohena
Miara d Cohena informuje, jak duża jest różnica między średnimi w dwóch grupach wyrażona w jednostkach zbiorczego odchylenia standardowego.
D Cohena wyznacza się, wykorzystując następujący wzór:
\[d = \frac{\bar{x}_1 - \bar{x}_0}{s_p} \tag{12.10}\]
\[ s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_0-1)s_0^2}{n_1+n_0-2} } \tag{12.11}\]
gdzie:
- \(\bar{x}_1\) to średnia w grupie 1,
- \(\bar{x}_0\) to średnia w grupie 09,
- \(s_p\) to zbiorcze odchylenie standardowe,
- \(s_1\) to odchylenie standardowe w grupie 1,
- \(s_0\) to odchylenie standardowe w grupie 0,
- \(n_1\) jest liczbą obserwacji w grupie 1,
- \(n_0\) jest liczbą obserwacji w grupie 0.
Miarę d Cohena nazywa się często miarą wielkości efektu umożliwiającą kwantyfikację różnicy między średnimi.
Typowe kierunkowe wskazówki dotyczące intepretacji wielkości efektu to:
- \(d \approx 0{,}2\) → mały efekt
- \(d \approx 0{,}5\) → umiarkowany efekt
- \(d \approx 0{,}8\) → duży efekt
Powyższe wartości są oczywiście tylko kierunkowe. Co uznamy za mały lub duży efekt zależy w znacznym stopniu od kontekstu badań. Dlatego d Cohena należy interpretować, porównując wielkość efektu z podobnymi badaniami, stanowiącymi punkt odniesienia, oraz uwzględniając znaczenie praktyczne i wiedzę dziedzinową.
Miara g Hedgesa jest bardzo podobna do miary d Cohena, zawiera jednak poprawkę na wielkość próby:
\[ g = d \left( 1 - \frac{3}{4(n_1 + n_0) - 9} \right) \tag{12.12}\]
12.3 Zmienne dychotomiczne i porządkowe
Gdy jedna ze zmiennych (\(X\), „ocena”) jest (przynajmniej) na skali porządkowej, a druga (\(Y\)) jest zmienną dychotomiczną, stopień asocjacji ocenia się, korzystając z rang lub zgodności parami.
12.3.1 AUC
Nazwa AUC oznacza „pole pod krzywą” (ang. area under the curve) i odnosi się do pola pod krzywą charakterystyki operacyjnej odbiornika (krzywą ROC), jednak definiując AUC, nie trzeba odnosić się do krzywej ROC.
Będzie nas interesować probabilistyczna interpretacja miary: AUC to prawdopodobieństwo, że losowo wybrany obiekt z \(Y\) = 1 będzie miał wyższą wartość zmiennej porządkowej\(X\) (wyższą „ocenę”) niż losowy obiekt z \(Y\) = 0.
Jeżeli istnieją obserwacje wiązane ze względu na zmienna porządkową, ta interpretacja jest uzupełniana w następujący sposób: AUC to suma prawdopodobieństwa, że obserwacja z \(Y=1\) otrzyma wyższą ocenę niż \(Y=0\) i połowy prawdopodobieństwa, że obie te obserwacje będą miały dokładnie taką samą ocenę:
\[\text{AUC} = \Pr(x_1 > x_0) + \frac{1}{2}\Pr(x_1 = x_0) \tag{12.13}\]
gdzie \(X_1\) i \(X_0\) oznaczają wartościu zmiennej porządkowej dla obserwacji wylosowanych odpowiednio z grupy \(Y=1\) i \(Y=0\).
W praktyce AUC może być wyznaczone na podstawie liczby par zgodnych i wiązanych.
\[\text{AUC} = \frac{C + \tfrac{1}{2} T}{n_0 n_1} \tag{12.14}\]
gdzie:
- \(C\) – liczba par, w których obserwacja z \(Y=1\) na wyższą ocenę (większą wartość zmiennej porządkowej \(X\)) niż obserwacja z \(Y=0\)
- \(T\) – liczba par, gdzie obserwacja z \(Y=1\) taką samą ocenę, co obserwacja z \(Y=0\)
- \(n_1\) – liczba obserwacji z \(Y=1\),
- \(n_0\) – liczba obserwacji z \(Y=0\),
- \(n_0 n_1\) – łączna liczba par składających się z jednej obserwacji z \(Y=0\) i jednej z \(Y=1\).
Gdy pomiędzy \(X\) i \(Y\) nie ma asocjacji, AUC jest równe lub bliskie 0,5.
12.4 Linki
Tabele 2x2 – asocjacja: (https://docs.google.com/spreadsheets/d/1ZX7en7LrJYtPQDBUcU7XmZ1fGoswKfo1J7TGR6bTaUY/edit?gid=305240099#gid=305240099)
Tabele 2x2 (przykłady): https://istats.shinyapps.io/Association_Categorical/
12.5 Zadania
Zadanie 12.1 Studentom obu płci zadano pytanie: “Czy w dniu wczorajszym oglądałaś/oglądałeś filmy przez dłużej niż pół godziny?”
Wykorzystując zebrane dane, oblicz φ (współczynnik fi) kwantyfikujący korelację pomiędzy płcią a oglądaniem filmów.
Sprawdź, czy obie poniższe metody zwracają ten sam wynik:
- tablica kontyngencji i wzór (12.1)),
- przekształcenie zmiennych do formy zero-jedynkowej i obliczenie współczynnik korelacji Pearsona.
Grupy zostały nazwane w ten sposób dla zachowania zgodności z poprzednim podrozdziałem.↩︎