Rozdział 12 Zmienne dychotomiczne a miary współzależności

12.1 Tabele 2×2

Najmniejszy rozmiar tablicy kontyngencji to 2×2. Tabela 2×2 podsumowuje łączny rozkład dwóch zmiennych dychotomicznych. Na bazie takiej tablicy zaproponowano wiele miar asocjacji i jakości klasyfikacji.

Przykład

381 studentom obu płci zadano następujące pytania: „Czy w dniu wczorajszym oglądałaś/oglądałeś filmy przez dłużej niż pół godziny?” oraz „Czy masz rozdzeństwo?”

Wyniki przedstawiono w poniższej tabeli:

	Oglądał(a) filmy	Nie oglądał(a) filmów
Ma rodzeństwo	270	54
Nie ma rodzeństwa	49	8

12.1.1 Współczynnik fi

Współczynnik fi (\(\phi\)) mierzy siłę i kierunek zależności pomiędzy dwiema zmiennymi dychotomicznymi.

Niech liczebności w tablicy kontyngencji mają następujące oznaczenia:

	Y = 0	Y = 1	Łącznie
X = 0	a	b	a+b
X = 1	c	d	c+d
Łącznie	a+c	b+d	n

Niech \(n = a + b + c + d\).

W takiej sytuacji współczynnik \(\phi\) definiuje się następująco:

\[\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \tag{12.1}\]

Współczynnik fi zawiera się w przedziale \([-1, 1]\).

Technicznie rzecz ujmując, współczynnik korelacji jest tożsamy ze współczynnikiem Pearsona między dwiema zmiennymi dychotomicznymi zakodowanymi w postaci zero-jedynkowej (zob. zadanie 12.1).

Współczynnik fi jest również ściśle związany ze statystyką chi-kwadrat (\(\chi^2\)) i V Craméra:

\[ \phi^2 = \chi^2/n \tag{12.2} \]

\[ |\phi| = V \tag{12.3} \]

Tutaj \(n\) oznacza łączną liczbę obserwacji (liczebność próby), zaś \(V\) Craméra obliczone jest dla tabeli 2×2 zgodnie z wzorem (11.3).

Przykład

382 studentów obu płci spytano czy w poprzedzającym tygodniu wypili ponad 2 litry napojów gazowanych. Otrzymano następujące wyniki:

	Kobieta	Mężczyzna
Nie	151	106
Tak	39	86

Współczynnik fi, miara korelacji między płcią (byciem mężczyzną) a piciem napojów gazowanych, wynosi:

\[\phi = \frac{151\cdot86-39\cdot106}{\sqrt{(151+39)(106+86)(151+106)(39+86)}} \approx 0{,}259\]

12.1.2 Iloraz szans

Iloraz szans, ang. odds ratio (OR) to nierzadko spotykany w analizie danych sposób porównywania prawdopodobieństw jakiegoś zdarzenia (wyrażonych w formie szans) między dwoma grupami.

Zanim zdefiniujemy iloraz szans, należy zdefiniować szansę. Szansa w matematyce odnosi liczbę przypadków wystąpienia jakiegoś zdarzenia do liczby przypadków, gdy to zdarzenie nie wystąpiło w tej samej grupie. Załóżmy, że mamy dychotomię „zdarzenie / brak zdarzenia” i jedną grupę A, oraz że w tej grupie a razy zaobserwowano zdarzenie i b razy tego zdarzenia nie zaobserwowano.

	Zdarzenie	Brak zdarzenia
Grupa A	a	b

Szansa tego zdarzenia jest zdefiniowana jako ułamek:

\[\text{szansa} = \frac{\text{liczba wystąpień zdarzenia}}{\text{liczba wystąpień braku zdarzenia}} = \frac{a}{b} \tag{12.4} \].

Szansa = 1 → oznacza, że równie często występuje zdarzenie i jego brak,
Szansa > 1 → oznacza, że zdarzenie występuje częściej niż brak zdarzenia,
Szansa < 1 → oznacza, że zdarzenie występuje rzadziej niż brak zdarzenia.

Iloraz szans to sposób na porównanie szans w dwóch grupach, oznaczmy te grupy jako A i B:

\[ \text{OR} = \frac{\text{szansa w grupie A}}{\text{szansa w grupie B}} \tag{12.5} \].

Iloraz szans = 1 → oznacza brak różnic między grupami,
OR > 1 → oznacza, że zdarzenie jest bardziej prawdopodobne w grupie A
OR < 1 → oznacza, że zdarzenie w grupie A jest mniej prawdopodobne niż w grupie B.

Szanse i ilorazy szans są popularne w statystyce medycznej oraz w modelowaniu statystycznym (np. w regresji logistycznej).

Przykład: Szanse przeżycia katastrofy Titanica w zależności od płci

Kobiety: przeżyło ~73,4%
Męzczyźni: przeżyło ~20,5%

Tabela 2x2:

	Kobieta	Mężczyzna
Przeżył(a)	359	352
Nie przeżył(a)	130	1366

Szanse przeżycia:

Kobiety: \(359 / 130 \approx 2{,}76\)
Mężczyźni: \(352 / 1366 \approx 0{,}26\)

Iloraz szans (kobiety/mężczyźni):

\[\text{OR} \approx \frac{2{,}76}{0{,}26} \approx 11\]

Szanse przeżycia katastrofy Titanica były około 11 razy wyższe w przypadku kobiet niż w przypadku mężczyzn.

12.1.3 Macierz pomyłek

Macierz pomyłek to szczególny rodzaj tabeli 2×2 używany do oceny tzw. binarnych modeli klasyfikacyjnych, czyli algorytmów, które przewidują przynależność obiektu do jednej z dwóch klas. Jedna z tych klas jest zwykle nazywana klasą dodatnią/pozytywną i oznaczana symoblem „+” lub liczbą 1, zaś druga nazywana jest ujemną/negatywną i oznaczana jest minusem („-”) lub liczbą 0.

Przykład

W marcu 1884 r. sierżant J. P. Finley rozpoczął publikowanie prognoz tornad dla 18 regionów USA. Prognozy były przygotowywane dwa razy dziennie. Po trzech miesiącach przedstawił wyniki swoich prognoz, wykorzystując następującą tabelę:

	Rzeczywistość: Tornado	Brak tornada	Łącznie
Prognoza: Tornado	28	72	100
Prognoza: Brak tornada	23	2680	2703
Łącznie	51	2752	2803

Każda z czterech komórek macierzy pomyłek ma swoją nazwę:

Prawdziwe wyniki pozytywne, ang. True Positives (TP) to przypadki, w których poprawnie została przewidziana klasa pozytywna. W tabeli sierżanta Finleya było 28 takich obserwacji.
Prawdziwe wyniki negatywne, ang. True Negatives (TN) to przypadki, w których model poprawnie przewidział klasę negatywną. W tabeli sierżanta Finleya było 2680 takich przypadków.
Fałszywe wyniki pozytywne, ang. False Positives (FP) to sytuacje, gdy model omyłkowo przewidzi klasę pozytywną, podczas gdy w rzeczywistości mamy do czynienia z klasą negatywną (72 obserwacji w tabeli).
Fałszywe wyniki negatywne, ang. False Negatives (FN) to sytuacje, gdy błędnie przewidziano klasę negatywną (23 przypadki w tabeli sierżanta Finleya).

Najprostszą miarą jakości predykcji jest dokładność (ang. accuracy). Jest to udział obserwacji, dla których prawidłowo przewidziano rzeczywistą klasę, we wszystkich obserwacjach.

\[ \text{Dokładność} = \frac{TP+TN}{TP+TN+FP+FN}. \tag{12.6}\]

Dokładność w tabeli sierżanta Finleya to:

\[\frac{28+2680}{2803} \approx 0{,}966\]

Dokładność to miara intuicyjna, jednak nie zawsze adekwatna. Zauważmy, że dokładność byłaby większa, gdyby sierżant Finley za każdym razem przewidywał, że tornada nie będzie!

Najczęściej stosuje się parę miar: czułość (ang. sensitivity), udział poprawnych klasyfikacji dla wszystkich rzeczywiście pozytywnych obserwacji, oraz swoistość, ang. specificity, udział poprawnych klasyfikacji, gdy klasa jest w rzeczywistości negatywna:

\[ \text{Czułość} = \frac{TP}{TP+FN}. \tag{12.7}\]

\[ \text{Swoistość} = \frac{TN}{TN+FP}. \tag{12.8}\]

W przykładzie sierżanta Finleya czułość wyniosła:

\[ \text{Czułość} = \frac{28}{51} \approx 0{,}549\]

zaś swoistość:

\[ \text{Swoistość} = \frac{2680}{2752} \approx 0{,}974.\]

12.2 Związek między zmiennymi dychotomicznymi a ilościowymi

Gdy jedna ze zmiennych jest dychotomiczna, a druga ilościowa, do pomiaru asocjacji (szeroko rozumianej korelacji, współzależności) stosuje się między innymi współczynnik korelacji punktowo-dwuseryjnej, d Cohena oraz AUC i D Somersa. Ostatnie dwie z tych miar mogą być również wykorzystywane, żeby opisać asocjację między zmienną dychotomiczną i porządkową (zob. 12.3).

12.2.1 Korelacja punktowo-dwuseryjna

Współczynnik korelacji punktowo-dwuseryjnej jest matematycznie równoważny współczynnikowi korelacji Pearsona obliczonemu gdy zmienna dychotomiczna jest kodowana w postaci zero-jedynkowej.

Można użyć również wzoru:

\[r_{pb} = \frac{ \bar{x}_1- \bar{x}_0}{s_x} \sqrt{ \frac{n_1 n_0}{n(n-1)}} \tag{12.9}\]

W powyższym wzorze \(\bar{x}_1\) to średnia wartość zmiennej ilościowej w pierwszej grupie, gdy zmienna dychotomiczna wynosi 1, zaś \(\bar{x}_0\) to średnia wartość zmiennej ilościowej uwzględniająca obserwacje w drugiej grupie (dla których wartość zmiennej dychotomicznej równej 0). Symbol \(s_x\) oznacza odchylenie standardowe zmiennej ilościowej, \(n_1\) i \(n_0\) to liczebności grup, a \(n\) łączna liczebność zbiorowości.

12.2.2 Siła efektu d Cohena

Miara d Cohena informuje, jak duża jest różnica między średnimi w dwóch grupach wyrażona w jednostkach zbiorczego odchylenia standardowego.

D Cohena wyznacza się, wykorzystując następujący wzór:

\[d = \frac{\bar{x}_1 - \bar{x}_0}{s_p} \tag{12.10}\]

\[ s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_0-1)s_0^2}{n_1+n_0-2} } \tag{12.11}\]

gdzie:

\(\bar{x}_1\) to średnia w grupie 1,
\(\bar{x}_0\) to średnia w grupie 0⁹,
\(s_p\) to zbiorcze odchylenie standardowe,
\(s_1\) to odchylenie standardowe w grupie 1,
\(s_0\) to odchylenie standardowe w grupie 0,
\(n_1\) jest liczbą obserwacji w grupie 1,
\(n_0\) jest liczbą obserwacji w grupie 0.

Miarę d Cohena nazywa się często miarą wielkości efektu umożliwiającą kwantyfikację różnicy między średnimi.

Typowe kierunkowe wskazówki dotyczące intepretacji wielkości efektu to:

\(d \approx 0{,}2\) → mały efekt
\(d \approx 0{,}5\) → umiarkowany efekt
\(d \approx 0{,}8\) → duży efekt

Powyższe wartości są oczywiście tylko kierunkowe. Co uznamy za mały lub duży efekt zależy w znacznym stopniu od kontekstu badań. Dlatego d Cohena należy interpretować, porównując wielkość efektu z podobnymi badaniami, stanowiącymi punkt odniesienia, oraz uwzględniając znaczenie praktyczne i wiedzę dziedzinową.

Miara g Hedgesa jest bardzo podobna do miary d Cohena, zawiera jednak poprawkę na wielkość próby:

\[ g = d \left( 1 - \frac{3}{4(n_1 + n_0) - 9} \right) \tag{12.12}\]

12.3 Zmienne dychotomiczne i porządkowe

Gdy jedna ze zmiennych (\(X\), „ocena”) jest (przynajmniej) na skali porządkowej, a druga (\(Y\)) jest zmienną dychotomiczną, stopień asocjacji ocenia się, korzystając z rang lub zgodności parami.

12.3.1 AUC

Nazwa AUC oznacza „pole pod krzywą” (ang. area under the curve) i odnosi się do pola pod krzywą charakterystyki operacyjnej odbiornika (krzywą ROC), jednak definiując AUC, nie trzeba odnosić się do krzywej ROC.

Będzie nas interesować probabilistyczna interpretacja miary: AUC to prawdopodobieństwo, że losowo wybrany obiekt z \(Y\) = 1 będzie miał wyższą wartość zmiennej porządkowej\(X\) (wyższą „ocenę”) niż losowy obiekt z \(Y\) = 0.

Jeżeli istnieją obserwacje wiązane ze względu na zmienna porządkową, ta interpretacja jest uzupełniana w następujący sposób: AUC to suma prawdopodobieństwa, że obserwacja z \(Y=1\) otrzyma wyższą ocenę niż \(Y=0\) i połowy prawdopodobieństwa, że obie te obserwacje będą miały dokładnie taką samą ocenę:

\[\text{AUC} = \Pr(x_1 > x_0) + \frac{1}{2}\Pr(x_1 = x_0) \tag{12.13}\]

gdzie \(X_1\) i \(X_0\) oznaczają wartościu zmiennej porządkowej dla obserwacji wylosowanych odpowiednio z grupy \(Y=1\) i \(Y=0\).

W praktyce AUC może być wyznaczone na podstawie liczby par zgodnych i wiązanych.

\[\text{AUC} = \frac{C + \tfrac{1}{2} T}{n_0 n_1} \tag{12.14}\]

gdzie:

\(C\) – liczba par, w których obserwacja z \(Y=1\) na wyższą ocenę (większą wartość zmiennej porządkowej \(X\)) niż obserwacja z \(Y=0\)
\(T\) – liczba par, gdzie obserwacja z \(Y=1\) taką samą ocenę, co obserwacja z \(Y=0\)
\(n_1\) – liczba obserwacji z \(Y=1\),
\(n_0\) – liczba obserwacji z \(Y=0\),
\(n_0 n_1\) – łączna liczba par składających się z jednej obserwacji z \(Y=0\) i jednej z \(Y=1\).

Gdy pomiędzy \(X\) i \(Y\) nie ma asocjacji, AUC jest równe lub bliskie 0,5.

12.3.2 D Somersa

12.4 Linki

Tabele 2x2 – asocjacja: (https://docs.google.com/spreadsheets/d/1ZX7en7LrJYtPQDBUcU7XmZ1fGoswKfo1J7TGR6bTaUY/edit?gid=305240099#gid=305240099)

Tabele 2x2 (przykłady): https://istats.shinyapps.io/Association_Categorical/

12.5 Zadania

Zadanie 12.1 Studentom obu płci zadano pytanie: “Czy w dniu wczorajszym oglądałaś/oglądałeś filmy przez dłużej niż pół godziny?”

Wykorzystując zebrane dane, oblicz φ (współczynnik fi) kwantyfikujący korelację pomiędzy płcią a oglądaniem filmów.

Sprawdź, czy obie poniższe metody zwracają ten sam wynik:

tablica kontyngencji i wzór (12.1)),
przekształcenie zmiennych do formy zero-jedynkowej i obliczenie współczynnik korelacji Pearsona.

Grupy zostały nazwane w ten sposób dla zachowania zgodności z poprzednim podrozdziałem.↩︎