Rozdział 11 Współzależność cech jakościowych

11.1 Tablice kontyngencji

Tablica kontyngencji (zwana również tabelą krzyżową) to rodzaj tabeli używanej w statystyce do podsumowania relacji między dwiema zmiennymi jakościowymi. Przedstawia ona liczebność lub udział obserwacji, które należą do każdej kombinacji kategorii.

Wiersze reprezentują kategorie jednej zmiennej.
Kolumny reprezentują kategorie drugiej zmiennej.
Komórki zawierają liczebności lub udziały (np. procentowe) obserwacji.

Tablice kontyngencji:

pomagają identyfikować zależności między zmiennymi kategorialnymi,
umożliwiają porównywanie rozkładów między grupami,
zapewniają dane wejściowe dla miar asocjacji (takich jak V Craméra) lub testów statystycznych (takich jak test chi-kwadrat)

Przykład

W październiku 2025 r. 94 studentów zapytano o płeć i kolor oczu. Odpowiedzi podsumowano w poniższej tabeli kontyngencji:

	kobieta	mężczyzna	razem
niebieskie	16	15	31
brązowe	16	17	33
zielone	5	14	19
inne	5	6	11
razem	42	52	94

11.2 V Craméra

Współczynnik V Craméra jest miarą związku między dwiema zmiennymi jakościowymi opartą na tablicy kontyngencji.

Rozważmy tablicę kontyngencji mającą:

\(r\) wierszy,
\(c\) kolumn,
obserwowane liczebności \(O_{ij}\) w komórkach \((i,j)\), czyli w \(i\)-tym wierszu w \(j\)-tej kolumnie,
łączną liczebność próby \(n\).

Statystyka chi-kwadrat (\(\chi^2\)) jest zdefiniowana jako:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{11.1} \]

gdzie oczekiwane częstotliwości \(E_{ij}\) są określone przez:

\[E_{ij} = \frac{(\text{liczebność wiersza}_i)(\text{liczebność kolumny}_j)}{n} \tag{11.2} \].

Zauważmy, że im bardziej obserwowane liczebności są zbliżone do liczebności oczekiwanych, tym mniejsza jest wartość statystyki chi-kwadrat. Z kolei im większe są rozbieżności między obserwowanymi i oczekiwanymi liczebnościami, tym większa staje się wartość statystyka tej statystyki, co dostarcza silniejszych przesłanek na istnienie zależności statystycznej w procesie generującym dane.

V Craméra jest funkcją statystyki chi-kwadrat i odpowiednich liczebności:

\[V = \sqrt{ \frac{\chi^2}{n \cdot \min(r - 1, c - 1)} } \tag{11.3}\]

gdzie:

\(\chi^2\) to statystyka chi-kwadrat zdefiniowana powyżej,
\(n\) to całkowita liczba obserwacji,
\(r\) to liczba wierszy,
\(c\) to liczba kolumn.

Konstrukcja współczynnika V Craméra sprawia, że spełnia on następującą nierówność:

\(0 \leqslant V \leqslant 1\).

\(V = 0\) oznacza brak związku między zmiennymi
\(V = 1\) oznacza idealne powiązanie

Powszechnie stosowanymi w praktyce nieformalnymi punktami odniesienia są:

V Craméra	Siła związku
0,00-0,10	Zależność nieznaczna
0,10-0,30	Zależność słaba
0,30-0,50	Zależność umiarkowana
powyżej 0,50	Zależność silna

Interpretacji należy zawsze dokonywać w kontekście danej dziedziny.

11.3 Test niezależności chi-kwadrat

Test niezależności chi-kwadrat to procedura statystyczna stosowana do oceny, czy proces generujący dane generuje badane zmienne niezależnie. Wykorzystuje on statystykę chi-kwadrat wprowadzoną w równaniu (11.1), której duże wartości sugerują zależność między zmiennymi.

Pakiety statystyczne wykonujące test niezależności chi-kwadrat obliczają p-value, wartość p. W tym teście wartość p wskazuje, jak prawdopodobne jest zaobserwowanie statystyki chi-kwadrat co najmniej tak dużej, jak uzyskana, przy założeniu, że hipoteza zerowa – mówiąca, że w procesie generującym dane badane dwie zmienne są niezależne – jest prawdziwa.

Test chi-kwadrat działa najlepiej, gdy oczekiwane liczebności (wszystkie albo przynajmniej w większości) przekraczają 5.

Zauważmy, że test chi-kwadrat wskazuje, czy powiązanie istnieje, ale nie określa jego siły. Miary takie jak V Craméra są zatem wykorzystywane do ilościowego określenia siły związku.

Przykład

W teście badamy związek między kolorem oczu a płcią na podstawie zebranej próby.

chisq.test(table(students$eye_colour, students$gender))

## 
##  Pearson's Chi-squared test
## 
## data:  table(students$eye_colour, students$gender)
## X-squared = 3.3912, df = 3, p-value = 0.3352

Statystyka chi-kwadrat (\(\chi^2\)) wynosi 3,39, zaś p-value w tym teście wyniosła 0,335.

Oznacza to, że tak duża (lub większa) rozbieżność między zaobserwowanymi a oczekiwanymi liczebnościami może pojawiać się stosunkowo często — w przybliżeniu w jednej trzeciej przypadków — przy założeniu, że płeć i kolor oczu są w rzeczywistości niezależne. Mówiąc precyzyjniej, gdyby płeć i kolor oczu były generowane niezależnie, to wartość statystyki \(\chi^2\) nie mniejsza niż 3,39 pojawiłaby się w około 33,5% analogicznych prób wyłącznie na skutek losowych fluktuacji.

W konsekwencji dane nie dostarczają podstaw do odrzucenia hipotezy o niezależności, a więc nie wskazują na istnienie związku między tymi dwiema zmiennymi.

11.4 Stosunek korelacyjny eta i eta-kwadrat

Stosunek korelacyjny (oznaczany przez \(\eta\), eta) i eta-kwadrat (\(\eta^2\)) są miarami asocjacji stosowanymi, gdy:

jedna ze zmiennych (często określana w tym kontekście jako zmienna niezależna, podobnie jak w modelowaniu regresji) jest jakościowa z \(k\) kategoriami (grupami)
a druga (zmienna zależna) jest ilościowa.

Miary te umożliwiają określenie, jak dużą część zmienności zmiennej liczbowej można wyjaśnić przynależnością do grupy.

Niech \(y_{ij}\) oznacza obserwację \(j\) w grupie \(i\), \(\bar{y}_i\) – średnią w grupie \(i\), a \(\bar{y}\) – średnią ogólną.

Całkowita suma kwadratów odchyleń (SST) dana jest wzorem:

\[\text{SST} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y})^2 \tag{11.4}\]

Międzygrupowa suma kwadratów (SSB) wynosi:

\[\text{SSB} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y})^2 \tag{11.5} \]

Eta-kwadrat \((\eta^2)\) definiuje się jako udział całkowitej zmienności wyjaśnionej przez zmienną grupującą:

\[\eta^2 = \frac{\text{SSB}}{\text{SST}} \tag{11.6} \]

Własności:

\(0 \leqslant \eta^2 \leqslant 1\)
\(\eta^2 = 0\) oznacza brak efektu grupowania (zmienna jakościowa i ilościowa nie są ze sobą powiązane),
\(\eta^2 = 1\) oznacza idealne rozdzielenie grup (doskonałe powiązanie).

Czasem rozważa się pierwiastek z eta-kwadrat: stosunek korelacyjny \(\eta\) zdefiniowany jest jako:

\[\eta = \sqrt{\eta^2} = \sqrt{ \frac{\text{SSB}}{\text{SST}}} \tag{11.7} \]

Współczynnik \(\eta\) można interpretować jako uogólnienie współczynnika korelacji Pearsona na sytuacje, w których jedna ze zmiennych ma charakter jakościowy (jest skategoryzowana), a druga jest zmienną ilościową.

11.5 Linki

Tablice kontyngencji i test chi-kwadrat: https://istats.shinyapps.io/ChiSquaredTest/

11.6 Zadania

Zadanie 11.1 W październiku 2025 roku 94 studentów zapytano o płeć oraz kolor oczu. Odpowiedzi zestawiono w poniższej tabeli kontyngencji:

	Kobiety	Mężczyźni	Razem
Oczy niebieskie	16	15	31
Oczy brązowe	16	17	33
Oczy zielone	5	14	19
Inny kolor	5	6	11
Łącznie	42	52	94

Wyznacz oczekiwane liczebności przy założeniu niezależności na podstawie powyższej tabeli.

	Kobiety	Mężczyźni	Razem
Oczy niebieskie			31
Oczy brązowe			33
Oczy zielone			19
Inny kolor			11
Łącznie	42	52	94

Oblicz statystykę \(\chi^2\):

Oblicz V Craméra:

Zadanie 11.2 94 studentów zapytano, czy zgadzają się ze stwierdzeniem: „Statystyka jest trudna”. Odpowiedzi zestawiono w tabeli:

	Kobiety	Mężczyźni	Razem
Zgadzam się	20	24	44
Ani się zgadzam, ani nie zgadzam	17	18	35
Nie zgadzam się	5	10	15
Razem	42	52	94

Zadanie 11.3 Podczas XIX Międzynarodowego Konkursu Pianistycznego im. Fryderyka Chopina w 2025 roku uczestnicy korzystali z fortepianów różnych marek. Zbadaj statystyczną zależność między marką fortepianu a awansem do II etapu konkursu. Zaproponuj odpowiedni test statystyczny oraz miarę siły związku, korzystając z danych (Gulczyński 2025a, 2025b):

Marka fortepianu	Liczba uczestników	Awans do drugiego etapu
Steinway	42	24
Kawai	21	11
Other brands	21	5

Zadanie 11.4 Podczas trzech wykładów w trzech różnych grupach prowadzący przyniósł duży słój wypełniony monetami i poprosił studentów o oszacowanie łącznej kwoty pieniędzy znajdującej się w środku.

Korzystając z podlinkowanych danych, zbadaj, czy istnieje związek między grupą zajęciową a oszacowaną kwotą.

Literatura

Gulczyński, Michał. 2025a. “Piano Brands at the 19th Chopin Competition.” Tweet. Twitter. https://x.com/gulczynskim/status/1975650971050254527.

———. 2025b. “Piano Brands at the 19th Chopin Competition: Participants of the 2nd Stage.” Tweet. Twitter. https://x.com/gulczynskim/status/1975948634597511385.