Rozdział 11 Współzależność cech jakościowych
11.1 Tablice kontyngencji
Tablica kontyngencji (zwana również tabelą krzyżową) to rodzaj tabeli używanej w statystyce do podsumowania relacji między dwiema zmiennymi jakościowymi. Przedstawia ona liczebność lub udział obserwacji, które należą do każdej kombinacji kategorii.
- Wiersze reprezentują kategorie jednej zmiennej.
- Kolumny reprezentują kategorie drugiej zmiennej.
- Komórki zawierają liczebności lub udziały (np. procentowe) obserwacji.
Tablice kontyngencji:
- pomagają identyfikować zależności między zmiennymi kategorialnymi,
- umożliwiają porównywanie rozkładów między grupami,
- zapewniają dane wejściowe dla miar asocjacji (takich jak V Craméra) lub testów statystycznych (takich jak test chi-kwadrat)
Przykład
W październiku 2025 r. 94 uczniów zapytano o płeć i kolor oczu. Odpowiedzi podsumowano w poniższej tabeli kontyngencji:
| kobieta | mężczyzna | razem | |
|---|---|---|---|
| niebieskie | 16 | 15 | 31 |
| brązowe | 16 | 17 | 33 |
| zielone | 5 | 14 | 19 |
| inne | 5 | 6 | |
| razem | 42 | 52 | 94 |
11.2 V Craméra
Współczynnik V Craméra jest miarą związku między dwiema zmiennymi jakościowymi opartą na tablicy kontyngencji.
Rozważmy tablicę kontyngencji mającą:
- \(r\) wierszy,
- \(c\) kolumn,
- obserwowane liczebności \(O_{ij}\) w komórkach \((i,j)\),
- łączną liczebność próby \(n\).
Statystyka chi-kwadrat (\(\chi^2\)) jest zdefiniowana jako:
\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{11.1} \]
gdzie oczekiwane częstotliwości \(E_{ij}\) są określone przez:
\[E_{ij} = \frac{(\text{liczebność wiersza}_i)(\text{liczebność kolumny}_j)}{n} \tag{11.2} \].
Zauważmy, że im bardziej obserwowane liczebności są zbliżone do liczebności oczekiwanych, tym mniejsza jest wartość statystyki chi-kwadrat. Z kolei im większe są rozbieżności między obserwowanymi i oczekiwanymi liczebnościami, tym większa staje się wartość statystyka tej statystyki, co dostarcza silniejszych przesłanek na istnienie zależności statystycznej w procesie generującym dane.
V Craméra jest funkcją statystyki chi-kwadrat i odpowiednich liczebności:
\[V = \sqrt{ \frac{\chi^2}{n \cdot \min(r - 1, c - 1)} } \tag{11.3}\]
gdzie:
- \(\chi^2\) to statystyka chi-kwadrat zdefiniowana powyżej,
- \(n\) to całkowita liczba obserwacji,
- \(r\) to liczba wierszy,
- \(c\) to liczba kolumn.
Konstrukcja współczynnika V Craméra sprawia, że spełnia on następującą nierówność:
\(0 \leqslant V \leqslant 1\).
- \(V = 0\) oznacza brak związku między zmiennymi
- \(V = 1\) oznacza idealne powiązanie
Powszechnie stosowanymi w praktyce nieformalnymi punktami odniesienia są:
| V Craméra | Siła związku |
|---|---|
| 0,00-0,10 | Zależność nieznaczna |
| 0,10-0,30 | Zależność słaba |
| 0,30-0,50 | Zależność umiarkowana |
| 0,50 | Zależność silna |
Interpretacji należy zawsze dokonywać w kontekście danej dziedziny.
11.3 Test niezależności chi-kwadrat
Test niezależności chi-kwadrat to procedura statystyczna stosowana do oceny, czy proces generujący dane generuje badane zmienne niezależnie. Wykorzystuje on statystykę chi-kwadrat wprowadzoną w równaniu (11.1), której duże wartości sugerują zależność między zmiennymi.
Pakiety statystyczne wykonujące test niezależności chi-kwadrat obliczają p-value, wartość p. W tym teście wartość p wskazuje, jak prawdopodobne jest zaobserwowanie statystyki chi-kwadrat co najmniej tak dużej, jak uzyskana, przy założeniu, że hipoteza zerowa – mówiąca, że w procesie generującym dane badane dwie zmienne są niezależne – jest prawdziwa.
Test chi-kwadrat działa najlepiej, gdy oczekiwane liczebności (wszystkie albo przynajmniej w większości) przekraczają 5.
Zauważmy, że test chi-kwadrat wskazuje, czy powiązanie istnieje, ale nie określa jego siły. Miary takie jak V Craméra są zatem wykorzystywane do ilościowego określenia siły związku.
Przykład
W teście badamy związek między kolorem oczu a płcią na podstawie zebranej próby.
##
## Pearson's Chi-squared test
##
## data: table(students$eye_colour, students$gender)
## X-squared = 3.3912, df = 3, p-value = 0.3352
Statystyka chi-kwadrat (\(\chi^2\)) wynosi 3,39, zaś p-value w tym teście wyniosła 0,335.
Oznacza to, że tak duża (lub większa) rozbieżność między zaobserwowanymi a oczekiwanymi liczebnościami może pojawiać się stosunkowo często — w przybliżeniu w jednej trzeciej przypadków — przy założeniu, że płeć i kolor oczu są w rzeczywistości niezależne. Mówiąc precyzyjniej, gdyby płeć i kolor oczu były generowane niezależnie, to wartość statystyki \(\chi^2\) nie mniejsza niż 3,39 pojawiłaby się w około 33,5%% analogicznych prób wyłącznie na skutek losowych fluktuacji.
W konsekwencji dane nie dostarczają podstaw do odrzucenia hipotezy o niezależności, a więc nie wskazują na istnienie związku między tymi dwiema zmiennymi.
11.4 Stosunek korelacyjny eta i eta-kwadrat
Stosunek korelacyjny (oznaczany przez \(\eta\), eta) i eta-kwadrat (\(\eta^2\)) są miarami asocjacji stosowanymi, gdy:
jedna ze zmiennych (często określana w tym kontekście jako zmienna niezależna, podobnie jak w modelowaniu regresji) jest jakościowa z \(k\) kategoriami (grupami)
a druga (zmienna zależna) jest ilościowa.
Miary te umożliwiają określenie, jak dużą część zmienności zmiennej liczbowej można wyjaśnić przynależnością do grupy.
Niech \(y_{ij}\) oznacza obserwację \(j\) w grupie \(i\), \(\bar{y}_i\) – średnią w grupie \(i\), a \(\bar{y}\) – średnią ogólną.
Całkowita suma kwadratów odchyleń (SST) dana jest wzorem:
\[\text{SST} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y})^2 \tag{11.4}\]
Międzygrupowa suma kwadratów (SSB) wynosi:
\[\text{SSB} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y})^2 \tag{11.5} \]
Eta-kwadrat \((\eta^2)\) definiuje się jako udział całkowitej zmienności wyjaśnionej przez zmienną grupującą:
\[\eta^2 = \frac{\text{SSB}}{\text{SST}} \tag{11.6} \]
Własności:
- \(0 \leqslant \eta^2 \leqslant 1\)
- \(\eta^2 = 0\) oznacza brak efektu grupowania (zmienna jakościowa i ilościowa nie są ze sobą powiązane),
- \(\eta^2 = 1\) oznacza idealne rozdzielenie grup (doskonałe powiązanie).
Czasem rozważa się pierwiastek z eta-kwadrat: stosunek korelacyjny \(\eta\) zdefiniowany jest jako:
\[\eta = \sqrt{\eta^2} = \sqrt{ \frac{\text{SSB}}{\text{SST}}} \tag{11.7} \]
Współczynnik \(\eta\) można interpretować jako uogólnienie współczynnika korelacji Pearsona na sytuacje, w których jedna ze zmiennych ma charakter jakościowy (jest skategoryzowana), a druga jest zmienną ilościową.
11.5 Linki
Tablice kontyngencji i test chi-kwadrat: https://istats.shinyapps.io/ChiSquaredTest/
11.6 Zadania
Zadanie 11.1 W październiku 2025 roku 94 studentów zapytano o płeć oraz kolor oczu. Odpowiedzi zestawiono w poniższej tabeli kontyngencji:
| Kobiety | Mężczyźni | Razem | |
|---|---|---|---|
| Oczy niebieskie | 16 | 15 | 31 |
| Oczy brązowe | 16 | 17 | 33 |
| Oczy zielone | 5 | 14 | 19 |
| Inny kolor | 5 | 6 | 11 |
| Łącznie | 42 | 52 | 94 |
Wyznacz oczekiwane liczebności przy założeniu niezależności na podstawie powyższej tabeli.
| Kobiety | Mężczyźni | Razem | |
|---|---|---|---|
| Oczy niebieskie | 31 | ||
| Oczy brązowe | 33 | ||
| Oczy zielone | 19 | ||
| Inny kolor | 11 | ||
| Łącznie | 42 | 52 | 94 |
Oblicz statystykę \(\chi^2\):
Oblicz V Craméra:
Zadanie 11.2 94 studentów zapytano, czy zgadzają się ze stwierdzeniem: „Statystyka jest trudna”. Odpowiedzi zestawiono w tabeli:
| Kobiety | Mężczyźni | Razem | |
|---|---|---|---|
| Zgadzam się | 20 | 24 | 44 |
| Ani się zgadzam, ani nie zgadzam | 17 | 18 | 35 |
| Nie zgadzam się | 5 | 10 | 15 |
| Razem | 42 | 52 | 94 |
Zadanie 11.3 Podczas XIX Międzynarodowego Konkursu Pianistycznego im. Fryderyka Chopina w 2025 roku uczestnicy korzystali z fortepianów różnych marek. Zbadaj statystyczną zależność między marką fortepianu a awansem do II etapu konkursu. Zaproponuj odpowiedni test statystyczny oraz miarę siły związku, korzystając z danych (Gulczyński 2025a, 2025b):
| Marka fortepianu | Liczba uczestników | Awans do drugiego etapu |
|---|---|---|
| Steinway | 42 | 24 |
| Kawai | 21 | 11 |
| Other brands | 21 | 5 |
Zadanie 11.4 Podczas trzech wykładów w trzech różnych grupach prowadzący przyniósł duży słój wypełniony monetami i poprosił studentów o oszacowanie łącznej kwoty pieniędzy znajdującej się w środku.
Korzystając z podlinkowanych danych, zbadaj, czy istnieje związek między grupą zajęciową a oszacowaną kwotą.