Rozdział 10 Regresja wieloraka

10.1 Wzór

W wielorakiej regresji liniowej występuje więcej niż jedna zmienna niezależna (wejściowa, objaśniająca) \(X\). Niech liczba zmiennych objaśniających będzie oznaczona przez \(k\). Zmienne objaśniające będą oznaczane jako \(X_1\), ..., \(X_k\). I-tą obserwację zmiennej \(X_2\) będziemy oznaczać \(x_{i2}\) lub \(x_{i,2}\).

Dopasowane równanie wielorakiej regresji liniowej ma postać:

\[\widehat{y_i} = \widehat{\beta}_0 + \widehat{\beta}_1 x_{i1} + \widehat{\beta}_2 x_{i2} + \cdots + \widehat{\beta}_k x_{ik}, \tag{10.1}\]

gdzie \(\widehat{y_i}\) to dopasowana wartość odpowiedzi dla obserwacji \(i\), a \(\widehat{\beta}_0\), \(\widehat{\beta}_1\), \(\ldots\), \(\widehat{\beta}_k\) to oszacowane współczynniki regresji.

Jeśli istnieją dwie zmienne objaśniające (\(k=2\)), równanie regresji (10.1) opisuje płaszczyznę w przestrzeni 3D (patrz rysunek 10.1); jeśli istnieje więcej \(X\), równanie opisuje hiperpłaszczyznę w przestrzeni \((k+1)\)-wymiarowej.

Rysunek 10.1: A 3D-plot illustrating a multiple regression with two explantory variables.

10.2 Interpretacja

Każdy współczynnik regresji w modelu regresji wielorakiej mierzy oczekiwaną zmianę w zmiennej objaśniajnej, gdy powiązana z nią zmienna objaśniająca wzrośnie o jedną jednostkę, przy zachowaniu wszystkich innych zmiennych objaśniających na stałym poziomie (łac. ceteris paribus).

  • Wyraz wolny (\(\widehat{\beta}_0\)):

Punkt przecięcia reprezentuje oczekiwaną wartość zmiennej objaśnianej \(Y\), gdy wszystkie zmienne objaśniające \(X\) są równe zero. W zależności od kontekstu taka wartość może mieć interpretację lub nie.

  • Współczynniki nachylenia (\(\widehat{\beta}_1, \widehat{\beta}_2, \dots, \widehat{\beta}_k\)):

Współczynnik \(\hat{\beta}_j\) przedstawia oszacowaną w ramach modelu zmianę przeciętną zmiennej objaśnianej \(Y\) związaną ze wzrostem o jedną jednostkę zmiennej \(X_j\), przy założeniu, że wszystkie inne zmienne (\(X\)) pozostają niezmienione. Konieczność uwzględnienia w interpretacji formuły „ceteris paribus” (wszystko inne bez zmian) odróżnia regresję wieloraką od regresji prostej.

Dopasowane wartości (\(\hat{y}_i\)) leżą na hiperpłaszczyźnie regresji zdefiniowanej równaniem (10.1). Reszty to odchylenia (odległości „w pionie”) obserwowanych wartości zmiennej objaśnianej od tej hiperpłaszczyzny.

Przykład:.

Około 1888 roku zebrano dane z 47 francuskojęzycznych "prowincji" Szwajcarii. Zmienna Fertility (płodność) to indeks płodności, opartym na liczbie dzieci przypadających na kobietę; jest ona wyrażona jako wartość procentowa w stosunku do wysoce płodnej grupy Huterytów, służącej jako punkt odniesienia. Zmienna Education reprezentuje odsetek poborowych z wykształceniem powyżej szkoły podstawowej. Zmienna Infant.Mortality (śmiertelność niemowląt) wskazuje odsetek dzieci, które umierają przed osiągnięciem pierwszego roku życia, w stosunku do żywych urodzeń.

## 
## Call:
## lm(formula = Fertility ~ Education + Infant.Mortality, data = swiss)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.3906  -6.0088  -0.9624   5.8808  21.0736 
## 
## Coefficients:
##                  Estimate Std. Error t value    Pr(>|t|)    
## (Intercept)       48.8213     8.8904   5.491 0.000001875 ***
## Education         -0.8167     0.1298  -6.289 0.000000127 ***
## Infant.Mortality   1.5187     0.4287   3.543    0.000951 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.426 on 44 degrees of freedom
## Multiple R-squared:  0.5648, Adjusted R-squared:  0.545 
## F-statistic: 28.55 on 2 and 44 DF,  p-value: 0.00000001126

10.3 Zmienne dychotomiczne w regresji liniowej

Zmienna dychotomiczna (binarna) przyjmuje tylko dwie wartości, zwykle kodowane jako 0 i 1:

\[ x_{i} = \begin{cases} 1 & \text{jeśli cecha jest obecna}, \\ 0 & \text{w przeciwnym razie}. \end{cases}\]

Zmienne dychotomiczne są również nazywane zmiennymi sztucznymi lub zmiennymi wskaźnikowymi. Stosuje się je często w regresji wielorakiej, ponieważ pozwalają na uwzględnienie zmiennych jakościowych – takich jak płeć, grupa poddana leczeniu vs. grupa kontrolna, weekend vs. dzień powszedni, tak/nie itp.

Zmienne dychotomiczne działają podobnie do innych zmiennych objaśniających. Posłuży się przykładem następującego modelu:

\[\widehat{y}_i = \widehat{\beta}_0 + \widehat{\beta}_1 x_{i1} + \widehat{\beta}_2 d_i,\]

gdzie \(x_{i1}\) to wartości zmiennej ciągłej \(X_1\) (np. dochód), a \(d_i\) to wartości zmiennej binarnej \(X_2\) (np. płeć = 1 jeśli kobieta, 0 jeśli mężczyzna).

W tym modelu:

  • \(\widehat{\beta}_1\) mierzy różnicę między przewidywanymi średnimi wartościami \(Y\), gdy \(X_1\) wzrasta o jedną jednostkę, a wartość \(X_2\) pozostaje stała.

  • \(\widehat{\beta}_2\) mierzy różnicę między dwiema grupami zmiennej \(X_2\) przy utrzymywaniu stałej wartości \(X_1\).

Przykład:.

Model przewiduje rozpiętość prawej dłoni (Right hand span) na podstawie wzrostu (Height) oraz płci (Gender) na danych zebranych od próby składającej się z 381 studentów. Zgodnie z oszacowanym modelem, dla ustalonej płci przeciętna rozpiętość dłoni zwiększa się o około 0,08 cm (0,8 mm) na każdy dodatkowy centymetr wzrostu.

Po uwzględnieniu wzrostu, przeciętna różnica w rozpiętości dłoni między płciami wynosi około 1,32 cm. Typowa różnica między wartością przewidywaną przez model a rzeczywistą wartością rozpiętości dłoni wynosi około 1,52 cm. Model „wyjaśnia” około 44,5% zróżnicowania rozpiętości dłoni w badanej próbie.

## 
## Call:
## lm(formula = right_hand_span ~ height + gender, data = a)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.5086 -0.9920  0.0785  1.0021  4.2563 
## 
## Coefficients:
##             Estimate Std. Error t value        Pr(>|t|)    
## (Intercept)  4.76530    2.11696   2.251           0.025 *  
## height       0.08472    0.01253   6.759 0.0000000000527 ***
## genderMale   1.32469    0.23267   5.693 0.0000000250411 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.518 on 378 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.4449, Adjusted R-squared:  0.442 
## F-statistic: 151.5 on 2 and 378 DF,  p-value: < 0.00000000000000022

10.4 Notacja macierzowa

Aby przedstawić wzory na oszacowania współczynnika \(\widehat{\beta}\) w regresji wielokrotnej, wprowadzamy następującą notację macierzową:

  • Macierz układu \(\mathbf{X}\):

Macierz układu znana jest też pod innymi nazwami (vide wikipedia). Jest to macierz zawierająca wszystkie zmienne objaśniające. Każdy wiersz odpowiada jednej obserwacji, pierwsza kolumna składa się z jedynek (odpowiadających wyrazowi wolnemu), a pozostałych \(k\) kolumn zawiera zaobserwowane wartości zmiennych \(X_1, \ldots, X_k\).

  • Wektor odpowiedzi (\(\mathbf{y}\)):

Wektor kolumnowy zawierający zaobserwowane wartości zmiennej objaśnianej (\(Y\)).

W takiej notacji wzór na dopasowany metodą najmniejszych kwadratów wektor \(\widehat{\beta}\) (wektor kolumnowy zawierający oszacowania \(\widehat{\beta}_0, \dots, \widehat{\beta}_k\)) można wyrazić w następujący sposób:

.

\[\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} \tag{10.2}\]

Macierz układu $\mathbf{X}$ i wektor odpowiedzi $\mathbf{y}$ – ilustracja

Rysunek 10.2: Macierz układu \(\mathbf{X}\) i wektor odpowiedzi \(\mathbf{y}\) – ilustracja

10.5 Linki

Regresja wieloraka – wizualizacja: https://istats.shinyapps.io/MultivariateRelationship/