A Wzory
A.1 Liczba przedziałów klasowych – histogram
- Reguła pierwiastka kwadratowego:
\[k=\sqrt{n} \tag{A.1}\]
- Reguła Sturgesa:
\[k=1+log_2(n) \tag{A.2}\]
- Reguła Freedmana-Diaconisa:
\[\text{Szerokość przedziału}=\frac{2\cdot IQR}{\sqrt[3]{n}} \tag{A.3}\]
- Reguła Scotta
\[\text{Szerokość przedziału}=\frac{3\cdot s}{\sqrt[3]{n}} \tag{A.4}\]
A.2 Miary tendencji centralnej
- Średnia arytmetyczna:
\[\begin{equation} \overline{x} = \frac{\sum_{i=1}^n x_i}{n} \tag{A.5} \end{equation}\]
- Ważona średnia arytmetyczna:
\[\overline{x}_{\text{weighted}} =\sum_{i=1}^n x_iw_i \tag{A.6}\]
- Średnia harmoniczna:
\[ H = \frac{n}{\sum_{i=1}^n\frac{1}{x_i}} \tag{A.7}\]
- Ważona średnia harmoniczna:
\[ H_{\text{weighted}} = \frac{1}{\sum_{i=1}^n\frac{w_i}{x_i}} \tag{A.8}\]
- Średnia geometryczna:
\[ G = \left(x_1\cdot x_2\cdot ... \cdot x_n\right)^{1/n} = \left(\prod_i x_i\right)^{1/n} \tag{A.9}\]
\[ G = \text{exp} \left(\frac {1}{n}\sum \limits _{i=1}^{n}\ln x_{i}\right) \tag{A.10}\]
- Ważona średnia geometryczna:
\[ G_{\text{weighted}} = \text{exp} \left(\sum \limits _{i=1}^{n}w_i\ln x_{i}\right) \tag{A.11}\]
- Przybliżona mediana na podstawie szeregu rozdzielczego przedziałowego:
\[ Me = l_M + \left(\frac{n}{2}-n_{M-}\right)\frac{h_M}{n_M} \tag{A.12}\]
- Dominanta interpolowana z szeregu rozdzielczego z równymi przedziałami:
\[ Mo = l_m + \frac{n_m - n_{m-1}}{(n_m - n_{m-1}) + (n_m - n_{m+1})} \cdot h \tag{A.13}\]
- Dominanta interpolowana z szeregu rozdzielczego z przedziałami o różnej szerokości:
\[ Mo = l_m + \frac{d_m - d_{m-1}}{(d_m - d_{m-1}) + (d_m - d_{m+1})} \cdot h_m \tag{A.14}\]
A.3 Miary rozproszenia
- Odchylenie standardowe:
\[ \widehat{\sigma}_x = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n}} \tag{A.15}\]
\[\begin{equation} s_x = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1}} \tag{A.16} \end{equation}\]
- Wariancja:
\[\begin{equation} \widehat{\sigma}^2_x = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n} \tag{A.17} \end{equation}\]
\[\begin{equation} s^2_x = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1} \tag{A.18} \end{equation}\]
- Współczynnik zmienności:
\[\begin{equation} V_x = \frac{s_x}{\overline{x}} \tag{A.19} \end{equation}\]
- Średnie odchylenie bezwzględne:
\[\begin{equation} MAD_x = \frac{\sum_{i=1}^n |x_i-\overline{x}|}{n} \tag{A.20} \end{equation}\]
- Rozstęp międzykwartylowy:
\[\begin{equation} IQR = Q_3 - Q_1 \tag{A.21} \end{equation}\]
- Odchylenie ćwiartkowe:
\[Q = IQR/2 \tag{A.22}\]
- Pozycyjny współczynnik zmienności:
\[V = Q/Me \tag{A.23}\]
A.4 Standaryzacja danych (z-score)
\[ z = \frac{x - \text{średnia}}{\text{odch. standardowe}} \tag{A.24} \]
A.5 Kształt rozkładu
- Skośność:
\[\begin{equation} g_{1} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_x}\right)^3 \tag{A.25} \end{equation}\]
\[\begin{equation} G_{1} = \frac{\sqrt{n(n-1)}}{n-2}g_{1} \tag{A.26} \end{equation}\]
- Miara skośności Pearsona oparta na medianie:
\[ \frac{3\cdot(\text{średnia} - \text{mediana})}{\text{odchylenie standardowe}} \tag{A.27}\]
- Miara skośności Bowleya:
\[ \frac{\text{kwartyl 1} + \text{kwartyl 3}- 2\cdot\text{mediana}}{\text{kwartyl 3} - \text{kwartyl 1}} \tag{A.28}\]
- Miara skośności Kelly’ego:
\[ \frac{\text{decyl 1} + \text{decyl 9}- 2\cdot\text{mediana}}{\text{decyl 9} - \text{decyl 1}} \tag{A.29}\]
- Kurtoza
\[\begin{equation} g_{2} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_x}\right)^4-3 \tag{A.30} \end{equation}\]
\[\begin{equation} G_{2} = \frac{n-1}{(n-2)(n-3)}\left[(n+1)g_{2}+6\right] \tag{A.31} \end{equation}\]
\[\begin{equation} b_{2} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s_x}\right)^4-3 \tag{A.32} \end{equation}\]
A.6 Współczynnik Giniego
\[\begin{equation} G = {\frac {\sum _{i=1}^{n}(2i-n-1)x_{(i)}}{{n^{2}}{\overline {x}}}}, \tag{7.1} \end{equation}\]
A.7 Kowariancja
\[s_{xy} = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{n-1} \tag{A.33}\]
\[ \widehat{\sigma}_{xy} = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{n} \tag{A.34} \]
A.8 Współczynnik korelacji Pearsona
\[r(X,Y) = \frac{\sum_i{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum_i(x_i-\bar{x})^2\sum_i(y_i-\bar{y})^2}} \tag{A.35}\]
\[r(X,Y) = \frac{1}{n}\sum_{i=1}^n z_{x_i} z_{y_i} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_X}\right)\left(\frac{y_i-\bar{y}}{\widehat{\sigma}_Y}\right) \tag{A.36} \]
\[r_{xy} = \frac{s_{xy}}{s_x s_y} \tag{A.37} \]
\[r_{xy} = \frac{\widehat{\sigma}_{xy}}{\widehat{\sigma}_x \widehat{\sigma}_y} \tag{A.38} \]
A.9 Współczynnik korelacji Spearmana
\[r_S (X, Y) =r\left(\text{Rank}(X), \text{Rank}(Y)\right) \tag{A.39} \]
\[ r_s = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)} \tag{A.40}\]
\[d_i = \text{Rank}(x_i) - \text{Rank}(y_i)\]
A.10 Tau Kendalla
\[\tau_A = \frac{\text{liczba par zgodnych} - \text{liczba par niezgodnych}}{ \text{liczba par} } \tag{A.41} \]
\[\tau_B = \frac{\text{liczba par zgodnych} - \text{liczba par niezgodnych}}{ \sqrt{(N_0-N_1)(N_0-N_2)}} \tag{A.42} \]
\[N_0 = \text{liczba par zgodnych} + \text{liczba par niezgodnych} + \text{liczba remisów} = \\ = \frac{n(n-1)}{2}\]
A.11 Regresja prosta
- Nachylenie linii SD:
\[\text{nachylenie linii SD} = \pm \frac{s_y}{s_x} \tag{A.43} \]
- Dopasowane równanie regresji:
\[\widehat{y_i} = \widehat{\beta}_0 + \widehat{\beta}_1 x_i, \tag{A.44}\]
- Dopasowane nachylenie:
\[\widehat{\beta}_1 = r_{xy} \frac{s_y}{s_x} \tag{A.45}\]
- Dopasowany wyraz wolny (punkt przecięcia):
\[\widehat{\beta}_0 = \bar{y} - \widehat{\beta}_1 \bar{x}. \tag{A.46}\]
- Reszty:
\[e_i = y_i - \widehat{y}_i \tag{A.47}\]
- R-kwadrat:
\[R^2=1-\frac{\text{SS}_{res}}{\text{SS}_{tot}}, \tag{A.48}\]
\[\text{SS}_{res} = \sum_i{e_i^2} \tag{A.49}\]
\[\text{SS}_{tot} = \sum_i{(y_i-\bar{y})^2} \tag{A.50}\]
\[R^2 = r_{xy}^2 \tag{A.51}\]
- Odchylenie standardowe reszt:
\[ \text{RSD} = \sqrt{\frac{1}{n-2}\sum_{i=1}^n\left(y_i-\widehat{y}\right)^2} \tag{A.52}\]
\[ RSD = \left(s_y \sqrt{1 - R^2} \right)\sqrt{\frac{n-1}{n-2}} \tag{A.53}\]
\[ RSD \approx s_y \sqrt{1 - R^2} \tag{A.54}\]
- Przewidywanie z wykorzystaniem modelu regresji prostej w formie log–log:
\[\widehat{\log(y_i)} = \widehat{\beta}_0 + \widehat{\beta}_1\ln(x_i) \tag{A.55}\]
\[\widehat{y_p} = \exp(\widehat{\beta}_0 + \widehat{\beta}_1\ln(x_p)) \tag{A.56}\]
A.12 Regresja wieloraka
- Równanie dopasowane:
\[\widehat{y_i} = \widehat{\beta}_0 + \widehat{\beta}_1 x_{i1} + \widehat{\beta}_2 x_{i2} + \cdots + \widehat{\beta}_k x_{ik}, \tag{A.57}\]
- Dopasowane współczynniki (wzór macierzowy):
\[\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} \tag{A.58}\]
A.13 Dane jakościowe – asocjacja
- Statystyka chi-kwadrat:
\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{A.59} \]
\[E_{ij} = \frac{(\text{liczebność wiersza}_i)(\text{liczebność kolumny}_j)}{n} \tag{A.60} \]
- V Cramera
\[V = \sqrt{ \frac{\chi^2}{n \cdot \min(r - 1, c - 1)} } \tag{A.61} \]
- Eta-kwadrat:
\[\eta^2 = \frac{\text{SSB}}{\text{SST}} \tag{A.62} \]
\[\text{SST} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y})^2 \tag{A.63}\]
\[\text{SSB} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y})^2 \tag{A.64} \]
- Stosunek korelacyjny eta:
\[\eta = \sqrt{\eta^2} = \sqrt{ \frac{\text{SSB}}{\text{SST}}} \tag{A.65}\]
A.14 Dane dychotomiczne – asocjacja:
- Tabela 2×2:
| Y = 0 | Y = 1 | Łącznie | |
|---|---|---|---|
| X = 0 | a | b | a+b |
| X = 1 | c | d | c+d |
| Łącznie | a+c | b+d | n |
- Współćzynnik fi:
\[\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \tag{A.66}\]
- Szansa i iloraz szans:
\[\text{szansa} = \frac{\text{liczba wystąpień zdarzenia}}{\text{liczba wystąpień braku zdarzenia}} = \frac{a}{b} \tag{A.67} \]
\[ \text{OR} = \frac{\text{szansa w grupie A}}{\text{szansa w grupie B}} \tag{A.68} \]
- Macierz pomyłek:
| Klasa | Przewidywana pozytywna | Przewidywana negatywna |
|---|---|---|
| Rzeczywista pozytywna | True Positives, TP | False negatives, FN |
| Rzeczywista negatywna | Fales Positives, FP | True negatives, TN |
- Miary oparte na macierzy pomyłek:
\[ \text{Dokładność} = \frac{TP+TN}{TP+TN+FP+FN} \tag{A.69}\]
\[ \text{Czułość} = \frac{TP}{TP+FN} \tag{A.70}\]
\[ \text{Swoistość} = \frac{TN}{TN+FP}. \tag{A.71}\]
- Korelacja punktowo-dwuseryjna:
\[r_{pb} = \frac{ \bar{x}_1- \bar{x}_0}{s_x} \sqrt{ \frac{n_1 n_0}{n(n-1)}} \tag{A.72}\]
- d Cohena:
\[d = \frac{\bar{x}_1 - \bar{x}_0}{s_p} \tag{A.73}\]
\[ s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_0-1)s_0^2}{n_1+n_0-2} } \tag{A.74}\]
- g Hedgesa:
\[ g = d \left( 1 - \frac{3}{4(n_1 + n_0) - 9} \right) \tag{A.75}\]
- AUC:
\[\text{AUC} = \Pr(x_1 > x_0) + \frac{1}{2}\Pr(x_1 = x_0) \tag{A.76}\]
\[\text{AUC} = \frac{C + \tfrac{1}{2} T}{n_0 n_1} \tag{A.77}\]
A.15 Szeregi czasowe
- przyrost absolutny:
\[\Delta x = x_t - x_0 \tag{A.78}\]
- przyrost względny:
\[g = \frac{x_t - x_0}{x_0} \tag{A.79}\]
\[g(\%) = \frac{x_t - x_0}{x_0} \cdot 100\% \tag{A.80}\]
- indeks jednopodstawowy:
\[I^{FB}_t = \frac{x_t}{x_0} \cdot 100 \tag{A.81}\]
- indeks łańcuchowy:
\[I^{CH}_n = \frac{x_t}{x_{t-1}} \cdot 100 \tag{A.82}\]
\[I^{FB}_t = \prod_{i=1}^{t}\left(\frac{I^{CH}_i}{100}\right) \cdot 100 \tag{A.83}\]
- CAGR:
\[\text{CAGR} = \left( \frac{x_n}{x_0} \right)^{\frac{1}{n}} - 1 \tag{A.84}\]
\[\text{CAGR}(\%) = \left[ \left( \frac{x_n}{x_0} \right)^{\frac{1}{n}} - 1 \right] \cdot 100\% \tag{A.85}\]