A Wzory

A.1 Liczba przedziałów klasowych – histogram

Reguła pierwiastka kwadratowego:

\[k=\sqrt{n} \tag{A.1}\]

Reguła Sturgesa:

\[k=1+log_2(n) \tag{A.2}\]

Reguła Freedmana-Diaconisa:

\[\text{Szerokość przedziału}=\frac{2\cdot IQR}{\sqrt[3]{n}} \tag{A.3}\]

Reguła Scotta

\[\text{Szerokość przedziału}=\frac{3\cdot s}{\sqrt[3]{n}} \tag{A.4}\]

A.2 Miary tendencji centralnej

Średnia arytmetyczna:

\[\begin{equation} \overline{x} = \frac{\sum_{i=1}^n x_i}{n} \tag{A.5} \end{equation}\]

Ważona średnia arytmetyczna:

\[\overline{x}_{\text{weighted}} =\sum_{i=1}^n x_iw_i \tag{A.6}\]

Średnia harmoniczna:

\[ H = \frac{n}{\sum_{i=1}^n\frac{1}{x_i}} \tag{A.7}\]

Ważona średnia harmoniczna:

\[ H_{\text{weighted}} = \frac{1}{\sum_{i=1}^n\frac{w_i}{x_i}} \tag{A.8}\]

Średnia geometryczna:

\[ G = \left(x_1\cdot x_2\cdot ... \cdot x_n\right)^{1/n} = \left(\prod_i x_i\right)^{1/n} \tag{A.9}\]

\[ G = \text{exp} \left(\frac {1}{n}\sum \limits _{i=1}^{n}\ln x_{i}\right) \tag{A.10}\]

Ważona średnia geometryczna:

\[ G_{\text{weighted}} = \text{exp} \left(\sum \limits _{i=1}^{n}w_i\ln x_{i}\right) \tag{A.11}\]

Przybliżona mediana na podstawie szeregu rozdzielczego przedziałowego:

\[ Me = l_M + \left(\frac{n}{2}-n_{M-}\right)\frac{h_M}{n_M} \tag{A.12}\]

Dominanta interpolowana z szeregu rozdzielczego z równymi przedziałami:

\[ Mo = l_m + \frac{n_m - n_{m-1}}{(n_m - n_{m-1}) + (n_m - n_{m+1})} \cdot h \tag{A.13}\]

Dominanta interpolowana z szeregu rozdzielczego z przedziałami o różnej szerokości:

\[ Mo = l_m + \frac{d_m - d_{m-1}}{(d_m - d_{m-1}) + (d_m - d_{m+1})} \cdot h_m \tag{A.14}\]

A.3 Miary rozproszenia

Odchylenie standardowe:

\[ \widehat{\sigma}_x = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n}} \tag{A.15}\]

\[\begin{equation} s_x = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1}} \tag{A.16} \end{equation}\]

Wariancja:

\[\begin{equation} \widehat{\sigma}^2_x = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n} \tag{A.17} \end{equation}\]

\[\begin{equation} s^2_x = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1} \tag{A.18} \end{equation}\]

Współczynnik zmienności:

\[\begin{equation} V_x = \frac{s_x}{\overline{x}} \tag{A.19} \end{equation}\]

Średnie odchylenie bezwzględne:

\[\begin{equation} MAD_x = \frac{\sum_{i=1}^n |x_i-\overline{x}|}{n} \tag{A.20} \end{equation}\]

Rozstęp międzykwartylowy:

\[\begin{equation} IQR = Q_3 - Q_1 \tag{A.21} \end{equation}\]

Odchylenie ćwiartkowe:

\[Q = IQR/2 \tag{A.22}\]

Pozycyjny współczynnik zmienności:

\[V = Q/Me \tag{A.23}\]

A.4 Standaryzacja danych (z-score)

\[ z = \frac{x - \text{średnia}}{\text{odch. standardowe}} \tag{A.24} \]

A.5 Kształt rozkładu

Skośność:

\[\begin{equation} g_{1} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_x}\right)^3 \tag{A.25} \end{equation}\]

\[\begin{equation} G_{1} = \frac{\sqrt{n(n-1)}}{n-2}g_{1} \tag{A.26} \end{equation}\]

Miara skośności Pearsona oparta na medianie:

\[ \frac{3\cdot(\text{średnia} - \text{mediana})}{\text{odchylenie standardowe}} \tag{A.27}\]

Miara skośności Bowleya:

\[ \frac{\text{kwartyl 1} + \text{kwartyl 3}- 2\cdot\text{mediana}}{\text{kwartyl 3} - \text{kwartyl 1}} \tag{A.28}\]

Miara skośności Kelly’ego:

\[ \frac{\text{decyl 1} + \text{decyl 9}- 2\cdot\text{mediana}}{\text{decyl 9} - \text{decyl 1}} \tag{A.29}\]

Kurtoza

\[\begin{equation} g_{2} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_x}\right)^4-3 \tag{A.30} \end{equation}\]

\[\begin{equation} G_{2} = \frac{n-1}{(n-2)(n-3)}\left[(n+1)g_{2}+6\right] \tag{A.31} \end{equation}\]

\[\begin{equation} b_{2} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{s_x}\right)^4-3 \tag{A.32} \end{equation}\]

A.6 Współczynnik Giniego

\[\begin{equation} G = {\frac {\sum _{i=1}^{n}(2i-n-1)x_{(i)}}{{n^{2}}{\overline {x}}}}, \tag{7.1} \end{equation}\]

A.7 Kowariancja

\[s_{xy} = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{n-1} \tag{A.33}\]

\[ \widehat{\sigma}_{xy} = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{n} \tag{A.34} \]

A.8 Współczynnik korelacji Pearsona

\[r(X,Y) = \frac{\sum_i{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum_i(x_i-\bar{x})^2\sum_i(y_i-\bar{y})^2}} \tag{A.35}\]

\[r(X,Y) = \frac{1}{n}\sum_{i=1}^n z_{x_i} z_{y_i} = \frac{1}{n}\sum_{i=1}^n\left(\frac{x_i-\bar{x}}{\widehat{\sigma}_X}\right)\left(\frac{y_i-\bar{y}}{\widehat{\sigma}_Y}\right) \tag{A.36} \]

\[r_{xy} = \frac{s_{xy}}{s_x s_y} \tag{A.37} \]

\[r_{xy} = \frac{\widehat{\sigma}_{xy}}{\widehat{\sigma}_x \widehat{\sigma}_y} \tag{A.38} \]

A.9 Współczynnik korelacji Spearmana

\[r_S (X, Y) =r\left(\text{Rank}(X), \text{Rank}(Y)\right) \tag{A.39} \]

\[ r_s = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)} \tag{A.40}\]

\[d_i = \text{Rank}(x_i) - \text{Rank}(y_i)\]

A.10 Tau Kendalla

\[\tau_A = \frac{\text{liczba par zgodnych} - \text{liczba par niezgodnych}}{ \text{liczba par} } \tag{A.41} \]

\[\tau_B = \frac{\text{liczba par zgodnych} - \text{liczba par niezgodnych}}{ \sqrt{(N_0-N_1)(N_0-N_2)}} \tag{A.42} \]

\[N_0 = \text{liczba par zgodnych} + \text{liczba par niezgodnych} + \text{liczba remisów} = \\ = \frac{n(n-1)}{2}\]

A.11 Regresja prosta

Nachylenie linii SD:

\[\text{nachylenie linii SD} = \pm \frac{s_y}{s_x} \tag{A.43} \]

Dopasowane równanie regresji:

\[\widehat{y_i} = \widehat{\beta}_0 + \widehat{\beta}_1 x_i, \tag{A.44}\]

Dopasowane nachylenie:

\[\widehat{\beta}_1 = r_{xy} \frac{s_y}{s_x} \tag{A.45}\]

Dopasowany wyraz wolny (punkt przecięcia):

\[\widehat{\beta}_0 = \bar{y} - \widehat{\beta}_1 \bar{x}. \tag{A.46}\]

Reszty:

\[e_i = y_i - \widehat{y}_i \tag{A.47}\]

R-kwadrat:

\[R^2=1-\frac{\text{SS}_{res}}{\text{SS}_{tot}}, \tag{A.48}\]

\[\text{SS}_{res} = \sum_i{e_i^2} \tag{A.49}\]

\[\text{SS}_{tot} = \sum_i{(y_i-\bar{y})^2} \tag{A.50}\]

\[R^2 = r_{xy}^2 \tag{A.51}\]

Odchylenie standardowe reszt:

\[ \text{RSD} = \sqrt{\frac{1}{n-2}\sum_{i=1}^n\left(y_i-\widehat{y}\right)^2} \tag{A.52}\]

\[ RSD = \left(s_y \sqrt{1 - R^2} \right)\sqrt{\frac{n-1}{n-2}} \tag{A.53}\]

\[ RSD \approx s_y \sqrt{1 - R^2} \tag{A.54}\]

Przewidywanie z wykorzystaniem modelu regresji prostej w formie log–log:

\[\widehat{\log(y_i)} = \widehat{\beta}_0 + \widehat{\beta}_1\ln(x_i) \tag{A.55}\]

\[\widehat{y_p} = \exp(\widehat{\beta}_0 + \widehat{\beta}_1\ln(x_p)) \tag{A.56}\]

A.12 Regresja wieloraka

Równanie dopasowane:

\[\widehat{y_i} = \widehat{\beta}_0 + \widehat{\beta}_1 x_{i1} + \widehat{\beta}_2 x_{i2} + \cdots + \widehat{\beta}_k x_{ik}, \tag{A.57}\]

Dopasowane współczynniki (wzór macierzowy):

\[\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y} \tag{A.58}\]

A.13 Dane jakościowe – asocjacja

Statystyka chi-kwadrat:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \tag{A.59} \]

\[E_{ij} = \frac{(\text{liczebność wiersza}_i)(\text{liczebność kolumny}_j)}{n} \tag{A.60} \]

V Cramera

\[V = \sqrt{ \frac{\chi^2}{n \cdot \min(r - 1, c - 1)} } \tag{A.61} \]

Eta-kwadrat:

\[\eta^2 = \frac{\text{SSB}}{\text{SST}} \tag{A.62} \]

\[\text{SST} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y})^2 \tag{A.63}\]

\[\text{SSB} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y})^2 \tag{A.64} \]

Stosunek korelacyjny eta:

\[\eta = \sqrt{\eta^2} = \sqrt{ \frac{\text{SSB}}{\text{SST}}} \tag{A.65}\]

A.14 Dane dychotomiczne – asocjacja:

Tabela 2×2:

	Y = 0	Y = 1	Łącznie
X = 0	a	b	a+b
X = 1	c	d	c+d
Łącznie	a+c	b+d	n

Współćzynnik fi:

\[\phi = \frac{ad - bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} \tag{A.66}\]

Szansa i iloraz szans:

\[\text{szansa} = \frac{\text{liczba wystąpień zdarzenia}}{\text{liczba wystąpień braku zdarzenia}} = \frac{a}{b} \tag{A.67} \]

\[ \text{OR} = \frac{\text{szansa w grupie A}}{\text{szansa w grupie B}} \tag{A.68} \]

Macierz pomyłek:

Klasa	Przewidywana pozytywna	Przewidywana negatywna
Rzeczywista pozytywna	True Positives, TP	False negatives, FN
Rzeczywista negatywna	Fales Positives, FP	True negatives, TN

Miary oparte na macierzy pomyłek:

\[ \text{Dokładność} = \frac{TP+TN}{TP+TN+FP+FN} \tag{A.69}\]

\[ \text{Czułość} = \frac{TP}{TP+FN} \tag{A.70}\]

\[ \text{Swoistość} = \frac{TN}{TN+FP}. \tag{A.71}\]

Korelacja punktowo-dwuseryjna:

\[r_{pb} = \frac{ \bar{x}_1- \bar{x}_0}{s_x} \sqrt{ \frac{n_1 n_0}{n(n-1)}} \tag{A.72}\]

d Cohena:

\[d = \frac{\bar{x}_1 - \bar{x}_0}{s_p} \tag{A.73}\]

\[ s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_0-1)s_0^2}{n_1+n_0-2} } \tag{A.74}\]

g Hedgesa:

\[ g = d \left( 1 - \frac{3}{4(n_1 + n_0) - 9} \right) \tag{A.75}\]

AUC:

\[\text{AUC} = \Pr(x_1 > x_0) + \frac{1}{2}\Pr(x_1 = x_0) \tag{A.76}\]

\[\text{AUC} = \frac{C + \tfrac{1}{2} T}{n_0 n_1} \tag{A.77}\]

A.15 Szeregi czasowe

przyrost absolutny:

\[\Delta x = x_t - x_0 \tag{A.78}\]

przyrost względny:

\[g = \frac{x_t - x_0}{x_0} \tag{A.79}\]

\[g(\%) = \frac{x_t - x_0}{x_0} \cdot 100\% \tag{A.80}\]

indeks jednopodstawowy:

\[I^{FB}_t = \frac{x_t}{x_0} \cdot 100 \tag{A.81}\]

indeks łańcuchowy:

\[I^{CH}_n = \frac{x_t}{x_{t-1}} \cdot 100 \tag{A.82}\]

\[I^{FB}_t = \prod_{i=1}^{t}\left(\frac{I^{CH}_i}{100}\right) \cdot 100 \tag{A.83}\]

CAGR:

\[\text{CAGR} = \left( \frac{x_n}{x_0} \right)^{\frac{1}{n}} - 1 \tag{A.84}\]

\[\text{CAGR}(\%) = \left[ \left( \frac{x_n}{x_0} \right)^{\frac{1}{n}} - 1 \right] \cdot 100\% \tag{A.85}\]

A.16 Indeksy agregatowe

Indeks cen Laspeyresa:

\[I_L = \frac{\sum p_t q_0}{\sum p_0 q_0}\cdot 100 \tag{A.86}\]

Indeks cen Paaschego:

\[I_P = \frac{\sum p_t q_t}{\sum p_0 q_t}\cdot 100 \tag{A.87}\]

Indeks cen Fishera:

\[I_F = \sqrt{I_L \cdot I_P} \tag{A.88}\]