7  Хи-квадрат үлестірімі және t-үлестірімі

Хи-квадрат үлестірімі

  • \(Z \sim N(0, 1)\) болсын
  • Яғни, центрі нөлге тең және стандартты ауытқуы 1-ге тең болатын нормаль
  • Хи-квадрат үлестірімі стандартты қалыпты S.P.-нің \(n\) квадраттарының қосындысы болып табылады: \(\chi_{n}^2 = \sum_{i=1}^{n}Z_{i}^2\)

Тығыздықтар

  • Қайсысы үлкен? \(P(X > 10)\) немесе \(P(X > 15)\)?
  • \(X\) айнымалысының 10-нан (немесе 15-тен) үлкен мәнді қабылдау ықтималдығы” деп оқылады.
Принцип

Тест статистикасының таралуын білген кезде, нөлдік гипотеза ақиқат болған жағдайда деректердің ықтималдылығын есептей аламыз.

Мысал

(OpenIntro сайтынан алынған) Бізде АҚШ-тың шағын округінде 275 алқабиден тұратын үлгі бар. Төмендегі кестеде үлгінің демографиялық санат бойынша бөлінуі, сондай-ақ бүкіл округтегі осы санаттардың үлестері көрсетілген.

Алқабилер үлгісі округті өкілдік ете ме?

Егер үлгі өкілдік етсе, оның құрылымы округтің құрылымын көрсетуі керек (яғни, пропорциялар шамамен ұқсас болуы керек).

Race White Black Hispanic Other Total
Үлгі 205 26 25 19 275
Аудан бойынша жалпы сома (%) 0.72 0.07 0.12 0.09 1.00

Бізде екі гипотеза бар: Нөл: үлгі кездейсоқ (және сондықтан репрезентативті). Балама: үлгі кездейсоқ ЕМЕС.

Нөлдік гипотеза дұрыс деп есептейік. Егер қазылар алқасы кездейсоқ таңдалса, 275 адамның қаншасы ақ нәсілді болар еді? Олардың қаншасы қара нәсілді болар еді?

Халықтың шамамен 72%-ы ақ нәсілді, сондықтан қазылар алқасының шамамен 72%-ы ақ нәсілді болады: 0,72 есе 275 = 198.

Сол сияқты, қазылар алқасының шамамен 7%-ы қара нәсілді болады немесе 0,07 есе 275 = 19,25.

Осы логикаға сүйене отырып, біз нөлдік гипотеза үшін күтілетін мәндерді есептей аламыз.

Race White Black Hispanic Other Total
Байқалған мәндер 205 26 25 19 275
Халықтың үлесі 0.72 0.07 0.12 0.09 1.00
Күтілетін мәндер (нөлдік гипотеза бойынша) 198 19.25 33 24.75 275

Мысал

  • Сонымен, бізде бақыланған (\(O_i\)) және күтілетін (\(E_i\)) мәндері бар айқас кесте бар.

  • Келесі сынақ статистикасының хи-квадрат үлестірімі бар екенін дәлелдеуге болады

\[\sum_{i = 1}^{n}\frac{(O_i - E_i)^2}{E_i} \sim \chi^2_{n-1}\]

  • Нақтырақ айтқанда,

\[ \chi^2_{df = 3} = \frac{(205 - 198)^2}{198} + \frac{(26 - 19.25)^2}{19.25} + \frac{(25 - 33)^2}{33} + \frac{(19 - 24.75)^2}{24.75} \]

\[ \chi^2_{df=3} \approx 0.247 + 2.367 + 1.939 + 1.336 \approx 5.889 \]

  • \(\chi^2\) статистикасы байқалған мәндердің күтілген мәндерден қаншалықты ерекшеленетінін көрсетеді.

Енді мынаны қарастырайық:

\(\chi^2 = 5.889\), \(P(\chi^2 > 5.889)\) ықтималдығы қандай, яғни деректердің күтілген мәннен біздікімен бірдей немесе одан да көп айырмашылық жасау ықтималдығы қандай?

  • \(P(\chi^2 > 5.889)\) ықтималдығын тек үлестірімді (хи-квадрат) білетіндіктен ғана есептей алатынымызды ескеріңіз.
  • Көрнекі түрде біз қисық астындағы аудан қандай екенін сұраймыз.

  • R функциялары дайын
pchisq(5.889, df = 3, lower.tail = FALSE)
[1] 0.1171373
  • Moral! Кодтың бір жолындағы есептерді шешу үшін сіз «қақ ортасында» не болып жатқанын түсініп, оны түсінуіңіз керек, яғни бірнеше есептерді қолмен шешуіңіз керек.
  • Төмендегі кодта мен екі аргументті қабылдайтын дайын chisq.test() функциясын қолданамын: бақыланған және болжанған пропорциялар.
  • Негізінде, мен «байқалған мәндердің» берілген құрылымы (пропорциялары) бар популяциядан алынған ықтималдығы қандай екенін сұрап отырмын.

``{r} obs <- c(205, 26, 25, 19) probs <- c(0.72, 0.07, 0.12, 0.09) chisq.test(x = obs, p = probs)


- Және біз $P(Data|Null гипотезасы) = 0.1171$ екенін көріп отырмыз, бұл нөлдік гипотезаны жоққа шығару үшін тым жоғары.

- Яғни, біз қолжетімді деректер нөлдік гипотезаға қарсы сенімді дәлелдер келтірмейді деген қорытындыға келдік.

- Яғни, үлгі «кездейсоқ емес» деп жарияланды (қос теріс әдейі жасалған)

# t-үлестіру

## t-үлестіру

ILT арқасында біз үлгінің орташа мәні, $\bar{X}$, келесі үлестірімге ие екенін білеміз, мұндағы $\mu$ - популяцияның таралу орталығы.

- $\bar{X} \sim N(\mu, SE = \frac{\sigma}{\sqrt{N}})$
- $\sigma$ «ата-аналық» айнымалының стандартты ауытқуын білдіреді.
- және $s$ - біз үлгі үшін есептейтін стандартты ауытқу.
- Осы уақытқа дейін біз $\sigma = \bar{s}$ деп есептедік, мұндағы $\bar{s}$ - үлгінің стандартты ауытқуы.
- Бұл қаншалықты «дұрыс»?

Мысал:

Бізде 100 адам бар делік. Біз кездейсоқ 10 жеке тұлғаны таңдаймыз. Популяциядағы және үлгідегі өсудің стандартты ауытқуы әртүрлі болады. Егер біз басқа үлгіні алсақ, жаңа үлгі стандартты ауытқуын аламыз және т.б.

## t-үлестіру

- Сенімділік аралықтары мен гипотезаны тексеру формулаларын еске түсіріңіз
- CI: $$\bar{x} \pm z^{*}\times \frac{\sigma}{\sqrt{n}} \approx \overline{x} \pm z^{*}\times \frac{s}{\sqrt{n}}$$

Гипотезаны тексеру: $$z = \frac{\bar{x} - x_0}{SE},$$

$$
SE = \frac{\sigma}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}
$$

## t-үлестіру

- Біз $\sigma \approx s$ деп болжадық, бірақ ойланыңыз.

- $\sigma$ жай ғана белгісіз сан; кілт сөз **сан**.

- Екінші жағынан, стандартты ауытқуды бағалауымыз, $\overline{S} = s$, кездейсоқ айнымалы; оның мәндері үлгіден үлгіге өзгереді.

- Үлгінің стандартты ауытқуының хи-квадрат үлестірімі болатынын көрсетуге болады.

$$
t = \frac{\bar{x} - x_0}{s / \sqrt{n}} = \frac{\bar{x}-x_0}{\sigma/\sqrt{n}}\bigg/\sqrt{\frac{s^2(n-1)}{\sigma^2(n-1)}} = \frac{Z}{\sqrt{\chi^2/n-1}} \\
t \sim T(n-1)
$$

## t-үлестіру

::: {.cell}
::: {.cell-output-display}
![](chapter7_files/figure-html/unnamed-chunk-6-1.png){width=672}
:::
:::

## t-үлестіру

- t-үлестіру дисперсия бағасымен байланысты белгісіздікті ескереді
- t-үлестіру 0-ге негізделген қалыпты үлестірімге өте ұқсас, бірақ оның дисперсиясы сәл үлкенірек
- t-үлестіруінің тек бір параметрі бар: еркіндік дәрежелерінің саны (df)
- $df = N - 1$, бұл үлгідегі бақылаулар санынан бір минусқа тең
- Үлгі өлшемі ретінде артады, t-үлестірілім қалыпты үлестірімнен ажыратылмайтын болады $N \rightarrow \inf, T \rightarrow N(0, 1)$

## Қолдану тәсілі

- z-ұпайларына мүлдем ұқсас. Біз сынақ статистикасын, содан кейін ықтималдықтарды есептейміз.

- Сынақ статистикасы: $T = \frac{obs - null}{SE}$

- p-мәні: $P(T > t), P(T < t)$

- Жалғыз айырмашылығы - t-үлестірілімінің құйрықтары стандартты қалыпты үлестірімге қарағанда қалыңырақ.

- Бұл «экстремалды» оқиғалардың ықтималдығы онда жоғары екенін білдіреді.

- Мысалы, $P(T > 2.5) > P(Z > 2.5)$

- Төмендегі кестеде әртүрлі үлестірімдер үшін орташа мәннен 2,5 стандартты ауытқулардың үлкен болу ықтималдығы көрсетілген.








::: {.cell}

```{.r .cell-code}
tibble(normal = pnorm(2.5, lower.tail = FALSE), 
       t_2 = pt(2.5, df = 2, lower.tail = FALSE),
       t_5 = pt(2.5, df = 5, lower.tail = FALSE),
       t_100 = pt(2.5, df = 100, lower.tail = FALSE),
       t_2k = pt(2.5, df = 2000, lower.tail = FALSE))
normal t_2 t_5 t_100 t_2k
0.0062097 0.0648059 0.027245 0.0070229 0.0062494

:::

  • Басқаша айтқанда, t-үлестірілімінің p-мәндері әрқашан қалыпты үлестірімге қарағанда үлкен болады.
  • p-мәні белгілі бір сенімділік деңгейінен АЗ болған кезде нөлдік гипотеза қабылданбайтындықтан, t-үлестірілім консервативтірек!
  • Яғни, ол нөлдік гипотеза үшін жиірек орын алады.
  • Тұжырымдамалық тұрғыдан алғанда, t-үлестірілім көбірек белгісіздіктерді ескереді.

Үлгі орташасы үшін статистикалық қорытынды

pop_mean pop_sd sample_mean samp_sd
439.9113 93.34192 427.9351 95.86034

Сенiмдiлiк аралығы

bind_cols(params, samp) %>%
knitr::kable()
pop_mean pop_sd sample_mean samp_sd
439.9113 93.34192 427.9351 95.86034

\[ \bar{x} \pm t^{*}_{df}SE_{\bar{x}}\\ \bar{x} \pm t^{*}_{df}\frac{s}{\sqrt{n}} \\ df = N-1\\ \bar{x} \pm t^{*}_{49}\frac{95.86}{\sqrt{50}} \\ \]

Маңызды мәндер

qt(0.025, df = 49)
[1] -2.009575

\[ 427.94 \pm 2.01\times\frac{95.86}{\sqrt{50}} = (400.69, 455.19) \]

  • Біз қазақстандық оқушылардың PISA 2018 математикалық сынағында 400.69 мен 455.19 аралығында балл жинағанын 95% сенімдіміз.

Гипотеза сынағы

  • \(\bar{x} = 427.94; s = 95.86; N = 50; SE = 13.6\)
  • ЕҚЫҰ елдері үшін орташа мәнді білеміз деп есептейік: \(\mu = 458\)
  • \(H_{0}: \mu_{KZ} = 458\)
  • \(H_{A}: \mu_{KZ} \neq 458\)
  • \(T = \frac{427.94 - 458}{13.6} = -2.2794\)
[1] 0.0270355
  • p-value = 0.0270355 \(\rightarrow\) reject \(H_{0}\)

Тағы бір мысал

PISA 2017-ден алынды
test_lang mean_math sd n
kz 424.7240 88.22351 11695
ru 462.6476 96.13942 7812

Сенiмдiк интервал және гипотезаны тексеру

PISA 2017-ден алынды
test_lang mean_math sd n
kz 424.7240 88.22351 11695
ru 462.6476 96.13942 7812
  • Сенiмдiк интервал

\[ (\bar{x}_1 - \bar{x}_2) \pm t^{*}SE_{(\bar{x}_1 - \bar{x}_2)} \\ SE_{(\bar{x}_1 - \bar{x}_2)} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \\ df = min(n_1 - 1, n_2 - 1) \]

Гипотезаны тексеру

retrieved from PISA 2018
test_lang mean_math sd n
kz 424.7240 88.22351 11695
ru 462.6476 96.13942 7812
  • HT

\[ H_{0}: \mu_{RU} - \mu_{KZ} = 0 \\ H_{A}: \mu_{RU} - \mu_{KZ} \neq 0 \\ T_{7811} = \frac{obs- null}{SE} \]

CI

retrieved from PISA 2018
test_lang mean_math sd n
kz 424.7240 88.22351 11695
ru 462.6476 96.13942 7812
obs <- 462.648 - 424.724
null <- 0
n1 <- 11695
n2 <-  7812
s1 <- 88.224
s2 <- 96.139

Айталық, біз 95% сенімділік аралығын құрғымыз келеді. Байқалған r obs - null айырмашылығын аламыз және \(t^{*}SE_{(\bar{x}_1 - \bar{x}_2)}\) қателік мүшесін қосамыз.

Алдымен, қателік мүшесі \(SE_{(\bar{x}_1 - \bar{x}_2)} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\)

se <- sqrt(s1^2/n1 + s2^2/n2)
se
[1] 1.359662

Енді біз t-мәнін таңдаймыз

Біз \(95%\) сенімділік деңгейіне сәйкес келетін \(t^{*}\)-мәнін таңдаймыз. Еркіндік дәрежелерінің санын көрсетуіміз керек.

df <- min(n1 - 1, n2 - 1); df
[1] 7811
t_star <- qt(0.975, df = df); t_star
[1] 1.960268
# just for comparison, we were working with Normal distribution, instead of t
z_star <- qnorm(0.975, 0, 1); z_star
[1] 1.959964

Іс жүзінде бірдей.

Енді аралықты есептеп көрейік.

(obs - null) + c(-t_star*se, t_star*se)
[1] 35.2587 40.5893

Түсіндірме: Біз қазақ және орыс тілдерінде тест тапсырғандар арасындағы шынайы айырмашылық r round((obs - null) + c(-t_starse, t_starse), 3) диапазонында екеніне 95% сенімдіміз.

Сенімділік аралығы

Деректерге назар аударайық

lang_groups %>% 
  knitr::kable(caption = "retrieved from PISA 2018")
retrieved from PISA 2018
test_lang mean_math sd n
kz 424.7240 88.22351 11695
ru 462.6476 96.13942 7812
obs <- 462.648 - 424.724
null <- 0
n1 <- 11695
n2 <-  7812
s1 <- 88.224
s2 <- 96.139
df <- min(n1 - 1, n2 - 1)

Сначала расчитаем \(SE_{(\bar{x}_1 - \bar{x}_2)} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\)

se <- sqrt(s1^2/n1 + s2^2/n2)
se
[1] 1.359662

Енді t-статистикасының мәнін есептеп көрейік: \(T_{7811} = \frac{obs- null}{SE}\)

t_statistic <- -(obs - null)/se
t_statistic
[1] -27.89223

Соңында \(p\_мәнін есептейміз = P(T < -27.89|\mu_1 - \mu_2 = 0)\)

2*pt(t_statistic, df = df, lower.tail = TRUE)
[1] 2.7173e-163
# once again
2*pnorm(t_statistic, 0, 1, lower.tail = TRUE)
[1] 3.315196e-171

Топтар арасында ешқандай айырмашылық жоқ екенін ескере отырып, біз орташа мәндердегі айырмашылықты 37.924 сияқты үлкен мәнде байқау ықтималдығын есептедік.

Бұл ықтималдық өте аз, сондықтан біз \(H_{0}\)-ты қабылдамаймыз және деректер орыс және қазақ тілдерінде тест тапсырған студенттер арасында айтарлықтай айырмашылық бар екенін көрсетеді деп мәлімдейміз.

R-де де солай

  • R-де біз жасағанның бәрін бір жол кодпен қорытындылауға болады.
t.test(data = pisa, PV1MATH ~ test_lang)

    Welch Two Sample t-test

data:  PV1MATH by test_lang
t = -27.892, df = 15743, p-value < 2.2e-16
alternative hypothesis: true difference in means between group kz and group ru is not equal to 0
95 percent confidence interval:
 -40.58871 -35.25852
sample estimates:
mean in group kz mean in group ru 
        424.7240         462.6476 

8 ANOVA: Бірнеше орташа мәндерді салыстыру

Бірнеше орташа мәндерді салыстыру

books n
1 4800
2 6422
3 5419
4 1543
5 765
6 445

Топтарға бөлу

books language n
1 kz 2958
1 ru 1842
2 kz 4289
2 ru 2133
3 kz 3126
3 ru 2293
4 kz 729
4 ru 814
5 kz 330
5 ru 435
6 kz 199
6 ru 246

Толығырақ

`summarise()` has grouped output by 'language'. You can override using the
`.groups` argument.
language books n freq
kz 1 2958 0.2543204
kz 2 4289 0.3687559
kz 3 3126 0.2687645
kz 4 729 0.0626773
kz 5 330 0.0283725
kz 6 199 0.0171094
ru 1 1842 0.2372794
ru 2 2133 0.2747649
ru 3 2293 0.2953755
ru 4 814 0.1048564
ru 5 435 0.0560350
ru 6 246 0.0316888

Визуализация

`summarise()` has grouped output by 'language'. You can override using the
`.groups` argument.

Екі орташа мәнді салыстыру

books mean_math mean_read mean_science
1 413.5992 378.2611 387.6304
2 429.3879 390.0052 401.8916
3 457.5751 424.3131 431.6888
4 479.2907 446.1560 452.1985
5 486.5684 460.7293 465.7219
6 454.9921 427.4767 435.2830

Көрнекі түрде

Бірнеше орташа мәндерді салыстыру

Сіздің ойыңызша, топтар арасындағы айырмашылық қай жерде ең айқын?

ANOVA (Дисперсияны талдау)

  • \(H_{0}: \mu_1 = \mu_2 = \dots = \mu_k\)
  • мұндағы \(\mu_i\) - \(i\) тобы үшін орташа мән
  • ​​\(H_{A}:\) Орташа мәндердің кем дегенде бір жұбы ерекшеленеді: \(\exists i,j: \mu_{i} \neq \mu_{j}\)
  • F-статистикасы: \(F = \frac{\textrm{топтар арасындағы дисперсия}}{\textrm{топішілік дисперсия}}\)
  • Статистика неғұрлым үлкен болса, p-мәні соғұрлым кіші болады

ANOVA

  • \(\textrm{Жалпы дисперсия} = \textrm{Топтар арасындағы дисперсия} + \textrm{Топішілік дисперсия}\)

\[ Жалпы = SST =\sum_{i=1}^{n}(x_i - \bar{x})^2\\ btw\_Group = SSG = \sum_{i = 1}^{k}{n_i (\bar{x_i} - \bar{x})^2} \\ within\_Group = SSE =\sum_{i = 1}^{k}(n_i - 1)s^{2}_{i} \\ Барлығы = btw\_Group + within\_Group \\ SST = SSG + SSE \]

Мысал

  • \(\{3, 3, 5, 5\}\) сандары бар делік.- Ортақ дисперсия: \((3-4)^2 + (3-4)^2 + (3-5)^2 + (3-5)^2 = 4\)
  • Сандарды екі топқа бөліңіз: \(\{3, 3\} \text{ және } \{5,5\}\)
  • Топтар арасындағы дисперсия - жалпы мәндер арасындағы ауытқулардың квадраттарының қосындысы. Орташа және топтық орташа мәндер топтың өлшеміне пропорционалды түрде өлшенеді: \(SSG = 2\times(3 - 4)^2 + 2\times(5 - 4)^2 = 4\)
  • Бұл жағдайда топішілік дисперсия 0-ге тең, \(s_i = 0\)
  • Енді топтарды басқаша бөлейік делік: \(\{3, 5\}және \{3, 5\}\)
  • Сонда бәрі керісінше болады: \(SSG = 0\) және \(SSE = 4\)

Anova

  • Енді орташа дисперсияға көшейік
  • Бұл дегеніміз, квадрат ауытқулардың қосындысын бақылау санымен немесе еркіндік дәрежелерінің санымен нормалауымыз керек

\[ MSG = \frac{SSG}{df_{G}} \\ MSE = \frac{SSE}{df_{E}} \\ df_{G} = k - 1 \\ df_{E} = n - k \\ df_{total} = n - 1 \\ F = \frac{MSG}{MSE} \]

ANOVA: F-статистикасынан p-мәндеріне дейін

  • p-мәні$ = P(F > f|H_{0})$, F-статистикасы \(\implies\) неғұрлым жоғары болса, p-мәні соғұрлым төмен болады
  • Үлкен p-мәндері топ ішіндегі дисперсияның үлкен екенін және топ арасындағы дисперсияның аз екенін білдіреді \(\implies\) топтар ішінде әртүрлілік көп, бірақ топтар арасында айырмашылық аз \(\implies\) ақпараттық бөліну емес
  • Кішкентай p-мәндері топ ішіндегі дисперсияның аз екенін және топ арасындағы дисперсияның үлкен екенін білдіреді \(\implies\) топтар біртекті, бірақ бір-біріне ұқсас емес \(\implies\) ақпараттық бөліну
pf(5, df1 = 1, df2 = 2, lower.tail = FALSE)
[1] 0.1548457
pf(10, df1 = 1, df2 = 2, lower.tail = FALSE)
[1] 0.08712907
pf(1000, df1 = 1, df2 = 2, lower.tail = FALSE)
[1] 0.0009985025

Мысал

aov() функциясы сіз үшін ANOVA есептейді.

fit_books <- aov(math ~ books, data = new_pisa)
summary(fit_books)
               Df    Sum Sq Mean Sq F value Pr(>F)    
books           5   9883157 1976631   241.2 <2e-16 ***
Residuals   19388 158901925    8196                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9883157/5; 158901925/19388
[1] 1976631
[1] 8195.89
1976631/8195
[1] 241.1996
pf(241.2, df1 = 5, df2 = 19388, lower.tail = FALSE)
[1] 8.938689e-251

Тағы бір мысал

  • Тек 2 топ болған кезде, ANOVA t-тестіне сәйкес келеді.
fit_lang <-
aov(math ~ language, data = new_pisa)
summary(fit_lang)
               Df    Sum Sq Mean Sq F value Pr(>F)    
language        1   6725784 6725784   804.8 <2e-16 ***
Residuals   19392 162059297    8357                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Мысал

Класс түрлері. Айталық, бізде үш түрлі класс бар. Төменде әр түрдің емтихан нәтижелері берілген. ANOVA көмегімен орташа теңдік гипотезасын тексеріңіз.

  • Онлайн: \(72, 84, 77, 80, 81\), орташа мән: 78.8
  • Гибрид: \(83, 73, 84, 81\), орташа мән 80.25
  • Бетпе-бет: \(80, 78, 84, 81, 86\), орташа мән 81.8

Деректерге назар аударайық

score gr
72 Онлайн
84 Онлайн
77 Онлайн
80 Онлайн
81 Онлайн
83 Гибрид
73 Гибрид
84 Гибрид
81 Гибрид
80 Офлайн
78 Офлайн
84 Офлайн
81 Офлайн
86 Офлайн

ANOVA қолдану

data %>%
aov(score ~ gr, data = .) %>% summary()
            Df Sum Sq Mean Sq F value Pr(>F)
gr           2  22.51   11.25   0.624  0.554
Residuals   11 198.35   18.03