2  Айнымалылар

Warning: package 'ggplot2' was built under R version 4.5.2

Сандық айнымалылар

  • Кейбіреулері бар
  • Үздіксіз: бойы, салмағы, қан қысымы
  • Дискретті: ажырасулар саны, балалар саны
  • Сандық айнымалымен (сандармен өрнектелетін категориялық айнымалымен емес) жұмыс істеп жатқаныңызды қалай білуге ​​болады?
  • Сандық айнымалыларға арифметикалық амалдарды қолдануға болады
  • Егер бір адамның салмағы 70 кг, ал екіншісінің салмағы 60 кг болса, олардың жалпы салмағы 130 кг болады.
  • Сандық болып көрінетін реттік айнымалыларды ескеріңіз.
  • Егер менің IELTS баллым 3 болса, ал досымның бағасы 6 болса, бұл олардың ағылшын тілін екі есе көп білетінін білдірмейді. Немесе біз бірге ағылшын тілін 9-да білеміз.

Гистограмма

Әдетте, сандық айнымалыларды талдау олардың таралуын визуализациялаудан басталады. Мұны істеудің бір типтік тәсілі - гистограмма, мәндердің жиілігін көрсететін диаграмма.

Гистограмма келесідей құрастырылған:

  • Сандар диапазоны интервалдарға бөлінеді
  • Әрбір интервал үшін оған кіретін бақылаулар саны есептеледі
  • Жолақтардың биіктіктері осы жиіліктерді көрсетеді
Warning in geom_histogram(binwidth = 5000, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 5000, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`

  • Іс жүзінде аралық (немесе “қапшық”) өлшемі зерттеушінің қалауы бойынша қалады.
Warning in geom_histogram(binwidth = 2500, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 2500, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`

  • Өлшеммен ойнау арқылы сіз таралымды “Толық ақпарат” немесе “қорытындылай” аласыз
Warning in geom_histogram(binwidth = 10000, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 10000, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`

Мысал: орташа өмір сүру ұзақтығы

Warning in geom_histogram(binwidth = 5, border = 45, color = "white"): Ignoring
unknown parameters: `border`
Warning in stat_bin(binwidth = 5, border = 5, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`

Тарату қисығы: Тарату құйрықтары

  • Көрнекі түрде гистограммаларда “құйрықтар” бар - таралудың “шеттеріндегі” аймақтар
  • “құйрықтар” “ұзын” немесе “қалың” болуы мүмкін
  • Егер таралудың “ұзын/қалың” құйрығы болса, таралудың өз бағытында “қисайған” деп айтуға болады.
  • Егер сізде сол жақ құйрық ұзын болса, таралым солға қисайған.
  • Егер сізде оң жақ құйрық болса, онда оңға қисайған.
  • Таратулар әдетте бүтін сандарға бөлінеді:
  • Оңға қарай қисайған
  • Солға қарай қисайған
  • Симметриялық

Мысалдар

(a) ЖІӨ: Оңға қарай қисайған
(b) Өмір сүру ұзақтығы: Солға қарай қисайған
Рисунок 2.1: Қисайғандық

Режим

  • Тарату режимі, қарапайым тілмен айтқанда, ең жиі кездесетін мән болып табылады. Көрнекі түрде, режим таралудың “шыңына” немесе максимумына сәйкес келеді.

  • Мұндай шыңдардың саны әдетте сипаттау үшін қолданылады

  • Бірмодальды таралулар: бір максимуммен

  • Бимодальды таралулар: екімен

  • Және мультимодальды таралулар: екіден көппен

Бимодальды таралу

  • Айталық, y таралу
classroom <- tibble(ages = c(14,
15, 15,
16, 16, 16,
17, 17, 17, 17,
18, 18,
19,
29,
30, 30,
31, 31, 31,
32, 32,
33),
classroom = "classroom")
  • Оның таралуы келесідей болады

Орталық өлшемдері Тренд

Қысқаша статистика

  • Айталық, мен 2007 жылғы ЖІӨ деректерін қорытындылағым келді.
  • Қысқаша статистика қандай да бір жолмен таралуды сипаттайды
  • Мысалы, олар оның “орталығын” көрсетеді
  • Немесе мәндердің “таралу” дәрежесі
  • Немесе таралудың асимметриясы (қисықтық)
  • Тағы да, статистика - бұл сіз үлгі негізінде есептейтін кез келген сан немесе сандар

Тарату орталығы: орташа мән, медиана және мода

  • Үлгі орташа мәні - барлық мәндердің қосындысын бақылау санына бөлу арқылы есептеледі

\[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n}\]

  • Мысалы, \(\mathbf{x} = \{1, 2, 3, 4, 10\} \rightarrow \bar{x} = \frac{1+2+3+4+10}{5}=4\)

  • Үлгі медианасы - оны «екіге» бөлетін сандық қатардағы нүкте

    • e.g. \(\mathbf{x} = {1, 2, \mathbf{3}, 4, 10}\)
  • Мода - ең жиі кездесетін мән

  • Сандық айнымалылар үшін сирек қолданылады

Үлестірудің “ортасын” қалай бағалауға болады.

Мысал: Орташа және медиана

  • Айталық, компанияда
  • директордың жалақысы 1 000 000 теңге
  • және қызметкерлердің жалақысы 100 000 теңге
  • Орташа жалақы $ = $250 000
  • Ал медиана $100 000 теңге
  • Егер директорды алып тастасақ, орташа мән айтарлықтай өзгереді ($100 000 теңге)
  • Бірақ медиана өзгеріссіз қалады.
  • Орташа мән ауытқуларға сезімтал.
  • Медиана ауытқуларға тұрақты.
Беріктік

Статистикада беріктік дегеніміз әртүрлі, жалпы белгісіз себептермен байланысты үлгідегі әртүрлі ауытқулар мен біртекті еместіктерге сезімсіздікті білдіреді.

(Вики).

Орташа және медиана

  • Қайсысы жақсырақ, орташа ма, әлде медиана ма? Бұл контекстке байланысты.
  • Мысалы, үй шаруашылығының табысы әдетте медианамен өлшенеді:
  • Себебі табыстың бөлінуі әдетте оңға қарай ығысқан.
  • Неліктен олай деп ойлайсыз?
  • Дегенмен, орташа бөліну туралы көбірек ақпаратты қамтиды. Сондықтан, орташаны біле отырып, сіз, мысалы, аймақтағы жалпы байлықты есептей аласыз.

Мысал

  • Қайсысы медиана, қайсысы орташа екенін анықтаңыз?

Өмір сүру ұзақтығы

Орташа және медиана: қиғаштық контексінде

  • Егер орташа > медиана болса: таралу оңға қарай қисайған
  • Егер орташа мән < Медиана болса: таралу солға қарай қисайған
  • Егер орташа мән \(\approx\) болса Медиана: таралу симметриялы
  • Орташа мән ауытқулармен «тартылады»
  • Медиана тұрақтырақ

Дисперсия метрикалары

Дисперсия және стандартты ауытқу

  • Ай сайынғы кірісі $1 500 000 теңге болатын екі кафе бар делік
month Cafe A Cafe B
January 1000 700
February 1300 1900
March 700 1000
April 1200 1100
May 800 500
June 1000 800

Дисперсия

  • Кафелер орташа мәннің айналасында мәндерінің қаншалықты кең таралуы бойынша әртүрлі.
  • Бұл айырмашылықты санмен қалай көрсетуге болады? - Бір нұсқа - мәндер диапазонын алу (яғни, ең төменгі және ең жоғары мәндер)
  • А кафесі үшін \(700\) және \(1300\)
  • В кафесі үшін \(700\) және \(1900\)
  • Жаман емес, бірақ өте ақпараттық емес

Орташа мәннен ауытқуларды қарастырсақ ше?

\[\begin{align*} \delta_1 = x_1 - \bar{x} = 1000 - 1000 = 0 \\ \delta_2 = x_2 - \bar{x} = 1300 - 1000 = 300 \\ \delta_3 = x_3 - \bar{x} = 700 - 1000 = -300 \\ \delta_4 = x_4 - \bar{x} = 1200 - 1000 = 200 \\ \delta_5 = x_5 - \bar{x} = 800 - 1000 = -200 \\ \delta_6 = x_6 - \bar{x} = 1000 - 1000 = 0 \end{align*}\]

Содан кейін оларды квадраттаңыз

\[\begin{align*} \delta_1^2 = (x_1 - \bar{x})^2 = 0^2 = 0 \\ \delta_2^2 = (x_2 - \bar{x})^2 = 300^2 = 90 000\\ \delta_3^2 = (x_3 - \bar{x})^2 = -300^2 = 90 000\\ \delta_4^2 = (x_4 - \bar{x})^2 = 200^2 = 40 000\\ \delta_5^2 = (x_5 - \bar{x})^2 = -200^2 = 40 000 \\ \delta_6^2 = (x_6 - \bar{x})^2 = 1000 - 1000 = 0 \end{align*}\]

Қосу

\[\begin{align*} SSD_{WWYB} = \sum_{i=1}^{6}\delta_i^2 = \\ \sum_{i=1}^{6}(x_i - \bar{x})^2 = \\ 260000 \end{align*}\]

Енді бізде дисперсия бар

\[\begin{align*} Дисперсия(X) = \frac{SSD}{n} = \frac{\sum_{i=1}^{6}(x_i - \bar{x})^2}{6} = \\ \frac{260000}{6} \approx 43.333 \end{align*}\]

Ал стандартты ауытқу \[ sd(X) = \sqrt{43.333} \approx 6.58 \]

Дисперсия және стандартты ауытқу

def: Таңдамалы дисперсия

\[ Var(X) = \frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1} \]

def: Үлгі стандартты ауытқуы

\[ sd(X) = \sqrt{Var(X)} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1}} \]

R туралы аздап ақпарат

  • R дисперсияны есептеген кезде, ол бөлгішінде \(n-1\) болатын формуланы пайдаланады.
c(1000, 1300, 700, 1200, 800, 1000) %>% var()
[1] 52000
c(1000, 1300, 700, 1200, 800, 1000) %>% var()*5/6
[1] 43333.33

Дисперсияның басқа өлшемдері: IQR

  • IQR квартильаралық диапазонды білдіреді
  • IQR - үлестірімнің 1-ден 3-ке дейінгі квартильдерін көрсететін мәндер жұбы
  • \(Q_1\): 1-ші квартиль немесе 25-ші процентиль - деректердің 25%-ы түсетін мән
  • ​​\(Q_3\): 3-ші квартиль немесе 75-ші процентиль - деректердің 75%-ы түсетін мән
  • ​​Сұрақ: 2-ші квартиль неге сәйкес келеді?

Мысалдар мен жаттығулар

1-мысал

«Гапминдер» деректер жинағындағы жан басына шаққандағы ЖІӨ-нің таралуы оңға қарай бұрылған, бірнеше өте бай елдер оң жаққа қарай созылып жатыр. Егер сіз елдер арасындағы типтік байлықты түсінгіңіз келсе, медианаға немесе орташа мәнге көбірек қызығушылық танытуыңыз керек пе?

1-мысал

gapminder деректер жиынындағы жан басына шаққандағы ЖІӨ-нің таралуы оңға қарай қисайған: бірнеше өте бай елдер бар. Бұл таралуды қайсысы жақсы сипаттайды, орташа ма, әлде медиана ма?

Жауап:

  • Егер сіз әдеттегі елдің қаншалықты бай екенін түсінгіңіз келсе, медиананы пайдаланыңыз.
  • Бірақ, мысалы, егер сіз бүкіл әлемнің қаншалықты «бай» екенін түсінгіңіз келсе, орташаны пайдаланыңыз.

Санаттық айнымалылар

Деректер

state homeownership application_type
NJ MORTGAGE individual
HI RENT individual
WI RENT individual
PA RENT individual
CA RENT joint
KY OWN individual
MI MORTGAGE joint
AZ MORTGAGE individual
NV MORTGAGE individual
IL RENT individual

Lending Club платформасында берілген несиелер туралы деректер. Деректер жинағында үш айнымалының $10,000 бақылауы бар:

  • state: Несие берілген жер
  • homeownership: Үйге меншік құқығының мәртебесі
  • levels: RENT, PORTGAGE, ONN
  • application_type: Өтінім түрі
  • levels: жеке, бірлескен
  • Егер сізді қызықтырса, платформа туралы оқи аласыз https://en.wikipedia.org/wiki/LendingClub

Жиілік

  • Санаттық айнымалылармен не істеуге болады?
  • Ең айқыны - деңгейлердің жиілігін санау (белгілі бір деңгейлер қаншалықты жиі кездесетіндіктен)
homeownership n
MORTGAGE 4789
OWN 1353
RENT 3858
  • application_type үшін де солай
application_type n
individual 8505
joint 1495

Визуализация

  • Сондай-ақ, бағаналы диаграмма жасауға болады.

Homeownership: Count

Homeownership: Proprotion

Bar chart

  • Қолданба түріне ұқсас

Шартты кесте

application_type MORTGAGE OWN RENT
individual 3839 1170 3496
joint 950 183 362

Шекті үлестірімдер

table(loans$application_type, loans$homeownership) %>%
addmargins()
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000

Жол және баған пропорциялары

Жол пропорциялары

  • Кейде бір айнымалының пропорцияларының деңгейлер бойынша қалай өзгеретінін көргіміз келеді басқасының.
  • Ол үшін әрбір жол элементін сол жолдың қосындысына бөлуге болады.
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000
            
             MORTGAGE   OWN  RENT   Sum
  individual    0.451 0.138 0.411 1.000
  joint         0.635 0.122 0.242 1.000
  Sum           0.479 0.135 0.386 1.000

Баған пропорциялары

  • Бағандармен ұқсас.
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000
            
             MORTGAGE   OWN  RENT   Sum
  individual    0.451 0.138 0.411 1.000
  joint         0.635 0.122 0.242 1.000
  Sum           0.479 0.135 0.386 1.000

Айқас кестелер және жолақ графиктері

  • Айқас кестелер және жолақ/баған пропорциялары санаттық айнымалылар арасындағы байланысты түсінуге көмектеседі
  • Айқас кестелерді келесідей көрсетуге болады
  • Қабатталған жолақ диаграммасы**
  • Қатар орналасқан жолақ диаграммасы**
  • Стандартталған жолақ диаграммасы**

Қабатталған график

Біз деңгейлерді бірінің үстіне бірін жай ғана қабаттаймыз (қабат)

Топталған

Деңгейлерді бірінің қасына қабаттастырыңыз

Стандартталған

Біз барлық жолақтарды бірдей биіктікке реттейміз, содан кейін оларды екінші айнымалы деңгейлеріне пропорционалды түрде бөлеміз.

  • Бұл көруді жеңілдетеді. Пропорциялар

Қай түрі жақсы?

  • Түсіндірме айнымалысы қайда және жауап айнымалысы қайда екені туралы нақты түсінік болған кезде стекстелген жақсы. Алдымен бақылауларды түсіндірме айнымалысы бойынша топтастырасыз, содан кейін оларды жауап айнымалысы деңгейлері бойынша стектерге бөлесіз.

  • Топтастырылған бақылаулар санын топтарда жақсы көруге мүмкіндік береді.

  • Стандартталған деңгейлер «теңгерімсіз» болған кезде қолайлы: бір деңгей бақылаулардың көпшілігін қамтыған кезде.

Тор

  • Кейде санаттық айнымалының әрбір деңгейі үшін бірнеше панель құруға болады.
Warning: The dot-dot notation (`..prop..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(prop)` instead.

Дөңгелек диаграммаларға тыйым салынады!

Бағаналы диаграмма

Дөңгелек диаграмма

Дөңгелек диаграмма және Дөңгелек диаграмма

Мысал: Жалпы әлеуметтік сауалнама (GSS)

year marital age race rincome partyid relig denom tvhours
2000 Never married 26 White $8000 to 9999 Ind,near rep Protestant Southern baptist 12
2000 Divorced 48 White $8000 to 9999 Not str republican Protestant Baptist-dk which NA
2000 Widowed 67 White Not applicable Independent Protestant No denomination 2
2000 Never married 39 White Not applicable Ind,near rep Orthodox-christian Not applicable 4
2000 Divorced 25 White Not applicable Not str democrat None Not applicable 1
2000 Married 25 White $20000 - 24999 Strong democrat Protestant Southern baptist NA
2000 Never married 36 White $25000 or more Not str republican Christian Not applicable 3
2000 Divorced 44 White $7000 to 7999 Ind,near dem Protestant Lutheran-mo synod NA
2000 Married 44 White $25000 or more Not str democrat Protestant Other 0
2000 Married 47 White $25000 or more Strong republican Protestant Southern baptist 3

GSS

Сипаттамасы

Бізде Жалпы әлеуметтік сауалнамадан алынған үлгі бар.

Жалпы әлеуметтік сауалнама (GSS) - Чикаго университетінің Ұлттық пікірді зерттеу орталығы 1972 жылдан бері үнемі жүргізіп келе жатқан әлеуметтанулық сауалнама. GSS ақпарат жинайды және Америка Құрама Штаттарындағы адамдардың алаңдаушылықтары, тәжірибелері, көзқарастары мен тәжірибелері туралы тарихи жазбаларды жүргізеді. (Wiki)

  • 2000-2014 жылдар аралығындағы 21 483 бақылау және 9 айнымалы

Айнымалылар

  • жыл: сауалнама жылы, 2000–2014
  • жас: жас, ең жоғары жас 89-мен шектеледі. - некелік
  • нәсіл
  • ринком: ресми табыс
  • партиид: партияға қатыстылық
  • дінилік: діни сәйкестендіру
  • конфессия: нақты діни конфессия
  • теледидар сағаттары: күніне теледидар көру сағаттары

GSS: Бағаналық диаграммалар

  • Кеңес: деңгейлерді жиілігі бойынша сұрыптаңыз (сирек кездесетіннен жиі кездесетінге дейін)

  • Одан да жақсысы, жолақты диаграммаларды көлденең бағыттаңыз.

Сандық ~ Санаттық айнымалылар

Идея қарапайым.

  1. Сандық айнымалыны санаттық айнымалының деңгейлеріне сәйкес кіші топтарға бөліңіз.
  2. Сандық айнымалыны визуализациялаңыз
  • қорап диаграммаларымен
  • немесе мөлдір гистограммалармен.
  1. Графиктерге үлгі статистикасын қосыңыз.
  • орташа
  • медиана
  • стандартты ауытқу
  • және осыған ұқсас.

Округ деректер жиынтығы

Біз Америка Құрама Штаттарындағы округтер туралы деректермен жұмыс істейміз. Америка Құрама Штаттарында 3142 округ бар.

Округ - Америка Құрама Штаттарындағы штаттың әкімшілік бөлінісі. Ол халық саны бойынша штаттан кіші және қаладан үлкен (wiki)

name state pop2017 poverty unemployment_rate per_capita_income median_hh_income median_edu pop_change
Autauga County Alabama 55504 13.7 3.86 27841.70 55317 some_college Increased
Baldwin County Alabama 212628 11.8 3.99 27779.85 52562 some_college Increased
Barbour County Alabama 25270 27.2 5.90 17891.73 33368 hs_diploma Descreased
Bibb County Alabama 22668 15.2 4.39 20572.05 43404 hs_diploma Increased
Blount County Alabama 58013 15.6 4.02 21367.39 47412 hs_diploma Increased
Bullock County Alabama 10309 28.5 4.93 15444.16 29655 hs_diploma Descreased
Butler County Alabama 19825 24.4 5.49 17014.95 36326 hs_diploma Descreased
Calhoun County Alabama 114728 18.6 4.93 23609.64 43686 some_college Descreased
Chambers County Alabama 33713 18.8 4.08 21079.51 37342 hs_diploma Descreased
Cherokee County Alabama 25857 16.1 4.05 23067.93 40041 hs_diploma Descreased

Деректер жинағында келесі айнымалылар бар

  • name (cat): Округ атауы
  • state (cat): Штат атауы
  • pop2017 (num): 2017 жылғы халық саны
  • pop_change (cat): 2010 жылдан 2017 жылға дейінгі халық санының өзгеруі
  • poverty (num): 2017 жылғы кедейліктегі халықтың пайызы
  • unemplus_rate (num): Жұмыссыздық деңгейі 2017
  • жан басына шаққандағы_табыс (сан): Жан басына шаққандағы (адам басына шаққандағы) табыс (2013-2017)
  • орташа_үй_табысы (сан): Орташа үй шаруашылығының табысы
  • орташа_білім (орташа): Орташа білім деңгейі (2013-2017)

Boxplot

Мөлдір гистограммалар

Тығыздық графиктері

Суреттер жақсы, бірақ сандары бар суреттер жақсырақ!

  • Статистиканы дайындаңыз
pop_change mean_hh_income sd_hh_income first_quartile third_quartile
Increased 54412.97 14086.45 44633.5 60874.50
Descreased 45267.26 10364.54 38071.5 51102.75
  • Және оларды суретке қосыңыз

Өзіндік жұмыс және жаттығулар

Барлығы міндетті емес.

  • Оқыңыз: Кіріспе статистикасын ашыңыз (4-басылым), 2-тарау
  • Жаттығулар: 2.1, 2.2, 2.4, 2.7, 2.8, 2.9, 2.10, 2.14, 2.17