Warning: package 'ggplot2' was built under R version 4.5.2
1 Деректер
Статистикаға кіріспе
Cтатистика бізге не үшін керек?
Бұл сұраққа мысал арқылы жауап беруге тырысайық.
Айталық, сіз қоғамдық көлікті зерттеп жатырсыз және а) жасөспірімдердің қоғамдық көлікті қаншалықты жиі пайдаланатынын және ә) олардың оған қанша уақыт жұмсайтынын бағалауға қызығушылық танытасыз. Сіз кездейсоқ таңдалған 200 жасөспірімнен (100 ұл және 100 қыз) сауалнама алып, нәтижелерді төмендегі кестеде қорытындыладыңыз.
| Аптада орташа уақыт | Күніне орташа уақыт | |
|---|---|---|
| Жігіттер | 3.4 рет | 40.3 мин |
| Қыздар | 3.7 рет | 50.5 мин |
Екі көрсеткіш бойынша да ұлдар мен қыздар арасында айырмашылық бар. Дегенмен, сұрақ туындайды, бұл айырмашылық қаншалықты маңызды? Ал маңыздылық деген не? Мысалы, егер біз сауалнаманы қайталаған болсақ, не болуы мүмкін еді? Тағы жүз кездейсоқ қыз бен жүз кездейсоқ жігіт үшін орташа көрсеткіш қандай диапазонда болады деп күтер едік?
Қысқасы, статистика деректерге негізделген «дұрыс» қорытындылар жасау туралы.
Деректер. Бұл не?
Жалпы идеялардан бастайық. Егер статистика деректерді оқудың дұрыс жолы болса, онда деректер дегеніміз не? Тура мағынасында деректер – нүктелер жиынтығы (латын тілінен алынған datum , нүкте дегенді білдіреді). «Нүктелер» адамдар, аудиожазбалар, қан үлгілері және т.б. сияқты біртекті қызығушылық тудыратын нысандарды білдіреді. Мысалдар: Зерттеушілер 100 сауалнама жинады. Бір сауалнама – бір «нүкте» (datum), сондықтан 100 сауалнама деректер болып табылады.
Практикалық тұрғыдан алғанда, деректер - белгілі бір құрылымы бар кесте. Ол сондай-ақ матрица немесе деректер кестесі деп аталады. Статистикалық әдістер (классикалық әдістер) осы деректер форматымен жұмыс істейді. Мысалы, төменде mtcars деп аталатын кестенің алғашқы бірнеше жолы келтірілген - онда 1970 жылдардағы автомобильдер туралы деректер бар.
| mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mazda RX4 | 21.0 | 6 | 160.0 | 110 | 3.90 | 2.620 | 16.46 | 0 | 1 | 4 | 4 |
| Mazda RX4 Wag | 21.0 | 6 | 160.0 | 110 | 3.90 | 2.875 | 17.02 | 0 | 1 | 4 | 4 |
| Datsun 710 | 22.8 | 4 | 108.0 | 93 | 3.85 | 2.320 | 18.61 | 1 | 1 | 4 | 1 |
| Hornet 4 Drive | 21.4 | 6 | 258.0 | 110 | 3.08 | 3.215 | 19.44 | 1 | 0 | 3 | 1 |
| Hornet Sportabout | 18.7 | 8 | 360.0 | 175 | 3.15 | 3.440 | 17.02 | 0 | 0 | 3 | 2 |
| Valiant | 18.1 | 6 | 225.0 | 105 | 2.76 | 3.460 | 20.22 | 1 | 0 | 3 | 1 |
| Duster 360 | 14.3 | 8 | 360.0 | 245 | 3.21 | 3.570 | 15.84 | 0 | 0 | 3 | 4 |
| Merc 240D | 24.4 | 4 | 146.7 | 62 | 3.69 | 3.190 | 20.00 | 1 | 0 | 4 | 2 |
| Merc 230 | 22.8 | 4 | 140.8 | 95 | 3.92 | 3.150 | 22.90 | 1 | 0 | 4 | 2 |
| Merc 280 | 19.2 | 6 | 167.6 | 123 | 3.92 | 3.440 | 18.30 | 1 | 0 | 4 | 4 |
Кестедегі әрбір жол «бақылау» және әрбір баған «айнымалы» екенін ескеріңіз. Біз бұл ұғымдарды әлі анықтамадық, бірақ атаулардың артындағы негізгі мағынаны ести аласыз.
Бақылаулар
Деректер кестесі кез келген кесте емес; ол белгілі бір түрде құрылымдалған. Әрбір жол бақылауға , ал әрбір баған айнымалыға сәйкес келеді. Бақылау - талдау бірлігі. Мысалы, жоғарыдағы мысалда бақылау бірлігі жасөспірім (13 жастан 18 жасқа дейін). Басқа жағдайларда бақылау болуы мүмкін
студент
студенттің жазбаша сынағы
дүкеннен сатып алулар
негізінен зерттеуге қызығушылық тудыратын кез келген нәрсе
Айнымалылар
Айнымалы – бақылаудан бақылауға өзгере алатын сипаттама. Мысалы,
- студенттің мамандығы
- тест бағасы
- сатып алу уақыты
Айнымалылар сандық (numerical) немесе категориялық (categorical) болуы мүмкін.
сандық: жасы, салмағы, қан қысымы және т.б.
категориялық: көздің түсі, піскендік дәрежесі (стейк), қанағаттанушылық
Сандық айнымалылар
Сандық айнымалыларды қосуға, көбейтуге, бөлуге және т.б. болады.
Сандық айнымалылар:
Үздіксіз (continuous) айнымалылар , белгілі бір аралықта кез келген мәнді қабылдай алады. Мысалы, биіктігі сантиметрмен , температурасы Цельсий градусымен және т.б.
- \(X \in R\) - “математикалық”. \(R\) таңбасы нақты сандар жиынын белгілеу үшін қолданылады. Ағылшын тілінде нақты сандар (Real numbers.)
Дискретті (discrete), олар тек бүтін сан мәндерін қабылдай алады. Мысалы, кезектегі адамдар саны, Астанадағы белгілі бір айдағы жол-көлік оқиғаларының саны және т.б.
- \(X \in N\). \(N\) таңбасы натурал сандар жиынын (яғни, нөлден бастап бүтін сандарды) белгілеу үшін қолданылады. Natural numbers.
Категориялық айнымалылар
Категориалық айнымалылар шектеулі санаттар жиынтығынан немесе деңгейлерден мәндерді алады.
Категориялық айнымалылар атаулы (nominal) немесе реттік (ordinal) болып табылады.
Номиналды түрде деңгейлер реттелген емес. Мысалы, көздің түсі, қан тобы, мамандығы, жынысы.
- Level 1, Level 2, Level 3 и.т.д.
Реттік айнымалыларды ретке келтіруге болады. Мысалы, стейктің піскендік дәрежелері; қызметтерге қанағаттану дәрежелері..
- Level 1 < Level 2 < Level 3 и.т.д.
Диаграмма
Сақ болыңыз
Айнымалы мәндерінің сандармен көрсетілуі оның шын мәнінде сандық екенін білдірмейді.
Мысалы, IELTS ұпайы сандық немесе категориялық айнымалы ма?
Егер біреу емтиханнан 1, ал біреу 9 алса, бұл олардың ағылшын тілін 10-ға білетінін білдіре ме?
Категориялық айнымалыларды сандар түрінде көрсетуге болады!!
Бірақ бұл оларды сандық етпейді. Нақты сандық айнымалыларды қосуға, көбейтуге және т.б. болады. Категориялық айнымалыларды қосу мүмкін емес.
Кейбір жаттығулар
Мен айнымалыны сипаттаймын, ал сіз оның қандай түрі екенін айтасыз.
Астанада қаңтар айында некеге тұрғандар саны.
Кездейсоқ таңдалған қазақстандықтың бойы.
Кездейсоқ таңдалған қазақстандықтың қан тобы
Мектеп диктантының бағасы 1-ден 5-ке дейінгі шкала бойынша.
Кейбір жаттығулар. Жауптар.
Астанада қаңтар айында некеге тұрғандар саны. Сандық дискретті.
Кездейсоқ таңдалған қазақстандықтың бойы. Үздіксіз сандық мән.
Кездейсоқ таңдалған қазақстандықтың қан тобы. Атаулы.
Мектеп диктантының бағасы. Реттік.
Тапсырма.
Зерттеушілер 5 жастан 15 жасқа дейінгі 160 балаға эксперимент жүргізді; жасы мен жынысы да бақыланды . Әр бала тиын лақтырып, нәтижесін жазып алды (ақ немесе қара). Тиын лақтырғандар шағын сыйлық алды. Оқушылардың жартысына «шындықты айту» туралы нақты нұсқаулар берілді, ал екінші жартысына ештеңе айтылмады. Бақылаутобында ұлдар мен қыздар бірдей жиілікте өтірік айтты. Тәжірибелік топта қыздар сирек өтірік айтты, ал ұлдардың өтірік айту жиілігі жасқа байланысты болмаса да, қыздарда жас ұлғайған сайын азайды. (OpenIntro Statistics 2018:19)
Сұрақтар
Негізгі зерттеу сұрағын қалай тұжырымдар едіңіз?
Бақылау дегеніміз не? Қанша бақылау жазылады?
Айнымалыларды және олардың түрлерін тізімдеңіз?
Жауптар
Зерттеу сұрағы:
- Мысалы, өтірік айтпау туралы тікелей нұсқаулар 5 жастан 15 жасқа дейінгі балалар арасында өтірік айту ықтималдығына қалай әсер етеді
Бұл зерттеуде қандай бақылау бар? Қанша бақылау тіркелген?
- 5 жастан 15 жасқа дейінгі бала; 160 бақылау
Айнымалылар
Жынысы: атаулы (ұл, қыз)
Жасы: Сандық дискретті
Өтірік айтпау туралы нұсқаулар алдыңыз ба: атаулы (иә немесе жоқ)
Өтірік айтты немесе өтірік айтпады: атаулы
Индикаторлар
- Кейбір категориялық айнымалылар тек екі мәнді қабылдайды.
- Олар индикаторлар деп аталады.
- Мысалы:
- Оқушы сабаққа қатысты ма (иә немесе жоқ)
- Итіңіз бар ма (итіңіз бар ма, жоқ па)
- Синтаксис:
I(условие), яғниI(пол мужской): еркек болса 1, жоқ болса 0IөйткеніIndicator.
Айнымалылар арасындағы байланыстар
Деректерді талдаудың негізгі мақсаттарының бірі - айнымалылар арасындағы байланысты табу
Егер біреуінің мәнін білу екіншісінің мәнін анықтауға мүмкіндік берсе, екі айнымалы өзара байланысты немесе статистикалық тұрғыдан байланысты деп аталады.
Мысалы, кездейсоқ таңдалған адамның бойы қандай? Кім біледі?
Бірақ кездейсоқ NBA ойыншысының бойы қандай? Белгісіздік әлі де сақталғанымен, ол азайған!
«NBA ойыншысы» айнымалысы статистикалық тұрғыдан «Биіктік» айнымалысымен байланысты деп айта аламыз.
Айтпақшы, осы айнымалылардың түрлерін анықтаңыз.
Немесе, егер біз оның салмағы 100 килограмм екенін білсек, кездейсоқ адамның бойы қандай болады?
- Бойы ұзын адамдардың салмағы орташа есеппен көбірек болады. Сондықтан, адамның салмағын біле отырып, біз оның бойын дәлірек бағалай аламыз (яғни, белгісіздік аз).
Белгісіздікті азайту идеясын есте сақтаңыз! Ол көптеген әдістердің негізінде жатыр.
Айнымалылар арасындағы байланыстар
Айнымалылар арасындағы байланыстар туралы қандай терминдермен сөйлесеміз?
Біріншіден, біз нені түсіндіргіміз немесе болжағымыз келетінін анықтауымыз керек. Мысалы, жоғарыдағы мысалда біз кездейсоқ таңдалған адамның «бойы қандай» деген сұрақ қойдық.
Яғни, біздің басты мүддеміз «өсуге» бағытталған.
Негізгі қызығушылық тудыратын айнымалы әдетте тәуелді айнымалы (dependent variable )немесе жауап айнымалысы (response variable) деп аталады. Екеуі де ортақ.
Содан кейін біз тәуелді айнымалыны түсіндіретін немесе болжайтын тағы бір айнымалыны, «NBA-да ойнайды» енгізуді шештік.
- Аналогия бойынша, мұндай айнымалылар әдетте тәуелсіз айнымалылар (independent variables) немесе түсіндірме айнымалылар (explanatory variables) деп аталады. Тағы да, екі нұсқа да қолданылады; сіз бірінші немесе екінші жұпты пайдалана аласыз, егер сіз бірізді болсаңыз.
Бір айнымалы екіншісіне тәуелді деп айтқымыз келгенде (немесе бір айнымалы екіншісін түсіндіреді), біз келесі синтаксисті қолданамыз:
Тәуелді айнымалы ~ Тәуелсіз айнымалы(лар)
немесе
- Жауап айнымалысы ~ Түсіндірме айнымалы(лар)
Мысал:
Бойы ~ I (NBA ойыншысы) + Салмағы
Адамның бойының NBA-да ойнайтынына және салмағына қалай байланысты екенін (түсіндірмесін) оқыңыз.
Мұнда тұжырымдамалық қиындықты байқауға болады. Өсу NBA келісімшартына байланысты деп айта аламыз ба? Керісінше.
- Салмаққа да қатысты. Салмақ бойды анықтай ма? Керісінше.
Статистикалық модельдер әрқашан шындыққа сәйкес келе бермейді (олар агностикалық). Бағдарлама сіз берген кез келген модельді есептейді. Модельдің сапасы деректерді жасаған процесті түсінумен, негізінен зерттеушінің өзімен және олардың зерттеу тақырыбын білуімен анықталады.
Себебі «деректер өзі үшін сөйлейді» сияқты жиі кездесетін сөз тіркестері көбінесе әуесқойлықты білдіреді;
Деректер, егер ұзақ уақыт бойы азапталса, сіз қалағанның бәрін мойындайды.
- Екінші жағынан, «барлық модельдер қате, бірақ кейбіреулері пайдалы».
Деректерді визуализациялау
-Жарайды, бізде деректер бар және біз онымен бірдеңе жасағымыз келеді делік.
-Ерекшеліксіз, біз жасайтын ең бірінші нәрсе - графиктер салу.
-Біріншіден, бұл қызықты және әдемі; сіз графиктеріңізді онлайн режимінде көрсете аласыз, сонда барлығы сізді ақылды деп ойлайды.
-Дегенмен, ең бастысы, графиктер айнымалылар арасындағы байланыстар туралы гипотезаларды қалыптастыруға көмектеседі.
-Кейбір мысалдарды қарастырайық
Gapminder
-Төмендегідей деректер кестесі бар делік
| country | continent | year | lifeExp | pop | gdpPercap |
|---|---|---|---|---|---|
| Afghanistan | Asia | 1952 | 28.801 | 8425333 | 779.4453 |
| Afghanistan | Asia | 1957 | 30.332 | 9240934 | 820.8530 |
| Afghanistan | Asia | 1962 | 31.997 | 10267083 | 853.1007 |
| Afghanistan | Asia | 1967 | 34.020 | 11537966 | 836.1971 |
| Afghanistan | Asia | 1972 | 36.088 | 13079460 | 739.9811 |
| Afghanistan | Asia | 1977 | 38.438 | 14880372 | 786.1134 |
| Afghanistan | Asia | 1982 | 39.854 | 12881816 | 978.0114 |
| Afghanistan | Asia | 1987 | 40.822 | 13867957 | 852.3959 |
| Afghanistan | Asia | 1992 | 41.674 | 16317921 | 649.3414 |
| Afghanistan | Asia | 1997 | 41.763 | 22227415 | 635.3414 |
Gapminder деректері: Сипаттамасы
Gapminder 6 айнымалы бойынша 1704 бақылауды қамтиды:
- ел: номиналды, 142 деңгей (елдер)
- континент: номиналды, 5 деңгей (континенттер)
- жыл: сандық дискретті, 1952 жылдан 2007 жылға дейін 4 жылдық өсіммен
- өмір ұзақтығы: сандық үздіксіз, өмір сүру ұзақтығы жылдармен
- қалып: сандық дискретті, халық
- жалпы ішкі өнім (жалпы ішкі өнім): үздіксіз, жан басына шаққандағы ЖІӨ
Сандық ~ Сандық
- Біз не істей аламыз? Егер бізде екі сандық айнымалы болса, олардың бірлескен үлесімін орта мектепте салғандарымыз сияқты кәдімгі XY графигі ретінде көрсете аламыз. Бұл графиктер шашыраңқы графиктер деп аталады.
Төмендегі график 2007 жылғы елдер бойынша орташа өмір сүру ұзақтығы мен жан басына шаққандағы ЖІӨ-ні көрсетеді.
#| message: false gapminder %>% filter(year == 2007) %>% ggplot(aes(x = gdpPercap, y = lifeExp)) + geom_point() + # geom_smooth() + labs(y = “Туған кездегі өмір сүру ұзақтығы, жылдармен”, x = “Жан басына шаққандағы ЖІӨ (АҚШ доллары, инфляцияға түзетілген)”, title = “2007 жылғы елдің орташа өмір сүру ұзақтығы және ЖІӨ”, caption = “gapminder деректер жиынтығы”) + theme_minimal() `` ## Айнымалылар арасындағы байланыстар: Сандық ~ Сандық
Бұл айнымалылар арасындағы байланыс туралы не айта аламыз?
Таза техникалық тұрғыдан алғанда, бұл графикті былай атауға болады:
Өмір сүру ұзақтығы(жауап) ~Жан басына шаққандағы ЖІӨ(түсіндірме)Әрі қарай, байланыс оң: ЖІӨ неғұрлым жоғары болса, өмір сүру ұзақтығы соғұрлым жоғары болады.
Байланыс сызықтық емес: бастапқыда ЖІӨ өсуі өмір сүру ұзақтығының күрт артуымен байланысты, бірақ белгілі бір деңгейден кейін өмір сүру ұзақтығының артуы тоқтайды (жастың жоғарғы шегі бар).
Айырмашылықтар бар.
Сауалнама және эксперимент
Сауалнамалар (бақылау зерттеулері)
Сауалнамалар деректер «қазіргі қалпында» бақыланған кезде болады.
Сауалнамалар, веб-скрепинг
Мысалы, PISA - сауалнама. - Сауалнамалар корреляцияны анықтай алады, бірақ себепті байланысты көрсете алмайды.
Мысалы, ЖІӨ тек өмір сүру ұзақтығымен ғана корреляцияланады; ЖІӨ-нің өмір сүру деңгейінің жоғарылауына [әкелетінін]{.асты сызылғанын] әлі айта алмаймыз.
Тәжірибелер
Тәжірибелерде қатысушылар кездейсоқ түрде әртүрлі топтарға бөлінеді: әдетте бақылау тобы және тәжірибелік топ.
Тәжірибелер айнымалылар арасындағы себептік байланыстарды дәлелдей алады.
Мысал: Ерте оянатын оқушылар мектепте жақсы нәтиже көрсетеді.
Мысал
- Әдеттегі зерттеу келесідей болуы мүмкін: кездейсоқ оқушыларды алып, олардың ұйқы әдеттері мен бағаларын бақылаңыз.
- Егер «ерте тұратындар» мектепте «үкілерге» қарағанда жақсы нәтиже көрсетсе, онда ерте ояну «үлгеріммен» байланысты.
- Тәжірибе:
- Оқушылар тобын таңдап, кездейсоқ екі кіші топқа бөліңіз: тәжірибелік топ әдейі ерте оянады, ал бақылау тобы қалаған кезде оянады.
- Егер біраз уақыттан кейін ерте оянуға мәжбүр болған оқушылардың бағалары жақсы болса, «ерте ояну» «үлгерімге» әсер етеді деп айта аламыз.
Айырмашылығы неде?
Айырмашылығы - ерте ояну туралы шешім экспериментте бақыланады, ал сауалнамада бақыланбайды.
Бірақ неге?
Сауалнамаларда біз жауапқа да, түсіндірме айнымалыға да әсер ете алатын басқа айнымалыларды бақыламаймыз.
Мысалы, үнемі жаттығу жасайтын студенттер бір уақытта режимді ұстанып, оқуда жақсы нәтиже көрсете алады.
Жауапқа да, түсіндірме айнымалыларға да әсер ететін мұндай сыртқы айнымалылар шатастыратын айнымалылар деп аталады.
Бірақ неге эксперименттер жасай алады?
- Жауапқа да, түсіндірме айнымалыларға да әсер ете алатын сыртқы айнымалылар кездейсоқ тағайындауға байланысты екі топта да бірдей көрсетілген.
- Тәжірибелік және бақылау топтары бір айнымалыдан басқа барлық басқа айнымалылар бойынша ұқсас: ерте ояну.
- Сондықтан, ұпайлардағы айырмашылықты ерте оянумен байланыстыра аламыз.
Халық және үлгі
Мысал
- Астана тұрғындарының қанша пайызы жұмысқа автобуспен баратынын білгіміз келеді делік.
- Халық (жалпы халық деп те аталады): 18 жастан 65 жасқа дейінгі барлық Астана тұрғындары.
- Үлгі: біз сауалнама жүргізуді жоспарлап отырған 100 адам.
- Үлгіге кімді қосу керектігін қалай шешеміз?
Халық және үлгі
- Кез келген зерттеу сұрағы қызығушылық тудыратын халықты талап етеді.
- Халық - бұл біз зерттегіміз келетін барлық нысандар (мысалы, сауалнама).
- Үлгі - біз ала алған халықтың шағын бөлігі.
- Статистикалық қорытынды - үлгіге негізделген халық құрылымын түсіну тәсілі.
- Мысалы, егер сіздің үлгіңіздегі 50 адам жұмысқа үнемі автобуспен барса, бұл Астананың барлық ересек тұрғындарының 50%-ы солай істейді дегенді білдіре ме?
- Сіздің үлгіңіздің қаншалықты жақсы екеніне байланысты.
Іріктеу стратегиялары
- IP: Астана тұрғындарының қанша пайызы жұмысқа автобуспен барады?
- Іріктеу нұсқалары:
- Достарыңызбен сауалнама жүргізіңіз
- Онлайн сауалнама ашып, оны БАҚ-та жарнамалаңыз
- Сауда орталығының кіреберісінде тұрып, кіретін әрбір оныншы адамнан сауалнама алыңыз
- Астананың әр ауданында 25 кездейсоқ мекенжайды таңдап, иелеріне қоңырау шалыңыз
- Астанада тұратын жеке тұлғалардың дерекқорынан 100 кездейсоқ сәйкестендіру нөмірін (жасына сәйкес) таңдап, олармен хабарласыңыз
- Үлгілерді бағалаңыз
Өкілдік үлгі
Жақсы үлгі халықтың құрылымын көрсетеді
Егер халықтың 60%-ы жұмысқа автобуспен қатынайтын болса, онда жақсы үлгіде үлес ұқсас болуы керек.
Үлгі құрылымы халықтың құрылымын көрсеткенде, біз оны өкілдік деп атаймыз.
Мұндай жағдайларда үлгіде көргенімізді халыққа жалпылауға болады.
Өкілдік үлгіні қалай алуға болады?
Жалпы идея: халықтағы әрбір нысанның үлгіге қосылу мүмкіндігі бірдей болуы керек.
Үш жалпы стратегия бар:
- Қарапайым кездейсоқ іріктеу
- Статистикалық кездейсоқ іріктеу
- Кластерлік кездейсоқ іріктеу
- Қарапайым
- Көп сатылы
Қарапайым кездейсоқ іріктеу
Негізгі идея: популяциядан кездейсоқ түрде N нысанды таңдау.
Мысалы:
- ЖСН дерекқорынан 100 кездейсоқ санды жасау.
- Ура! Бізде репрезентативті үлгі бар.
- Артықшылықтары: Теорияда репрезентативтілікке қол жеткізудің ең жақсы жолы.
- Кемшіліктері: Іс жүзінде ең нашар әдіс (көптеген жағдайларда іс жүзінде мүмкін емес).
Стратификацияланған кездейсоқ іріктеу
Негізгі идея: популяцияны біртекті топтарға — страталарға — бөліп, осы страталардан кездейсоқ түрде өкілдерді таңдау.
Мысал:
- 35 жасқа дейінгі 25 ер адам мен әйелді және 25 жастан асқан 25 ер адам мен әйелді алайық.
Кластерлік кездейсоқ іріктеу
Негізгі идея: Популяцияны гетерогенді топтарға — кластерлерге — бөліп, кластерлерді тұтастай немесе кластерлер арасынан кездейсоқ таңдап алыңыз.
- Сауда орталықтарын кездейсоқ таңдаңыз
- Сауда орталықтарындағы адамдардан кездейсоқ сауалнама алыңыз
Үлгіні қалай ластауға болады
- Ыңғайлы іріктеу
- Мысалы, тек достарыңыздан сауалнама алған кезде
- Ерікті жауап іріктеу
- Барлық онлайн сауалнамалардағы мәселе
- Қатысу ықтималдығы респонденттердің сипаттамаларына байланысты болуы мүмкін
- Мысалы, “Сіз жануарларға қатыгездік жасағаны үшін қатаң жазаларды қолдайсыз ба?”
- Бұл мәселе бойынша берік пікірі бар адамдар белсенді түрде жауап беруі мүмкін. Бұл мәселеге онша сезімтал емес адамдар өтіп кетеді.
- Жауапсыз іріктеу
- Мысалы, сіз сезімтал сұрақтар қойған кезде және адамдар жауап бермеген кезде.
Сурет
Сынама алу сорпаға ұқсайды
Сынама алу сорпаның дәмін қалай сезінетініміз туралы.
Сорпаның қасиеттерін түсіну үшін оны тұтастай жеудің қажеті жоқ. Жақсылап араластырылған жағдайда бір қасық жеткілікті.
Дегенмен, егер сорпа араластырылмаса (мысалы, барлық дәмдеуіштер түбіне дейін шөгіп қалған болса), тіпті үлкен шелек те көмектеспейді.
Сорпа
Нашар сынаманың мысалы: Лэндон vs. Рузвельт
- 1936 жылғы АҚШ президент сайлауы: Республикашыл Лэндон vs. Демократ Франклин Делано Рузвельт (Рузвельт)
- Сол кездегі танымал журналдардың бірі, Literary Digest, ел бойынша шамамен 10 сауалнама жіберіп, адамдардан кімге дауыс беретінін сұрады.
- Шамамен 2,4 миллион жауап алды.
- Олардың деректері бойынша, Рузвельт дауыстардың 43% алады (және жеңіледі) деп күтілген.
- Дегенмен, сайлаудың өзінде Рузвельт дауыстардың 62%-ын алды (және әрине жеңіске жетті).
- Сұрақ: Болжам мен шындық арасындағы айырмашылық неліктен соншалықты үлкен, шамамен 20%?
Не дұрыс болмады?
- Халық саны: АҚШ-тың дауыс беруші халқы
- Үлгі:
- журналға жазылушылар, тіркелген көлік иелері, тіркелген телефон иелері
- 1936 жыл, Ұлы депрессия қызу жүріп жатыр
- Сіз 1936 жылы көлік пен телефоныңыз болса, байсыз ба, жоқ па деп ойлайсыз ба?
- Жоқтан гөрі иә болуы ықтимал, және штаттардағы бай адамдар Республикалық партияны қолдауға бейім.
- Сондықтан, журнал жинаған үлгі ол бағалағысы келген халық санын көрсетпеді (АҚШ-тың дауыс беретін халқы).
- Бұл іс туралы толығырақ [мына жерден] оқи аласыз (https://www.math.upenn.edu/~deturck/m170/wk4/lecture/case1.html)
Үлгі статистикасы және халық параметрі I
- Жоғарыдағы мысалда журнал халықтың қанша пайызы Рузвельтке дауыс беретінін бағалағысы келді. Бұл үлесті \(\mu\) деп белгілейік, ал бас әріппен жазылған \(N\) олардың халқындағы жалпы адамдардың санын белгілейік. Яғни, \(N\) - дауыс беруге құқылы американдықтардың жалпы саны.
\[\mu = \frac{\sum_{i=1}^{N}x_i}{N} \textrm{- шын және белгісіз популяция параметрі}\]
- Бағалау үшін олар үлгі жинады, оның өлшемін \(n\) деп белгілейік және үлгі статистикасын есептеді (яғни, үлгідегі Рузвельтке дауыс беруді жоспарлап отырған адамдардың үлесі).
\[\bar{s} = \frac{\sum_{i = 1}^{n}x_i}{n} \textrm{- үлгі статистикасы}\]
Үлгі статистикасы және популяция параметрі II
- Айырмашылықты сезініңіз. Үлгі статистикасы белгілі; ол жаңа ғана есептелген.
- Популяция параметрі белгілі емес; бізде бүкіл популяцияға қол жеткізу мүмкіндігі жоқ.
- Дегенмен, үлгі статистикасы популяция параметрін бағалайды. Бұл белгісіз параметр туралы біздің ең жақсы болжамымыз. Бұл бағалау бізде қате бар екенін білдіреді.
- Математикалық статистиканың көп бөлігі осы қатені қалай сандық түрде анықтауға байланысты. Іріктеме статистикасы кездейсоқтықпен шынайы параметрден қаншалықты ауытқуы мүмкін.
- Кездейсоқтық пен қателік іріктеу процедурасынан туындайды, себебі ол әртүрлі бақылауларды қамтиды. Егер үлгі жақсы болса, яғни толығымен кездейсоқ болса, енгізілген бақылаулар спектрдің барлық шеттерінен әртүрлі болады және алынған орташа мән бізге бүкіл популяцияның жақсы көрінісін береді.
- Барлық бақылаулардың үлгіге қосылу мүмкіндігі бірдей болмаған нашар үлгілерде үлгі статистикасы шынайы параметр мәндерінен өте, өте алыс ауытқуы мүмкін.
Іріктеме статистикасы және популяция параметрі III
- (Іріктеме) статистика және параметрлер арасындағы айырмашылық түбегейлі маңызды.
- Формальды түрде статистика латын әріптерімен үстіңгі сызық немесе кареткамен белгіленеді:
- Мысалы, үлгінің орташа мәні: \(\overline{x}\), үлгінің үлесі: \(\hat{p}\)
- Популяция параметрлері үшін біз грек әріптерін қолданамыз:
- Мысалы, популяцияның орташа мәні: \(\mu_{x}\)
Кездейсоқ айнымалы
- Міне, өте маңызды идея!!
- Үлгі статистикасы - кездейсоқ айнымалы. Мысалы, үлгі орташа мәні \(\overline{x}\) үлгіден үлгіге өзгереді.
- Бірақ популяция параметрі тұрақты: шынайы популяция орташа мәні тұрақты (бірақ белгісіз).
- Тағы да, үлгі статистикасы популяция параметріне жуықтайды.
1.17-жаттығу
1.17 Жалпы әлеуметтік сауалнамада: «Әдеттегі жұмыс күнінен кейін сіз демалысқа немесе демалуға шамамен қанша сағат жұмсайсыз?» деп сұралады. 1155 американдықтан тұратын үлгі үшін бұл уақыт орташа есеппен 1,65 сағатты құрады. (OpenIntro Statistics 2018:29).
1.17-жаттығу
Қайсысы а) бақылау, ә) айнымалы, в) үлгі статистикасы және г) популяция параметрі екенін анықтаңыз.
АҚШ азаматы (немесе жай ғана американдық):
Жұмыстан кейінгі демалыс уақыты
1.65
Жұмыстан кейінгі барлық АҚШ азаматтарының орташа демалыс уақыты
1.17-жаттығу
Қайсысы a) бақылау, b) айнымалы, c) үлгі статистика және d) популяция параметрі екенін анықтаңыз.
АҚШ азаматы (немесе жай ғана американдық): Бақылау
Жұмыстан кейінгі демалыс уақыты: Айнымалы
1.65: үлгі статистика
Жұмыстан кейінгі барлық АҚШ азаматтарының орташа демалыс уақыты: Популяция параметрі.
##Оқып, жаттығу
- Оқу: Ашық кіріспе статистикасы, 4-бөлім, 1-тарау
- Тәжірибе: 1.5, 1.9, 1.14, 1.17, 1.21, 1.31, 1.35, 1.41