5  Үздіксіз кездейсоқ шамалар

Үздіксіз кездейсоқ айнымалылар

  • Үздіксіз кездейсоқ айнымалылар: кездейсоқ адамның бойы, кездейсоқ студенттің орташа математикалық бағасы және т.б.
  • Анықтамасы: Кездейсоқ айнымалы үздіксіз деп аталады, егер ықтималдық тығыздығы функциясы деп аталатын \(f_x\) функциясы болса, онда

\[\begin{align*} P(x \in A) &= \int_{A}f_X(x)dx, \forall A \in R \\ \textrm{ in particular } \\ P(a \leq x \leq b) &= \int_a^bf_X(x)dx \end{align*}\]

Түсіндірме

  • Бір мүмкін түсіндірме: \([x, x+\delta]\) шағын аралығын алыңыз

\[ P([x, x+\delta]) = \int_{x}^{x+\delta} f_X(t)dt \approx f_X(x)\delta \]

  • Сонымен, \(f_X(x)\) - «ықтималдықтың аралық ұзындығына қатынасы».
  • Ықтималдық тығыздығының* - \(f_X(x)\) - ықтималдық емес екенін ұмытпаңыз.
  • Ол \(1\)-тан үлкен болуы мүмкін.

Ықтималдық тығыздығы туралы аздап толығырақ.

  • Жалпы, ықтималдық массаға ұқсайды. Сізде 1 грамм сары май бар деп елестетіп көріңіз.

  • Және сіз осы бір граммды тостқа жағасыз (яғни, таратасыз).

  • Егер сіз тосттың «аймағын» таңдасаңыз, онда белгілі бір сары май массасы болады. Егер сіз аймақты кішірейтсеңіз, онда сары май массасы да азаяды. Екі сан да, аймақтың ауданы да, сары май массасы да нөлге бейім болады, бірақ олардың қатынасы нөлге тең болмайды.

  • Сонымен, PDF - ықтималдықтың аймақтың өлшеміне қатынасының шегі. Тығыздық сізге нүктедегі ықтималдықтың концентрациясын көрсетеді.

\[ \lim_{\Delta x \Delta y \rightarrow 0} \frac{F(\Delta x \Delta y)}{\Delta x \Delta y} = PDF = f_{X}(x) \]

  • Адам бойы (PDF) Бой үздіксіз айнымалы, сондықтан ол үшін PDF файлы қолданылады. Мысалы, кездейсоқ таңдалған адамның бойының PDF файлы болса, бойы 170-175 см болатын біреумен кездесу ықтималдығын бағалай аласыз.

  • Автокөлік жылдамдығы (PDF) Камералар жолдағы көліктердің жылдамдығын өлшейді. Көліктің 60-70 км/сағ жылдамдықпен жүру ықтималдығын түсіну үшін PDF файлын құрастыра аласыз, бұл, мысалы, жол белгілерін реттеуге немесе камераларды орнатуға көмектеседі.

  • Медицина: Қандағы қант деңгейі (PDF) Дәрігерлер адамдардағы қандағы қант деңгейінің таралуын түсіну үшін PDF файлын пайдаланады. Мысалы, кездейсоқ пациенттің қандағы қант деңгейі қалыпты (3,9-5,5 ммоль/л) немесе одан жоғары болу ықтималдығын бағалай аласыз.

PDF қасиеттері

  • Тығыздық функциялары нәтиже кеңістігіндегі нүктенің қаншалықты тығыз екенін көрсетеді. Тығыздық функциялары екі шартты қанағаттандыруы керек.

  • \(f_{X}(x) > 0, \forall x\): Функция оң болуы керек.

  • \(\int_{\Omega}f_X(x)dx = 1\): Бұл функцияның бүкіл нәтиже кеңістігіндегі интеграл 1-ге тең болуы керек.

  • Сіз кеңістікке 1 ықтималдық бірлігін тараттыңыз; егер сіз бәрін қайта біріктірсеңіз, қайтадан 1 алуыңыз керек.

  • Жалпы, осы екі шартты қанағаттандыратын кез келген функция PDF бола алады.

  • Мысалы:

\(x \in [0, 2]\) аралығында анықталған \(g(x) = ax^2\) функциясы бар делік. \(ax^2\) функциясы PDF болуы үшін \(a\) қандай болуы керек?

\[\begin{align*} \int_{\Omega} g(x) dx & = 1 \\ \int_{0}^{2} ax^2 dx & = 1 \\ a*\frac{x^3}{3}|_{0}^{2} & = 1 \\ a & = \frac{3}{8} \end{align*}\]

Үздіксіз біркелкі (біркелкі) S.P.

  • \(X\) \([a,b]\) аралығында мәндерді қабылдайды, және бірдей ұзындықтағы барлық ішкі аралықтардың ықтималдығы бірдей
  • \(f_X(x) = \frac{1}{b-a}, \textrm{ for } a \leq x \leq b; 0 \textrm{ otherwise}\)

\[\int_a^{b}f_X(x) = \int_a^{b}\frac{1}{b-a}dx = 1\]

Үздіксіз Ж.Б. күтуі

  • Формальды анықтама

\[ E[X] = \int_{-\infty}^{\infty}xf_X(x)dx \]

  • Біркелкі S.P. үшін есептеп көрейік. \(X \sim U[a, b], E[X] = ?\)

\[ E[X] = \int_{a}^{b}\frac{x}{b-a}dx = \frac{x^2}{2(b-a)}\bigg|_a^b = \frac{a+b}{2} \]

Үздіксіз айнымалының дисперсиясы

Анықтамасы:

\[ var(X) = E[(X - E[X])^2] \]

Шын мәнінде, бұл нені білдіреді?

\[ var(X) = \int_{-\infty}^{\infty} (x - E[X])^2f_X(x)dx \]

Бірақ қарапайым формула бар

\[ var(X) = E[X^2] - E[X]^2 \]

Әдетте күтілетін мән белгілі. Квадраттың күтілетін мәнін есептеу сәл қиынырақ.

\[ E[X^2] = \int_{-\infty}^{\infty}x^2f_X(x)dx \]

\([a, b]\) аралығындағы біркелкі S.P. дисперсиясын есептеп көрейік. Немесе

\[ X \sim U[a, b]: f_X(x) = \frac{1}{b-a} \]

Күту

\[ E[X] = \frac{b+a}{2} \]

Квадраттың күтілетін мәні:

\[\begin{align*} E[X^2] & = \int_{-\infty}^{\infty}x^2f_X(x)dx \\ & = \int_{a}^{b}x^2\frac{1}{b-a}dx \\ & = \frac{x^3}{3}\frac{1}{b-a}|_{a}^{b}dx \\ & = \frac{b^3 - a^3}{3(b-a)} \end{align*}\]

Енді дисперсия:

\[\begin{align*} var(X) & = E[X^2] - E[X]^2 \\ & = \frac{b^3 - a^3}{3(b-a)} - \frac{(b+a)^2}{4} \\ & = \frac{b^2 + ba + a^2}{3} - \frac{(b+a)^2}{4} \\ & = \frac{4b^2 + 4ba + 4a^2 - 3b^2 - 6ba - 3a^2}{12} \\ & = \frac{b^2 - 2ba + a^2}{12} \\ var(X) & = \frac{(b-a)^2}{12} \end{align*}\]

Кумулятивтік үлестірім функциясы, CDF

  • Біз әртүрлі функцияларды қолдана отырып, дискретті және үздіксіз кездейсоқ айнымалылармен жұмыс істедік:
  • Дискретті: берілген мәннің қаншалықты ықтимал екенін көрсететін ықтималдық массасы функциясы (pmf)
  • Үздіксіз: нүктедегі ықтималдық тығыздығының функциясы
  • Дискретті және үздіксіз кездейсоқ айнымалылар туралы айтуға мүмкіндік беретін бірыңғай математикалық тұжырымдаманың болуы жақсы болар еді.

Жиынтық үлестірім функциясы, CDF

  • CDF - жиынтық үлестірім функциясымен танысыңыз

\[\begin{align*} F_X(x) = P(X \leq x) \\ \textrm{егер X дискретті болса: } F_X(x) = P(X \leq x) = \sum_{k\leq x}p_X(k) \\ \textrm{егер X үздіксіз болса: } F_X(x) = P(X \leq x) = \int_{-\infty}^{x}f_X(t)dt \end{align*}\]

Жиынтық үлестірім функциясы, CDF

  • CDF - \(F_X(x)\) - \(x\) мәніне дейін қанша ықтималдық жинақтағаныңызды көрсетеді
  • Кез келген кездейсоқ айнымалының дискретті немесе үздіксіз болуына қарамастан, CDF бар. \({X\leq x}\) оқиғасының әрқашан белгілі бір ықтималдығы бар (\(X = x\)-тен айырмашылығы).
  • Мысалы, бізде біркелкі кездейсоқ айнымалы бар делік. Оның CDF-ін табайық.
  • Яғни, \(X \sim Uni(a, b), F_X(x) = ?\)
  • Анықтаманы орындай отырып, мынаны аламыз

\[ F_X(x) = \int_{a}^{x}\frac{1}{b-a}dt = \frac{t}{b-a}\bigg|_{a}^{x} = \frac{x-a}{b-a} = \frac{1}{b-a}x - \frac{a}{b-a} \]

  • PDF - \(f X(x)\) - CDF - \(F X(x)\) - егер туынды алсақ, оны алуға болады

\[ f_X(x) = \frac{dF_X}{dx}(x) \]

Қалыпты үлестірім

  • Үздіксіз үлестірім қалыпты деп аталады, егер оның PDF келесі формада болса

\[ f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2} \]

  • \(\mu\) және \(\sigma\) параметрлерімен анықталады
  • \(\mu\) үлестірімнің орталығын көрсетеді
  • \(\sigma\) мәндердің орташа мән айналасында қаншалықты шашыраңқы екенін анықтайтын стандартты ауытқуды көрсетеді
  • \(X \sim N(\mu, \sigma)\) түрінде жазылады
  • \(E[X] = \mu\), қалыпты кездейсоқ айнымалының күтілетін мәні оның орташа мәніне тең
  • \(Var(X) = \sigma^2\), қалыпты кездейсоқ айнымалының дисперсиясы

##Қалыпты отбасы

Кішкентай R

  • Айталық, \(X \sim N(0, 1)\)
  • Біз \(P(X \leq 0)\) оқиғасының ықтималдығын есептегіміз келеді
  • Формальды түрде,

\[F_X(0) = P(X \leq 0) = \int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx\]

  • Бірақ интуитивті түрде, біз 0-ден кіші қисық астындағы аудан туралы айтып отырғанымызды көре аламыз.
  • үлестірім симметриялы болғандықтан, ол 1/2-ге тең.
  • Дегенмен, ерекше жағдайда біз осы күрделі интегралды қабылдауымыз керек.
  • Дегенмен, R біз үшін функциялар жиынтығымен бәрін жасайды.
  • dnorm(), pnorm(), qnorm(), rnorm()

dnorm()

  • dnorm() айнымалы мәнді кіріс ретінде қабылдайды және сол нүктедегі ықтималдық тығыздығының мәнін қайтарады.
dnorm(x = c(1, 0, 1), mean = 0, sd = 1)
[1] 0.2419707 0.3989423 0.2419707
  • Мен графиктерді салу үшін dnorm() қолдандым.
my_tibble <-
tibble(x = seq(-3, 3, by = 0.05)) %>% # алдымен сандардың векторын жасаймын
mutate(y = dnorm(x)) # содан кейін PDF мәндері бар жаңа айнымалы жасаймын
my_tibble %>% head()
x y
-3.00 0.0044318
-2.95 0.0051426
-2.90 0.0059525
-2.85 0.0068728
-2.80 0.0079155
-2.75 0.0090936

Содан кейін

my_tibble %>%
ggplot(aes(x = x, y = y)) +
geom_line() +
labs(title = "Қалыпты үлестірімнің PDF файлы") +
annotate('text', x = 0, y = 0.41,
label = "mu==0~sigma==1", parse = TRUE, size = 5)

pnorm()

  • pnorm() - қалыпты үлестірімнің CDF файлы. Функция айнымалының мәнін кіріс ретінде қабылдайды және осы уақытқа дейін қанша “ықтималдық” жинағаныңызды шығарады.
# Стандартты қалыпты s.p. (орташа = 0, sd = 1) 0-ден кіші мәнді қабылдау ықтималдығы қандай?
pnorm(0, mean = 0, sd = 1)
[1] 0.5
  • Әдепкі бойынша, pnorm() айнымалының берілген мәннен кіші болу ықтималдығын есептейді: \(P(X \leq x)\). Егер сіз айнымалының берілген мәннен үлкен болу ықтималдығын тапқыңыз келсе, әдепкі мәнді 1-ден алып тастаңыз.

\[ P(X > x) = 1 - P(X \leq x) \]

Мысал

Орташа мәні $10 және стандартты ауытқуы $2 болатын қалыпты s.p.-нің мәні $15-тен жоғары болу ықтималдығы қандай?

1 - pnorm(15, mean = 10, sd = 2)
[1] 0.006209665
  • Енді дәл солай, бірақ графикалық түрде

Алдымен PDF форматында

  • Енді, CDF

qnorm()

  • qnorm() үлестірімді көрсетілген пропорцияларға бөлетін квантилдерді, нүктелерді есептейді.
  • Сіз пропорцияны, яғни айнымалының көрсетілген мәннен аз болу ықтималдығын енгізесіз және қажетті мәнді шығарасыз.

\[ qnorm(p) = x: P(X \leq x) = p \]

  • Стандартты қалыпты s.p. мәні қандай жағдайда уақыттың 50%-ында сол нүктеден кіші?
qnorm(0.5, mean = 0, sd = 1)
[1] 0
  • Кездейсоқ айнымалы уақыттың 50%-ында сол нүктеден кіші болатын нүкте қайда?
qnorm(0.25, mean = 0, sd = 1)
[1] -0.6744898
  • Кездейсоқ айнымалы уақыттың 5%-ында сол нүктеден үлкен болатын нүкте қайда?
# әдепкі бойынша `qnorm()` кездейсоқ айнымалы қайтару керек нүктеден аз мәндерді қабылдайды деп болжайды, оны өзгерту үшін lower.tail = FALSE аргументін пайдаланыңыз
qnorm(0.05, mean = 0, sd = 1, lower.tail = FALSE)
[1] 1.644854

rnorm()

  • rnorm() қалыпты кездейсоқ айнымалының мәндерін жасайды
my_random_values <- rnorm(10, mean = 0, sd = 1)
my_random_values
 [1] -0.87098226  0.40026620  0.58136291  0.58931088  0.06336194  0.13462486
 [7]  1.44461107  0.57795902  0.67839075  0.33332796
  • Мынадай мәндерден гистограмма құрайық
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
ggplot(aes(x = sim_values)) +
geom_histogram(bins = 30, color = "gray")

rnorm()

  • Содан кейін біз кездейсоқ айнымалының PDF файлын бағалау үшін осы жасалған деректерді пайдалана аламыз, ол қалыпты пішінге ұқсауы керек, бірақ ол идеалды болмауы керек
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
ggplot(aes(x = sim_values)) +
geom_histogram(bins = 30, color = "gray", aes(y = ..count../sum(..count..))) +
geom_density(color = "skyblue2") +
labs(y = "Proportion")
Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(count)` instead.

rnorm()

  • Жасалған деректерді қалыпты кездейсоқ айнымалының нақты PDF файлымен салыстырайық айнымалы
tibble(sim_values = rnorm(1000, mean = 0, sd = 1)) %>%
  ggplot(aes(x = sim_values)) +
  geom_histogram(bins = 30, color = "grey", aes(y = ..count../sum(..count..))) +
  geom_density(color = "skyblue2") +
  geom_line(data = my_tibble, aes(x = x, y = y), color = "maroon4") +
  labs(y = "Proportion")