Как выбрать доверительный интервал


Доверительный интервал — Википедия

Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Доверительным называется интервал, в который попадают измеренные в эксперименте значения, соответствующие доверительной вероятности.[1]

Метод доверительных интервалов разработал американский статистик Ежи Нейман, исходя из идей английского статистика Рональда Фишера[ссылка 1].

Доверительным интервалом параметра θ{\displaystyle \theta } распределения случайной величины X{\displaystyle X} с уровнем доверия p[примечание 1], порождённым выборкой (x1,…,xn){\displaystyle (x_{1},\ldots ,x_{n})}, называется интервал с границами l(x1,…,xn){\displaystyle l(x_{1},\ldots ,x_{n})} и u(x1,…,xn){\displaystyle u(x_{1},\ldots ,x_{n})}, которые являются реализациями случайных величин L(X1,…,Xn){\displaystyle L(X_{1},\ldots ,X_{n})} и U(X1,…,Xn){\displaystyle U(X_{1},\ldots ,X_{n})}, таких, что

P(L⩽θ⩽U)=p{\displaystyle \mathbb {P} (L\leqslant \theta \leqslant U)=p}.

Граничные точки доверительного интервала l{\displaystyle l} и u{\displaystyle u} называются доверительными пределами.[2].

"Вероятность, с которой в условиях данного эксперимента полученные экспериментальные данные можно считать надежными (достоверными), называют доверительной вероятностью или надежностью. Величина доверительной вероятности определяется характером производимых измерений. При выполнении учебных лабораторных работ в курсе общей физики доверительная вероятность обычно считается равной 95%.

Толкование доверительного интервала, основанное на интуиции, будет следующим: если уровень доверия p велик (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение θ{\displaystyle \theta }.[ссылка 2]

Еще одно истолкование понятия доверительного интервала: его можно рассматривать как интервал значений параметра θ{\displaystyle \theta }, совместимых с опытными данными и не противоречащих им.

Более точное, хоть также не совсем строгое, толкование доверительного интервала с уровнем доверия, скажем, 95%, состоит в следующем. Если провести очень большое количество независимых экспериментов с аналогичным построением доверительного интервала, то в 95% экспериментов доверительный интервал будет содержать оцениваемый параметр θ{\displaystyle \theta } (то есть будет выполняться L⩽θ⩽U{\displaystyle L\leqslant \theta \leqslant U}), а в оставшихся 5% экспериментов доверительный интервал не будет содержать θ{\displaystyle \theta }.

Примеры[править | править код]

В байесовской статистике существует схожее, но отличающееся в некоторых ключевых деталях определение доверительного интервала (англ.)русск.. Здесь оцениваемый параметр θ{\displaystyle \theta } сам считается случайной величиной с некоторым заданным априорным распределением (в простейшем случае — равномерным), а выборка X{\displaystyle X} фиксирована (в классической статистике всё в точности наоборот). Байесовский p{\displaystyle p}-доверительный интервал — это интервал [L,U]{\displaystyle [L,U]}, покрывающий значение параметра θ{\displaystyle \theta } с апостериорной вероятностью p{\displaystyle p}:

P(L⩽θ⩽U|X)=p{\displaystyle \mathbb {P} (L\leqslant \theta \leqslant U|X)=p}.

Как правило, классический и байесовский доверительные интервалы различаются. В англоязычной литературе байесовский доверительный интервал принято называть термином credible interval, а классический — confidence interval.

  1. ↑ величину, дополняющую доверительную вероятность до единицы, обычно обозначают α
Источники
  1. Гмурман В. Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 9-е изд. — М.: Высшая школа, 2003. — 479 с. — ISBN 5-06-004214-6
  2. ↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3 (Определение 4.2.1.; стр. 149.)
  • Ш. Закс. Теория статистических выводов. — М.: Мир, 1975. — 776 с.

ru.wikipedia.org

CFA - Доверительные интервалы для среднего значения совокупности | программа CFA

(продолжение)

см. начало:

CFA - Точечные оценки среднего значения совокупности.


Когда нам нужно получить одно число в качестве оценки параметра совокупности, мы используем точечную оценку. Тем не менее, из-за ошибки выборки, точечная оценка не будет в точности равняться параметру совокупности при любом размере данной выборки.

Часто, вместо точечной оценки, более полезным подходом будет найти диапазон значений, в рамках которого, как мы ожидаем, может находится значение искомого параметра с заданным уровнем вероятности.

Этот подход называется интервальной оценкой параметра (англ. 'interval estimate of parameter'), а доверительный интервал выполняет роль этого диапазона значений.

Определение доверительного интервала.

Доверительный интервал (англ. 'confidence interval') представляет собой диапазон, для которого можно утверждать, с заданной вероятностью \(1 - \alpha \), называемой степенью доверия (или степенью уверенности, англ. 'degree of confidence'), что он будет содержать оцениваемый параметр.

Этот интервал часто упоминается как \(100 (1 - \alpha)\% \) доверительный интервал для параметра.

Конечные значения доверительного интервала называются нижним и верхним доверительными пределами (или доверительными границами или предельной погрешностью, англ. 'lower/upper confidence limits') .

В этом чтении, мы имеем дело только с двусторонними доверительными интервалами - доверительные интервалами, для которых мы вычисляем и нижние и верхние пределы.

Кроме того, можно определить два типа односторонних доверительных интервалов для параметра совокупности.

Нижний односторонний доверительный интервал устанавливает только нижний предел. Это означает допущение, что с определенной степенью доверия параметр совокупности равен или превышает нижний предел.

Верхний односторонний доверительный интервал устанавливает только верхний предел. Это означает допущение, что с определенной степенью доверия параметр совокупности меньше или равен верхнему пределу.

Инвестиционные аналитики редко используют односторонние доверительные интервалы.

Доверительные интервалы часто дают либо вероятностную интерпретацию, либо практическую интерпретацию.

При вероятностной интерпретации, мы интерпретируем 95%-ный доверительный интервал для среднего значения совокупности следующим образом.

При повторяющейся выборке, 95% таких доверительных интервалов будут, в конечном счете, включать в себя среднее значение совокупности.

Например, предположим, что мы делаем выборку из совокупности 1000 раз, и на основании каждой выборки мы построим 95%-ный доверительный интервал, используя вычисленное выборочное среднее.

Из-за случайного характера выборок, эти доверительные интервалы отличаются друг от друга, но мы ожидаем, что 95% (или 950) этих интервалов включают неизвестное значение среднего по совокупности.

На практике мы обычно не делаем такие повторяющиеся выборки. Поэтому в практической интерпретации, мы утверждаем, что мы 95% уверены в том, что один 95%-ный доверительный интервал содержит среднее по совокупности.

Мы вправе сделать это заявление, потому что мы знаем, что 95% всех возможных доверительных интервалов, построенных аналогичным образом, будут содержать среднее по совокупности.

Доверительные интервалы, которые мы обсудим в этом чтении, имеют структуры, подобные описанной ниже базовой структуре.

Построение доверительных интервалов.

Доверительный интервал \(100 (1 - \alpha)\% \) для параметра имеет следующую структуру.

Точечная оценка \(\pm\) Фактор надежности \(\times\) Стандартная ошибка

где

  • Точечная оценка = точечная оценка параметра (значение выборочной статистики).
  • Фактор надежности (англ. 'reliability factor') = коэффициент, основанный на предполагаемом распределении точечной оценки и степени доверия \((1 - \alpha)\) для доверительного интервала.
  • Стандартная ошибка = стандартная ошибка выборочной статистики, значение которой получено с помощью точечной оценки.

Величину (Фактор надежности) \(\times\) (Cтандартная ошибка) иногда называют точностью оценки (англ. 'precision of estimator'). Большие значения этой величины подразумевают более низкую точность оценки параметра совокупности.

Самый базовый доверительный интервал для среднего значения по совокупности появляется тогда, когда мы делаем выборку из нормального распределения с известной дисперсией. Фактор надежности в данном случае на основан стандартном нормальном распределении, которое имеет среднее значение, равное 0 и дисперсию 1.

Стандартная нормальная случайная величина обычно обозначается как \(Z\). Обозначение \(z_\alpha \) обозначает такую точку стандартного нормального распределения, в которой \(\alpha\) вероятности остается в правом хвосте.

Например, 0.05 или 5% возможных значений стандартной нормальной случайной величины больше, чем \( z_{0.05} = 1.65 \).

Предположим, что мы хотим построить 95%-ный доверительный интервал для среднего по совокупности, и для этой цели, мы сделали выборку размером 100 из нормально распределенной совокупности с известной дисперсией \(\sigma^2\) = 400 (значит, \(\sigma\) = 20).

Мы рассчитываем выборочное среднее как \( \overline X = 25 \). Наша точечная оценка среднего по совокупности, таким образом, 25.

Если мы перемещаем 1.96 стандартных отклонений выше среднего значения нормального распределения, то 0.025 или 2.5% вероятности остается в правом хвосте. В силу симметрии нормального распределения, если мы перемещаем 1.96 стандартных отклонений ниже среднего, то 0.025 или 2.5% вероятности остается в левом хвосте.

В общей сложности, 0.05 или 5% вероятности лежит в двух хвостах и 0.95 или 95% вероятности лежит между ними.


Таким образом, \( z_{0.025} = 1.96\) является фактором надежности для этого 95%-ного доверительного интервала. Обратите внимание на связь \(100 (1 - \alpha)\% \) для доверительного интервала и \(z_{\alpha/2}\) для фактора надежности.

Стандартная ошибка среднего значения выборки, заданная Формулой 1, равна \( \sigma_{\overline X} = 20 \Big / \sqrt{100} = 2 \).

Доверительный интервал, таким образом, имеет нижний предел \( \overline X - 1.96 \sigma_{\overline X} \) = 25 - 1.96(2) = 25 - 3.92 = 21.08.

Верхний предел доверительного интервала равен \( \overline X + 1.96\sigma_{\overline X} \) = 25 + 1.96(2) = 25 + 3.92 = 28.92.

95%-ный доверительный интервал для среднего по совокупности охватывает значения от 21.08 до 28.92.

Доверительные интервалы для среднего по совокупности (нормально распределенная совокупность с известной дисперсией).

Доверительный интервал \(100 (1 - \alpha)\% \) для среднего по совокупности \( \mu \), когда мы делаем выборку из нормального распределения с известной дисперсией \( \sigma^2 \) задается формулой:

\( \Large { \overline X \pm z_{\alpha /2}{\sigma \over \sqrt n} } \) (Формула 4)

Факторы надежности для наиболее часто используемых доверительных интервалов приведены ниже.

Факторы надежности для доверительных интервалов на основе стандартного нормального распределения.

Мы используем следующие факторы надежности при построении доверительных интервалов на основе стандартного нормального распределения:

  • 90%-ные доверительные интервалы: используется \(z_{0.05}\) = 1.65
  • 95%-ные доверительные интервалы: используется \(z_{0.025}\) = 1.96
  • 99%-ные доверительные интервалы: используется \(z_{0.005}\) = 2.58

На практике, большинство финансовых аналитиков используют значения для \(z_{0.05}\) и \(z_{0.005}\), округленные до двух знаков после запятой.

Для справки, более точными значениями для \(z_{0.05}\) и \(z_{0.005}\) являются 1.645 и 2.575, соответственно.

Для быстрого расчета 95%-ного доверительного интервала \(z_{0.025}\) иногда округляют 1.96 до 2.

Эти факторы надежности подчеркивают важный факт о всех доверительных интервалах. По мере того, как мы повышаем степень доверия, доверительный интервал становится все шире и дает нам менее точную информацию о величине, которую мы хотим оценить.

«Чем уверенней мы хотим быть, тем меньше мы должны быть уверены»

см. Freund и Williams (1977), стр. 266.

На практике, допущение о том, что выборочное распределение выборочного среднего, по меньшей мере, приблизительно нормальное, часто является обоснованным, либо потому, что исходное распределение приблизительно нормальное, либо потому что мы имеем большую выборку и поэтому к ней применима центральная предельная теорема.

Однако, на практике, мы редко знаем дисперсию совокупности. Когда дисперсия генеральной совокупности неизвестна, но выборочное среднее, по меньшей мере, приблизительно нормально распределено, у нас есть два приемлемых пути чтобы вычислить доверительные интервалы для среднего значения совокупности.

Вскоре мы обсудим более консервативный подход, который основан на t-распределении Стьюдента (t-распределение, для краткости).

Распределение статистики \(t\) называется t-распределением Стьюдента (англ. "Student's t-distribution") из-за псевдонима «Студент» (Student), использованного британским математиком Уильямом Сили Госсеттом, который опубликовал свою работу в 1908 году.

В финансовой литературе, это наиболее часто используемый подход для статистической оценки и проверки статистических гипотез, касающихся среднего значения, когда дисперсия генеральной совокупности не известна, как для малого, так и для большого размер выборки.

Второй подход к доверительным интервалам для среднего по совокупности, основанного на стандартном нормальном распределении, - это z-альтернатива (англ. 'z-alternative'). Он может быть использован только тогда, когда размер выборки является большим (в общем случае, размер выборки 30 или больше, можно считать большим).

В отличии от доверительного интервала, приведенного в Формуле 4, этот доверительный интервал использует стандартное отклонение выборки \(s\) при вычислении стандартной ошибки выборочного среднего (по Формуле 2).

Доверительные интервалы для среднего по совокупности - z-альтернатива (большая выборка, дисперсия совокупности неизвестна).

Доверительный интервал \(100 (1 - \alpha)\% \) для среднего по совокупности \( \mu \) при выборке из любого распределения с неизвестной дисперсией, когда размер выборки большой, задается формулой:

\( \Large { \overline X \pm z_{\alpha /2}{s \over \sqrt n} } \) (Формула 5)

Поскольку этот тип доверительного интервала применяется довольно часто, мы проиллюстрируем его вычисление в Примере 4.

Пример (4) расчета доверительного интервала для среднего по совокупности коэффициентов Шарпа с использованием z-статистики.

Предположим, что инвестиционный аналитик делает случайную выборку акций взаимных фондов США и рассчитывает средний коэффициент Шарпа.

[см. также: CFA - Коэффициент Шарпа]

Размер выборки равен 100, а средний коэффициент Шарпа составляет 0.45. Выборка имеет стандартное отклонение 0.30.

Рассчитайте и интерпретируйте 90-процентный доверительный интервал для среднего по совокупности всех акций взаимных фондов США с использованием фактора надежности на основе стандартного нормального распределения.


Фактор надежности для 90-процентного доверительного интервала, как указано ранее, составляет \( z_{0.05} = 1.65 \).

Доверительный интервал будет равен:

\( \begin{aligned} & \overline X \pm z_{0.05}{s \over \sqrt n } \\ &= 0.45 \pm 1.65{0.30 \over \sqrt {100}} \\ &= 0.45 \pm 1.65(0.03) = 0.45 \pm 0.0495   \end{aligned} \)

Доверительный интервал охватывает значения 0.4005 до 0.4995, или от 0.40 до 0.50, с округлением до двух знаков после запятой. Аналитик может сказать с 90-процентной уверенностью, что интервал включает среднее по совокупности.

В этом примере аналитик не делает никаких конкретных предположений о распределении вероятностей, характеризующем совокупность. Скорее всего, аналитик опирается на центральную предельную теорему для получения приближенного нормального распределения для выборочного среднего.

Как показывает Пример 4, даже если мы не уверены в характере распределения совокупности, мы все еще можем построить доверительные интервалы для среднего по совокупности, если размер выборки достаточно большой, поскольку можем применить центральную предельную теорему.

Концепция степеней свободы.

Обратимся теперь к консервативной альтернативе и используем t-распределение Стьюдента, чтобы построить доверительные интервалы для среднего по совокупности, когда дисперсия генеральной совокупности не известна.

Для доверительных интервалов на основе выборок из нормально распределенных совокупностей с неизвестной дисперсией, теоретически правильный фактор надежности основан на t-распределении. Использование фактора надежности, основанного на t-распределении, имеет важное значение для выборок небольшого размера.

Применение фактора надежности \(t\) уместно, когда дисперсия генеральной совокупности неизвестна, даже если у нас есть большая выборка и мы можем использовать центральную предельную теорему для обоснования использования фактора надежности \(z\). В этом случае большой выборки, t-распределение обеспечивает более консервативные (широкие) доверительные интервалы.

t-распределение является симметричным распределением вероятностей и определяется одним параметром, известным как степени свободы (DF, от англ. 'degrees of freedom'). Каждое значение для числа степеней свободы определяет одно распределение в этом семействе распределений.

Далее мы сравним t-распределения со стандартным нормальным распределением, но сначала мы должны понять концепцию степеней свободы. Мы можем сделать это путем изучения расчета выборочной дисперсии.

Формула 3 дает несмещенную оценку выборочной дисперсии, которую мы используем. Выражение в знаменателе, \( n - 1 \), означающее размер выборки минус 1, это число степеней свободы при расчете дисперсии совокупности с использованием Формулы 3.

Мы также используем \( n - 1 \) как число степеней свободы для определения факторов надежности на основе распределения Стьюдента. Термин «степени свободы» используются, так как мы предполагаем, что в случайной выборке наблюдения отобраны независимо друг от друга. Числитель выборочной дисперсии, однако, использует выборочное среднее.

Каким образом использование выборочного среднего влияет на количество наблюдений, отобранных независимо, для формулы выборочной дисперсии?

При выборке размера 10 и среднем значении в 10%, к примеру, мы можем свободно отобрать только 9 наблюдений. Независимо от отобранных 9 наблюдений, мы всегда можем найти значение для 10-го наблюдения, которое дает среднее значение, равное 10%. С точки зрения формулы выборочной дисперсии, здесь есть 9 степеней свободы.

Учитывая, что мы должны сначала вычислить выборочное среднее от общего числа \(n\) независимых наблюдений, только \(n - 1\) наблюдений могут быть отобраны независимо друг от друга для расчета выборочной дисперсии.

Концепция степеней свободы часто применяется в финансовой статистике, и вы встретите ее в последующих чтениях.

t-распределение Стьюдента.

Предположим, что мы делаем выборку из нормального распределения.

Коэффициент \(z = (\overline X - \mu) \Big / (\sigma \big / \sqrt n) \) нормально распределен со средним значением 0 и стандартным отклонением 1, однако, коэффициент \(t = (\overline X - \mu) \Big / (s \big / \sqrt n) \) следует t-распределению со средним 0 и \(n - 1\) степеней свободы.

Коэффициент \(t\) не является нормальным, поскольку представляет собой отношение двух случайных величин, выборочного среднего и стандартного отклонения выборки.

Определение стандартной нормальной случайной величины включает в себя только одну случайную величину, выборочное среднее. По мере увеличения степеней свободы, однако, t-распределение приближается к стандартному нормальному распределению.

На Рисунке 1 показано стандартное нормальное распределение и два t-распределения, одно с DF = 2 и одно с DF = 8.

Рисунок (1) t-распределение Стьюдента по сравнению со стандартным нормальным распределением.

Из трех распределений, показанных на Рисунке 1, стандартное нормальное распределение имеет хвосты, которые стремятся к нулю быстрее, чем хвосты двух t-распределений. t-распределение симметрично распределено вокруг среднего нулевого значения, так же как и нормальное распределение.

По мере увеличения степеней свободы, t-распределение приближается к стандартному нормальному распределению. t-распределение с DF = 8 ближе к стандартному нормальному, чем t-распределение с DF = 2.

Помимо области плюс и минус четырех стандартных отклонений от среднего значения, остальная область под стандартным нормальным распределением, как представляется, близка к 0. Однако, оба t-распределения содержать некоторую площадь под каждой кривой за пределом четырех стандартных отклонений.

t-распределения имеют более толстые хвосты, но хвосты t-распределения Стьюдента с DF = 8 сильнее напоминают хвосты нормального распределения. По мере увеличения степеней свободы, хвосты распределения Стьюдента становятся менее толстыми.

Для часто используемых значений распределения Стьюдента составлены таблицы. Например, для каждой степени свободы \(t_{0.10}\), \(t_{0.05}\), \(t_{0.025}\), \(t_{0.01}\) и \(t_{0.005}\) значения будут такими, что соответственно, 0.10, 0.05, 0.025, 0.01 и 0.005 вероятности останется в правом хвосте для заданного числа степеней свободы.

Значения \(t_{0.10}\), \(t_{0.05}\), \(t_{0.025}\), \(t_{0.01}\) и \(t_{0.005}\) также называют односторонними критическими значениями t на значимых уровнях 0.10, 0.05, 0.025, 0.01 и 0.005, для указанного числа степеней свободы.

Например, для DF = 30,

\(t_{0.10}\) = 1.310,
\(t_{0.05}\) = 1.697,
\(t_{0.025}\) = 2.042,
\(t_{0.01}\) = 2.457,
\(t_{0.005}\) = 2.750.

Приведем форму доверительных интервалов для среднего по совокупности, используя распределение Стьюдента.

Доверительные интервалы для среднего по совокупности (дисперсия совокупности неизвестна) - t-распределение.

Если мы делаем выборку из генеральной совокупности с неизвестной дисперсией и соблюдается одно из перечисленных ниже условий:

  • выборка является большой, или
  • выборка небольшая, но совокупность имеет нормальное распределение, или приблизительно нормально распределена,

то доверительный интервал \(100 (1 - \alpha)\% \) для среднего совокупности \( \mu \) задается формулой:

\( \Large { \overline X \pm t_{\alpha /2}{s \over \sqrt n} } \)  (Формула 6),

где число степеней свободы для \( t_{\alpha /2}\) равно \( n-1 \), а \( n \) - это размер выборки.

Пример 5 использует данные Примера 4, но применяет t-статистику, а не z-статистику, чтобы рассчитать доверительный интервал для среднего значения совокупности коэффициентов Шарпа.

Пример (5) расчета доверительного интервала для среднего по совокупности коэффициентов Шарпа с использованием t-статистики.

Как и в Примере 4, инвестиционный аналитик стремится вычислить 90-процентный доверительный интервал для среднего по совокупности коэффициентов Шарпа, основанных на случайной выборке из 100 взаимных фондов США.

Выборочное среднее коэффициентов Шарпа составляет 0.45, а выборочное стандартное отклонение - 0.30.

Теперь, признав, что дисперсия генеральной совокупности распределения коэффициентов Шарпа неизвестна, аналитик решает вычислить доверительный интервал, используя теоретически правильную t-статистику.

Поскольку размер выборки равен 100, DF = 99. Используя таблицу степеней свободы, мы находим, что \(t_{0.05}\) = 1.66.

Этот фактор надежности немного больше, чем фактор надежности \(z_{0.05}\) = 1.65, который был использован в Примере 4.

Доверительный интервал будет:

\( \begin{aligned} & \overline X \pm t_{0.05}{s \over \sqrt n } \\  &= 0.45 \pm 1.66{0.30 \over \sqrt {100}} \\ &= 0.45 \pm 1.66(0.03) = 0.45 \pm 0.0498   \end{aligned} \)

Доверительный интервал охватывает значения 0.4002 до 0.4998, или 0.40 до 0.50, с двумя знаками после запятой. При округлении до двух знаков после запятой, доверительный интервал не изменился по сравнению с Примером 4.

В Таблице 3 приведены различные факторы надежности, которые мы использовали.

Таблица 3. Основы для расчета факторов надежности.

Выборка из:

Статистика для выборки малого размера

Статистика для выборки большого размера

Нормальное распределение с известной дисперсией

\(z\)

\(z\)

Нормальное распределение с неизвестной дисперсией

\(t\)

\(t\)*

Ненормальное распределение с известной дисперсией

не доступно

\(z\)

Ненормальное распределение с неизвестной дисперсией

не доступно

\(t\)*

* Использование \(z\) также приемлемо.


См. далее:

CFA - Определение размера выборки для доверительного интервала.

fin-accounting.ru

Доверительный интервал | Lit-review.ru (НМА Литобзор) обзоры, статистика для медицины

Добрый день, уважаемые читатели!

Меня зовут Кирилл Мильчаков. Сегодня мы продолжаем наш разговор о биостатистике. Тема сегодняшней нашей беседы будет «Доверительный интервал». Что такое доверительный интервал? Вы наверняка встречались с ним в научной литературе. Доверительный интервал 95 %, либо сочетание символов ДИ и CI (confidence interval) 95 %. Что же означают эти 95 %? Какие он еще может принимать значения? И как его рассчитывать самостоятельно? Об этом обо всем сегодня мы и поговорим в этой статье.

Видео-версия статьи о доверительном интервале

Генеральная совокупность и выборочная совокупность

Прежде чем углубляться в тайны доверительного интервала, хотел бы вспомнить с вами 2 основных понятия статистической совокупности, с которыми чаще всего работают – это генеральная совокупность или выборочная совокупность или выборка.

Генеральная совокупность – это тот массив данных, о которых вы хотите сделать выводы.

Выборка является частью генеральной совокупности, которая участвует непосредственно в вашем эксперименте. Есть такое понятие как репрезентативность, сегодня мы не будем его касаться, главное запомнить, что выборка должна быть репрезентативной.

Если привести небольшой пример относительно генеральной совокупности и выборки, то можно вспомнить о простом случае из вашей жизни. Когда вы хотите узнать, достаточно ли посолен суп, вы берете ложку супа и пробуете его. Вам необязательно есть весь суп, чтобы понять, насколько он посолен. Ложка в данном случае является выборкой, по которой вы делаете вывод обо всей кастрюле супа. В данном случае кастрюля супа является генеральной совокупностью, а ложка супа является выборкой.

Итак, мы вспомнили с вами о 2 ключевых статистических совокупностях – о генеральной совокупности и выборочной совокупности. Теперь нужно вспомнить, что типы исследования, которые проводятся над генеральной совокупностью и выборочной совокупностью, называют по-разному. Над генеральной совокупностью проводятся так называемые сплошные исследования, над выборочной совокупностью – выборочные.

Теперь вспомним небольшие отличия между параметрами этих 2 совокупностей. Сегодня для того, чтобы понять, что такое доверительный интервал, нам понадобятся следующие вещи: во-первых, отличие средней арифметической в генеральной совокупности и в выборочной совокупности. В генеральной совокупности она имеет значок µ (мю), в выборочной – это x̅ (х с чертой) — это средние арифметические по каждому виду совокупности.

 

Далее нужно знать, что стандартное отклонение имеет значок выборочной – либо S, либо SD (standard deviation), а в случае генеральной совокупности оно носит название среднеквадратичного отклонения и обозначается буквой σ (сигма).

Приведем пример расчета доврительного интервала

Представьте чисто гипотетическую ситуацию, когда перед нами стоит задача исследований среднего роста марсианина. Для того, чтобы его узнать, было отправлено 3 экспедиции. Первой из них повезло больше всего: они смогли поймать каждого из 200 марсианин и померить его рост.

Как мы помним, по закону нормального распределения по оси Х находится величина изучаемого признака, либо варианта (в данном случае это рост в сантиметрах), а по оси Y – частота встречаемости какого-то признака (мы его обозначаем буквой П.

Итак, оказалось, что у всех 200 марсиан средний рост составил 40 сантиметров. Таким образом, первая экспедиция смогла провести так называемое сплошное исследование, так как поработала со всеми единицами наблюдения генеральной совокупности. Поэтому мы имеем право назвать этот параметр µ.

Однако, второй и третьей экспедиции повезло гораздо меньше. Они попали в самые плохо населенные участки Марса и смогли отобрать только 10 марсиан. В данном случае оказалось, что средний рост по их выборке составил всего 38 сантиметров в первом случае и 41 сантиметр во втором случае.

Что же делать? Да, у нас есть данные из самого полного исследования, которое относится к первой экспедиции. Но представьте, что ни одна бы из них не смогла бы поработать со всей совокупностью полностью, и у нас были бы данные только от второй и третьей экспедиции. Что же в этой ситуации делать? Видно, что никто 40 сантиметров в действительности не достиг: во второй экспедиции Б она равна 38 сантиметрам, а в экспедиции В – 41 сантиметр. То есть в реальности никто не достиг 40 сантиметров. Что же делать в данном случае?

И вот здесь на помощь к нам приходит доверительный интервал, точнее оценка параметра. Доверительный интервал является вторым этапом оценки параметра. Прежде чем строить доверительный интервал, нам нужно понять, насколько в принципе этот параметр наша средняя (x̅б, x̅в) может отличаться, ошибаться от реального параметра в генеральной совокупности. Насколько?

И тут нам помогает оценка параметра или нахождение ошибки репрезентативности. Ошибка репрезентативности обозначается mr или mx. Чаще я использую mr. Что же это значит? mr по-английски обозначается как standard error, по-русски она часто называется стандартная ошибка средней или ошибка репрезентативности. Как же она находится? А находится она следующим образом? Она учитывает стандартное квадратичное отклонение в генеральной совокупности и размер в выборке. От чего же зависит ошибка репрезентативности? А зависит она от 2 вещей: от среднеквадратичного отклонения в генеральной совокупности (я напоминаю, это насколько каждая варианта отличается от средней, о законе нормального распределения мы с вами поговорим в следующий раз) и от размера выборки или . То есть, таким образом, чем менее разбросан признак генеральной совокупности, и чем больше у нас размер выборки, тем меньше наша ошибка репрезентативности.

Итак, предположим, мы нашли нашу ошибку репрезентативности mr. В данном случае она составила 2,7 сантиметра. Но что же это нам дает? А дает нам это уже достаточно много. Теперь мы, зная, насколько в принципе наша выборка может ошибаться относительно генеральной совокупности, можем составить определенное предположение о том, где же находится реальный параметр – реальные 40 сантиметров генеральной совокупности на основании данных лишь нашей выборки.

Каким же образом это происходит? Мы провели точечную оценку нашего параметра. Дальше происходит второй этап построения доверительного интервала – это интервальная оценка параметра. Каким же образом строится этот интервал? А складывается он из 2 вещей: так называемой предельной ошибки +∆ и -∆. Формула нахождения предельной ошибки достаточно проста и составляет:

±∆ = t*mr

 

Для того, чтобы не залезать в критерий Стьюдента сегодня, я скажу лишь, что:

для доверительного интервала 95 % используется t=2,

для доверительного интервала 99 % используется t=3

и для доверительного интервала 68 % используется t=1.

Итак, после того, как мы нашли нашу предельную ошибку, мы можем построить доверительный интервал. Но для этого нам нужно самим задать тот доверительный интервал, который для нас подходит больше всего. Чаще всего в медицине используется вероятность ошибки 5 %, то есть доверительный интервал 95 % или вероятность ошибки 5 % (р=0,05, р=5 %).

Что же значат эти 95 %? А значат они следующее, что с 95%-ной вероятностью в нашем интервале лежит реальное значение, и лишь в 5 % случаев мы ошибаемся. То есть в нашем конкретном случае наша ошибка репрезентативности составила 2,7 сантиметра. Предельная ошибка отсюда будет равна чему? Именно 5,4 сантиметра, то есть доверительный интервал, так как здесь и плюс, и минус, то есть нам нужно ошибку умножить на 2, составил 10,8 сантиметров. А именно наши 38 см±5,4 см. Ширина всего доверительного интервала составляет 10,8 см. Напомню, что он складывается из положительной и отрицательной предельных ошибок вокруг нашей выборочной средней.

Итак, говоря о доверительном интервале, нужно сделать ряд важных выводов.

  • Во-первых, доверительный интервал относится к выборочной совокупности. Он показывает, насколько параметры из выборочной совокупности могут отличаться от реально существующих данных в генеральной совокупности. Насколько мы ошибаемся при формировании той или иной выборки, мы закладываем в так называемую ошибку репрезентативности, в ошибку средней и вокруг нее собственно и строим доверительный интервал.
  • Ширину доверительного интервала задает собственно сам исследователь, варьируя тот критерий t, который он принимает в качестве необходимого. Чаще всего применяется t=2, которое и соответствует ширине доверительного интервала 95 %. 95 % означает, что с 95%-ной вероятностью действительно вокруг выборочной средней существует определенный доверительный интервал, в который и попадает реально существующая средняя из генеральной совокупности. Этот доверительный интервал может быть либо уже, если t=1; либо шире, если t=3.
  • Доверительный интервал задается самостоятельно исследователем. Чаще всего он равен 95 %.

Если это видео оказалось Вам полезным, оно хотя бы немного раскрыло тайны доверительного интервала, ставьте лайки, подписывайтесь на наши рассылки и в комментариях пишите, какие темы по биостатистике вам бы были интересны для следующих выпусков. На этом я с вами прощаюсь. Меня зовут Кирилл. Пока!


Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:

lit-review.ru

Доверительный интервал. Что это такое и как его можно использовать?

Доверительный интервал пришел к нам из области статистики. Это определенный диапазон, который служит для оценки неизвестного параметра с высокой степенью надежности. Проще всего это будет пояснить на примере.

Предположим, нужно исследовать какую-либо случайную величину, например, скорость отклика сервера на запрос клиента. Каждый раз, когда пользователь набирает адрес конкретного сайта, сервер реагирует на это с разной скоростью. Таким образом, исследуемое время отклика имеет случайный характер. Так вот, доверительный интервал позволяет определить границы этого параметра, и затем можно будет утверждать, что с вероятностью в 95% скорость реакции сервера будет находиться в рассчитанном нами диапазоне.

Или же нужно узнать, какому количеству людей известно о торговой марке фирмы. Когда будет подсчитан доверительный интервал, то можно будет, к примеру, сказать что с 95% долей вероятности доля потребителей, знающих о данной торговой марке, находится в диапазоне от 27% до 34%.

С этим термином тесно связана такая величина, как доверительная вероятность. Она представляет собой вероятность того, что искомый параметр входит в доверительный интервал. От этой величины зависит то, насколько большим окажется наш искомый диапазон. Чем большее значение она принимает, тем уже становится доверительный интервал, и наоборот. Обычно ее устанавливают равной 90%, 95% или 99%. Величина 95% наиболее популярна.

На данный показатель также оказывает влияние дисперсия наблюдений и размер выборки. Его определение основано на том предположении, что исследуемый признак подчиняется нормальному закону распределения. Это утверждение известно также как Закон Гаусса. Согласно ему, нормальным называется такое распределение всех вероятностей непрерывной случайной величины, которое можно описать плотностью вероятностей. Если предположение о нормальном распределении оказалось ошибочным, то оценка может оказаться неверной.

Сначала разберемся с тем, как вычислить доверительный интервал для математического ожидания. Здесь возможны два случая. Дисперсия (степень разброса случайной величины) может быть известна либо нет. Если она известна, то наш доверительный интервал вычисляется с помощью следующей формулы:

хср – t*σ / (sqrt(n)) <= α <= хср + t*σ / (sqrt(n)), где

α – признак,

t – параметр из таблицы распределения Лапласа,

sqrt(n) – квадратный корень общего объема выборки,

σ – квадратный корень дисперсии.

Если дисперсия неизвестна, то ее можно рассчитать, если нам известны все значения искомого признака. Для этого используется следующая формула:

σ2 = х2ср – (хср)2, где

х2ср – среднее значение квадратов исследуемого признака,

(хср)2 – квадрат среднего значения данного признака.

Формула, по которой в этом случае рассчитывается доверительный интервал немного меняется:

хср – t*s / (sqrt(n)) <= α <= хср + t*s / (sqrt(n)), где

хср – выборочное среднее,

α – признак,

t – параметр, который находят с помощью таблицы распределения Стьюдента t = t(ɣ;n-1),

sqrt(n) – квадратный корень общего объема выборки,

s – квадратный корень дисперсии.

Рассмотри такой пример. Предположим, что по результатам 7 замеров была определена средняя величина исследуемого признака, равная 30 и дисперсия выборки, равная 36. Нужно найти с вероятностью в 99% доверительный интервал, который содержит истинное значение измеряемого параметра.

Вначале определим чему равно t : t = t (0,99; 7-1) = 3.71. Используем приведенную выше формулу, получаем:

хср – t*s / (sqrt(n)) <= α <= хср + t*s / (sqrt(n))

30 – 3.71*36 / (sqrt(7)) <= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Доверительный интервал для дисперсии рассчитывается как в случае с известным средним, так и тогда, когда нет никаких данных о математическом ожидании, а известно лишь значение точечной несмещенной оценки дисперсии. Мы не будем приводить здесь формулы его расчета, так как они довольно сложные и при желании их всегда можно найти в сети.

Отметим лишь, что доверительный интервал удобно определять с помощью программы Excel или сетевого сервиса, который так и называется.

fb.ru

Доверительный интервал - это... Что такое Доверительный интервал?

Доверительный интервал — термин, используемый в математической статистике при интервальной (в отличие от точечной) оценке статистических параметров, что предпочтительнее при небольшом объёме выборки. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Метод доверительных интервалов разработал американский статистик Ежи Нейман, исходя из идей английского статистика Рональда Фишера[ссылка 1].

Определение

Доверительным интервалом параметра θ распределения случайной величины X с уровнем доверия 100p%[примечание 1], порождённым выборкой (x1,…,xn), называется интервал с границами (x1,…,xn) и (x1,…,xn), которые являются реализациями случайных величин L(X1,…,Xn) и U(X1,…,Xn), таких, что

.

Граничные точки доверительного интервала и называются доверительными пределами.

Интерпретация доверительного интервала, основанная на интуиции, будет следующей: если p велико (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение θ.[ссылка 2]

Еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра θ, совместимых с опытными данными и не противоречащих им.

Примеры

Байесовский доверительный интервал

В байесовской статистике существует схожее, но отличающееся в некоторых ключевых деталях определение доверительного интервала. Здесь оцениваемый параметр сам считается случайной величиной с некоторым заданным априорным распределением (в простейшем случае — равномерным), а выборка фиксирована (в классической статистике всё в точности наоборот). Байесовский -доверительным интервал — это интервал , покрывающий значение параметра с апостериорной вероятностью :

.

Как правило, классический и байесовский доверительные интервалы различаются. В англоязычной литературе байесовский доверительный интервал принято называть термином credible interval, а классический — confidence interval.

Примечания

  1. величину, дополняющую доверительную вероятность до единицы, обычно обозначают α
Источники
  1. Гмурман В. Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. – 9-е изд. – М.: Высшая школа, 2003. – 479 с. – ISBN 5-06-004214-6
  2. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3 (Определение 4.2.1.; стр. 149.)

dik.academic.ru

§14. Точность оценки, доверительная вероятность (надежность). Доверительный интервал

Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше,- точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих понятий выясняется ниже).

Пусть найденная по данным выборки статистическая характеристика Θ* служит оценкой неизвестного параметра Θ. Будем считать Θ постоянным числом (Θ может быть и случайной величиной). Ясно, что Θ* тем точнее определяет параметр Θ, чем меньше абсолютная величина разности |Θ - Θ*|. Другими словами, если δ>0 и |Θ - Θ*|<δ, то чем меньше δ, тем оценка точнее. Таким образом, положительное число δ характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка Θ * удовлетворяет неравенству |Θ - Θ*|<δ; можно лишь говорить о вероятности γ, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки Θ по Θ* называют вероятность γ, с которой осуществляется неравенство |Θ - Θ*|<δ. Обычно надежность оценки задается наперед, причем в качестве γ берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что |Θ - Θ*|<δ, равна γ:

Р[|Θ - Θ*|<δ]= γ.

Заменив неравенство |Θ - Θ*|<δ равносильным ему двойным неравенством <Θ - Θ*< δ, или Θ*- δ <Θ< Θ* + δ, имеем

Р[Θ* - δ <Θ< Θ* + δ] = γ.

Это соотношение следует понимать так: вероятность того, что интервал(Θ*-δ, Θ*+δ) заключает в себе (покрывает) неизвестный параметр Θ, равна γ.

Доверительным называют интервал (Θ*-δ, Θ*+δ), который покрывает неизвестный параметр с заданной надежностью γ.

Замечание. Интервал (Θ*-δ, Θ*+δ) имеет случайные концы (их называют доверительными границами). Действительно, в разных выборках получаются различные значения Θ*. Следовательно, от выборки к выборке будут изменяться и концы доверительного интервала, т. е. доверительные границы сами являются случайными величинами - функциями от х1, x2, ..., хn.

Так как случайной величиной является не оцениваемый параметр Θ, а доверительный интервал, то более правильно говорить не о вероятности попадания Θ в доверительный интервал, а о вероятности того, что доверительный интервал покроет Θ.

Метод доверительных интервалов разработал американский статистик Ю. Нейман, исходя из идей английского статистика Р. Фишера.

§ 15. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение σ этого распределения известно. Требуется оценить неизвестное математическое ожидание а по выборочной средней . Поставим своей задачей найти доверительные интервалы, покрывающие параметр а с надежностью γ.

Будем рассматривать выборочную среднюю как случайную величину(изменяется от выборки к выборке) и выборочные значения признаках1, x2, ...,хn - как одинаково распределенные независимые случайные величины Х1, Х2, ...,Хn (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно а и среднее квадратическое отклонение - σ.

Примем без доказательства, что если случайная величина X распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально. Параметры распределения таковы (см. гл. VIII, § 9):

M()=a, .

Потребуем, чтобы выполнялось соотношение

Р(|Х - а| < δ) = γ,

где γ - заданная надежность.

Пользуясь формулой (см. гл. XII, § 6)

Р(|Х-а| < δ) = 2Ф(δ/σ),

заменив X на и σ на , получим

Р(|Х-а|) ) = 2Ф(δ) = 2Ф (t),

где t = δ.

Найдя из последнего равенства , можем написать

Р (|—а | < ) = 2Ф(t).

Приняв во внимание, что вероятность P задана и равна γ, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю вновь обозначим через )

Смысл полученного соотношения таков: с надежностью γ можно утверждать, что доверительный интервал (, ) покрывает неизвестный параметр а; точность оценки .

Итак, поставленная выше задача полностью решена. Укажем еще, что число t определяется из равенства 2Ф(t) = γ. или Ф(t)= γ /2; по таблице функции Лапласа (см. приложение 2) находят аргумент t, которому соответствует значение функции Лапласа, равное γ /2.

Замечание 1. Оценку называют классической. Из формулы , определяющей точность классической оценки, можно сделать следующие выводы:

1) при возрастании объема выборки п число δ убывает и, следовательно, точность оценки увеличивается;

2) увеличение надежности оценки γ = 2Ф(t) приводит к увеличению t(Ф (t) — возрастающая функция), следовательно, и к возрастанию δ; другими словами, увеличение надежности классической оценки влечет за собой уменьшение ее точности.

Пример. Случайная величина X имеет нормальное распределение с известным средним квадратическим отклонением σ = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки γ= 0,95.

Решение. Найдем t. Из соотношения 2Ф(t)=0,95 получим Ф(t) = 0,475. По таблице приложения 2 находим t=1,96.

Найдем точность оценки:

.

Доверительный интервал таков: (-0,98; + 0,98). Например, если = 4,1, то доверительный интервал имеет следующие доверительные границы:

- 0,98 = 4,1- 0,98 = 3,12; + 0,98 = 4,1 + 0,98 = 5,08.

Таким образом, значения неизвестного параметра а, согласующиеся с данными выборки, удовлетворяют неравенству 3,12 < а < 5,08. Подчеркнем, что было бы ошибочным написать Р(3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Поясним смысл, который имеет заданная надежность. Надежность γ = 0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интервалы, в которых параметр действительно заключен; лишь в 5% случаев он может выйти за границы доверительного интервала.

Замечание 2. Если требуется оценить математическое ожидание с наперед заданной точностью δ и надежностью γ, то минимальный объем выборки, который обеспечит эту точность, находят по формуле

(следствие равенства ).

studfile.net

Доверительные интервалы для частот и долей Текст научной статьи по специальности «Математика»

УДК 31:61

ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ ЧАСТОТ И ДОЛЕЙ

© 2008 г. А. М. Гржибовский

Национальный институт общественного здоровья, г. Осло, Норвегия

В одной из предыдущих публикаций кратко упоминалось описание качественных данных и сообщалось, что их интервальная оценка предпочтительнее точечной для описания частоты встречаемости изучаемой характеристики в генеральной совокупности [4]. Действительно, поскольку исследования проводятся с использованием выборочных данных, проекция результатов на генеральную совокупность должна содержать элемент неточности выборочной оценки. Доверительный интервал представляет собой меру точности оцениваемого параметра. Интересно, что в некоторых книгах по основам статистики для медиков тема доверительных интервалов для частот полностью игнорируется [1, 5]. В данной статье мы рассмотрим несколько способов расчета доверительных интервалов для частот, подразумевая такие характеристики выборки, как бесповторность и репрезентативность, а также независимость наблюдений друг от друга. Под частотой в данной статье понимается не абсолютное число, показывающее, сколько раз встречается в совокупности то или иное значение, а относительная величина, определяющая долю участников исследования, у которых встречается изучаемый признак.

В биомедицинских исследованиях чаще всего используются 95 % доверительные интервалы. Данный интервал представляет собой область, в которую попадает истинное значение доли в 95 % случаев. Другими словами, можно с 95 % надежностью сказать, что истинное значение частоты встречаемости признака в генеральной совокупности будет находиться в пределах 95 % доверительного интервала.

В большинстве пособий по статистике для исследователей от медицины сообщается [3, 6, 7—10, 16], что ошибка частоты рассчитывается с помощью формулы

Яр = .

р(1 - р)

N

где р — частота встречаемости признака в выборке (величина от 0 до 1). В большинстве отечественных научных статей указывается значение частоты встречаемости признака в выборке (р), а также ее ошибка ^) в виде р ± s. Целесообразнее, однако, представлять 95 % доверительный интервал для частоты встречаемости признака в генеральной совокупности, который будет включать значения от

р+» р - ■

В некоторых пособиях [10] рекомендуется при малых выборках заменять значение 1,96 на значение t для N — 1 степеней свободы, где N — количество наблюдений в выборке. Значение 1 находится по

В статье описывается и обсуждается расчет доверительных интервалов для частот и долей по методам Вальда, Уилсона, Клоппера - Пирсона, с помощью углового преобразования и по методу Вальда с коррекцией по Агрести - Коуллу. Изложенный материал дает общие сведения

о способах расчета доверительных интервалов для частот и долей и призван вызвать интерес читателей журнала не только к использованию доверительных интервалов при представлении результатов собственных исследований, но и к прочтению специализированной литературы перед началом работы над будущими публикациями.

Ключевые слова: доверительный интервал, частота, доля.

таблицам для t-распределения, имеющимся практически во всех пособиях по статистике. Использование распределения t для метода Вальда не дает видимых преимуществ по сравнению с другими методами, рассмотренными ниже [15], и потому некоторыми авторами не приветствуется [16].

Представленный выше метод расчета доверительных интервалов для частот или долей носит имя Вальда в честь Авраама Вальда (Abraham Wald, 1902—1950), поскольку широкое применение его началось после публикации Вальда и Вольфовица в 1939 году [19]. Однако сам метод был предложен Пьером Симоном Лапласом (1749—1827) еще в 1812 году.

Метод Вальда очень популярен, однако его применение связано с существенными проблемами. Метод не рекомендуется при малых объемах выборок, а также в случаях, когда частота встречаемости признака стремится к 0 или 1 (0 % или 100 %), и просто невозможен для частот 0 и 1. Кроме того, аппроксимация нормального распределения, которая используется при расчете ошибки, «не работает» в случаях, когда n • p < 5 или n • (1 — p) < 5 [16]. Более консервативные статистики считают, что n • p и n • (1 — p) должны быть не менее 10 [8]. Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % [13, 15, 17, 18]. К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % [10]. Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок [11, 13, 15], а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

При частотах, не превышающих 25 % или превышающих 75 %, отечественные авторы [7, 9, 10] рекомендуют рассчитывать доверительный интервал с помощью arcsin-преобразования (оно также часто упоминается как угловое преобразование Фишера), при котором сначала рассчитывается вспомогательная переменная (j) по формуле:

(р = 2 arcsin -yfp,

где р — выборочное значение частоты встречаемости признака. Затем рассчитывается стандартная ошибка вспомогательной переменной по формуле:

1

5V =

Поскольку новая переменная имеет нормальное распределение, нижняя и верхняя границы 95 % доверительного интервала для переменной j будут равны j —1,96 и j+1,96 Sj соответственно, а 95 % доверительный интервал для частоты встречаемости признака в генеральной совокупности будет

. 2 т- 1,96s v • 2 Ф + 1,96sг

от sin ------------- до sm ------------------ .

2 2

Вместо 1,96 для малых выборок рекомендуется подставлять значение t для N — 1 степеней свободы [ 10]. Данный метод не дает отрицательных значений и позволяет более точно оценить доверительные интервалы для частот, чем метод Вальда. Кроме того, он описан во многих отечественных справочниках по медицинской статистике [7, 9, 10], что, правда, не привело к его широкому использованию в медицинских исследованиях. Расчет доверительных интервалов с использованием углового преобразования не рекомендуется при частотах, приближающихся к 0 или 1 [15].

На этом описание способов оценки доверительных интервалов в большинстве книг по основам статистики для исследователей-медиков обычно заканчивается, причем эта проблема характерна не только для отечественной, но и для зарубежной литературы. Оба метода основаны на центральной предельной теореме, которая подразумевает наличие большой выборки.

Принимая во внимание недостатки оценки доверительных интервалов с помощью вышеупомянутых методов, Клоппер (Clopper) и Пирсон (Pearson) предложили в 1934 году способ расчета так называемого точного доверительного интервала с учетом биномиального распределения изучаемого признака [ 14]. Данный метод доступен во многих онлайн-калькуляторах, однако доверительные интервалы, полученные таким образом, в большинстве случаев слишком широки. В то же время этот метод рекомендуется применять в тех случаях, когда необходима консервативная оценка. Степень консервативности метода увеличивается по мере уменьшения объема выборки, особенно при N < 15 [11]. А. Н. Герасимов [2] описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

По мнению многих статистиков [11, 13, 17, 18], наиболее оптимальную оценку доверительных интервалов для частот осуществляет метод Уилсона (Wilson), предложенный еще в 1927 году [20], но практически не используемый в отечественных биомедицинских исследованиях. Данный метод не только позволяет оценить доверительные интервалы для очень малых и очень больших частот, но и применим для малого числа наблюдений. В общем виде доверительный интервал по формуле Уилсона имеет вид от

p+- z,-.J +

2N V N 4N

z 2

л Z 1 - a / 2

1 + ------

N

Z21 -a/2 p(1 - p) Z 21 -«/2

P Л----------------V Zi - 1/2Л--------------h - 2

2N V N 4 N

до ------------------------------------2---------------------------

л Z 1 -all

1 + -

N

где Zl - a ! 2 принимает значение 1,96 при расчете 95 % доверительного интервала, N — количество наблюдений, а р — частота встречаемости признака в выборке. Данный метод доступен в онлайн-калькуляторах, поэтому его применение не является проблематичным. В. А. Медик и М. С. Токмачев [8] не рекомендуют использовать этот метод при n • p < 4 или n • (1 — p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок [ 13, 15].

Считается, что помимо метода Уилсона метод Вальда с коррекцией по Агрести — Коуллу также дает оптимальную оценку доверительного интервала для частот [11, 13, 15]. Коррекция по Агрести — Коуллу представляет собой замену в формуле Вальда частоты встречаемости признака в выборке (р) на р', при расчете которой к числителю добавляется 2, а к знаменателю добавляется 4, то есть p' = (X + 2) / (N + 4), где X — количество участников исследования, у которых имеется изучаемый признак, а N — объем выборки [11]. Такая модификация приводит к результатам, очень похожим на результаты применения формулы Уилсона, за исключением случаев, когда частота события приближается к 0 % или 100 %, а выборка мала [13]. Кроме вышеупомянутых способов расчета доверительных интервалов для частот были предложены поправки на непрерывность как для метода Вальда, так и для метода Уилсона для малых выборок, однако исследования показали, что их применение нецелесообразно [15].

рассмотрим применение вышеописанных способов расчета доверительных интервалов на двух примерах. В первом случае мы изучаем большую выборку, состоящую из 1 000 случайно отобранных участников исследования, из которых 450 имеют изучаемый признак (это может быть фактор риска, исход или любой другой признак), что составляет частоту 0,45, или 45 %. Во втором случае исследование проводится с использованием малой выборки, допустим, всего 20 человек, причем изучаемый признак имеется всего у 1 участника исследования (5 %). Доверительные интервалы по методу Вальда, по методу Вальда с коррекцией по Агрести — Коул-лу, по методу Уилсона рассчитывались с помощью онлайн-калькулятора, разработанного Jeff Sauro (http://www.measuringusability.com/wald.htm). Доверительные интервалы по методу Уилсона с поправ-

кой на непрерывность рассчитывались с помощью калькулятора, предложенного порталом Wassar Stats: Web Site for Statistical Computation (http://faculty. vassar.edu/lowry/prop 1 .html). Расчеты с помощью углового преобразования Фишера производились «вручную» с использованием критического значения t для 19 и 999 степеней свободы соответственно. Результаты расчетов представлены в таблице для обоих примеров.

Доверительные интервалы, рассчитанные шестью разными способами для двух примеров, описанных в тексте

Способ расчета доверительного интервала 95% ДИ для Х=1, N=20, Р=0,0500, или 5% 95% ДИ для Х=450, N=1000, Р=0,4500, или 45%

Вальда -0,0455-0,2541 0,4192-0,4810

Вальда с коррекцией по Агрести - Коуллу <,0001-0,2541 0,4194-0,4810

Уилсона 0,0089-0,2361 0,4194-0,4810

Уилсона с коррекцией на непрерывность 0,0026-0,2694 0,4189-0,4815

«Точный метод» Клоппера - Пирсона 0,0013-0,2487 0,4189-0,4814

Угловое преобразование <0,0001-0,1967 0,4193-0,4809

Как видно из таблицы, для первого примера доверительный интервал, рассчитанный по «общепринятому» методу Вальда заходит в отрицательную область, чего для частот быть не может. К сожалению, подобные казусы нередки в отечественной литературе. Традиционный способ представления данных в виде частоты и ее ошибки частично маскирует эту проблему. Например, если частота встречаемости признака (в процентах) представлена как 2,1 ± 1,4, то это не настолько «режет глаз», как 2,1 % (95 % ДИ: —0,7; 4,9), хоть и обозначает то же самое. Метод Вальда с коррекцией по Агрести — Коуллу и расчет с помощью углового преобразования дают нижнюю границу, стремящуюся к нулю. Метод Уилсона с поправкой на непрерывность и «точный метод» дают более широкие доверительные интервалы, чем метод Уилсона. Для второго примера все методы дают приблизительно одинаковые доверительные интервалы (различия появляются только в тысячных), что неудивительно, так как частота встречаемости события в этом примере не сильно отличается от 50 %, а объем выборки достаточно велик.

Для читателей, заинтересовавшихся данной проблемой, можно порекомендовать работы R. G. New-combe [17] и Brown, Cai и Dasgupta [13], в которых приводятся плюсы и минусы применения 7 и 10 различных методов расчета доверительных интервалов соответственно [13]. Из отечественных пособий рекомендуется книга В. А. Медика и М. С. Токма-чева [8], в которой помимо подробного описания теории представлены методы Вальда, Уилсона, а также способ расчета доверительных интервалов с

учетом биномиального распределения частот. Кроме бесплатных онлайн-калькуляторов (http://www. measuringusability.com/wald.htm и http://faculty. vassar.edu/lowry/prop1.html) доверительные интервалы для частот (и не только!) можно рассчитывать с помощью программы CIA (Confidence Intervals Analysis), которую можно загрузить с http://www. medschool.soton.ac.uk/cia/ [12].

В следующей статье будут рассмотрены одномерные способы сравнения качественных данных.

Список литературы

1. Банержи А. Медицинская статистика понятным языком: вводный курс / А. Банержи. — М. : Практическая медицина, 2007. — 287 с.

2. Герасимов А. Н. Медицинская статистика / А. Н. Герасимов. — М. : Медицинское информационное агенство, 2007. — 475 с.

3. Гланц С. Медико-биологическая статистика / С. Гланц.

— М. : Практика, 1998.

4. Гржибовский А. М. Типы данных, проверка распределения и описательная статистика / А. М. Гржибовский // Экология человека — 2008. — № 1. — С. 52—58.

5. Жижин К. С. Медицинская статистика : учебное пособие / К. С. Жижин. — Ростов н/Д : Феникс, 2007.

— 160 с.

6. Зайцев В. М. Прикладная медицинская статистика / В. М. Зайцев, В. Г. Лифляндский, В. И. Маринкин.

— СПб. : Фолиант, 2003. - 428 с.

7. Лакин Г. Ф. Биометрия / Г. Ф. Лакин. — М. : Высшая школа, 1990. — 350 с.

8. Медик В. А. Математическая статистика в медицине / В. А. Медик, М. С. Токмачев. — М. : Финансы и статистика, 2007. — 798 с.

9. Сергиенко В. И. Математическая статистика в клинических исследованиях / В. И. Сергиенко, И. Б. Бондарева.

— М. : ГЭОТАР-МЕД, 2001. — 256 с.

10. Юнкеров В. И. Медико-статистическая обработка данных медицинских исследований / В. И. Юнкеров,

C. Г. Григорьев. — СПб. : ВмедА, 2002. — 266 с.

11. Agresti A. Approximate is better than exact for interval estimation of binomial proportions / A. Agresti, B. Coull // American statistician. — 1998. — N 52. — С. 119—126.

12. Altman D. Statistics with confidence // D. Altman,

D. Machin, T. Bryant, M. J. Gardner. — London : BMJ Books, 2000. — 240 p.

13. Brown L. D. Interval estimation for a binomial proportion / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. — 2001. — N 2. — P. 101 — 133.

14. Clopper C. J. The use of confidence or fiducial limits illustrated in the case of the binomial / C. J. Clopper,

E. S. Pearson // Biometrika. - 1934. - N 26. - P. 404-413.

15. Garcia-Perez M. A. On the confidence interval for the binomial parameter / M. A. Garcia-Perez // Quality and quantity. - 2005. - N 39. - P. 467-481.

16. Motulsky H. Intuitive biostatistics // H. Motulsky.

- Oxford : Oxford University Press, 1995. - 386 p.

17. Newcombe R. G. Two-Sided Confidence Intervals for the Single Proportion: Comparison of Seven Methods / R. G. Newcombe // Statistics in Medicine. - 1998. -N. 17. - P. 857-872.

18. Sauro J. Estimating completion rates from small samples using binomial confidence intervals: comparisons and recommendations / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting.

- Orlando, FL, 2005.

19. Wald A. Confidence limits for continuous distribution functions // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - P. 105-118.

20. Wilson E. B. Probable inference, the law of succession, and statistical inference / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - P. 209-212.

CONFIDENCE INTERVALS FOR PROPORTIONS

A. M. Grjibovski

National Institute of Public Health, Oslo, Norway

The article presents several methods for calculations confidence intervals for binomial proportions, namely, Wald, Wilson, arcsine, Agresti-Coull and exact Clopper-Pearson methods. The paper gives only general introduction to the problem of confidence interval estimation of a binomial proportion and its aim is not only to stimulate the readers to use confidence intervals when presenting results of own empirical research, but also to encourage them to consult statistics books prior to analysing own data and preparing manuscripts.

Key words: confidence interval, proportion.

Контактная информация:

Гржибовский Андрей Мечиславович — старший советник Национального института общественного здоровья, г. Осло, Норвегия

Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway

Тел.: +47 21076392, +47 45268913; е-mail: [email protected]

Статья поступила 16.04.2008 г.

cyberleninka.ru

Расчет доверительных интервалов

Доверительный интервал - термин, используемый в математической статистике при интервальной оценке статистических параметров, что предпочтительнее при небольшом объёме выборки.

Доверительный интервал для математического ожидания

Найдем доверительный интервал для математического ожидания при условии, что дисперсия генеральной величины неизвестна, а доверительная вероятность равна 1 – α.

Для расчета доверительного интервала применим формулу:

x – среднее значение величины

–квантиль распределения Стьюдента с степенью свободы

–несмещенное выборочное стандартное отклонение

–объем выборки

  1. Определим квантиль распределения Стьюдента, для этого воспользуемся стандартной таблицей:

возьмем равным 0,05.

Выберем значение = 2,571

  1. Найдем S:

10.15

2.94

  1. Подставим все известные значения в формулу из пункта 1):

Для M[X]:

Для M[Y]:

Доверительный интервал для дисперсии

Найдем доверительный интервал для дисперсии при условии, что среднее значение величины неизвестно, а доверительная вероятность равна 1 – α.

Для расчета доверительного интервала применим формулу:

–дисперсия

–несмещенное выборочная дисперсия

–квантиль распределения со степенями свободы.

  1. Определим квантиль распределения , для этого воспользуемся специальной таблицей:

12,8325

0,8312

  1. Подставим найденные значения в формулу из пункта 1):

Для Х:

Для У:

Доверительный интервал для корреляции

Найдем доверительный интервал для корреляции при условии, что выборка получена из генеральной совокупности, r – выборочный коэффициент корреляции.

Для расчета доверительного интервала применим формулу:

  1. Рассчитаем :

  1. возьмем из таблицы квантилей нормального распределения:

  1. Подставим все в формулы:

  1. Найдем с помощью таблицы гиперболических тангенсов:

  1. Проверка гипотез

Таким образом было установлено, что между заработной платой сотрудников ДПС и количеством оштрафованных существует связь. Искомая корреляция равна -0.7132. Это высокая степень взаимосвязи – значения коэффициента корреляции находится в пределах от 0,7 до 0,99. Нам удалось выявить зависимость, и результаты в данном случае оказались вполне ожидаемы. Чем выше средняя заработная плата по субъекту РФ, тем меньше оштрафованных. Почему получились такие результаты, нам остается только гадать. Да и не было нашей целью объяснять почему именно так. Мы должны были, ради личного интереса, посмотреть есть ли связь.

  1. Регрессия

Любая нелинейная регрессия, в которой уравнение регрессии для изменений в одной переменной (у) как функции t изменений в другой (х) является квадратичным, кубическим или уравнение более высокого порядка. Хотя математически всегда возможно получить уравнение регрессии, которое будет соответствовать каждой "загогулине" кривой, большинство этих пертурбаций возникает в результате ошибок в составлении выборки или измерении, и такое "совершенное" соответствие ничего не дает. Не всегда легко определить, соответствует ли криволинейная регрессия набору данных, хотя существуют статистические тесты для определения того, значительно ли увеличивает каждая более высокая степень уравнения степ совпадения этого набора данных.

Теперь, будем считать, что выборочная криволинейная регрессия определяется уравнением:

Коэффициенты называются выборочными коэффициентами регрессии.

Из ранее изученных пунктов, нам известны следующие параметры:

х = 20,35

у = 9,47

= 85,79

= 7,21

= -0.71

Теперь мы можем подставить все значения в уравнение:

studfile.net

3. Вычисление доверительных интервалов статистических параметров

Цель – научить студентов алгоритмам вычисления доверительных интервалов статистических параметров.

При статистической обработке данных вычисленные средняя арифметическая, коэффициент вариации, коэффициент корреляции, критерии различия и другие точечные статистики должны получить количественные границы доверия, которые обозначают возможные колебания показателя в меньшую и большую стороны в пределах доверительного интервала.

Пример 3.1. Распределение кальция в сыворотке крови обезьян, как было установлено ранее, характеризуется следующими выборочными показателями: = 11,94 мг%;= 0,127 мг%;n = 100. Требуется определить доверительный интервал для генеральной средней () при доверительной вероятностиP = 0,95.

Генеральная средняя находится с определенной вероятностью в интервале:

, где – выборочная средняя арифметическая;t – критерий Стьюдента; – ошибка средней арифметической.

По таблице «Значения критерия Стьюдента» находим значение при доверительной вероятности 0,95 и числе степеней свободы k = 100-1 = 99. Оно равно 1,982. Вместе со значениями среднего арифметического и статистической ошибки подставляем его в формулу:

или 11,69 12,19

Таким образом, с вероятностью 95%, можно утверждать, что генеральная средняя данного нормального распределения находится между 11,69 и 12,19 мг%.

Пример 3.2. Определите границы 95%-ного доверительного интервала для генеральной дисперсии () распределения кальция в крови обезьян, если известно, что= 1,60, приn = 100.

Для решения задачи можно воспользоваться следующей формулой:

, где – статистическая ошибка дисперсии.

Находим ошибку выборочной дисперсии по формуле: . Она равна 0,11. Значениеt- критерия при доверительной вероятности 0,95 и числе степеней свободы k = 100–1 = 99 известно из предыдущего примера.

Воспользуемся формулой и получим:

или 1,38 1,82

Более точно доверительный интервал генеральной дисперсии можно построить с применением (хи-квадрат) - критерия Пирсона. Критические точки для этого критерия приводятся в специальной таблице. При использовании критериядля построения доверительного интервала применяют двусторонний уровень значимости. Для нижней границы уровень значимости рассчитывается по формуле, для верхней –. Например, для доверительного уровня= 0,99= 0,010,= 0,990. Соответственно по таблице распределения критических значений, при рассчитанных доверительных уровнях и числе степеней свободыk = 100 – 1= 99, найдем значения и. Получаемравно 135,80, аравно70,06.

Чтобы найти доверительные границы генеральной дисперсии с помощью воспользуемся формулами: для нижней границы, для верхней границы. Подставим данные задачи найденные значенияв формулы:= 1,17;= 2,26. Таким образом, при доверительной вероятностиP = 0,99 или 99% генеральная дисперсия будет лежать в интервале от 1,17 до 2,26 мг% включительно.

Пример 3.3. Среди 1000 семян пшеницы из поступившей на элеватор партии обнаружено 120 семян зараженных спорыньей. Необходимо определить вероятные границы генеральной доли зараженных семян в данной партии пшеницы.

Доверительные границы для генеральной доли при всех возможных ее значениях целесообразно определять по формуле:

,

Где n – число наблюдений; m – абсолютная численность одной из групп; t – нормированное отклонение.

Выборочная доля зараженных семян равна или 12%. При доверительной вероятностиР = 95% нормированное отклонение (t-критерий Стьюдента при k = )t = 1,960.

Подставляем имеющиеся данные в формулу:

0,122± 0,041

Отсюда границы доверительного интервала равны= 0,122–0,041 = 0,081, или 8,1%;= 0,122 + 0,041 = 0,163, или 16,3%.

Таким образом, с доверительной вероятностью 95% можно утверждать, что генеральная доля зараженных семян находится между 8,1 и 16,3%.

Пример 3.4. Коэффициент вариации, характеризующий варьирование кальция (мг%) в сыворотке крови обезьян, оказался равным 10,6%. Объем выборки n = 100. Необходимо определить границы 95%-ного доверительного интервала для генерального параметра Cv.

Границы доверительного интервала для генерального коэффициента вариации Cv определяются по следующим формулам:

и , гдеK промежуточная величина, вычисляемая по формуле .

Зная, что при доверительной вероятности Р = 95% нормированное отклонение (критерий Стьюдента при k = )t = 1,960, предварительно рассчитаем величину К:

.

или 9,3%

или 12,3%

Таким образом, генеральный коэффициент вариации с доверительной вероятностью 95% лежит в интервале от 9,3 до 12,3%. При повторных выборках коэффициент вариации не превысит 12,3% и не окажется ниже 9,3% в 95 случаях из 100.

Вопросы для самоконтроля:

  1. Что такое вероятность?

  2. Какие вероятности считаются доверительными?

  3. Дайте определение терминов «доверительные границы» и «доверительный интервал».

  4. Каков доверительный интервал при нормальном распределении с вероятностью 0,95; 0,99?

  5. Что такое уровень значимости? Какая связь между уровнем значимости и вероятностью? Можно ли выражать уровень значимости в процентах?

  6. На что указывает процентная величина уровня значимости?

  7. В каких пределах по отношению к выборочной совокупности может находиться средняя арифметическая генеральной совокупности? С какой вероятностью?

  8. Изменяются ли доверительные границы и доверительный интервал для μ при разных величинах n? Когда надо пользоваться t – распределением Стьюдента?

Задачи для самостоятельного решения.

1. Средний процент жира в молоке за лактацию коров холмогорских помесей был следующим: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3,8. Установите доверительные интервалы для генеральной средней при доверительной вероятности 95% (20 баллов).

2. На 400 растениях гибридной ржи первые цветки появились в среднем на 70,5 день после посева. Среднее квадратическое отклонение было 6,9 дня. Определите ошибку средней и доверительные интервалы для генеральной средней и дисперсии при уровне значимости W = 0,05 и W = 0,01 (25 баллов).

3. При изучении длины листьев 502 экземпляров садовой земляники были получены следующие данные: = 7,86 см; σ = 1,32 см, =± 0,06 см. Определите доверительные интервалы для средней арифметической генеральной совокупности с уровнями значимости 0,01; 0,02; 0,05. (25 баллов).

4. При обследовании 150 взрослых мужчин средний рост был равен 167 см, а σ = 6 см. В каких пределах находится генеральная средняя и генеральная дисперсия с доверительной вероятностью 0,99 и 0,95? (25 баллов).

5. Распределение кальция в сыворотке крови обезьян характеризуется следующими выборочными показателями: = 11,94 мг%, σ = 1,27, n = 100. Постройте 95%-ный доверительный интервал для генеральной средней этого распределения. Рассчитайте коэффициент вариации (25 баллов).

6. Было изучено общее содержание азота в плазме крови крыс-альбиносов в возрасте 37 и 180 дней. Результаты выражены в граммах на 100 см3 плазмы. В возрасте 37 дней 9 крыс имели: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. В возрасте 180 дней 8 крыс имели: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1,12. Установите доверительные интервалы для разницы с доверительной вероятностью 0,95 (50 баллов).

7. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения кальция (мг%) в сыворотке крови обезьян, если для этого распределения объем выборки n = 100, статистическая ошибка выборочной дисперсии sσ2 = 1,60 (40 баллов).

8. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения 40 колосков пшеницы по длине (σ2 = 40, 87 мм2). (25 баллов).

9. Курение считают основным фактором, предрасполагающим к обструктивным заболеваниям легких. Пассивное курение таким фактором не считается. Ученые усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков. Для характеристики состояния дыхательных путей взяли один из показателей функции внешнего дыхания – максимальную объемную скорость середины выдоха. Уменьшение этого показателя – признак нарушения проходимости дыхательных путей. Данные обследования приведены в таблице.

Группа

Число обследованных

Максимальная объемная скорость середины выдоха, л/с

Среднее

Стандартное отклонение

Некурящие

работают в помещении, где не курят

200

3,17

0, 74

работают в накуренном помещении

200

2,72

0, 71

Курящие

выкуривающие небольшое число сигарет

200

2, 63

0, 73

выкуривающие среднее число сигарет

200

2, 29

0, 70

выкуривающие большое число сигарет

200

2, 12

0, 72

По данным таблицы найдите 95% доверительные интервалы для генеральной средней и генеральной дисперсии для каждой из групп. В чем заключаются различия между группами? Результаты представьте графически (25 баллов).

10. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной дисперсии численности поросят в 64 опоросах, если статистическая ошибка выборочной дисперсии sσ2 = 8, 25 (30 баллов).

11. Известно, что средняя масса кроликов составляет 2,1 кг. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной средней и дисперсии при n = 30, σ = 0,56 кг (25 баллов).

12. У 100 колосьев измеряли озерненность колоса (Х), длину колоса (Y) и массу зерна в колосе (Z). Найти доверительные интервалы для генеральной средней и дисперсии при P1 = 0,95, P2 = 0,99, P3 = 0,999, если = 19, = 6,766 см, = 0,554 г; σx2 = 29, 153, σy2 = 2, 111, σz2 = 0, 064. (25 баллов).

13. В отобранных случайным образом 100 колосьях озимой пшеницы подсчитывалось число колосков. Выборочная совокупность характеризовалась следующими показателями: = 15 колосков и σ = 2,28 шт. Определите, с какой точностью получен средний результат () и постройте доверительный интервал для генеральной средней и дисперсии при 95% и 99% уровнях значимости (30 баллов).

14. Число ребер на раковинах ископаемого моллюска Orthambonites calligramma:

32

34

31

31

30

26

26

26

31

26

26

26

26

26

25

19

20

20

22

Известно, что n = 19, σ = 4,25. Определите границы доверительного интервала для генеральной средней и генеральной дисперсии при уровне значимости W = 0,01 (25 баллов).

15. Для определения удоев молока на молочно-товарной ферме ежедневно определялась продуктивность 15 коров. По данным за год каждая корова давала в среднем в сутки следующее количество молока (л): 22; 19; 25; 20; 27; 17; 30; 21; 18; 24; 26; 23; 25; 20; 24. Постройте доверительные интервалы для генеральной дисперсии и средней арифметической. Можно ли ожидать, что среднегодовой удой на каждую корову составит 10000 литров? (50 баллов).

16. С целью определения урожая пшеницы в среднем по агрохозяйству были проведены укосы на пробных участках площадью 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 и 2 га. Урожайность (ц/га) с участков составила 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 соответственно. Постройте доверительные интервалы для генеральных дисперсии и средней арифметической. Можно ли ожидать, что в среднем по агрохозяйству урожай составит 42 ц/га? (50 баллов).

studfile.net

ЛЕКЦИЯ 4

Доверительные интервалы и доверительная вероятность, уровень значимости. Проверка статистических гипотез, критерии значимости, ошибки первого и второго рода. Построение доверительного интервала для математического ожидания непосредственно измеряемой величины. Распределение Стъюдента.

4.1.Доверительные интервалы и доверительная вероятность, уровень значимости.

Выборочные параметры распределения, определяемые по серии измерений, являются случайными величинами, следовательно, и их отклонения от генеральных параметров также будут случайными. Оценка этих отклонений носит вероятностный характер — при статистическом анализе можно лишь указать вероятность той или иной погрешности.

Пусть для генерального параметра а получена из опыта несмещенная оценка а*. Назначим достаточно большую вероятность β (такую, что событие с вероятностью β можно считать практически достоверным) и найдем такое значение εβ = f (β), для которого

P (

 

a* − a

 

≤ εβ )= β.

(4.1)

 

 

Диапазон практически возможных значений ошибки, возникающей при замене а на а*, будет ±εβ. Большие по абсолютной величине ошибки будут появляться только с малой вероятностью

называемой уровнем значимости. Иначе выражение (4.1) можно интерпретировать как вероятность того, что истинное значение параметра а лежит в пределах

a* −εβ ≤ a ≤ a* + εβ .

(4.3)

Вероятность β называется доверительной вероятностью и характеризует надежность полученной оценки. Интервал Iβ = a* ± εβ называет-

ся доверительным интервалом. Границы интервала a′ = a* - εβ и a′′ = a* + εβ называются доверительными границами. Доверительный интервал при данной доверительной вероятности определяет точность оценки. Величина доверительного интервала зависит от доверительной вероятности, с которой гарантируется нахождение параметра а внутри доверительного интервала: чем больше величина β, тем больше интер-

вал Iβ (и величина εβ). Увеличение числа опытов проявляется в сокра-

щении доверительного интервала при постоянной доверительной вероятности или в повышении доверительной вероятности при сохранении доверительного интервала.

На практике обычно фиксируют значение доверительной вероятности (0,9; 0,95 или 0,99) и затем определяют доверительный интервал результата Iβ. При построении доверительного интервала решается задача об абсолютном отклонении:

εβ

P (a* − a ≤ εβ )= P(∆a ≤ εβ )= F(εβ )− F(- εβ )= ∫f (a) da =β. (4.4)

-εβ

Таким образом, если бы был известен закон распределения оценки а*, задача определения доверительного интервала решалась бы просто. Рассмотрим построение доверительного интервала для математического ожидания нормально распределенной случайной величины Х с известным генеральным стандартом σ по выборке объемом n. Наилучшей оценкой для математического ожидания m является среднее выборки x со стандартным отклонением среднего

 

 

 

σ(x) = σ/ n .

 

 

 

 

 

Используя функцию Лапласа, получаем

εβ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P (

 

x − mx

≤ εβ )= β = 2Ф

 

 

 

.

(4.5)

 

 

 

 

 

σ(x)

 

Задавшись доверительной вероятностью β, определим по таблице функции Лапласа (приложение 1) величину kβ = εβ / σ(x) . Тогда дове-

рительный интервал для математического ожидания принимает вид

 

 

− kβ σ(

 

) ≤ mx ≤

 

+ kβσ(

 

) ,

(4.6)

 

x

x

x

x

или

 

 

 

 

 

 

 

 

 

 

 

x − kβ

σ

≤ mx ≤ x + kβ

σ .

(4.7)

 

 

 

 

n

 

 

 

n

 

Из (4.7) видно, что уменьшение доверительного интервала обратно пропорционально корню квадратному из числа опытов.

Знание генеральной дисперсии позволяет оценивать математическое ожидание даже по одному наблюдению. Если для нормально распределенной случайной величины Х в результате эксперимента получено значение х1, то доверительный интервал для математического ожидания при выбранной β имеет вид

x1 −σU1− p / 2 ≤ mx ≤ x1 + σU1− p / 2 ,

(4.8)

где U1-p/2 — квантиль стандартного нормального распределения (приложение 2).

Закон распределения оценки а* зависит от закона распределения величины Х и, в частности, от самого параметра а. Чтобы обойти это затруднение, в математической статистике применяют два метода:

1)приближенный — при n ≥ 50 заменяют в выражении для εβ неизвестные параметры их оценками, например:

kβ = εβ / σ(x) ≈ εβ / s (x) ;

2)от случайной величины а* переходят к другой случайной величине Θ*, закон распределения которой не зависит от оцениваемого параметра а, а зависит только от объема выборки n и от вида закона распределения величины Х. Такого рода величины наиболее подробно изучены для нормального распределения случайных величин. В качестве доверительных границ Θ′ и Θ′′ обычно используются симметричные квантили

Θ(1−β) / 2 ≤ Θ* ≤ Θ(1+β) / 2 ,

(4.9)

или с учетом (4.2)

 

 

 

 

Θ

p/2

≤ Θ* ≤ Θ

.

(4.10)

 

1− p/2

 

 

4.2.Проверка статистических гипотез, критерии значимости, ошибки первого и второго рода.

Под статистическими гипотезами понимаются некоторые предположения относительно распределений генеральной совокупности той или иной случайной величины. Под проверкой гипотезы понимают сопоставление некоторых статистических показателей, критериев проверки (критериев значимости), вычисляемых по выборке, с их значениями, определенными в предположении, что данная гипотеза верна. При проверке гипотез обычно подвергается испытанию некоторая гипотеза Н0 в сравнении с альтернативной гипотезой Н1.

Чтобы решить вопрос о принятии или непринятии гипотезы, задаются уровнем значимости р. Наиболее часто используются уровни значимости, равные 0.10, 0.05 и 0.01. По этой вероятности, используя гипотезу о распределении оценки Θ* (критерия значимости), находят квантильные доверительные границы, как правило, симметричные Θp/2

и Θ1-p/2. Числа Θp/2 и Θ1-p/2 называются критическими значениями гипо-

тезы; значения Θ* < Θp/2 и Θ* > Θ1-p/2 образуют критическую область гипотезы (или область непринятия гипотезы) (рис. 12).

Рис. 12. Критическая область

Рис. 13. Проверка статистических

гипотезы.

гипотез.

Если найденное по выборке Θ0 попадает между Θp/2 и Θ1-p/2, то гипотеза допускает такое значение в качестве случайного и поэтому нет оснований ее отвергать. Если же значение Θ0 попадает в критическую область, то по данной гипотезе оно является практически невозможным. Но поскольку оно появилось, то отвергается сама гипотеза.

При проверке гипотез можно совершить ошибки двух типов. Ошиб-

ка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна. Вероятность такой ошибки не больше принятого уровня значимости. Ошибка второго рода состоит в том, что гипотеза принимается, а на самом деле она неверна. Вероятность этой ошибки тем меньше, чем выше уровень значимости, так как при этом увеличивается число отвергаемых гипотез. Если вероятность ошибки второго рода равна α, то величину (1 - α) называют мощностью критерия.

На рис. 13 приведены две кривые плотности распределения случайной величины Θ, соответствующие двум гипотезам Н0 и Н1. Если из опыта получается значение Θ > Θp, то отвергается гипотеза Н0 и принимается гипотеза Н1, и наоборот, если Θ < Θp.

Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н0 вправо от значения Θp, равна уровню значимости р, т. е. вероятности ошибки первого рода. Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н1 влево от Θp, равна вероятности ошибки второго рода α, а вправо от Θp — мощности критерия (1 - α). Таким образом, чем больше р, тем

больше (1 - α). При проверке гипотезы стремятся из всех возможных критериев выбрать тот, у которого при заданном уровне значимости меньше вероятность ошибки второго рода.

Обычно в качестве оптимального уровня значимости при проверке гипотез используют p = 0,05, так как если проверяемая гипотеза принимается с данным уровнем значимости, то гипотезу, безусловно, следует признать согласующейся с экспериментальными данными; с другой стороны, использование данного уровня значимости не дает оснований для отбрасывания гипотезы.

Например, найдены два значения a1* и a2* некоторого выборочного параметра, которые можно рассматривать как оценки генеральных параметров а1 и а2. Высказывается гипотеза, что различие между a1* и a2*

случайное и что генеральные параметры а1 и а2 равны между собой, т. е. а1 = а2. Такая гипотеза называется нулевой, или нуль-гипотезой.

Для ее проверки нужно выяснить, значимо ли расхождение между a1* и a2* в условиях нулевой гипотезы. Для этого обычно исследуют случай-

ную величину ∆a* = a* – a*

и проверяют, значимо ли ее отличие от

1

2

 

a* / a* , сравнивая ее с

нуля. Иногда удобнее рассматривать величину

 

 

 

1

2

единицей.

Отвергая нулевую гипотезу, тем самым принимают альтернативную, которая распадается на две: a1* > a2* и a1* < a2* . Если одно из этих

равенств заведомо невозможно, то альтернативная гипотеза называется односторонней, и для ее проверки применяют односторонние критерии значимости (в отличие от обычных, двусторонних). При этом необходимо рассматривать лишь одну из половин критической области

(рис. 12).

Например, р = 0,05 при двустороннем критерии соответствуют критические значения Θ0.025 и Θ0.975, т. е. значимыми (неслучайными) счи-

таются Θ*, принявшие значения Θ* < Θ0.025 и Θ* > Θ0.975. При одностороннем критерии одно из этих неравенств заведомо невозможно (на-

пример, Θ* < Θ0.025) и значимыми будут лишь Θ* > Θ0.975. Вероятность последнего неравенства равна 0,025, и, следовательно, уровень значи-

мости будет равен 0,025. Таким образом, если при одностороннем критерии значимости использовать те же критические числа, что и при двустороннем, этим значениям будет соответствовать вдвое меньший уровень значимости.

Обычно для одностороннего критерия берут тот же уровень значимости, что и для двустороннего, так как при этих условиях оба крите-

39

рия обеспечивают одинаковую ошибку первого рода. Для этого одно-

сторонний критерий надо выводить из двустороннего, соответствующего вдвое большему уровню значимости, чем тот, что принят.

Чтобы сохранить для одностороннего критерия уровень значимости р = 0,05, для двустороннего необходимо взять р = 0,10, что дает критические значения Θ0.05 и Θ0.95. Из них для одностороннего критерия останется какое-нибудь одно, например, Θ0.95. Уровень значимости для одностороннего критерия равен при этом 0.05. Этому же уровню значимости для двустороннего критерия соответствует критическое значе-

ние Θ0.975. Но Θ0.95 < Θ0.975, значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет

ошибка второго рода.

4.3.Построение доверительного интервала для математического ожидания непосредственно измеряемой величины. Распределение Стъюдента.

При отсутствии грубых и систематических ошибок математическое ожидание случайной величины совпадает с истинным результа-

том наблюдений. Легче всего оценить математическое ожидание при известной дисперсии генеральной совокупности (выражения 4.6 – 4.8). Однако значение σ2 нельзя получить из наблюдений, ее можно только оценить при помощи выборочной дисперсии s2. Ошибка от этой замены будет тем меньше, чем больше объем выборки n. На практике эту погрешность не учитывают при n ≤ 50 и в формуле (4.7) для доверительного интервала генеральный параметр σ заменяют выборочным стандартом. В дальнейшем примем, что наблюдаемая случайная величина имеет нормальное распределение.

При небольших объемах выборок для построения доверительного интервала математического ожидания используют распределение Стъюдента, или t-распределение. Распределение Стъюдента имеет величина t

с плотностью вероятности

 

 

 

f

+1

 

 

 

 

 

f +1

 

 

 

 

1

 

Г

 

 

 

2

 

 

 

 

 

ϕ(t) =

 

 

2

 

 

2

,

−∞ < t < +∞,

(4.12)

 

1+ t

 

 

 

 

 

π

f

 

f

 

 

f

 

 

 

 

 

 

 

 

Г

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

где Г(f ) — гамма-функция Эйлера:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Г(z) = ∫e−y yz −1dy ;

 

 

(4.13)

 

 

 

 

 

 

0

 

 

 

 

 

 

 

f — число степеней свободы выборки. Если дисперсия s2 и среднее x определяются по одной и той же выборке, то f = n – 1.

Распределение Стъюдента зависит только от числа степеней свободы f, с которым определена выборочная дисперсия. На рис. 14 приведены графики плотности t-распределения для нескольких чисел свободы f и нормальная кривая.

Рис. 14. Плотность распределения Стъюдента.

Кривые t-распределения по своей форме напоминают нормальную кривую, но при малых f они медленнее сближаются с осью абсцисс при

t → ∞. При f → ∞ s2 → σ2 , поэтому распределение Стъюдента

сближается (в пределе соответствует) с нормальным распределением. Вероятность того, что случайная величина попадет в интервал (tp/2;

t1-p/2), определяется выражением

P (t p/2 ≤ t ≤ t1− p/2 ) =1− p = β.

(4.14)

Распределение Стъюдента симметрично относительно нуля, поэтому

t p/2 = −t1- p/2 .

(4.15)

Учитывая симметрию t-распределения, часто пользуются обозначением tp(f ), где f — число степеней свободы, р — уровень значимости, т. е. вероятность того, что t находится за пределами интервала (tp/2; t1- p/2). Подставляя в (4.14) выражение для t (4.11) с учетом (4.15), получаем неравенство

−t1− p/2 ≤

x − mx

n ≤t1− p/2

,

(4.16)

sx

 

 

 

 

и после преобразований имеем

x −

sx t

≤ m

 

≤ x +

sx t

.

(4.17)

 

n 1− p/2

 

x

 

n 1− p/2

 

 

Значения квантилей t1-p/2 для различных чисел степеней свободы f и уровней значимости р приведены в приложении 3. Выражение (4.17) означает, что интервал с доверительными границами

(

 

− s (

 

) t1− p/2 )÷ (

 

+ s (

 

) t1− p/2 )

(4.18)

x

x

x

x

накрывает с вероятностью β генеральное среднее измеряемой величины. Величина доверительного интервала (4.18) определяет надежность среднего выборки. Величину

s (x)t

=

sx t

= ε

 

,

(4.19)

1− p/2

 

n 1− p/2

 

случ

 

 

т. е. половину доверительного интервала, называют случайной ошибкой. С учетом только случайной ошибки результат измерений некоторой величины следует записывать так:

X = x ± ε

 

= x ±

sx t

.

(4.20)

 

случ

 

n 1− p/2

 

 

studfile.net


Смотрите также