Большая Советская Энциклопедия (МА)
Шрифт:
О совместных распределениях двух и большего числа признаков см. Корреляция , Корреляционный анализ , Регрессия , Регрессионный анализ .
Связь статистических распределений с вероятностными. Оценка параметров.
Проверка вероятностных гипотез. Выше были изложены лишь некоторые избранные простейшие приёмы статистического описания, представляющего собой довольно обширную дисциплину с хорошо разработанной системой понятий и техникой вычислений. Приёмы статистического описания интересны, однако не сами по себе, а в качестве средства для получения из статистического материала выводов о закономерностях, которым подчиняются изучаемые явления, и о причинах, приводящих в каждом отд. случае к тем или иным наблюдённым статистическим распределениям.
Например, данные, приведённые в таблице 2а, естественно связать с такой теоретической схемой.
Данные первого столбца таблицы 1а собраны с целью установления точности изготовления деталей, расчётный диаметр которых равен 13,40 мм, при нормальном ходе производства. Простейшим допущением, которое может быть в этом случае обосновано некоторыми теоретическими соображениями, является предположение, что диаметры отдельных деталей можно рассматривать как случайные величины X , подчинённые нормальному распределению вероятностей
P{X <x } =
Если это допущение верно, то параметры a и s2 — среднее и дисперсию вероятностного распределения — можно с достаточной точностью оценить по соответствующим характеристикам статистического распределения (так как число наблюдений n = 200 достаточно велико). В качестве оценки для теоретической дисперсии s2 предпочитают не статистическую дисперсию D2 = S2/ n , а несмещенную оценку
s2 = S2 / (n– 1).
Для теоретического среднего квадратичного отклонения не существует общего (пригодного при любом распределении вероятностей) выражения несмещенной оценки. В качестве оценки (вообще говоря, смещенной) для s чаще всего употребляют s . Точность оценок
s2a = s2/n ~ s2 / n ,
где знак ~ обозначает приближённое равенство при больших n . Таким образом, уславливаясь прибавлять к оценкам со знаком ± их среднее квадратичное отклонение, имеем при больших n в предположении нормального распределения (1):
Для
данных первого столбца таблицы 1а формулы (2) даютa = 13,416 ± 0,008,
s = 0,110 ± 0,006.
Объём выборки n = 200 достаточен для законности пользования этими формулами теории больших выборок.
Дальнейшие сведения об оценке параметров теоретических распределений вероятностей см. в статьях Статистические оценки , Доверительные границы . О способах, при помощи которых по данным первого столбца таблицы 1а можно было бы проверить исходные гипотезы нормальности распределения и независимости наблюдений, см. в статьях Распределения , Непараметрические методы , Статистическая проверка гипотез .
При рассмотрении данных следующих столбцов таблицы 1а, каждый из которых составлен на основе 10 измерений, употребление формул теории больших выборок, установленных лишь в качестве предельных формул при n ® yen, может служить только для первой ориентировки. В качестве приближённых оценок параметров a и s по-прежнему употребляются величины
Все основанные на теории вероятностей правила статистической оценки параметров и проверки гипотез действуют лишь с определённым значимости уровнем w < 1, то есть могут приводить к ошибочным результатам с вероятностью a = 1 — w. Например, если в предположении нормального распределения и известной теоретической дисперсии s2 производить оценку a по
то вероятность ошибки будет равна a, связанному с k соотношением (см. таблицу 3);
Вопрос о рациональном выборе уровня значимости в данных конкретных условиях (например, при разработке правил статистического контроля массовой продукции) является весьма существенным. При этом желанию применять правила лишь с высоким (близким к единице) уровнем значимости противостоит то обстоятельство, что при ограниченном числе наблюдений такие правила позволяют сделать лишь очень бедные выводы (не дают возможности установить неравенство вероятностей даже при заметном неравенстве частот и т. д.).
Таблица 3. — Зависимость a и w = 1 — a от k .
k | 1,96 | 2,58 | 3,00 | 3,29 |
a | 0,050 | 0,010 | 0,003 | 0,001 |
w | 0,950 | 0,990 | 0,997 | 0,999 |
Выборочный метод. В предыдущем разделе результаты наблюдений, используемых для оценки распределения вероятностей или его параметров, подразумевались (хотя это и не оговаривалось) независимыми (см. Вероятностей теория и особенно Независимость ). Хорошо изученным примером использования зависимых наблюдений может служить оценка статистического распределения или его параметров в «генеральной совокупности» из N объектов по произведённой из неё «выборке», содержащей n < N объектов.