Большая Советская Энциклопедия (МА)
Шрифт:
Связь математической статистики с теорией вероятностей. Связь М. с. с теорией вероятностей имеет в разных случаях различный характер. Вероятностей теория изучает не любые явления, а явления случайные и именно «вероятностно случайные», то есть такие, для которых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее, теория вероятностей играет определённую роль и при статистическом изучении массовых явлений любой природы, которые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и теорию ошибок измерений (см. Ошибок теория ). В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приёмы их исследования.
Более важную роль играет теория вероятностей при статистическом исследовании вероятностных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы М. с., как теория статистической проверки вероятностных гипотез, теория статистической оценки распределений вероятностей и входящих в них параметров и так далее. Область
Вероятностные закономерности получают статистическое выражение (вероятности осуществляются приближённо в виде частот, а математические ожидания — в виде средних) в силу больших чисел закона .
Простейшие приёмы статистического описания. Изучаемая совокупность из n объектов может по какому-либо качественному признаку А разбиваться на классы A1 , A2 , ..., Ar . Соответствующее этому разбиению статистическое распределение задаётся при помощи указания численностей (частот) n1 , n2 , ..., nr , (где
Например, в первом столбце таблицы 1а даны результаты измерения 200 диаметров деталей, группированные по интервалам длиной 0,05 мм . Основная выборка соответствует нормальному ходу технологического процесса, 1-я, 2-я и 3-я выборки сделаны через некоторые промежутки времени для проверки устойчивости этого нормального хода производства. В таблице 1б результаты измерения деталей основной выборки даны при группировке по интервалам длиной 0,25 мм .
Обычно группировка по 10—20 интервалам, в каждый из которых попадает не более 15—20 % значений xi , оказывается достаточной для довольно полного выявления всех существенных свойств распределения и надёжного вычисления по групповым численностям основных характеристик распределения (см. о них ниже). Составленная по таким группированным данным гистограмма наглядно изображает распределение. Гистограмма, составленная на основе группировки с маленькими интервалами, обычно многовершинная и не отражает наглядно существенных свойств распределения.
В качестве примера на рис. 1 дана гистограмма распределения 200 диаметров, соответствующая данным первого столбца таблицы 1а, а на рис. 3 — гистограмма того же распределения (соответствующая таблица не приводится ввиду её громоздкости) при интервале 0,01 мм . С другой стороны, группировка по слишком крупным интервалам может привести к потере ясного представления о характере распределения и к грубым ошибкам при вычислении среднего и других характеристик распределения (см. таблицу 1б и соответствующую гистограмму на рис. 2 ).
В пределах М. с. вопрос об интервалах группировки может быть рассмотрен только с формальной стороны: полноты математического описания распределения, точности вычисления средних по сгруппированным данным и так далее. О группировке, имеющей целью выделить качественно различные группы в изучаемой совокупности, см. Статистические группировки .
При изучении совместного распределения
двух признаков пользуются таблицами с двумя входами. Примером совместного распределения двух качеств, признаков может служить таблица 2а. В общем случае, когда по признаку А материал разбит на классы A1 , A2 , ..., Ar , а по признаку В — на классы B1 , B2 , ..., Bs , таблица состоит из численностей nij объектов, принадлежащих одновременно классам Ai и Bj ). Суммируя их по формулам
получают численности самих классов Ai и Bj ; очевидно, что
где n — численность всей изучаемой совокупности. В зависимости от целей дальнейшего исследования вычисляют те или иные из относительных частот
hij = nij / n , hi . = ni . / n , h.j = n..j / n , hi(j) = nij / n.j , h(i)j = nij / ni . .
Например, при изучении влияния вдыхания сыворотки на заболевание гриппом по таблице 2а естественно вычислить относительные частоты, данные в таблице 2б.
Таблица 2а. — Распределение заболевших и не заболевших гриппом среди работников Центрального универмага в Москве, вдыхавших и не вдыхавших противогриппозную сыворотку (1939)
Не заболевшие | Заболевшие | Всего | |
Не вдыхавшие | 1675 | 150 | 1825 |
Вдыхавшие | 497 | 4 | 501 |
Всего | 2172 | 154 | 2326 |
Таблица 2б. — Относительные частоты (соответствующие данным таблицы 2а)
Не заболевшие | Заболевшие | Всего | |
Не вдыхавшие | 0,918 | 0,082 | 1,000 |
Вдыхавшие | 0,992 | 0,008 | 1,000 |
Пример таблицы для совместного распределения двух количеств, признаков см. в статье Корреляция . Таблица 1а служит примером смешанного случая: материал группируется по одному качеств, признаку (принадлежность к основной выборке, произведённой для определения среднего уровня производственного процесса, и к трём выборкам, произведённым в различные моменты времени для проверки сохранения этого нормального среднего уровня) и по одному количеств, признаку (диаметр деталей).
Простейшими сводными характеристиками распределения одного количественного признака являются среднее
и среднее квадратичное отклонение
где
При вычислении
или
где r — число интервалов группировки, ak — их середины (в случае таблицы 1а — 13,07; 13,12; 13,17; 13,22 и т. д.). Если материал сгруппирован по слишком крупным интервалам, то такой подсчёт даёт слишком грубые результаты. Иногда в таких случаях полезно прибегать к специальным поправкам на группировку. Однако эти поправки имеет смысл вводить лишь при условии выполнения определённых вероятностных предположений.