Чтение онлайн

ЖАНРЫ

Метод. Московский ежегодник трудов из обществоведческих дисциплин. Выпуск 4: Поверх методологических границ
Шрифт:

Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.

Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать

возрастные группы или группы по доходу. Тогда исследователь сталкивается с необходимостью задания пороговых значений, которые зачастую во многом произвольны.

Вывод о наличии или отсутствии связи делается на основании проверки статистической гипотезы о независимости признаков. Самым простым из возможных критериев проверки, пожалуй, является 2 («хи-квадрат») К. Пирсона. На основе разницы между ожидаемыми при независимости признаков и наблюдаемыми частотами в каждой ячейке рассчитывается значение статистики хи-квадрат, и на его основе можно сделать вывод о статистической независимости изучаемых признаков или же, наоборот, о наличии статистически значимой связи. Однако существенное ограничение: критерий хи-квадрат Пирсона некорректно использовать, если среди ячеек таблицы сопряженности есть такая, ожидаемое значение в которой меньше пяти. Это ограничение связано с тем, что распределение хи-квадрат, на основе которого проверяется гипотеза, является непрерывным, в то время как одноименная статистика, высчитываемая на основе выборки, явно принимает конечное число значений. В подобной ситуации рекомендуется использовать точный критерий Фишера (о других критериях см. подробнее [Аптон, 1982, с. 16–40]).

Вообще, диапазон возможных критериев для анализа таблиц сопряженности достаточно широк. Так, V-критерий Крамера также использует статистику хи-квадрат, но является мерой связи между признаками и лежит в границах от 0 до 1. Лямбда-критерии Гудмана и Краскела позволяют ответить на вопрос о силе связи между номинальными признаками, основываясь на предсказании категории одного признака при известной категории другого. Тау-критерии являются вероятностными мерами верной классификации, но избавлены от некоторых недостатков лямбда-критериев. Гамма Гудмана и Краскела отвечает на вопрос о связи порядковых признаков [см. подробнее: Аптон, 1982].

Исследование связи номинальных признаков – типичная социологическая задача. В политологии же чаще наблюдается необходимость в исследовании взаимосвязи признаков, измеренных в непрерывной или порядковой шкале. Для этого обычно применяется корреляционный анализ. Он позволяет установить наличие и силу статистической линейной взаимосвязи двух и более показателей, а также ее направление (положительное или отрицательное). Оценкой истинной степени линейной связи между признаками является коэффициент корреляции, рассчитанный по выборке. Он принимает значения от -1 до 1, и чем больше абсолютное значение коэффициента, тем сильнее взаимосвязь. Значения, близкие к нулю, говорят о наличии слабой связи или ее отсутствии вовсе. Напомним, что коэффициент корреляции не интерпретируется в терминах каузальной связи.

Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам), а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена и М.Ж. Кендалла . Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.

Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента – требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.

Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими-то признаками может возникнуть как эффект разнородности.

К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя.

Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.

Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации R2) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).

Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом:

yi = 0 + 1x1 + i,

где индексом i обозначается номер объекта, yi – объясняемая переменная; xi – первая объясняющая переменная, измеренная на i объекте; i – случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент 0 – константа – среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент 1 показывает среднюю разницу между значением «отклика» и средним значением у тех объектов, у которых значение независимой переменной больше среднего на единицу. В тех случаях, когда исследователь готов постулировать причинно-следственную связь, говорят, что 1 показывает, как в среднем изменится значение «отклика» при росте значения объясняющей переменной x на единицу.

В большинстве случаев в регрессиях, особенно построенных по пространственным выборкам, трудно (если вообще возможно) говорить об отсутствии неучтенных переменных, которые оказывают значимое влияние на зависимую переменную, а также каким-либо образом связаны с другими объясняющими переменными. Возникающее при их наличии смещение приводит к неверной оценке регрессионных коэффициентов, причем направление и размер смещения заранее не известны исследователю. Учесть в анализе такой набор факторов, чтобы объекты анализа (индивиды, фирмы, государства) стали сопоставимыми, а переменные, включенные в регрессионное уравнение, не транслировали влияние третьих факторов, не включенных в спецификацию, призвана множественная регрессия.

Таким образом, множественная регрессия может рассматриваться как удобный метод сравнительных политологических исследований, основанных на идее сравнения сравнимого. Естественно, массив данных в рамках регрессионного анализа также трактуется как выборка, а получаемые регрессионные коэффициенты считаются выборочными оценками, на основе которых необходимо осуществлять статистический вывод.

Однако не всегда интересующая исследователя зависимая переменная является непрерывной. Диапазон возможных значений многих показателей зачастую бывает ограничен. Например, некоторые экономические показатели неотрицательны, а на ряд вопросов в социологических анкетах предусмотрены лишь несколько вариантов ответа: «да» или «нет»; «согласен», «не знаю» или «не согласен».

В таких случях оценивание классической модели линейной регрессии некорректно и даже ошибочно. Задачу выявления связи между зависимой переменной, которая принимает только два значения (1 – «успех» (в статистическом смысле), 0 – «неуспех»), и рядом предикторов решают модели бинарного выбора. В общем случае, когда есть несколько категорий «отклика», но их количество мало, используются модели множественного упорядоченного и неупорядоченного выбора.

Статистическая связь между предикторами и «откликом» выражается в виде вероятности того, что «отклик» примет некоторое значение при заданных величинах объясняющих переменных. С помощью этого класса моделей можно изучать характеристики, которые обусловливают то, какие покупки совершает индивид, какую учебную программу он выбирает, за кого он голосует, если ходит на выборы. Например, в исследовании Джеффри Мондака (Jeffery J. Mondak) анализировалась связь между политической грамотностью (правильными ответами на вопросы с политической тематикой) и рядом социально-демографических характеристик респондентов [Mondak, 2000]. На данных национальных избирательных опросов в США (National Election Studies) 1992 г. было показано, что при переходе в следующую образовательную категорию (всего их было задано шесть) вероятность быть политически грамотным растет при неизменных значениях прочих переменных.

Поделиться с друзьями: