Чтение онлайн

ЖАНРЫ

Психология развития: методы исследования
Шрифт:

Еще одного рода проблемы так или иначе связаны с понятием надежности. Как отмечалось ранее, надежность означает согласованность результатов измерения. При использовании методов наблюдения ключевым моментом является единодушие наблюдателей: могут ли двое или более наблюдателей прийти к единым выводам относительно некоторого поведения? Такое согласие является необходимым условием точности результатов наблюдения. Однако выполнения этого требования недостаточно, поскольку существует вероятность того, что оба исследователя пришли к единому, но ложному выводу. Это вновь частный случай общего принципа: надежность — это необходимое, но недостаточное условие валидности.

Существует множество способов расчета надежности. Для определенного вида данных подходит коэффициент

корреляции. Чем выше коэффициент корреляции между результатами, полученными двумя независимыми наблюдателями, тем выше надежность. Еще один, часто используемый индекс — процент совпадений. Предположим, оценка определенного вида поведения происходит 20 раз. Совпадение мнений двух наблюдателей в 19 случаях из 20 соответствует 93 %, достаточно высокой надежности. Совпадение только в 13 случаях из 20 соответствует 65 %, что может рассматриваться как неудовлетворительная надежность. О других методах расчета надежности, а также сложностях, связанных с каждым из них см.: .Mitchell, 1979 и Hartmann, 1982.

Вопрос о том, как рассчитать надежность, встает сразу, как только исследователь осознал необходимость надежности своего исследования. При обзоре журнальных статей (см. табл. 1.3) учитывалось наличие или отсутствие рассчитанного коэффициента надежности там, где это было желательно. Результаты обзора свидетельствуют о достаточно высоком, но не полном осознании необходимости учета фактора надежности: данные о надежности были представлены в 91 % случаев из тех, где эти данные были вполне уместны. Одом и Огава (Odom & Ogawa, 1992) более подробно рассматривают расчет коэффициента надежности в обсервативных исследованиях, включая анализ типов статистических показателей и критерии их использования.

Приемы повышения надежности легко описать, но не всегда легко использовать. До начала процедуры сбора данных наблюдатели должны пройти тщательную подготовку. Система оценок должна быть максимально четкой и конкретной. Для подготовки наблюдателей и уточнений системы оценок может использоваться пилотажное исследование, в ходе которого категории редко встречающегося и трудно оцениваемого поведения либо исключаются, либо трансформируются в более удобные категории. Наконец, если есть возможность, для того чтобы иметь непрерывную и воспроизводимую запись, лучше снимать поведение видеокамерой.

Как следует из вышесказанного, при сборе данных нужно как можно раньше позаботиться о надежности. Желательно также контролировать ее на всем протяжении исследования. О целесообразности этого говорят исследования Рэйд (Reid, 1970; Taplin & Reid, 1973). В исследовании Тэплин и Рэйд наблюдатели прошли предварительную подготовку, в ходе которой достигли приемлемого уровня надежности. Затем одну группу наблюдателей проинформировали о том, что надежность оцениваться больше не будет; а участникам второй группы сообщили, что периодически, без предупреждения будет осуществляться проверка их надежности. В действительности записи всех наблюдателей продолжали сравни-вать с исходным уровнем. Результат был очевиден: наблюдатели, ожидавшие, что их оценки будут подвергаться проверкам, сохраняли более высокий уровень надежности. Данная тенденция к снижению надежности изначально надежных наблюдателей при отсутствии контроля называется дрейфом наблюдателя. Дрейф наблюдателя относится к категории искажающих валидность факторов, которую Кэмпбелл и Стэнли (Campbell & Stanley, 1966) называют инструментацией: непреднамеренным изменением измерительного инструмента в ходе исследования.

До этого момента о надежности говорилось так, будто есть некий единый индекс надежности, которому исследование либо соответствует, либо нет. В действительности, в типичном исследовании, как правило, существует множество видов надежности — для определенных форм поведения, определенных аспектов поведения, определенных периодов времени, определенных подгрупп испытуемых и т. д. Суть состоит в том, что надежность должна быть продемонстрирована на том уровне, на котором производится анализ данных. Если, к примеру, исследователь

хочет оценить посттестовые различия, обусловленные неким воздействием, необходимо продемонстрировать надежность посттестовых данных; надежности, достигнутой на фазе претеста, будет недостаточно. Аналогично, если изучается частота агрессивных действий, надежности общих оценок уровня агрессии будет недостаточно, исследователь должен показать, что наблюдатели сходятся во мнении и относительно частоты случаев проявления агрессии.

Ярроу и Уакслер (Yarrow & Waxier, 1979) иллюстрируют это положение интересным и несколько менее очевидным примером. Эти авторы описывают ряд обсервативных исследований, в которых коэффициенты надежности недсчитывались отдельно для мальчиков и для девочек. В некоторых случаях оценка поведения представителей одного пола была более надежной, чем оценка поведения представителей противоположного пола. По крайней мере в этих исследованиях оценки агрессии мальчиков были надежнее оценок агрессии девочек. Кроме того, существенная связь индивидуальных различий в уровне агрессии с другими показателями наблюдалась только у мальчиков. Как отмечают Ярроу и Уакслер, этот результат может отражать действительно имеющие место различия между полами или всего лишь недостаточную надежность оценок агрессивного поведения девочек. В этом случае, как и в предыдущем, надежность необходима на уровне, на котором используются данные.

Ярроу и Уакслер (Yarrow & Waxier, 1979) также обсуждают плюсы и минусы возложения на наблюдателя функций измерительного инструмента. Их рассуждение может быть кратким выводом к этой главе:

«Даже будучи чрезвычайно опытным, наблюдатель по многим критериям — неточный научный инструмент: нестандартный, неоткалиброванный, зачастую нестабильный и ненадежный. Эти недостатки компенсируются такими присущими лишь человеку качествами, как чувствительность, гибкость и аккуратность. Задача состоит в том, чтобы решить, как провести строгое наблюдение, в полной мере используя свойственную человеку проницательность» (р. 37).

Резюме

Эта глава начинается с рассмотрения некоторых базовых принципов измерения. Переменные, с которыми мы работаем, определяются — операционально — способами их измерения. Измерение всегда заключается в переводе некоего глобального конструкта (например, агрессии) в более конкретную, объективную, поддающуюся количественной оценке форму. Этот перевод подразумевает выбор из множества возможных ограниченного числа способов измерения. Необходимо выбирать аспект поведения, который будет измеряться (например, частота, интенсивность), характер объекта измерения (явный или неявный), определить, являются результаты измерения признаками или специфическими моделями изучаемого конструкта, и решить, следует сосредоточивать внимание на временном состоянии или на устойчивом свойстве.

При оценке качества измерения имеет значение следующее. Измерение должно привести к результатам, находящимся на определенном уровне и в определенных рамках, при отсутствии эффектов как нижнего, так и верхнего пределов. Если в исследование включаются разнородные группы (например, дети разных возрастов), необходимо решить вопрос эквивалентности измерения. Во избежание монооперационального искажения следует применять разноплановые методы. Наконец, исследователь должен позаботиться о надежности (согласованности) и валидности (точности) измерительных операций.

В следующем разделе главы, посвященном стандартизованным тестам, вопросы надежности и валидности рассматриваются более подробно. В отношении теста валидность означает, что тест измеряет именно то, что призван измерять. Анализируются три формы валидности теста: содержательная валидность, критериальная валидность и конструктная валидность. Наиболее сложной из этих форм является конструктная валидность, для установления которой могут потребоваться экспериментальные и корреляционные данные, а также обеспечение конвергентной и дивергентной валидности корреляций между показателями.

Поделиться с друзьями: