Глава 7


...

Меры связи

До этого момента основное внимание уделялось процедуре выявления различий между группами. Однако это не единственная область применения статистических процедур. Возьмем, к примеру, исследование, в котором были получены данные, представленные в табл. 7.3. Нас интересует вопрос, есть ли связь между IQ и успешностью выполнения стандартного теста достижения. Что нам нужно сделать?

Для данных из табл. 7.3 подходит корреляционный статистический показатель. Корреляция — это мера связи между двумя переменными. Как мы узнали из главы 3, значение корреляционного показателя находится в пределах от +1 до -1. Коэффициент корреляции равный +1 свидетельствует о наличии абсолютно положительной связи между переменными, коэффициент корреляции равный 0 свидетельствует о полном отсутствии связи, а коэффициент корреляции равный -1 указывает на наличие абсолютно отрицательной связи. Эти варианты иллюстрируют графические изображения на рис. 7.3. Корреляционный показатель отличный от нуля свидетельствует о положительной или отрицательной связи, при этом сила связи увеличивается с приближением значения к + 1 или -1.

О чем же говорят данные, представленные в табл. 7.3? Для определения меры связи мы должны сначала выбрать соответствующий корреляционный показатель, поскольку для вычисления корреляции существует множество разных методов. Как и в случае с логическими критериями, выбор метода зависит от наших предположений относительно характера данных. Чаще всего используются два показателя: коэффициент корреляции произведения моментов Пирсона и коэффициент корреляции рангов Спирмена. Статистический показатель Пирсона — это параметрический критерий, использование которого основано на тех же допущениях, что и использование остальных параметрических критериев — а именно на допущении, что измерение происходило по шкале интервалов или отношений, а данные распределены по закону нормального распределения1. Корреляционный показатель Спирмена — непараметрический критерий, основанный исключительно на порядковых характеристиках данных, и поэтому применяется чаще, чем критерий Пирсона. Оба показателя, надо заметить, зависят от другого важного предположения: что связь между переменными линейная. Если связь иного рода (к примеру, криволинейная, то есть при изменении значения одной переменной значение другой переменной сначала увеличивается, а затем уменьшается), стандартный корреляционный критерий неприменим.

В действительности гсам по себе, как дескриптивный показатель, является непараметрическим, нако определение его статистической значимости зависит от параметрических предположений.

Порядок рангов
IQ Тест достижений IQ Тест достижений
1 2 9 15
2 1 10 8
3 10 11 9
4 6 12 11
5 3 13 5
6 4 14 14
7 12 15 13
8 7 16 \6


ris21.jpeg

Поскольку использование критерия Спирмена проиллюстрировать легче, применим его для данных табл. 7.3. Формула коэффициента Спирмена, а также применение ее к нашим данным представлены на рис. 7.4. Проанализировав формулу, можно заметить, что коэффициент Спирмена — это мера общности рангового порядка пар показателей двух распределений. Если согласованность рангов полная, тогда, при отсутствии показателей отклонения, вычитаемое будет равно нулю, а коэффициент корреляции +1. Чем чаще и сильнее показатели отличаются по рангу, тем дальше от единицы будет корреляционный показатель. В нашей выборке данных коэффициент корреляции между IQ и результатами теста достижений равен 0,7, что свидетельствует о достаточно тесной, но не абсолютной связи. Стоит отметить, что применение к этим данным корреляционного анализа Пирсона даст очень близкое значение: 0,71. Фактически для большинства данных значения коэффициентов Спирмена и Пирсона очень близки.

О чем говорит наличие корреляции между двумя переменными? Корреляция, как и среднее арифметическое или медиана, — дескриптивный статистический показатель, характеризующий, однако, не центральную тенденцию, а связь между переменными. Прежде чем интерпретировать значение коэффициента корреляции, необходимо проверить его статистическую значимость. Нуль-гипотеза при такой проверке заключается в том, что коэффициент корреляции между двумя переменными равен нулю; вопрос состоит тогда в том, есть ли значимое отклонение полученного коэффициента корреляции от нуля. Ответить на этот вопрос достаточно просто, поскольку в учебниках по статистике содержатся таблицы, по

которым непосредственно можно установить уровень вероятности для любых коэффициентов корреляции (многие компьютерные программы также осуществляют подсчет уровня вероятности). На значимость влияют и величина коэффициента корреляции, и объем выборки; с их повышением растет вероятность значимости. Из таблицы явствует, что коэффициент корреляции равный 0,7 в выборке объемом 16 (то есть при наличии 16 пар показателей) значим на уровне 0,01; таким образом, между IQ и уровнем достижений действительно имеется связь.

Значимость важна, но это лишь половина дела. Вспомним, что нас интересует не только существование связи, но и ее сила. Как правило, силу корреляционной связи интерпретируют с точки зрения точности прогноза; зная результаты испытуемого по одной переменной, насколько точно мы сможем предугадать его результаты по другой переменной? При корреляционном показателе, равном пулю, отношения между переменными носят случайный характер, и знание одного показателя не дает нам возможности предсказать другой показатель. По мере отклонения коэффициента корреляции от нуля его прогностическая способность возрастает, достигая максимума при коэффициенте корреляции равном ±1.

Другой (равноценный) способ рассмотрения корреляции — с точки зрения доли объясняемой дисперсии. Используя показатели по одной переменной для прогноза показателей по второй переменной, мы «объясняем», в статистически-прогностическом смысле, определенную долю дисперсии значения второй переменной. Чем выше коэффициент корреляции, тем большая доля дисперсии получает объяснение. Эту закономерность можно определить точнее. Если коэффициент корреляции — пйреоновский г, доля объясняемой дисперсии составляет/3. Таким образом, коэффициент корреляции между IQ и уровнем достижений равный 0,71 означает, что вариации одного показателя объясняют 50 % вариаций другого.

Последнее из утверждений ограничивает нас в наших интерпретациях. Коэффициент корреляции равный 0,71 довольно высок, однако даже при таком значении половина дисперсии все еще не получает объяснения. С приближением коэффициента корреляции к нулю доля объясняемой корреляции уменьшается, и довольно стремительно. Коэффициент корреляции равный 0,5 объясняет 25% дисперсии, а коэффициент корреляции равный 0,3 — лишь 9% дисперсии.

Сказанное выше напоминает нам о разнице между значимостью и ценностью. Коэффициент корреляции может быть статистически значим, но в то же время столь мал, что его теоретическая или практическая ценность будет минимальна. Вероятность таких статистически значимых, но в действительности незначительных статистических показателей особенно велика при изучении больших выборок. В выборке объемом 50 коэффициент корреляции 0,27 достигает значимости на уровне 0,05. В выборке объемом 100 единиц значимостью обладает уже коэффициент корреляции 0,19.

Помимо объема выборки при оценке коэффициента корреляции важно учитывать диапазон значения переменных. Здесь могут возникнуть две проблемы. Чаще всего, это проблема, о которой говорилось в главе 46, сужение диапазона, которое происходит тогда, когда значения одной переменной так близки друг к другу, что разница между ними не связана с дисперсией значений других переменных. Предположим, сравнивая IQ и уровень достижений, мы решили ограничить выборку

детьми из классов для «одаренных». Как правило, отбор в эти классы производится по критерию IQ, в нашем случае он соответствует, скажем, 130 пунктам и выше. Решение сосредоточиться исключительно на очень высоких IQ означает, что мы резко сужаем диапазон дисперсии значений одной из наших переменных; вместо 60-70 пунктов диапазон IQ будет составлять лишь около 20. При такой скученности показателей IQ разница между ними вряд ли обнаружит существенную связь с любым параметром, включая разницу в уровне достижений.

Возможно также, что диапазон значений переменной будет слишком широк. Допустим, от одного испытуемого к другому IQ изменяется на 20 пунктов: начиная с ребенка, имеющего IQ = 40, следующего ребенка с показателем IQ = 60 и т. д. до восьмого ребенка, обладающего IQ= 180. При столь большом разбросе велика вероятность того, что IQ будет значимо и существенно коррелировать практически со всеми показателями, которые мы измерим в нашей выборке. Сомнительно, однако, что величина таких коэффициентов корреляции будет иметь для нас большой смысл.

Слишком узок или слишком широк диапазон значений, в основе проблемы лежит недостаточная внешняя валидность. Для того чтобы коэффициент корреляции был для нас интересен, он должен характеризовать не только выборку, для которой был подсчитан, но и всю популяцию, которую представляет эта выборка. Поэтому выборка должна быть репрезентативна — как по параметрам центральной тенденции, так и по параметру диапазона дисперсии — в отношении популяции, частью которой она является, Если выборка будет нерепрезентативна, полученные при ее изучении коэффициенты корреляции не будут обладать достаточной внешней валидностью.