III.
Корреляционный
анализ.
2.
Корреляционная связь и корреляционная зависимость.
3.
Отличие функциональной и вероятностной связи
(зависимости).
4.
Зависимая и независимая переменная в
эксперименте.
5.
Форма, направление и сила корреляционной связи.
6.
Классификация корреляционных связей по степени силы и
по степени значимости.
7.
Понятие линейной и ранговой корреляции.
8.
Метод ранговой корреляции (Спирмена rs).
Область применения.
9.
Ограничения метода, его достоинства и недостатки.
10.
Графическое представление метода ранговой корреляции.
11.
Алгоритм расчета коэффициента ранговой корреляции.
12.ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ (пояснения и иллюстрации)
Несмотря
на наличие ссылок по тексту, автор все же рекомендует прочесть раздел целиком -
для более последовательного понимания материала.
1. Корреляция – мера согласованности одного признака с другим, с
несколькими, либо взаимная согласованность группы признаков.
2. Корреляционная связь отражает тот факт, что изменения одного признака находятся в некотором
соответствии с изменениями другого признака. Корреляционная же
зависимость указывает на причинно-следственную связь изменений двух
признаков, что, строго говоря, не всегда соответствует действительности, так
как корреляционные методы не выявляют этой причинности, а лишь указывают на
наличие некоторого соответствия. Признаки могут находиться не только во
взаимной зависимости друг от друга, но и оба в зависимости от какого-либо
третьего воздействия, не включенного в область рассмотрения. Таким образом,
более корректно употреблять понятие корреляционная связь.
3. Корреляционная связь
носит характер вероятностной. Важно отличать такую зависимость
(даже если мы рискуем пользоваться этим термином) от функциональной зависимости. Функция, во-первых, непрерывна, тогда
как при корреляционной зависимости значения, принимаемые признаком, дискретны.
Во-вторых, функциональная зависимость предполагает взаимно однозначное
соответствие аргумента х и функции f(х),
вероятностная же зависимость допускает некий условный диапазон, в который
предположительно (с такой-то долей вероятности) попадает значение признака уi при
значении хi признака х.
Рисунок 14.
4. Применение
термина «корреляционная зависимость» уместно в тех случаях, когда мы сами
контролируем воздействие одного признака на другой или так организуем
эксперимент, что имеем возможность точно определить
интенсивность не зависящих от нас воздействий (независимые переменные).
Признаки, которые мы измеряем, и которые, по нашему предположению, могут
меняться под заданным воздействием, называются зависимыми переменными. Иными словами, при принятом нами
постоянстве одних переменных (независимых),
фиксировано изменив их, мы предполагаем некоторое (неизвестное заранее)
изменение исследуемых переменных (зависимых).
Это деление, как уже было сказано, условно, так как не известно
доподлинно, какой именно из признаков влияет на другой.
5. Корреляционные связи различаются по следующим характеристикам:
По
форме – зависимость может быть линейной
и нелинейной. (Пример1: покупаемость товара в
зависимости от количества предъявлений его рекламы.)
Рисунок 15.
По
направлению – усилению одного признака соответствует усиление другого при прямом направлении корреляции и
ослабление - при обратном. (Важно: есть опасность ошибочного понимания того, что направление
корреляции якобы указывает на то, какой признак на какой влияет. Направление
указывает только на уменьшение-увеличение одного при изменении другого, но не
более!)
По силе – сила связи не зависит от направления и
определяется абсолютной величиной коэффициента корреляции r. При r = 1
наблюдается жесткая положительная связь, то есть при увеличении признака а
обязательно увеличится признак в;
при значении r = -1 – гарантированно уменьшится; при
значении r = 0 –
изменение а гарантированно никоим
образом не повлечет за собой изменения в.
6. Классификация корреляционных связей по степени силы.
А) общая:
Сильная или тесная
|
более 0,70
|
Средняя |
от
0,50 до 0,69 |
Умеренная |
от
0,30 до 0,49 |
Слабая |
от 0,20 до 0,29 |
Очень
слабая |
меньше
0,19 |
Б)
частная:
Высокая
значимая корреляция |
при
r соответствующем уровню статистической значимости р меньше или равно 0,01 |
Значимая
корреляция |
р
меньше или равно 0,05 |
Тенденция
достоверной связи |
р
меньше или равно 0,10 |
Незначимая
корреляция |
при r, не достигающем уровня
статистической значимости. |
Первая
из классификаций ориентирована только на величину коэффициента корреляции, а
вторая определяет, какого уровня значимости достигает данная величина
коэффициента корреляции при данном объеме
выборки. Чем больше объем выборки, тем меньшей величины коэффициента
корреляции оказывается достаточно для того, чтобы корреляция была признана
достоверной. В результате, при малом объеме выборки и сильная корреляция может
оказаться недостоверной. (Это объясняется большой возможностью обнаружения
случайных связей, поскольку число всех сочетаний в малых выборках также мало.)
В то же время, при больших объемах выборки даже слабая корреляция между какими
либо признаками может оказаться достоверной.
Пример: "отношение
числа новорожденных мальчиков к числу новорожденных девочек" Рассмотрим
следующий пример, заимствованный из Nisbett, et al., 1987. Имеются 2 больницы.
Предположим, что в первой из них ежедневно рождается 120 детей, во второй
только 12. В среднем отношение числа мальчиков, рождающихся в каждой больнице,
к числу девочек 50/50. Однажды девочек родилось вдвое больше, чем мальчиков.
Спрашивается, для какой больницы данное событие более вероятно? Ответ очевиден
для статистика, однако, он не столь очевиден неискушенному.
Конечно, такое событие гораздо более вероятно для маленькой больницы.
Объяснение этого факта состоит в том, что вероятность случайного отклонения (от
среднего) возрастает с уменьшением объема выборки.
7. Линейная и ранговая корреляция. Метод линейной корреляции
(корреляции Пирсона) применяется для определения меры соответствия двух
признаков, выраженных количественно, иными словами, - для численных величин.
Это параметрический метод, который (как и прочие параметрические) требует
соответствия распределения данного исследуемого признака закону нормального
распределения. В отличие от этого метода, метод ранговой корреляции (корреляция
Спирмена) применим к любым количественно измеренным или ранжированным данным.
Этот метод способен, в отличие от других, измерять согласованность изменения
разных признаков у одного испытуемого или выявлять совпадения индивидуальных
ранговых показателей у двух испытуемых; или у испытуемого и усредненный
показатель некой группы; или какие-либо показатели в сравнении двух групп. (Подробнее – см. ниже)
8. Метод ранговой корреляции Спирмена позволяет определить силу и
направление корреляционной связи между двумя признаками или двумя иерархиями
признаков.
Для подсчета ранговой корреляции
необходимо располагать двумя рядами значений, которые могут быть
проранжированы. Такими рядами могут быть:
А)
Два признака, измеренные в одной и той же группе переменных (наиболее часто в
этом качестве выступает группа людей, которых принято тогда именовать
испытуемыми или респондентами. Естественно, под переменными
подразумеваются не сами люди, а данные ими ответы на те или иные вопросы.)
Б)
две индивидуальные иерархии признаков, выявленные у
двух испытуемых по одному и тому же набору признаков (скажем, по ответам на
пункты анкеты или теста).
В) Две групповые иерархии признаков (например, соответствие каких-либо
выборов, сделанных одной группой людей выборам другой группы).
Г)
Индивидуальная и групповая иерархии признаков (например, сопоставление
индивидуальной иерархии жизненных ценностей сотрудника усредненному мнению
группы на этот же счет; сопоставление последовательности товаров, которые
приобрели бы (в среднем) жители города А и города Б
при условии получения премии, на которую заранее не рассчитывали.)
9. Ограничения метода ранговой корреляции. По каждой
переменной должно быть представлено не менее 5 наблюдений. Верхняя граница выборки – меньше или равна 40. Коэффициент
ранговой корреляции Спирмена rs при
большом количестве одинаковых рангов по одной или обеим сопоставляемым
переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны
представлять собой две последовательности несовпадающих значений. В случае
несоблюдения такого условия вносится поправка на одинаковые ранги (будет дано
ниже). Помимо этих ограничений, следует так же помнить об ограничениях
корреляционного метода вообще – невозможность обнаружения причинной связи между
явлениями.
10. Графическое представление корреляции.
Рисунок 16.
На
рисунке (16 – А) показана жесткая связь с коэффициентом корреляции, равным +1.
Увеличению признака А сопутствует
увеличение признака В на ту же величину. Рисунок (16 – Б) – нет
взаимосвязи между изменениями А и В. При увеличении А, В может меняться как в сторону
увеличения, так и в сторону уменьшения. Рисунок (16 – В) – пример сильной
корреляции с коэффициентом -1. Увеличение признака А сопровождается
пропорциональным уменьшением признака В.
11. Алгоритм расчета ранговой корреляции.
1) Определить, какие два признака или две иерархии
признаков будут участвовать в сопоставлении как переменные А
и В.
2) Проранжировать значения переменной А,
начисляя ранг 1 наименьшему значению, в соответствии с правилами ранжирования.
Занести ранги во второй столбец таблицы по порядку номеров признаков. (В первом
к тому моменту уже находятся номера или имена исследуемых признаков.)
3) Проранжировать значения переменной В
и занести в третий столбец таблицы по порядку номеров.
4) Подсчитать разности d между рангами А и В по каждой
строке таблицы и результаты занести в четвертый столбец таблицы.
5) Возвести каждую разность из столбца 4 в квадрат, и
результаты занести в столбец №5.
6) Подсчитать сумму квадратов из столбца №5.
7) При наличии одинаковых рангов, рассчитать поправки:
Тa =S(a3 – a)/12 и
Тb =S(b3 – b)/12
Где a и b -= объем
каждой группы рангов в соответствующем ранговом ряду А
и В.
1) Рассчитать коэффициент ранговой корреляции rs
при отсутствии одинаковых рангов – по формуле а; при наличии – по формуле б:
Формула а:
rs = 1 – 6 Sd2 / N(N2 – 1)
Формула б:
rs = 1 – 6 (Sd2 + Тa + Тb) / N(N2 – 1)
Где:
Sd2 – квадратов
разностей между рангами;
Тa и Тb –
поправки на одинаковые ранги;
N – количество признаков,
участвовавших в ранжировании.
2) Определить по специальной таблице критические значения
rs для данного N. Если rs
превышает критическое значение или, по крайней мере, равен
ему, - корреляция достоверно отличается от нуля.
Образец таблицы для
внесения данных:
Наименование признака |
Ранги переменной А (по порядку) |
Ранги переменной В (по порядку) |
Разница между значениями
двух предыдущих столбцов №2 и №3 |
Квадрат значений
предыдущего столбца №4 |
|
|
|
|
|
Предположим, что мы располагаем выборкой данных о
какой-то группе объектов. Пусть эти объекты обладают общими родовыми
особенностями (примерно одинаковы). Пусть, к тому же, у каждого из объектов
можно количественно измерить, как минимум, два каких-либо параметра. При этих
обстоятельствах открывается возможность для подсчета линейной корреляции между
двумя (или более) признаками, присущими этим объектам.
Например, такими выборками данных могут служить
сведения о:
- группе людей, рост и вес тела которых мы измеряем;
- длине и ширине лепестка какого-нибудь цветка;
- длине ствола оружия и начальной скорости пули;
- величине IQ и
времени решения учебной задачи;
- длине тела и длине хвоста крокодила или тигра (если
найдется желающий их измерять),
и т.д.
Во всех этих примерах имеется возможность определить
корреляцию, то есть – степень согласованности в изменении двух признаков. «Чем
больше крокодил, тем длиннее ли его хвост?» «Решают ли люди с высоким
коэффициентом интеллекта задачи такого-то типа быстрее, чем с низким и
средним?»
Требования и ограничения.
Необходимо иметь в виду, что сопоставляемые
характеристики должны быть, во-первых, внутренне присущи объектам и, во-вторых, быть количественно-измеряемыми. Ввиду того,
что расчет линейной корреляции проводится с использованием средних значений и
дисперсий, следует также помнить, что эта процедура относится к разряду
параметрических методов и, соответственно, требует нормальности распределения
признака. Подробней об этом будет сказано ниже. Также следует помнить, что
никакая корреляция вообще не устанавливает зависимости
одного обстоятельства от другого, а лишь является мерой совместной вариации двух величин. И, наконец, линейная
корреляция потому и называется линейной, что способна дать ответ о взаимосвязи
изменений того и иного свойства объекта только тогда, когда
возрастание-убывание значения признака происходит по линейному закону (график –
прямая линия).
Графическое
представление линейной корреляции.
Пусть в нашем распоряжении имеется N тигров, каждый из
которых любезно предоставил возможность измерить длину своего тела и длину
хвоста. Нам угодно знать: «В сколь
строгом отношении находятся эти две характеристики?» Иными словами: «Часто
ли встречаются слишком короткохвостые или длиннохвостые тигры?» Отложим по оси
абсцисс длину тела тигра, а по оси ординат – длину его хвоста. (См. рисунок)
Тогда. Каждого тигра можно представить в
виде точки на плоскости с координатами Х (длина) и У
(Длина хвоста).
1 2 3
Первая часть рисунка показывает пять тигров,
«рассевшихся» на диаграмме, сообразно своей величине (Х) и длине хвоста (У). На
второй части рисунка тигров много – так, что они представляют собой некую
фигуру на поле диаграммы. Если теперь абстрагироваться от тигров и перейти к элементам
выборки (третья часть рисунка), то можно сказать, что точки,
соответствующие этим элементам выстраиваются вдоль некоей воображаемой лини или
вписываются в некую криволинейную фигуру. Отсюда следует, что чем меньше
площадь этой фигуры, тем в большей согласованности находятся между собой
сопоставляемые признаки, то есть больше коэффициент их кореляции. Уже на второй
части рисунка можно построить такую воображаемую линию.
(Таким образом, длина хвостов наших гипотетических
тигров находится в согласии с размерами тела, хотя в этой компании имеются
также длиннохвостые и короткохвостые представители.)
Возвратимся к третьей части рисунка и будем далее называть такой рисунок диаграммой рассеяния.
Итак, каждый элемент выборки обладает двумя свойствами
(сопоставляемыми признаками), и может быть описан посредством задания двух его
координат – Х и У. При этом всегда (это имеет смысл, если распределение близко к
нормальному) можно подсчитать среднее значение для всех Х и для всех У.
Таким образом, каждую точку на диаграмме можно полностью описать, указав
величину ее отклонения от средних Х
и У.
Если теперь суммировать произведения отклонений по
всем элементам выборки, то получим величину:
n
Σ (Xi – Xср) (Уi – Уср)
i=1
Эта сумма будет велика и положительна, когда Х и У сильно связаны прямой взаимосвязью, и велика и
отрицательна, в случае обратной взаимосвязи. Если же систематической связи не
имеется (большим значениям Х одинаково
часто сопутствуют и большие и малые значения У), результат суммирования будет
бликим к нулю.
Сама по себе эта сумма не пригодна в качестве меры
взаимосвязи, поскольку учитывает количество элементов выборки (зависит от числа
пар значений). Чтобы иметь возможность сопоставлять между собой «состояние дел»
в выборках разных объемов, необходимо, чтобы показатель взаимосвязи не зависел
от объема:
n
Σ (Xi – Xср) (Уi – Уср)
i=1
-------------------------------------- = Sxy
n – 1
Полученная величина Sxy называется ковариацией.
Признаки, между которыми рассчитывается взаимосвязь, могут
быть измерены в разных единицах, иметь различные средние и дисперсии. Например,
исследователя интересует взаимосвязь между ростом и весом солдат некоего
отделения (см. последующие иллюстрации). Вес измеряется в килограммах, а рост – в сантиметрах.
Разброс роста может быть, как правило меньшим (20-25 см, - то есть не более 10%), а разброс веса – большим (даже тот же
самый диапазон чисел 20-25, но уже не сантиметров, а килограммов, составит
20-30% от среднего веса солдата).
Все эти обстоятельства обязывают в качестве меры
взаимосвязи избрать такую, которая не зависела бы ни
от измерительных единиц, ни от средних, ни от дисперсий.
rxy = Sxy /Sx Sy, где Sx Sy – произведения стандартных отклонений.
Полученная величина называется коэффициентом корреляции.
. . .
Процедура
расчета линейной корреляции с помощью программы SPSS.
Прежде, чем приступить к работе, необходимо напомнить
о правильной организации файла данных:
- следует, во-первых, решить, что будет выступать в
качестве переменных, а что – в качестве значений. В случае линейной корреляции всегда в столбцах (переменных) будут
располагаться сопоставляемые величины (например, рост и вес солдат, IQ и возраст респондента, длина и ширина листа растения и
т.п.) Каждая из сопоставляемых характеристик, естественно, должна занять свой
определенный столбец. Строки (в терминах этой программы – «кейсы») должны
представлять собой наборы значений, относящихся к одному и тому же объекту
(солдату, респонденту, экземпляру растения и т.п.). Имеет значение лишь
соблюдение этого условия, располагать же сами строки, то есть наблюдения можно
в любой последовательности. Для наглядности значения можно сортировать
средствами самой программы (Данные
– Сортировка регистров – сортировать по…) –
что не повлияет на результат вычислений.
- Следует не забывать задавать тип переменной. Она не
должна оказаться строковой (string), а
оставаться числовой (numeric).
- Тип измерительной шкалы должен быть выбран «Шкала» (Scale), и не оказаться порядковой или номинальной.
Формально программа не «возражает» против этих шкал, но сама линейная
корреляция предполагает возможность количественно
измерить данные, в противном случае следует применять метод ранговой
корреляции. SPSS не делает
различий между данными, выраженными в интервальной шкале и шкале равных
отношений, и применяет в расчетах одни и те же алгоритмы: поэтому задача
исследователя – определять самому, что же именно он сравнивает и получает.
Процедура расчета осуществляется путем выполнения
последовательности действий:
Анализ – Корреляция – Двумерно
В раскрывшемся окне следует выбирать (выбранный и по
умолчанию) флажок «Пирсовский» (Имеется в виду линейная корреляция Пирсона).
После обработки программа генерирует файл вывода,
содержащий корреляционную матрицу, аналогичную ранговой корреляции, где двумя
звездочками (**) будут помечены корреляции высокой
значимости – однопроцентный уровень, а одной звездочкой (*) значимые корреляции
на пятипроцентном уровне.
. . .
Некоторые аспекты
подсчета коэффициента корреляции.
Ниже (без доказательства) будут приведены некоторые
положения по подсчету коэффициента линейной корреляции.
1.
В случае линейной
функциональной зависимости между Х и У коэффициент
корреляции между ними равен единице
по абсолютной величине.
2.
Коэффициент
корреляции между Х и У не меняется при линейных
преобразованиях этих переменных по типу с = кх + в. Это означает, что экспериментальные данные для
удобства можно перемножать или складывать с константами. Важно только, чтобы все данные выборки были подвергнуты одинаковым преобразованиям.
3.
Если
исследовательская задача требует нахождения дисперсии суммы или разности двух
переменных, между которыми известен коэффициент корреляции, то положительная
корреляция способствует увеличению дисперсии такой суммы, а отрицательная –
уменьшению.
4.
Если при
измерениях допущены ошибки (погрешности), то это обстоятельство уменьшает
коэффициент кореляции между Х и У, по сравнению с тем,
какой был бы получен при возможности использовать истинные значения измерений.
Увеличение объема выборки не исправляет такого положения (если, разумеется,
продолжать измерять что-либо прежними средствами). Например, при измерении
набора каких-либо одинаковых деталей, произведенных портновским клеенчатым
метром, мы получим каждый раз большие отклонения в ту или иную сторону, чем,
если бы мерили рулеткой, штангенциркулем. Десять, сто, тысяча замеров не
изменят положения вещей, поскольку метр растягивается, недостаточно точно
градуирован, и т.п., и это будет одинаково справедливо для любого порядкового
номера измерения. Ошибка, таким образом, не нейтрализуется со временем.
5.
Если в выборку
объектов, для которых установлен коэффициент корреляции между признаками Х и У поместить такиме, для которых корреляция по Х и У отсутствует,
итоговый коэффициент корреляции уменьшится по абсолютной величине.
Интерпретация
коэффициента корреляции.
!. Следует, прежде всего, помнить, что корреляция не является
показателем зависимости одного фактора от другого, а лишь устанавливает их совместную
вариативность. (Это относится, как к линейной, так и к ранговой корреляции). То
обстоятельство, что два признака изменяются согласованно, может зависеть и от
влияния третьей причины на оба сопоставляемых признака.
Приведем пример.
Пусть имеются два ряда случайных чисел (две перменные
с набором значений):
Х: 0 4 2 6 6 2 9 8 5 3
У: 8 9 1 0 5 2 4 6 7 1
Для этих рядов, никак между собой не связанных,
коэффициент кореляции очень близок к нулю, и равен r = 0,006.
Возьмем теперь еще один случайный ряд Z: 7 2 5 7 2 3 9 2 2 1, и разделим на значения этого
ряда значения первого и второго (или прибавим, или отнимем, или перемножим).
Вследствие этого третий ряд окажет некоторое одинаковое воздействие на два
первых ряда, и коэффициент корреляции между ними станет больше: r = 0,583 в случае деления. Третий ряд выступил в этом
примере в качестве общей причины, корреляция между Х и У
обусловлена теперь не собственным сходством этих рядов, а влиянием Z.
2. В общем случае коэффициент корреляции изменяется в
пределах -1 < r < 1. Однако оценка высокого
значения коэффициента корреляции как «сильной связи» справедлива только в
случае нормального распределения признаков Х и У, то
есть график их частот появления – симметричная колоколообразная кривая. В
случае же наличияу этих признаков разнонаправленной ассимметрии максимальный
коэффициент корреляции бывает равен 0,6 – 0,7. Тогда
встает вопрос: что означает получение в эксперименте такого коэффициента
корреляции – сильную связь при наличии ассимметрии или умеренную, даже слабую,
- при нормальном распределении? Для более корректной содержательной
интерпретации коэффициента кореляции необходимо строить каждый раз диаграммы
рассеяния. (В SPSS:
Графики – Рассеяние – Простой ). Эти диаграммы, как в примере с тиграми, показывают характер
узора, образованного точками-значениями переменных, см следующий рисунок:
3. Ошибка при интерпретации (даже еще при подсчете)
коэффициента корреляции может быть допущена и в том случае, когда в ыборке присутствуют аномальные значения (очевидно большие
или очевидно низкие). Они могут возникать, во-первых, из-за неоднородности
исследуемых элементов выборки. Во-вторых, - из-за ошибок. Например, снятые
показания какого-либо прибора для удобства делились на три, но одно из
наблюдений забыли пересчитать. В результате появится ряд, подобный этому:
0 4 2
6 6 2
9 8 25 3
8 9 1
0 5 2
4 6 35 1
Одной такой ошибки оказывается достаточно для того,
чтобы коэффициент корреляции очень существенно увеличился.
4. Ложная корреляция может также возникать при
неслучайном отборе наблюдений для подсчета. Этот пункт некоторым образом
противоположен предыдущему (первой части). Если там утверждалось, что
аномальные значения желательно исключать из рассмотрения, то этот пункт
предлагает делать это с осторожностью, чтобы своим умышленным влиянием не
исказить подлинное положение вещей.
Наглядные
иллюстрации.