Начнем с параграфа из учебника "Прикладная статистика" (см. сайт)
К сожалению, формулы исчезли. Но можно скачать весь учебник.
Словесное окружение формул, тем не менее, дает представление о содержании раздела.
3.2.1. Коэффициенты корреляции
Термин "корреляция" означает "связь". В эконометрике этот термин обычно используется в сочетании "коэффициенты корреляции". Рассмотрим линейный и непараметрические парные коэффициенты корреляции.
Обсудим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов Выборочным коэффициентом корреляции, более подробно, выборочным линейным парным коэффициентом корреляции К. Пирсона, как известно, называется число
Если rn = 1, то причем a>0. Если же rn = - 1, то причем a<0. Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.
Если случайные вектора независимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки:
(сходимость по вероятности).
Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что
где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1, а - асимптотическая дисперсия выборочного коэффициента корреляции. Она имеет довольно сложное выражение, приведенное в монографии [1, с.393]:
Здесь под понимаются теоретические центральные моменты порядка k и m, а именно,
.
Коэффициенты корреляции типа rn используются во многих алгоритмах многомерного статистического анализа. В теоретических рассмотрениях часто считают, что случайные вектора имеют двумерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных (см. главу 2.1). Почему же распространено представление о двумерном нормальном распределении? Дело в том, что теория в этом случае проще. В частности, равенство 0 теоретического коэффициента корреляции эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если , где - некоторое граничное значение, зависящее от объема выборки n и уровня значимости .
Если предположение о двумерной нормальности не выполнено, то из равенства 0 теоретического коэффициента корреляции не вытекает независимость случайных величин. Нетрудно построить пример случайного вектора, для которого коэффициент корреляции равен 0, но координаты зависимы. Кроме того, для проверки гипотез о коэффициенте корреляции нельзя пользоваться таблицами, рассчитанными в предположении нормальности. Можно построить правила принятия решений на основе асимптотической нормальности выборочного коэффициента корреляции. Но есть и другой путь – перейти к непараметрическим коэффициентам корреляции, одинаково пригодным при любом непрерывном распределении случайного вектора.
Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого xi рассчитать его ранг ri в вариационном ряду, построенном по выборке Для каждого yi рассчитать его ранг qi в вариационном ряду, построенном по выборке Для набора из n пар вычислить линейный коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги. В качестве примера рассмотрим данные из табл.1 (см. монографию [2]).
Таблица 1.
Данные для расчета коэффициентов корреляции
i 1 2 3 4 5
xi 5 10 15 20 25
yi 6 7 30 81 300
ri 1 2 3 4 5
qi 1 2 3 4 5
Для данных табл.1 коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов, достаточно именно монотонной зависимости одной переменной от другой.
Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен
Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале (см. главу 2.1), как и другие ранговые статистики, например, статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок (глава 3.1).
Широко используется также коэффициент ранговой корреляции Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии [3], необходимые для практических расчетов таблицы имеются в справочнике [4]. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени [2].
1. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
2. Красильников В.В. Статистика объектов нечисловой природы. - Набережные Челны: Изд-во Камского политехнического института, 2001. - 144 с.
3. Кендэл М. Ранговые корреляции. - М.: Статистика, 1975. - 216 с.
4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. - 416 с.
Добавим, что обычно проверяют гипотезу о том, что (тот или иной) коэффициент корреляции отличается от 0.
Если выборочный коэффициент корреляции по абсолютной величине больше границы, то гипотезу о равенстве теоретическго коэффициента 0 отклоняют (в частности, гипотезу о независимости признаков отклоняют), в противном случае - принимают. Граница зависит от объема выборки и уровня значимости.
Таблицы есть у Большева и Смирнова. В случае "обычного" линейного коэффициента корреляции Пирсона дополнительно принимают предположение двумерной нормальности совместного распределения признаков.
Сформулируйте вопросы, которые остались после знакомства с данным текстом, и продолжим обсуждение.
|