Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 22, 2024 6:50 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
 Заголовок сообщения: Достоверность коэффициента корреляции
СообщениеДобавлено: Пн июл 11, 2005 10:56 pm 
Здравствуйте. Перерыл кучу учебников по статистике, и обнаружил удивительный парадокс: очень редко встречается описание критериев для проверки достоверности коэффициента корреляции. А если и встречаются то описаны они не очень то и подробно. Неужели это не так важно? И какие все-таки критерии можно применять с этой целью? Хотелось бы узнать.
С благодарностью. Дмитрий.


Вернуться наверх
   
 
 Заголовок сообщения:
СообщениеДобавлено: Пн июл 11, 2005 11:57 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Начнем с параграфа из учебника "Прикладная статистика" (см. сайт)
К сожалению, формулы исчезли. Но можно скачать весь учебник.
Словесное окружение формул, тем не менее, дает представление о содержании раздела.

3.2.1. Коэффициенты корреляции

Термин "корреляция" означает "связь". В эконометрике этот термин обычно используется в сочетании "коэффициенты корреляции". Рассмотрим линейный и непараметрические парные коэффициенты корреляции.
Обсудим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов Выборочным коэффициентом корреляции, более подробно, выборочным линейным парным коэффициентом корреляции К. Пирсона, как известно, называется число

Если rn = 1, то причем a>0. Если же rn = - 1, то причем a<0. Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.
Если случайные вектора независимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки:

(сходимость по вероятности).
Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что

где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1, а - асимптотическая дисперсия выборочного коэффициента корреляции. Она имеет довольно сложное выражение, приведенное в монографии [1, с.393]:

Здесь под понимаются теоретические центральные моменты порядка k и m, а именно,
.
Коэффициенты корреляции типа rn используются во многих алгоритмах многомерного статистического анализа. В теоретических рассмотрениях часто считают, что случайные вектора имеют двумерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных (см. главу 2.1). Почему же распространено представление о двумерном нормальном распределении? Дело в том, что теория в этом случае проще. В частности, равенство 0 теоретического коэффициента корреляции эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если , где - некоторое граничное значение, зависящее от объема выборки n и уровня значимости .
Если предположение о двумерной нормальности не выполнено, то из равенства 0 теоретического коэффициента корреляции не вытекает независимость случайных величин. Нетрудно построить пример случайного вектора, для которого коэффициент корреляции равен 0, но координаты зависимы. Кроме того, для проверки гипотез о коэффициенте корреляции нельзя пользоваться таблицами, рассчитанными в предположении нормальности. Можно построить правила принятия решений на основе асимптотической нормальности выборочного коэффициента корреляции. Но есть и другой путь – перейти к непараметрическим коэффициентам корреляции, одинаково пригодным при любом непрерывном распределении случайного вектора.
Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого xi рассчитать его ранг ri в вариационном ряду, построенном по выборке Для каждого yi рассчитать его ранг qi в вариационном ряду, построенном по выборке Для набора из n пар вычислить линейный коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги. В качестве примера рассмотрим данные из табл.1 (см. монографию [2]).

Таблица 1.
Данные для расчета коэффициентов корреляции
i 1 2 3 4 5
xi 5 10 15 20 25
yi 6 7 30 81 300
ri 1 2 3 4 5
qi 1 2 3 4 5

Для данных табл.1 коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов, достаточно именно монотонной зависимости одной переменной от другой.
Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале (см. главу 2.1), как и другие ранговые статистики, например, статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок (глава 3.1).
Широко используется также коэффициент ранговой корреляции Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии [3], необходимые для практических расчетов таблицы имеются в справочнике [4]. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени [2].

1. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
2. Красильников В.В. Статистика объектов нечисловой природы. - Набережные Челны: Изд-во Камского политехнического института, 2001. - 144 с.
3. Кендэл М. Ранговые корреляции. - М.: Статистика, 1975. - 216 с.
4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. - 416 с.

Добавим, что обычно проверяют гипотезу о том, что (тот или иной) коэффициент корреляции отличается от 0.
Если выборочный коэффициент корреляции по абсолютной величине больше границы, то гипотезу о равенстве теоретическго коэффициента 0 отклоняют (в частности, гипотезу о независимости признаков отклоняют), в противном случае - принимают. Граница зависит от объема выборки и уровня значимости.
Таблицы есть у Большева и Смирнова. В случае "обычного" линейного коэффициента корреляции Пирсона дополнительно принимают предположение двумерной нормальности совместного распределения признаков.

Сформулируйте вопросы, которые остались после знакомства с данным текстом, и продолжим обсуждение.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт июл 22, 2005 11:00 pm 
Спасибо за совет.
С удовольствием прочитал Вашу книгу «Прикладная статистика»
Большинство ответов я там и нашел. Если честно, то такие подробные книги с описанием непарметрических методов мне практически не попадались.
У меня вопрос больше практического характера. Полученные мною данные не соответствуют закону нормального распределения. Для определения статистической связи между показателями я рассчитывал показатель ранговой корреляции Спирмена. В связи с этим вопрос:
С помощью какого критерия, возможно, проверить достоверность различий между двумя ранговыми показателями Спирмена, полученных на группе людей до и после применения нагрузки?

С уважением, Дмитрий


Вернуться наверх
   
 
 Заголовок сообщения: Нужно уточнить постановку.
СообщениеДобавлено: Ср авг 03, 2005 9:37 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Сначала надо описать вероятностную модель изучаемого явления. Как я понял, данные имеют вид
(X(1,k), Y(1,k), X(2,k), Y(2,k)), k = 1,2,...,n,
где (X(1,k), Y(1,k)) - результаты измерения значений двух рассматриваемых признаков у k- го пациента до применения нагрузки, а (X(2,k), Y(2,k)) - результаты измерения значений двух рассматриваемых признаков у k- го пациента после применения нагрузки. Видимо, можно принять, что вектора, соответствующие пациентам, являются реализациями независимых одинаково распределенных многомерных случайных величин.
Пусть r1 - (теоретический) коэффициент ранговой корреляции Спирмена между X(1,k) и Y(1,k), а r2 - (теоретический) коэффициент ранговой корреляции Спирмера между X(2,k) и Y(2,k). Требуется проверить статистическую гипотезу Н(0): r1 = r2.
Ответить на этот вопрос невозможно, не делая дополнительных предположений о связи значений признаков до и после нагрузки.
Крайние точки таковы.
1. Значения признаков совпадают (например, как рост и вес, или - пол и группа крови). Тогда, очевидно, гипотеза выполнена.
2. Результаты измерения до и после нагрузки независимы, т.е. случайные вектора (X(1,k), Y(1,k)) и (X(2,k), Y(2,k)) независимы как случайные величины. Тогда можно воспользоваться асимптотической нормальностью выборочных коэффициентов ранговой корреляции, а потому и асимптотической нормальностью их разности (как разности независимых асимптотически нормальных величин). Параметры асимптотически нормального распределения выписаны в "Прикладной статистике" для случая коэффициента линейной корреляции. Поскольку коэффициент ранговой корреляции Спирмена - это коэффициент линейной корреляции для преобразованных случайных величин (для рангов), то формулы упрощаются по сравнению с коэффициентом линейной корреляции.

Если же нет независимости результатов измерения до и после нагрузки, то необходимо сформулировать гипотезу о связи между ними. Затем поведение разности r1 - r2 можно изучить методом статистических испытаний.

Если наггрузка приводит к линейному (или монотонному) преобразованию признаков, то коэффициент ранговой корреляции не меняется. Поэтому кроме этого коэффициента рассчитывают и иные статистики.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн ноя 07, 2005 11:23 pm 
Не в сети

Зарегистрирован: Пт сен 02, 2005 8:54 pm
Сообщений: 6
Откуда: Севастополь
Нашел формулы для доверительных интервалов коэффициента корреляции на www.sportsci.org/resource/stats
r нижний, = e(2*(0,5*ln((1+r)/(1-r))±1,96/√n) – 3)) - 1

r верхний = e(2*(0,5*ln((1+r)/(1-r))±1,96/√n) – 3)) +1

По всей видимости е - экспонета.
Формула слега отличается от приводимых в учебниках.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Ответ Дмитрию
СообщениеДобавлено: Ср ноя 09, 2005 12:06 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
В последнем Вашем письме речь идет о коэффициенте линейной парной кореляции Пирсона (а не о ранговой корреляции, как раньше).
Пусть r - выборочный коэффициент корреляции. Р.А. Фишер указал замечательное нормализующее преобразование случайной величины r а именно:
z = 1/2 {ln (1+r) - ln (1-r)} = arg th r
Тогда с точностью до бесконечно малых более высокого порядка
Mz = 1/2 {ln (1+ро) - ln (1-ро)} ,
Dz= 1/(n-3)
распределение z приближенно нормально, где ро - теоретический коэффициент корреляции.
Из сказанного следует, что доверительный интервал для
1/2 {ln (1+ро) - ln (1-ро)},
соответствующий доверительной вероятности 0,95, имеет вид
(z - 1,96/ n**1/2, z + n**1/2),
где n**1/2 - есть квадратный корень из n.
Все это - в предположении двумерной нормальности исходных данных.
Из этого доверительного интервала можно получить доверительный интервал непосредственно для коэффициента корреляции ро, используя функцию, обратную к arg th r


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB