Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 22, 2024 11:30 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 22 ] 
Автор Сообщение
 Заголовок сообщения: Вопрос о проверке нормальности распределения
СообщениеДобавлено: Пн фев 11, 2008 7:29 pm 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
Здравствуйте! Насколько мне известно, одним из условий модели множественной регрессии, использующей в своей основе дискриминантный анализ, является нормальность распределения дискриминантных переменных. Стоит ли для оценки выполнения этого условия (а точнее его несоблюдения) применить критерий Шапиро-Уилка, если число наблюдений в группах 48 и 28?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 12, 2008 4:59 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Для регрессионного и дискриминантного анализов нормальность невязок не нужна. См. учебник "Прикладная статистика" http://orlovs.pp.ru/stat.php#k1
Если объем выборки меньше 50, то доказательно проверить нормальность нельзя:
Селезнев В. Д., Денисов К. С. Исследование свойств критериев согласия функции распределения данных с гауссовой методом Монте-Карло для малых выборок. - Журнал "Заводская лаборатория", 2005. No.1. С.68
Реальные данные, как правило, не подчиняются нормальному закону - учебник "Эконометрика", глава 4.1 http://orlovs.pp.ru/econ.php#ek1


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 12, 2008 6:42 pm 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
Вот цитата из найденного мною в интернете "В модели дискриминации должны соблюдаться следующие условия:
...
дискриминантные переменные измеряются в интервальной шкале;
дискриминантные переменные линейно независимы;
ковариационные матрицы групп примерно равны;
дискриминантные переменные в каждой группе подчиняются многомерному нормальному закону распределения."

Так должно ли соблюдаться указанное последнее условие именно в линейной дискриминантной модели? В вашем учебнике прочел "Обычно рассматривают многомерные нормальные распределения, при этом зачастую принимают гипотезу о том, что ковариационные матрицы для различных классов совпадают. Именно в таких предположениях сформулирован классический дискриминантный анализ Фишера. Как известно, обычно нет оснований считать, что наблюдения извлечены из нормального распределения."


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 12, 2008 6:47 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
1. Советую и дальше читать мой учебник.
2. Определите понятие
Цитата:
линейная дискриминантная модель
, тогда и обсудим.
Из моего учебника видна, что
Цитата:
классический дискриминантный анализ Фишера
применять гне следует, поскольку его предпосылки не выполнены.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 12, 2008 9:21 pm 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
Но вы используете и термин "модель линейного дискриминантного анализа". Значит, я полагаю, существуют и модели нелинейного дискриминантного анализа. Можно ли применить критерий Шапиро-Уилка именно для обоснования возможного невыполнения условия нормальности распределения дискриминантных переменных в конкретной дискриминантной модели? Вроде бы критерий Шапиро-Уилка можно использовать при таком малом количестве наблюдений. Хотелось бы уточнить, а кроме классического дискриминантного анализа Фишера, какие еще виды дискриминантного анализа существуют? И где можно с такими конкретными моделями ознакомиться?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 12, 2008 9:55 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Цитата:
Хотелось бы уточнить, а кроме классического дискриминантного анализа Фишера, какие еще виды дискриминантного анализа существуют? И где можно с такими конкретными моделями ознакомиться?
Учебник "Эконометрика", пп.5.3, 5.4


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср фев 13, 2008 7:32 am 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
"Если классы описываются выборками из многомерных нормальных совокупностей с одинаковыми матрицами ковариаций, а для классификации применяется классический линейный дискриминантный анализ Р.Фишера..."
То есть все-таки для классического линейного дискриминантного анализа должно все-таки выполняться условие нормальности распределния дискриминантных переменных в каждом классе?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт фев 14, 2008 7:43 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Цитата:
"Если классы описываются выборками из многомерных нормальных совокупностей с одинаковыми матрицами ковариаций, а для классификации применяется классический линейный дискриминантный анализ Р.Фишера..."
То есть все-таки для классического линейного дискриминантного анализа должно все-таки выполняться условие нормальности распределения дискриминантных переменных в каждом классе?

Должно. Именно поэтому классический линейный дискриминантный анализ Р.Фишера нельзя применять обоснованно - нет нормальности.
Что более существенно - нет оснований считать равными матрицы ковариаций, в одномерной случае - нет оснований считать равными дисперсии. Именно поэтому в одномерном случае вместо критерия Стьюдента следует использовать критерий Крамера-Уэлча ("Эконометрика", гл.4).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт фев 15, 2008 8:54 am 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
А в какой работе или публикации есть отражение того, что в многомерном случае нет оснований считать равными матрицы ковариаций?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт фев 15, 2008 7:28 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
По тем же причинам, что и в одномерном случае.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт мар 13, 2008 5:49 pm 
Не в сети

Зарегистрирован: Пн фев 11, 2008 6:08 pm
Сообщений: 65
В разделе 4.4 "Эконометрики" касательно предположения о равенстве дисперсий нашел - цитирую: "Итак, в большинстве экономических и технико-экономических задач условие б) нельзя считать выполненным, а проверять его нецелесообразно."
Этот же вывод относится и к условию равенства матриц ковариаций?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт мар 13, 2008 6:00 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Цитата:
Этот же вывод относится и к условию равенства матриц ковариаций.

Совершенно верно. Проверять равенство матриц ковариаций сложнее, чем проверять равенство векторов математических ожиданий.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт апр 18, 2008 2:26 pm 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Здравствуйте, Александр Иванович!

Ещё по поводу нормальности данных... Для корректного применения дисперсионного анализа данные должны быть распределены нормально (Новиков, Новочадов, 2005, прим. на с. 72). Нормальное распределение имеет место редко; нет его и у меня. Пока я вижу два варианта, позволяющих решить проблему: использовать нормализующее преобразование или применить непараметрический аналог дисперсионного анализа. Что посоветуете Вы?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт апр 18, 2008 4:05 pm 
Не в сети

Зарегистрирован: Чт мар 20, 2008 1:25 pm
Сообщений: 191
Откуда: Солнечная система
Непараметрический аналог дисперсионного анализа - хорошо разработанный метод.

Нормализующее преобразование делает сомнительным выполнение предпосылок дисперсионного анализа, основанного на нормальном распределении. Дело в том, что параметры нормализующего преобразования обычно рассчитываются по тем же исходным данным, которые затем будут нормализоваться. В результате теряется независимость результатов наблюдений - каждое нормализованное значение зависит от всего набора исходных данных. Энтузиасты нормализующего преобразования обычно этого не замечают. Эффект от этого нарушения исходных предпосылок мне неизвестен. Нужны исследования.

Вывод - советую применять непараметрический аналог дисперсионного анализа.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб апр 19, 2008 12:45 pm 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Цитата:
Непараметрический аналог дисперсионного анализа - хорошо разработанный метод.


Стало быть, где-то он описан. Дайте, пожалуйста, ссылку на источник или источники.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб апр 19, 2008 1:06 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Холлендер М., Вулф Д. Непараметрические методы статистики. - М.: Финансы и статистика, 1983. - 518 с.
Главы 6 и 7.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт апр 24, 2008 8:23 am 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Александр Иванович!

Спасибо за ссылку, но... Я сейчас изложу то, что я понял из Холлендера и Вулфа, а Вы меня, если что, поправите.

1. Непараметрических методов для трёхфакторного анализа нет.
2. Применение непараметрических методов в случае двух факторов требует, чтобы каждый из них имел хотя бы три градации.

В моём случае имеется три фактора, каждый из которых имеет две градации. И что делать?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт апр 24, 2008 11:01 am 
Не в сети

Зарегистрирован: Чт мар 20, 2008 1:25 pm
Сообщений: 191
Откуда: Солнечная система
Т.е. у Вас трехмерная таблица сопряженности, по каждой координате две градации.
Поиск по запросу "Анализ таблиц сопряженности".
Книги по теме:
Аптон Г.С. Анализ таблиц сопряженности. - М., Финансы и статистика, 1982.
Толстова Ю.Н. Анализ социологических данных методология, дескриптивная статистика, изучение связей между номинальными признаками . - М., Научный мир, 2000.
Елисеева И.И., Рукавишников В.О. (несколько книг этих авторов).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт апр 25, 2008 6:06 am 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Цитата:
Т.е. у Вас трехмерная таблица сопряженности, по каждой координате две градации.


Таблицы сопряжённости - это прекрасно, это мне пригодится, но не сейчас. Возможно, я не слишком тщательно описал, что именно мне нужно. Дело в том, что с помощью таблиц сопряжённости можно исследовать связь категориальных переменных друг с другом, а мне хотелось бы понять, как они влияют на зависимую переменную, измеренную в шкале отношений. Это же - задача дисперсионного анализа...

P.S. Большое спасибо за ссылки; я ими воспользуюсь не сейчас, так позже.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт апр 25, 2008 7:06 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Есть восемь комбинаций, каждой из восьми соответствует свое распределение со своим матемтическим ожиданием и своей дисперсией.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб апр 26, 2008 9:24 am 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Цитата:
Есть восемь комбинаций, каждой из восьми соответствует свое распределение со своим матемтическим ожиданием и своей дисперсией.


Совершенно верно. И ни в одном случае из восьми нормальности нет, т. е., классический метод ДА, основанный на нормальном распределении, неприменим, а непараметрические для трёхвходового случая не разработаны (по крайней мере, я о них не узнал). Использование же нормализующих преобразований, снимая одну проблему, ставит другую.

Прав ли я в этих рассуждениях?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Сб апр 26, 2008 11:10 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
Не сказано, какую задачу решаете.
Например, может быть такая задача: проверить совпадение всех восьми функций распределения.
Тогда переходите от трех к одному признаку и применяете однофакторный дисперсионный анализ.
Переход по правилу: 000 = 1, 001 = 1, 010 = 2, ..., 111 = 8, где 0 или 1 - кодировка признака, принимающего два значения, а место в двоичной записи соответствует определенному признаку.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 22 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB