Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Пт мар 29, 2024 12:21 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
 Заголовок сообщения: Сравнение распределений
СообщениеДобавлено: Ср дек 27, 2006 4:47 pm 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Уважаемый Александр Иванович!

Передо мной стоит следующая задача. Имеется некоторое количество выборок. В каждую из них входит n деревьев, для которых оценивается их состояние. Оценка производится по шестибалльной шкале (от балла 1 - здоровое дерево до балла 6 - старый сухостой). В результате для каждой выборки строится распределение деревьев по категориям состояния. Необходимо провести сравнение распределений с целью группировки выборок. Корректно ли использование с этой целью критерия Колмогорова - Смирнова (использую здесь общеупотребительное, хотя и неточное название), а если нет - какой критерий пригоден для этой цели?

Заранее благодарен,
Денис


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср дек 27, 2006 9:25 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Использование критерия Смирнова для проверки гипотезы о совпадении функций распределения двух выборок некорректно, поскольку функции распределения не являются непрерывными. Как следствие, много совпадающих значений. Корректно применение критерия хи-квадрат (описан в конце "Математики случая" на http://orlovs.pp.ru ).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср янв 10, 2007 2:53 pm 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Уважаемый Александр Иванович!

Благодарю Вас за консультацию. Однако, в ходе использования критерия хи-квадрат появились и новые вопросы:

1. Неужели до сих пор не разработаны критерии сравнения распределений, свободные от ограничений, накладываемых на использование хи-квадрат? Особенности моих объектов таковы, что при сравнении неизбежно приходится проводить объединение категорий, что приводит к потере информации.

2. При сравнении двух очевидно несхожих распределений:

20 8 7 7
20 17 17 22

критерий хи-квадрат показал отсутствие различий между ними на уровне значимости 0,05. Насколько корректно отнести такой результат на счёт ошибки второго рода?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср янв 10, 2007 6:10 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
1. Можно заняться расчетами для конкретных размеров выборок, как это описано, например, в темах "Перестановочные тесты" и "Перестановочные тесты-2" в этом форуме.
Однако это гораздо более хлопотно, чем применять критерий хи-квадрат.

2. При малых объемах выборок любой критерий однородности не даст возможности надежно обнаружить небольшое различие.
Может помочь конкретизация альтернативной гипотезы. Как известно, для простых гипотез оптимальный критерий дает лемма Неймана-Пирсона.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт янв 11, 2007 3:22 pm 
Не в сети

Зарегистрирован: Ср дек 27, 2006 4:19 pm
Сообщений: 17
Откуда: Томск
Уважаемый Александр Иванович!

В целом критерий хи-квадрат удалось применить успешно. В результате попарного сравнения распределений удалось выделить несколько групп распределений. Однако, на мой взгляд, была желательна дополнительная проверка. Хотелось бы узнать Ваше мнение о том, насколько корректно она была проведена.

Используя пакет Statistica 5.5., я провёл разбиение совокупности имеющихся распределений на группы по методу К средних (K-means method). Полученные результаты показали практически абсолютное согласие с результатами группировки на основе хи-квадрат. Дополнительно я, следуя рекомендациям Вашей книги "Нечисловая статистика", провёл кластерный анализ с использованием различных алгоритмов. Его результаты в разных случаях расходились друг с другом, но "ядра" выделенных ранее групп чётко выделялись в любом случае; неопределённость возникала при отнесении к тому или иному кластеру как раз тех распределений, которые находились на границах групп.

Заранее спасибо,
Денис


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт янв 11, 2007 11:39 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Поскольку попарных сравнений было проведено много, возникает
"Проблема множественных проверок статистических гипотез"
(см. одноименную статью на сайте http://orlovs.pp.ru/stat.php#s2p8 )

Поэтому Вы совершенно правы, применяя одновременно различные методы обработки данных. Совпадение результатов говорит о том, что выявлены реально существующие закономерности.
Судя по приведенному описанию, дополнительная проверка была проведена корректно.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 63


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB