Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Чт мар 28, 2024 11:50 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 4 ] 
Автор Сообщение
 Заголовок сообщения: Число интервалов
СообщениеДобавлено: Вт фев 14, 2006 11:27 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11264
Здравствуйте, Александр Иванович!

Извините, что отвлекаю Вас вопросом, который может показаться не то чтобы наивным, но, во всяком случае, уже давно решенным.
При вычислении статистик типа хи-квадрат, да и многих других, по сгруппированным данным важное значение имеет число классов группировки (в терминологии MS Excel - карманов). В литературе встречается несколько эмпирических правил (например, правило Стержесса, Sturgess), однако все советы представляются недостаточно обоснованными теоретически - сколько интервалов брать? В зависимости от способа решения данного вопроса можно
получить различные результаты расчета.
Я попробовал сгенерировать выборку численностью 100, равномерную в интервале [0,1]. Выполнял стандартными средствами Basic. Затем выполнил группировку полученных величин на различное число классов, от 1 до 100 с шагом 10 (можно взять и другие значения). Затем для каждого полученного вариационного ряда подсчитал информационные показатели: энтропию по Шеннону, относительную энтропию и организацию. После чего для наглядности изобразил графически зависимости данных показателей от числа классов. Для энтропии, как и следовало ожидать, получена равномерно возрастающая кривая. Но вот для двух других показателей получены кривые, похожие на параболы, с четко выраженными экстремумами (для организации - минимум, для относительной энтропии - максимум).
Хотелось бы Вас спросить, не встречались ли Вам работы, посвященные выбору числа классов на основе информационного анализа. Если нет, имеет ли смысл, на Ваш взгляд, изложенная выше методика вычисления оптимального числа
классов?

С уважением, Игорь Гайдышев

Здравствуйте, Игорь!

Ответ я дам «с двух точек зрения» - со своей личной позиции и с точки зрения «усредненного» специалиста (для определенности, члена секции «Математические методы исследования» редколлегии журнала «Заводская лаборатория»).
1. Личная позиция. Вопрос о выборе числа интервалов возникает не только при применении критерия хи-квадрат, но и, например, при построении гистограмм. Есть различные формулы, не имеющие, на мой взгляд, обоснования. Поскольку разбиение (деление) прямой на интервалы произвольно, то (на мой взгляд) не следует применять статистические методы, использующие такое деление. Вместо гистограмм следует применять непараметрические оценки плотности, вместо критериев хи-квадрат для проверки согласия или однородности использовать критерии типа Колмогорова, Смирнова, омега-квадрат. Критерии хи-квадрат для количественных переменных несостоятельны, их можно применять только для качественных переменных с конечным числом градаций. Поэтому на основе результатов проведенного Вами моделирования нельзя дать полезных рекомендаций практически работающему статистику.
2. Точка зрения «усредненного» специалиста. Поскольку вопрос о выборе числа интервалов возникает в практической работе, то полезно найти способ выбора числа интервалов. С этой точки зрения результаты И. Гайдышева интересны. Однако есть два вопроса.
А) С какими статистическими методами обработки данных связаны информационные показатели: энтропия по Шеннону, относительная энтропия и «организация»?
Б) Как оптимальное число групп зависит от объема выборки и от распределения моделируемой случайной величины?
Эти два вопроса обобщаются в одном:
В) Какие обоснованные рекомендации дает автор (И. Гайдышев) практически работающему статистику?
Если на эти вопросы есть ответ - целесообразна публикация результатов в ЗЛ.

С уважением, А.И.Орлов


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 21, 2006 1:09 pm 
Не в сети

Зарегистрирован: Чт дек 02, 2004 10:02 am
Сообщений: 3
У профессора Б.Ю. Лемешко (http://ami.nstu.ru/~headrd/publik.htm) было несколько публикаций на эту и смежные темы.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт фев 21, 2006 1:26 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11264
Ну и что же упомянутый автор предлагает в виде
Цитата:
публикаций на эту и смежные темы

?
И что это такое
Цитата:
эта и смежные темы

?
Почему считаете, что стоит тратить время на их чтение?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: По поводу реплики Mikhail V. Sokolov
СообщениеДобавлено: Ср фев 22, 2006 12:39 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11264
Предложен список из более чем 200 публикаций, большая часть из которых отсутствует в электронном виде. Такую ссылку я рассматриваю как непродуманную. Если Mikhail V. Sokolov хотел сообщить полезную информацию, то ему следовало бы указать конкретные работы
Если же говорить по существу, то читать сочинения Б.Ю.Лемешко я никому не советую. Причины изложены в теме
"Типовые ошибки при вхождении в прикладную статистику"
данного форума.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 80


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB