Здравствуйте, Александр Иванович!
Извините, что отвлекаю Вас вопросом, который может показаться не то чтобы наивным, но, во всяком случае, уже давно решенным.
При вычислении статистик типа хи-квадрат, да и многих других, по сгруппированным данным важное значение имеет число классов группировки (в терминологии MS Excel - карманов). В литературе встречается несколько эмпирических правил (например, правило Стержесса, Sturgess), однако все советы представляются недостаточно обоснованными теоретически - сколько интервалов брать? В зависимости от способа решения данного вопроса можно
получить различные результаты расчета.
Я попробовал сгенерировать выборку численностью 100, равномерную в интервале [0,1]. Выполнял стандартными средствами Basic. Затем выполнил группировку полученных величин на различное число классов, от 1 до 100 с шагом 10 (можно взять и другие значения). Затем для каждого полученного вариационного ряда подсчитал информационные показатели: энтропию по Шеннону, относительную энтропию и организацию. После чего для наглядности изобразил графически зависимости данных показателей от числа классов. Для энтропии, как и следовало ожидать, получена равномерно возрастающая кривая. Но вот для двух других показателей получены кривые, похожие на параболы, с четко выраженными экстремумами (для организации - минимум, для относительной энтропии - максимум).
Хотелось бы Вас спросить, не встречались ли Вам работы, посвященные выбору числа классов на основе информационного анализа. Если нет, имеет ли смысл, на Ваш взгляд, изложенная выше методика вычисления оптимального числа
классов?
С уважением, Игорь Гайдышев
Здравствуйте, Игорь!
Ответ я дам «с двух точек зрения» - со своей личной позиции и с точки зрения «усредненного» специалиста (для определенности, члена секции «Математические методы исследования» редколлегии журнала «Заводская лаборатория»).
1. Личная позиция. Вопрос о выборе числа интервалов возникает не только при применении критерия хи-квадрат, но и, например, при построении гистограмм. Есть различные формулы, не имеющие, на мой взгляд, обоснования. Поскольку разбиение (деление) прямой на интервалы произвольно, то (на мой взгляд) не следует применять статистические методы, использующие такое деление. Вместо гистограмм следует применять непараметрические оценки плотности, вместо критериев хи-квадрат для проверки согласия или однородности использовать критерии типа Колмогорова, Смирнова, омега-квадрат. Критерии хи-квадрат для количественных переменных несостоятельны, их можно применять только для качественных переменных с конечным числом градаций. Поэтому на основе результатов проведенного Вами моделирования нельзя дать полезных рекомендаций практически работающему статистику.
2. Точка зрения «усредненного» специалиста. Поскольку вопрос о выборе числа интервалов возникает в практической работе, то полезно найти способ выбора числа интервалов. С этой точки зрения результаты И. Гайдышева интересны. Однако есть два вопроса.
А) С какими статистическими методами обработки данных связаны информационные показатели: энтропия по Шеннону, относительная энтропия и «организация»?
Б) Как оптимальное число групп зависит от объема выборки и от распределения моделируемой случайной величины?
Эти два вопроса обобщаются в одном:
В) Какие обоснованные рекомендации дает автор (И. Гайдышев) практически работающему статистику?
Если на эти вопросы есть ответ - целесообразна публикация результатов в ЗЛ.
С уважением, А.И.Орлов
|