О критериях согласия с параметрическим семейством
А.И.Орлов
Непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат (именуемый также критерием Крамера-Мизеса-Смирнова или Мизеса-Смирнова [1]) широко используются, в том числе и в статье Б.Ю.Лемешко. Однако с ними связаны и широко распространенные ошибки в применении статистических методов.
Дело в том, что перечисленные критерии были разработаны для проверки согласия с полностью известным теоретическим распределением. Расчетные формулы, таблицы распределений и критических значений широко распространены, поэтому не будем их приводить. В частности, они имеются в наилучшем на наш взгляд сборнике статистических таблиц Л.Н.Большева и Н.В.Смирнова [2].
Основная идея критериев Колмогорова, омега-квадрат и аналогичных им [2] состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения.
Часто возникает задача проверки гипотезы согласия эмпирического распределения с параметрическим семейством, например, с семейством нормальных, Вейбулла-Гнеденко или гамма- распределений. Представляется естественным оценить параметры распределения по выборке, а затем формально воспользоваться критериями согласия Колмогорова, Смирнова или омега-квадрат. При этом вместо фиксированной теоретической функции распределения подставляют функцию из параметрического семейства, в которой параметры заменены на их выборочные оценки.
В отличие от классических критериев, при этом измеряются расстояния от эмпирической функции распределения до многообразий (в пространстве функций распределения), соответствующих параметрическим семействам. Развита математическая техника проектирования в функциональных пространствах [3], которая позволяет строить методы проверки и иных гипотез, в частности, гипотезы симметрии функции распределения относительно 0 [4].
Такие критерии согласия уже не являются классическими. В частности, их нельзя считать непараметрическими. Их распределения (как предельные, так и при конечных объемах выборок) существенно отличаются от распределений классических критериев согласия Колмогорова, Смирнова или омега-квадрат. Такие критерии в отличие от классических обычно называют "критериями согласия с параметрическим семейством типа Колмогорова-Смирнова и типа омега-квадрат". (Как показано в [5] на основе анализа исходных публикаций, термин "критерий Колмогорова-Смирнова" употреблять некорректно.)
Широко распространенные ошибки состоят в том, что для критериев согласия с параметрическими семействами используют критические значения классических критериев. При этом, например, гипотеза нормальности принимается гораздо чаще, чем следует. Поскольку в действующей нормативно-технической документации дальнейшие этапы анализа данных часто зависят от того, принимается нормальность или нет, то ошибки при такой проверке могут иметь далеко идущие последствия. Так, при анализе характеристик эластомерных материалов при ошибочном подходе из 30 выборок нормальность была отвергнута лишь для 2, а при правильном - для 26, т.е. в подавляющем большинстве случаев.
Указанные ошибки встречаются в массе публикаций (хотя специалистам суть дела хорошо известна уже 40 лет, со статьи Каца, Кифера и Вольфовица [6]). Наиболее известным примером является полностью ошибочный ГОСТ 11.006-74 (СТ СЭВ 1190-78) "Прикладная статитика. Правила проверки согласия опытного распределения с теоретическим" (отменен в 1987 г. после яростного сопротивления разработчиков этого шедевра А.М.Бендерского и А.А.Богатырева; о большом числе ошибочных стандартов по статистическим методам рассказывается в [7]).
В консультации [8] собраны основные факты о критериях согласия с параметрическими семействами типа Колмогорова-Смирнова и типа омега-квадрат и необходимые краткие таблицы. Современное положение дел в этой области отражено в дальнейших публикациях в "Заводской лаборатории" [9-11].
Наибольшее продвижение в изучении критериев типа Колмогорова-Смирнова достигнуто Ю.Н.Тюриным и его ученицами [11-14]. В частности, найдены удобные формулы для асимптотического достигаемого уровня значимости.
Исчерпывающие результаты по расчету предельных распределений критериев типа омега-квадрат приведены в монографии Г.В.Мартынова [15]. Скорость сходимости распределений критериев при конечных объемах выборки к предельному распределению [2] изучалась теоретически в [1] и численно в [10]. Оказалось, в частности, что предельным распределением можно пользоваться при объеме выборки не менее 4, если уровень значимости не меньше 0,01.
В [9] описан оригинальный подход к рассматриваемой задаче, принадлежащий Дж.Дурбину [16]. Оказывается, если в теоретическую функцию распределения подставлять оценку максимального правдоподобия (или ей эквивалентную, например, одношаговую оценку [17]), построенную не по всей выборке, а по ее половине, то предельные распределения статистик типа Колмогорова-Смирнова и типа омега-квадрат будут совпадать с распределениями соответствующих классических статистик !
Для проверки согласия с параметрическим семейством используют также критерий хи-квадрат, при применении которого распространены свои типичные ошибки, разобранные М.Мирвалиевым и М.С.Никулиным [18]. Не потерял своего значения для проверки согласия и метод моментов [19].
Популярны и другие ошибки при применении рассматриваемых критериев. Некоторые пытаются их использовать для сгруппированных данных, что приводит к излишне частому принятию гипотез (см. монографию Р.Руниона [20]). Другие вместо эмпирической функции распределения рассматривают иные оценки теоретической функции распределения. Например, при использовании вероятностной бумаги удобно ординату точки, соответствующей i-ой порядковой статистике, установить равной (i-0.5)/n, а не i/n, как в классической эмпирической функции распределения. Возникает искушение построенную так оценку использовать в критериях согласия вместо эмпирической функции распределения. Увы, распределение изменится (впрочем, в данном случае при росте объема выборки различие будет исчезать). Еще ряд ошибок рассмотрен в [2].
В целом, по нашему мнению, рассматриваемая тематика принадлежит к тупиковой линии развития. Из общих соображений очевидно, что распределения реальных данных никогда не входят в какое-либо параметрическое семейство. Другими словами, эти семейства - лишь возможные приближения, заведомо неточные. Анализ конкретных данных приводит к аналогичному заключению. Так, в [21] собраны факты, показывающие, что распределения ошибок измерений почти всегда отличаются от нормальных.
Следовательно, от методов параметрической статистики целесообразно переходить к непараметрическим и робастным методам. Однако это не значит, что, применяя параметрические методы, в частности, проверяя согласие с параметрическим семейством распределений, можно делать математические ошибки типа описанных выше.
ЛИТЕРАТУРА
1. Орлов А.И. / Теория вероятностей и ее применения. 1974. Т.19. џ 4. С.766-786.
2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: ВЦ АН СССР, 1968 (2-е изд.). - 474 с.
3. Тюрин Ю.Н. - В сб.: Многомерный статистический анализ в социально-экономических исследованиях. - М.: Наука, 1974. С.7-24.
4. Орлов А.И. / Теория вероятностей и ее применения. 1972. Т.17. џ2. С.372-377.
5. Орлов А.И. / Заводская лаборатория. 1995. Т.61. џ 7. С.59-61.
6. Kac M., Kiefer J., Wolfowitz J. / Ann. Math. Statist. 1955. V.26. No.2. P.189-211.
7. Орлов А.И. / Заводская лаборатория. 1992. Т.58. џ 1. С.67-74.
8. Орлов А.И. / Заводская лаборатория. 1985. Т.51. џ 1. С.60-62.
9. Бондарев Б.В. / Заводская лаборатория. 1986. Т.52. џ 10. С.62-63.
10. Залесский Б.А., Ольшевская О.В. / Заводская лаборатория. 1989. Т.55. џ 7. С.103-105.
11. Кулинская Е.В., Саввушкина Н.Е. / Заводская лаборатория. 1990. Т.56. џ 5. С.96-99.
12. Тюрин Ю.Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель). Автореф. дисс. докт. физ.-мат. наук. - М.: МГУ, 1985. - 33 с.
13. Тюрин Ю.Н. / Известия АН СССР. Сер. Матем. 1984. Т.48. џ 6. С.1314-1343.
14. Тюрин Ю.Н., Саввушкина Н.Е. / Известия АН СССР. Сер. Техническая кибернетика. 1984. џ 3. С.109-112.
15. Мартынов Г.В. Критерии омега-квадрат. - М.: Наука, 1978. -78 с.
16. Durbin J. / Lect. Notes Math. 1976. V.566. P.33-44.
17. Орлов А.И. / Заводская лаборатория. 1986. Т.52. џ 5. С.67-69.
18. Мирвалиев М., Никулин М.С. / Заводская лаборатория. 1992. Т.58. џ 3. С.52-58.
19. Орлов А.И. / Заводская лаборатория. 1989. Т.55. џ 10. С.90-93.
20. Рунион Р. Справочник по непараметрической статистике. - М.: Финансы и статистика, 1982. - 198 с.
21. Орлов А.И. / Заводская лаборатория. 1991. Т.57. џ 7. С.64-66.