Устойчивость и нечисловая статистика
Проф., д.т.н. А.И. Орлов
1. Лет 20 назад я оценил число публикаций по статистическим методам (включая теорию вероятностей и математическую статистику) в 1 миллион, число актуальных из них (не перекрывающихся более поздними) – в 100 тысяч. Один человек может за свою жизнь с несколькими тысячами статей и книг ( в известном трехтомнике Кендалла и Стьюарта – около 2 тысяч ссылок). Отсюда следствие – специалист знаком лишь с 2-3% публикаций по своей области. За прошедшие годы ситуация лишь ухудшилась. Забрезжила надежда на информационные технологии, на поиск в Интернете. Однако основная масса публикаций еще не внесена в Интернет, да и запрос адекватно сформулировать нелегко. Нелегко и отделить жемчужные зерна от сора.
Когда-то считалось, что нет пользы от повторов. То, что однажды опубликовано, известно профессионалам. Из сказанного выше ясно, что это – утопия. Как следствие, полезно обращаться к важным идеям, выдвинутым давно, но актуальным и сегодня.
Дискуссия на 10-м ежегодном междисциплинарном семинаре «Математическое моделирование социальных процессов и социальная информатика» 5 декабря 2007 г. подтвердила, что две идеи тридцатилетней давности и сейчас весьма актуальны. Это проблемы устойчивости и анализа нечисловых (качественных) данных.
2. В монографии [1] 1979 г. развит наиболее общий подход к изучению устойчивости в математических моделях социально-экономических явлений и процессов по отношению к отклонениям исходных данных и предпосылок модели. Рассмотрим несколько примеров.
В теории измерений «задача анализа устойчивости» может интерпретироваться как задача поиска способов обработки данных, инвариантных относительно допустимых преобразований шкалы. А «задача анализа адекватности» – как задача описания шкалы (группы допустимых преобразований), в которой рассматриваемый алгоритм дает инвариантные результаты (т.е. результаты его применения не меняются при любом допустимом преобразовании). Аналогичны интерпретации этих двух задач в теории робастности статистических процедур.
Обратим внимание на еще одно использование соображений устойчивости, которое в [1] названо «принципом уравнивания погрешностей». Пусть имеются погрешности двух разных типов. Погрешности первого типа имеют определенные характеристики, которыми нельзя управлять. Погрешностями второго типа можно управлять, расходуя ресурсы. Например, при анализе статистических данных первая группа – это метрологические погрешности (характеристики заданы в технических паспортах средств измерения), в вторая группа – статистические погрешности (можно уменьшать, увеличивая объем выборки). «Принцип уравнивания погрешностей» состоит в том, чтобы уравнять погрешности этих двух типов. Проработан ряд применений принципа уравнивания погрешностей. В статистике интервальных данных он приводит к одному из двух фундаментальных понятий – рациональному объему выборки [2]. В теории управления запасами – к обоснованию того, что допустимо применять любую из двух разных методик расчета величин издержек, связанных с хранением и доставкой продукции [1, 3]. В социологии – к выбору числа градаций шкалы на основе оценки размытости ответа респондента [1].
Наиболее общая рекомендация теории устойчивости - обрабатывать данные многими способами и выделять как объективный результат то, что получено при всех способах. Цель – уменьшить влияние субъективизма, проявляющегося в выборе метода. Например, итоговое мнение комиссии экспертов целесообразно находить как методом средних арифметических рангов, так и методов медиан рангов, а потом выделять «общую часть» с помощью процедуры согласования [2].
3. Статистика объектов нечисловой природы (статистика нечисловых данных, нечисловая статистика) как самостоятельное направление внутри прикладной статистики была выделена в 1979 г. [1]. Полученные с тех пор результаты опубликованы широко, в частности, подробно отражены в учебниках [2, 4]. Применительно к социологии подробный анализ дан в [5]. Тем не менее любители обсудить соотношение количественных и качественных методов в социологии явно не знакомы с рассматриваемой областью статистики с тридцатилетней историей.
В целом приходится констатировать, что специалисты по методам обработки социологических данных отстали лет на 30 от современной статистической науки. Только этим можно объяснить радость от освоения столь же отсталого пакета SPSS (оценка соответствия этого и других пакетов современным требованиям дана в [6]).
Литература
1. Орлов А.И. Устойчивость в социально-экономических моделях. – М.: Наука, 1979, - 296 с.
2. Орлов А.И. Прикладная статистика. – М.: Экзамен, 2006. – 671 с.
3. Орлов А.И. Теория принятия решений. – М.: Экзамен, 2006. – 574 с.
4. Орлов А.И. Высокие статистические технологии: нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2009 (в печати). – Электронный вариант:
http://orlovs.pp.ru/stat.php#k2
5. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя). - Журнал «Социология: методология, методы, математические модели». 2005. No.20. С.32-53.
6. Орлов А.И. Статистические пакеты – инструменты исследователя. - Журнал «Заводская лаборатория». 2008. Т.74. No.5. С.76-78. Электронный вариант:
http://forum.orlovs.pp.ru/viewtopic.php?t=657