ВведениеСтатистические методы анализа данных применяют во
многих областях деятельности человека. Целесообразно
выделить три вида научной и прикладной деятельности в
области применения статистических методов анализа дан-
ных (по степени специфичности методов, сопряженной с
погруженностью в конкретные проблемы):
1) разработка и исследование методов общего назначе-
ния без учета специфики области применения;
2) разработка и исследование статистических моделей
реальных явлений и процессов в соответствии с потребно-
стями той или иной конкретной области применения;
3) использование статистических методов и моделей
для статистического анализа конкретных данных.
По мере движения от первого вида к третьему область
применения конкретного статистического метода сужается,
при этом возрастает его роль для анализа определенной си-
туации. Если первому виду деятельности соответствуют
научные результаты, значимость которых оценивается по
общенаучным критериям, то для третьего вида деятельно-
сти основным является успешное решение конкретных за-
дач той или иной области применения (техники и техноло-
гии, экономики, социологии, медицины и др.). Второй вид
деятельности занимает промежуточное положение. Это
связано с тем, что, с одной стороны, теоретическое изуче-
ние свойств статистических методов и моделей, предназна-
ченных для определенной области применения, может быть
весьма сложным и математизированным, а с другой — ре-
зультаты представляют интерес лишь для некоторой груп-
пы специалистов. Можно утверждать, что второй вид дея-
тельности нацелен на решение типовых задач конкретной
области применения.
Прикладная статистика. Статистические методы ана-
лиза данных, относящиеся к первому виду деятельности,
обычно называют методами прикладной статистики. Таким
образом, прикладная статистика — наука о том, как обра-
батывать данные произвольной природы, без учета специ-
фики конкретной области применения [1].
Математические основы прикладной статистики и ста-
тистических методов анализа данных — теория вероятно-
стей и математическая статистика. Курс математической
статистики состоит в основном из доказательств теорем,
тогда как курс прикладной статистики представляет собой
методологию анализа данных и алгоритмы расчетов, тео-
ремы приводятся только для обоснования этих алгоритмов,
доказательства, как правило, опускаются.
Прикладная статистика — одна из статистических наук,
не относящаяся к математике, это методическая дисципли-
на, являющаяся центром, идейным ядром статистики. К
прикладной статистике относятся задачи описания данных,
оценивания и проверки гипотез.
Описание вида данных и при необходимости механизма
их порождения — начало любого статистического исследо-
вания. Для описания данных применяют детерминирован-
ные и вероятностно-статистические методы. С помощью де-
терминированных методов можно проанализировать только
данные, находящиеся в распоряжении исследователя. На-
пример, получены таблицы, рассчитанные органами офици-
альной государственной статистики, на основе представлен-
ных предприятиями и организациями статистических отче-
тов. Применить имеющиеся результаты к более широкой
(генеральной) совокупности, использовать их для прогнози-
рования и управления можно лишь на основе вероятностно-
статистического моделирования. В связи с этим в приклад-
ную статистику часто входят методы, опирающиеся на тео-
рию вероятностей.
Нецелесообразно противопоставлять детерминирован-
ные и вероятностно-статистические методы. Их можно
рассматривать как последовательные этапы статистиче-
ского анализа. На первом этапе необходимо проанализи-
ровать имеющиеся данные, представить их в удобном для
восприятия виде с помощью таблиц и диаграмм. Второй
этап — изучение статистических данных на основе тех
или иных вероятностно-статистических моделей. Возмож-
ность более глубокого изучения реального явления или
процесса обеспечивается разработкой адекватной матема-
тической модели.
В простейшем случае статистические данные — это зна-
чения некоторого признака, свойственного изучаемым объ-
ектам. Значения признака могут быть количественными или
качественными (представляют собой указание на категорию,
к которой может принадлежать объект). При измерении по
нескольким количественным или качественным признакам в
качестве статистических данных об объекте получают век-
тор, который можно рассматривать как новый вид данных. В
таком случае выборка состоит из набора векторов. Если
часть координат вектора — числа, а часть — качественные
(категоризованные) данные, то речь идет о векторе разно-
типных данных.
Одним элементом выборки, т. е. одним измерением,
может быть функция в целом (электрокардиограмма боль-
ного, амплитуда биений вала двигателя, временной ряд,
описывающий динамику показателей хозяйственной дея-
тельности определенной фирмы) и другие математические
объекты (бинарные отношения). Так, при опросах экспер-
тов часто используют упорядочения (ранжировки) объектов
экспертизы — образцов продукции, инвестиционных про-
ектов, вариантов управленческих решений.
Итак, математическая природа элементов выборки в
разных задачах прикладной статистики может быть раз-
личной. Однако можно выделить два класса статистических
данных — числовые и нечисловые данные. Соответственно
прикладную статистику подразделяют на числовую и нечи-
словую статистику.
Числовые статистические данные — числа, векторы,
функции. Их можно складывать, умножать на коэффициен-
ты, поэтому в числовой статистике большое значение имеют
разнообразные суммы. В качестве математического аппарата
анализа сумм случайных элементов выборки используют
классические законы больших чисел и центральные пре-
дельные теоремы.
Нечисловые статистические данные — категоризован-
ные данные, векторы разнотипных признаков, бинарные от-
ношения, множества, нечеткие множества и др. Их нельзя
складывать и умножать на коэффициенты. Эти данные
представляют собой элементы нечисловых математических
пространств (множеств). Математический аппарат анализа
нечисловых статистических данных основан на использо-
вании расстояний между элементами (мер близости, пока-
зателей различия, псевдометрик) в таких пространствах.
С помощью расстояний определяют эмпирические и теоре-
тические средние величины, доказывают законы больших
чисел, строят непараметрические оценки плотности рас-
пределения вероятностей, решают задачи диагностики и
кластерного анализа и т. д. [2].
В прикладных исследованиях используют различные
виды статистических данных, что связано, в частности, со
способами их получения. Например, если испытания неко-
торых технических устройств продолжают до определен-
ного момента времени, то получают так называемые цензу-
рированные данные, состоящие из набора чисел — про-
должительности работы ряда устройств до отказа — и
информации о том, что остальные устройства продолжали
работать в момент окончания испытания. Цензурированные
данные часто применяют при оценке и контроле надежно-
сти технических устройств.
Основные области применения прикладной статистики
в зависимости от вида статистических данных приведены
далее (модели порождения цензурированных данных вхо-
дят в состав каждой из рассматриваемых областей):
Статистические данные - Область применения
прикладной статистики
Числа - Статистика (случайных) величин
Конечномерные векторы - Многомерный статистический ана-
лиз
Функции - Статистика случайных процессов и
временных рядов
Объекты нечисловой природы - Статистика нечисловых данных
(статистика объектов нечисловой природы)
Вероятностно-статистическое моделирование. При
применении статистических методов в конкретных обла-
стях знаний и отраслях народного хозяйства получаем
научно-практические дисциплины «Статистические методы
в промышленности», «Статистические методы в медицине»
и др. С этой точки зрения эконометрика представляет собой
дисциплину «Статистические методы в экономике» [3]. Пе-
речисленные дисциплины обычно основаны на вероятност-
но-статистических моделях, сформированных в соответ-
ствии с особенностями области применения.
Основная часть настоящей книги посвящена статисти-
ческим методам и вероятностно-статистическому модели-
рованию в технико-экономических исследованиях (логи-
стике, управлении качеством, электротехнике), в экономике
и управлении (налогообложении, маркетинге), в демогра-
фии, истории, медицине и социологии.
При выборе вероятностно-статистических моделей ав-
тор во многом исходил из имеющегося у него опыта реше-
ния конкретных прикладных задач, а также старался не по-
вторять уже известный в литературе материал. В связи с
этим в издании не рассмотрены вопросы надежности и без-
опасности технических устройств и технологий, теории
массового обслуживания, сложные системы эконометриче-
ских уравнений.
Статистический анализ конкретных данных. Приме-
нение статистических методов и моделей для статистиче-
ского анализа конкретных данных тесно связано с пробле-
мами соответствующей области применения. Результаты
третьего вида научной и прикладной деятельности нахо-
дятся на стыке дисциплин (являются междисциплинарны-
ми). Эти результаты можно рассматривать как примеры
практического применения статистических методов, что и
сделано в настоящем учебнике. Но не меньше оснований
относить их к конкретной области применения.
Примеры практического применения статистических
методов включены во все главы книги. При выборе приме-
ров предпочтение отдавалось исследованиям, в которых
автор принимал непосредственное участие. Однако описа-
ние примеров было адаптировано для использования в
учебном процессе. Заказчики прикладных исследований
получают отчеты, в которых проблемы соответствующих
областей применения рассмотрены подробнее [4].
Высокие статистические технологии. Термин «высо-
кие технологии», популярный в современной научно-
технической литературе, используют для обозначения наи-
более передовых технологий, основанных на последних дос-
тижениях научно-технического прогресса [5]. Такие техно-
логии, существующие и в технологиях статистического ана-
лиза данных, подробно изучены в настоящем учебнике.
Слово «высокие» означает, что статистическая техноло-
гия опирается на современные достижения статистической
теории и практики. Другими словами, математическая ос-
нова технологии получена сравнительно недавно в рамках
научной дисциплины; алгоритмы расчетов разработаны и
обоснованы в соответствии с нею.
Слово «статистические» подробно объясняется в дан-
ной работе. С точки зрения автора, статистические данные
представляют собой результаты измерений (наблюдений,
испытаний, анализов, опытов), а статистические техноло-
гии — технологии анализа статистических данных.
Наконец, сравнительно редко используемый примени-
тельно к статистике термин «технологии». Статистический
анализ данных включает в себя процедуры и алгоритмы,
выполняемые последовательно, параллельно или по более
сложной схеме. Можно выделить следующие этапы приме-
нения статистических технологий:
• планирование статистического исследования;
• организация сбора необходимых статистических дан-
ных по оптимальной или рациональной программе (плани-
рование выборки, создание организационной структуры и
подбор команды статистиков, подготовка кадров, которые
будут заниматься сбором данных, а также контролеров
данных и т. п.);
• непосредственный сбор данных и их фиксация на тех
или иных носителях (с контролем качества сбора и отбра-
ковкой ошибочных данных по соображениям, связанным с
конкретной областью применения);
• первичное описание данных (расчет различных пара-
метров выборки, характеристик, функций распределения,
непараметрических оценок плотности, построение гисто-
грамм, корреляционных полей, различных таблиц и диа-
грамм и т. д.);
• оценивание числовых или нечисловых характери-
стик, а также параметров распределений (например, непа-
раметрическое интервальное оценивание коэффициента
вариации или восстановление зависимости между откликом
и факторами, т. е. оценивание функции);
• проверка статистических гипотез (иногда их цепо-
чек — после проверки предыдущей гипотезы принимают
решение о проверке последующей гипотезы);
• применение различных алгоритмов многомерного
статистического анализа, алгоритмов диагностики и по-
строения классификаций, статистики нечисловых и интер-
вальных данных, анализа временных рядов и др.;
• проверка устойчивости полученных оценок и выво-
дов относительно допустимых отклонений исходных дан-
ных и предпосылок используемых вероятностно-статис-
тических моделей, в частности изучение свойств оценок
методом размножения выборок;
• применение полученных статистических результатов в
прикладных целях (для диагностики конкретных материа-
лов, построения прогнозов, выбора инвестиционного проек-
та из предложенных вариантов, нахождения оптимального
режима проведения технологического процесса, подведения
итогов испытаний образцов технических устройств и др.);
• составление итоговых отчетов для тех, кто не являет-
ся специалистами в статистических методах анализа дан-
ных, в том числе для руководства — лиц, принимающих
решения.
Возможны и иные этапы применения статистических
технологий. Квалифицированное и результативное приме-
нение статистических методов — отнюдь не проверка од-
ной отдельно взятой статистической гипотезы или оценка
параметров одного заданного распределения из фиксиро-
ванного семейства. Подобного рода операции представля-
ют собой отдельные кирпичики, из которых состоит стати-
стическая технология.
Процедура статистического анализа данных — инфор-
мационный технологический процесс (информационная
ытехнология). В настоящее время было бы несерьезно гово-
рить об автоматизации всего процесса статистического
анализа данных, поскольку существует много нерешенных
проблем, вызывающих дискуссии среди статистиков.
Опишем опыт внедрения высоких статистических техно-
логий. Организованный в 1989 г. Институт высоких стати-
стических технологий и эконометрики (ИВСТЭ) в настоящее
время действует на базе кафедры ИБМ-2 «Экономика и ор-
ганизация производства» Московского государственного
технического университета им. Н.Э. Баумана. Институт за-
нимается развитием, изучением и внедрением высоких ста-
тистических технологий. Основной интерес представляет
применение высоких статистических технологий для анали-
за конкретных экономических данных. Наиболее перспек-
тивно использование высоких статистических технологий
для поддержки принятия управленческих решений прежде
всего в таком новом для России современном направлении
экономической науки и практики, как контроллинг.
Вначале ИВСТЭ действовал как Всесоюзный центр стати-
стических методов и информатики Центрального правления
Всесоюзного экономического общества. В 1990—1992 гг. бы-
ло выполнено более 100 хоздоговорных работ, в том числе
для НИЦ по безопасности атомной энергетики, ВНИИ неф-
тепереработки, ПО «Пластик», ФГУП «ЦНИИ черной ме-
таллургии им. И.П. Бардина», НИИ стали, ВНИИ эласто-
мерных материалов и изделий, НИИ прикладной химии,
ЦНИИ химии и механики, НПО «Орион», ВНИИ экономи-
ческих проблем развития науки и техники, ПО «Уралмаш»,
«АвтоВАЗ», МИИТ и др. В институте
• разрабатывались эконометрические методы анализа
нечисловых данных, а также процедуры расчета и прогно-
зирования индекса инфляции и валового внутреннего про-
дукта (ВВП);
• развивалась методология построения и использова-
ния математических моделей процессов налогообложения
(для Министерства налогов и сборов РФ), методология
оценки рисков реализации инновационных проектов выс-
шей школы (для Министерства промышленности, науки и
технологий РФ);
• оценивалось влияние различных факторов на форми-
рование налогооблагаемой базы ряда налогов (для Мини-
стерства финансов РФ);
• прорабатывались перспективы применения совре-
менных статистических и экспертных методов для анализа
данных о научном потенциале (для Министерства про-
мышленности, науки и технологий РФ);
• разрабатывалось методологическое, программное и
информационное обеспечение анализа рисков химико-
технологических объектов (для Международного научно-
технического центра), методы использования экспертных
оценок в задачах экологического страхования (совместно с
Институтом проблем рынка РАН);
• проводились маркетинговые исследования (в частно-
сти, для Institute for Market Research GfK MR, Промрадтех-
банка, для фирмы, торгующей растворимым кофе);
• прогнозировалось социально-экономическое разви-
тие России методом сценариев;
• проводились работы по экономико-математическому
моделированию развития малых предприятий и созданию
систем информационной поддержки принятия решений.
В 2010—2012 гг. ИВСТЭ совместно с Группой компа-
ний «Волга — Днепр» и Ульяновским государственным
университетом активно участвует в проекте «Разработка
математического аппарата, программного и информацион-
ного обеспечения автоматизированной системы прогнози-
рования и предотвращения авиационных происшествий при
организации и производстве воздушных перевозок».
Программное обеспечение статистических методов.
Как правило, статистическую обработку данных проводят
с помощью соответствующих программных продуктов.
В учебник не были включены ссылки на программные
продукты по следующим причинам: быстрое обновление
программных продуктов; каждый программный продукт
обладает определенными достоинствами и недостатками,
в связи с чем крайне трудно обосновать, какой из про-
граммных продуктов следует предпочесть [6].
С течением времени различие между математической и
прикладной статистикой усиливается. Это проявляется в
том, что большинство методов, входящих в статистические
пакеты программ (например, в Statgraphics и SPSS или в
Statistica), даже не упоминаются в учебниках по математи-
ческой статистике. В результате этого специалист по мате-
матической статистике оказывается зачастую беспомощ-
ным при обработке реальных данных, а программные про-
дукты по статистических методам применяют лица без
необходимой теоретической подготовки [7].
По оценкам экспертов, распространенные статистиче-
ские программные продукты обычно соответствуют уров-
ню научных исследований 1960—1970-х гг. В них отсутст-
вует большинство статистических методов, включенных в
современные учебники [1—3].
Перспективы развития статистических методов.
Теория статистических методов нацелена на решение ре-
альных задач, поэтому в ней постоянно возникают новые
постановки математических задач анализа статистических
данных, развиваются и обосновываются новые методы.
Обоснование часто проводится с помощью математических
средств, т. е. путем доказательства теорем. При разработке
и применении статистических методов важна методологи-
ческая составляющая (как именно сформулировать задачи,
какие предположения принять для дальнейшего математи-
ческого изучения), а также современные информационные
технологии, в частности компьютерный эксперимент.
Актуальной является задача анализа истории статисти-
ческих методов для выявления тенденций их развития,
применения тенденций для прогнозирования и планирова-
ния исследований в области статистических методов.
Ситуация с внедрением современных статистических
методов на отечественных предприятиях и в организациях
различных отраслей народного хозяйства внушает опти-
мизм. Продолжают развиваться структуры, в которых тре-
буются статистические методы, — подразделения качества,
надежности, управления персоналом, центральные завод-
ские лаборатории и др. В последние годы получили рас-
пространение службы контроллинга, маркетинга и сбыта,
логистики, сертификации, прогнозирования и планирова-
ния, инноваций и инвестиций, управления рисками, эколо-
гии, использующие различные статистические методы (в
частности, методы экспертных оценок). Рассмотренные в
учебнике методы необходимы органам государственного и
муниципального управления, организациям силовых ве-
домств, транспорта и связи, медицины, образования, агро-
промышленного комплекса, научным и практическим ра-
ботникам всех областей деятельности.
Основные этапы становления статистических мето-
дов. В качестве примера первого применения статистиче-
ских методов можно привести Библию, Ветхий Завет. Там
описана процедура и даны результаты переписи военнообя-
занных. Само слово «статистика» происходит от латинско-
го слова status — состояние дел. Вначале под статистикой
понимали описание экономического и политического со-
стояния государства или его части. Например, к 1792 г. от-
носится следующее определение: статистика описывает
состояние государства в настоящее время или в некоторый
известный момент в прошлом. И сейчас деятельность госу-
дарственных статистических служб достаточно хорошо со-
ответствует этому определению.
Однако постепенно термин «статистика» стал исполь-
зоваться более широко. Так, Наполеон Бонапарт под этим
термином понимал «бюджет вещей». Статистические мето-
ды были признаны полезными не только для администра-
тивного управления, но и для управления на уровне от-
дельного предприятия. Согласно формулировке 1833 г.,
«цель статистики заключается в представлении фактов в
наиболее сжатой форме», т. е. статистика уже не связывает-
ся ни с государствоведением, ни с социально-экономи-
ческими проблемами.
В 1954 г. академик Б.В. Гнеденко дал следующее опре-
деление: «статистика состоит из трех разделов:
1) сбор статистических сведений, т. е. сведений, харак-
теризующих отдельные единицы каких-либо массовых со-
вокупностей;
2) статистическое исследование полученных данных,
заключающееся в выяснении тех закономерностей, которые
могут быть установлены на основе данных массового на-
блюдения;
3) разработка приемов статистического наблюдения и
анализа статистических данных. Последний раздел, собст-
венно, и составляет содержание математической статисти-
ки» [8].
Под «статистикой» также часто понимают набор коли-
чественных данных о некотором явлении или процессе.
Специалисты в области статистических методов «статисти-
кой» называют функцию результатов наблюдений, исполь-
зуемую для оценивания характеристик и параметров рас-
пределений и проверки гипотез.
После возникновения теории вероятностей как науки
(Паскаль, Ферма, XVII в.) вероятностные модели стали
использоваться при обработке статистических данных.
В 1794 г. К. Гаусс разработал метод наименьших квадра-
тов (гл. 6), один из наиболее популярных статистических
методов, и применил его при расчете орбиты астероида
Церера. В ХIХ в. заметный вклад в развитие практической
статистики внес А. Кетле (1791—1874), на основе анализа
большого числа реальных данных показавший устойчи-
вость относительных статистических показателей.
Параметрическая статистика. С 1900 г. были изучены
методы, основанные на анализе данных из параметриче-
ских семейств распределений. Наиболее распространенным
было нормальное (гауссово) распределение. Для проверки
гипотез использовались критерии Пирсона, Стьюдента,
Фишера, основанные на вероятностно-статистических мо-
делях, в которых результаты измерений (наблюдений, ис-
пытаний, опытов, анализов) имели нормальное распределе-
ние. Были предложены метод максимального правдоподо-
бия, дисперсионный анализ, сформулированы основные
идеи планирования эксперимента.
Разработанную в первой трети ХХ в. теорию анализа
данных называют параметрической статистикой, поскольку
ее основной объект изучения — выборки из распределений,
описываемых одним параметром или небольшим числом
параметров (2—4). Наиболее общим является семейство
распределений Пирсона, задаваемых четырьмя параметрами.
С математической точки зрения параметрическая стати-
стика позволяет получить теоретические схемы, на основе
которых построена теория. Профессионалам следует обра-
тить внимание на теорию достаточных статистик, неравен-
ство Рао — Крамера, теорию оптимального оценивания и др.
Параметрическую статистику часто критикуют, так как
нельзя указать каких-либо веских причин, по которым рас-
пределение результатов конкретных наблюдений непре-
менно должно входить в параметрическое семейство [9].
Статистические методы в России. В России были по-
лучены многие фундаментальные результаты прикладной
статистики [10]. Первое статистико-экономическое обозре-
ние России составлено И.К. Кирилловым (1689—1737),
обер-секретарем Сената, под названием «Цветущее состоя-
ние Всероссийского государства» [11]. Научный труд по
вопросам организации учета населения в России «Рассуж-
дение о ревизии поголовной и касающемся до оной» напи-
сан в 1747 г. В.Н. Татищевым (1686—1750), известным го-
сударственным деятелем. Он одним из первых применял
анкеты для сбора статистических данных. Большой вклад
в теорию и практику отечественной статистики внес
М.В. Ломоносов (1711—1765).
Огромное значение имеют работы А.Н. Колмогорова
(1903—1987), которые дали первоначальный толчок к разви-
тию ряда направлений прикладной статистики, а также
Н.В. Смирнова (1900—1966) и Л.Н. Большева (1922—1978)
[10]. До сих пор для специалистов важны работы А.Н. Кол-
могорова по аксиоматическому подходу к теории вероятно-
стей, по критерию согласия эмпирического распределения с
теоретическим распределением, по свойствам медианы как
оценки центра распределения, по эффекту «вздувания» ко-
эффициента корреляции, по теории средних величин, по ста-
тистической теории кристаллизации металлов, по методу
наименьших квадратов, по свойствам сумм случайного чис-
ла случайных слагаемых, по статистическому контролю, по
несмещенным оценкам, по аксиоматическому получению
логарифмически нормального закона распределения при
дроблении, по методам обнаружения различий при экспери-
ментах типа погодных [12].
Идеи А.Н. Колмогорова продолжил развивать его уче-
ник Б.В. Гнеденко (1912—1995), занимавшийся предель-
ными теоремами теории вероятностей, математической
статистикой, теорией надежности, статистическими мето-
дами управления качеством, теорией массового обслужи-
вания [13]. По его мнению, важнейшими аспектами востре-
бованности теории и успешного применения ее на практике
являются:
• наличие в теории богатого набора математических
моделей, отражающих разнообразные явления предметной
области;
• наличие в предметной области специалистов, спо-
собных понять математические модели и превратить их в
«руководящие указания» на производстве;
• наличие литературы самого разного уровня, отра-
жающей достижения теории и практику ее применения;
• возможность прямого контакта между создателями
теории и специалистами предметной области для взаимной
корректировки задач теории и методов ее приложения в
предметной области.
Статистические методы применял В.В. Налимов
(1910—1997) — создатель и руководитель нескольких но-
вых научных направлений: метрологии количественного
анализа, химической кибернетики, математической теории
эксперимента и наукометрии. Он также занимался пробле-
мами математизации биологии, анализом оснований эколо-
гического прогноза, вероятностными аспектами эволюции,
проблемами языка и мышления, философией и методологи-
ей науки, проблемами человека в современной науке, веро-
ятностной теорией смыслов.
Наряду с перечисленными исследователями следует
отметить А.Я. Хинчина, С.Н. Бернштейна, Е.Е. Слуцкого,
В.С. Немчинова, В.И. Романовского, К. Круга, А.А. Люби-
щева, А.П. Вощинина и др. В 1990 г. была образована Все-
союзная статистическая ассоциация (ВСА), объединившая
статистиков всех направлений — специалистов по при-
кладной и математической статистике, по надежности (в
основном представителей оборонно-промышленного ком-
плекса), преподавателей экономико-статистических дисци-
плин, работников официальной государственной статисти-
ки. Ведущую роль в создании ВСА сыграл Всесоюзный
центр статистических методов и информатики [15]. Отме-
тим выпуск энциклопедии «Вероятность и математическая
статистика» [16], содержащей полезную информацию для
специалистов по статистическим методам.
Работы по прикладной статистике продолжались в рам-
ках Российской ассоциации статистических методов (соз-
данной на базе одноименной секции ВСА) и Российской
академии статистических методов, а также в рамках Бело-
русской статистической ассоциации. Отечественные работы
по статистическим методам в основном публикуются в жур-
нале «Заводская лаборатория» в разделе «Математические
методы исследования», созданном в 1961 г. В нем за 50 лет
помещено около 1 000 статей по различным направлениям
прикладной статистики, прежде всего по статистическому
анализу числовых величин, по статистике нечисловых дан-
ных, по многомерному статистическому анализу, по плани-
рованию эксперимента, по опыту применения статистиче-
ских методов при решении конкретных прикладных задач.
Точки роста. Выделим пять актуальных направлений
(точек роста), в которых развивается современная приклад-
ная статистика: непараметрическая статистика (непарамет-
рика), устойчивость статистических процедур (робастность),
бутстреп (размножение выборок), статистика интервальных
данных, статистика нечисловых данных (в другой термино-
логии — статистика объектов нечисловой природы, нечи-
словая статистика).
1. Непараметрическая статистика. Статистические
методы, которые не основаны на нереалистическом пред-
положении о том, что рассматриваемые выборки взяты из
распределений, описываемых одним параметром или не-
большим числом параметров (2—4), называют непарамет-
рическими. В первой трети ХХ в. в работах Ч. Спирмена
(1863—1945) и М. Кендалла (1907—1983) были описаны
первые методы непараметрической статистики, основанные
на коэффициентах ранговой корреляции. Но непараметри-
ческая статистика, не содержащая нереалистических
предположений о принадлежности функции распределе-
ния результатов наблюдений тем или иным параметриче-
ским семействам распределений, стала заметной частью
статистики лишь со второй трети ХХ в. В 1930-е гг. поя-
вились работы А.Н. Колмогорова и Н.В. Смирнова, пред-
ложивших и изучивших статистические критерии. После
Второй мировой войны развитие непараметрической стати-
стики пошло быстрыми темпами. Большой вклад в разви-
тие статистики внес Ф. Вилкоксон (1892—1965). К настоя-
щему времени с помощью методов непараметрической ста-
тистики можно решать практически те же статистические
задачи, что и с помощью методов параметрической стати-
стики. Важную роль играют непараметрические оценки
плотности, непараметрические методы регрессии и распо-
знавания образов (дискриминантного анализа).
2. Устойчивость статистических процедур (роба-
стность). Если в параметрических постановках на вероят-
ностные модели статистических данных накладываются
слишком жесткие требования (их функции распределения
должны принадлежать определенному параметрическому
семейству), то в непараметрических постановках — из-
лишне слабые требования (функции распределения должны
быть непрерывны). При этом игнорируется априорная ин-
формация о «примерном виде» распределения. Априори
можно ожидать, что учет «примерного вида» улучшит по-
казатели качества статистических процедур. Развитием
этой идеи является теория устойчивости (робастности) ста-
тистических процедур, в которой предполагается, что рас-
пределение исходных данных мало отличается от распре-
деления некоторого параметрического семейства. За рубе-
жом эту теорию разрабатывали П. Хубер, Ф. Хампель и др.
Частными случаями реализации идеи устойчивости стати-
стических процедур являются статистика объектов нечи-
словой природы и статистика интервальных данных.
Существует много моделей устойчивости в зависимости
от того, какие именно отклонения от заданного параметри-
ческого семейства допускаются. Среди теоретиков наибо-
лее популярной оказалась модель выбросов, в которой ис-
ходная выборка «засоряется» малым числом выбросов,
имеющих принципиально иное распределение. Более пер-
спективна модель малых отклонений распределений, в ко-
торой расстояние между распределением каждого элемента
выборки и базовым распределением не превосходит задан-
ного минимального значения, и модель статистики интер-
вальных данных [2, 17].
3. Бутстреп (размножение выборок). Бутстреп связан
с интенсивным использованием возможностей компьюте-
ров. Основная идея заключается в замене теоретического
исследования вычислительным экспериментом. Например,
вместо описания выборки распределением из параметриче-
ского семейства формируется большое число «похожих»
выборок, т. е. осуществляется размножение выборки. Далее
на основе свойств теоретического распределения с помо-
щью вычислительного метода решаются задачи, рассчиты-
ваются интересующие статистики по каждой из «похожих»
выборок и анализируются полученные распределения.
Квантили этого распределения задают доверительные ин-
тервалы и т. д.
Предположим, что по выборке делаются какие-либо
статистические выводы. Насколько эти выводы устойчивы?
Если есть другие (контрольные) выборки, описывающие
это же явление, можно применить к ним ту же статистиче-
скую процедуру и сравнить результаты. Если таких выбо-
рок не существует, то следует их построить искусственно.
Выбирается исходная выборка и исключается один эле-
мент. Имеется похожая выборка, взятая из того же распре-
деления, только с объемом на единицу меньше. Затем воз-
вращается этот элемент выборки и исключается другой.
Получается вторая похожая выборка. Поступая так со все-
ми элементами исходной выборки, имеем число выборок,
похожих на исходную выборку, равное ее объему. Остается
обработать выборки тем же способом, что и исходную вы-
борку, и изучить устойчивость получаемых выводов —
разброс оценок параметров, частоты принятия или откло-
нения гипотез и т. д.
Есть много способов развития идеи размножения выбо-
рок. Первый вариант — построение по исходной выборке
эмпирической функции распределения, а затем переход ка-
ким-либо образом от кусочно-постоянной функции к не-
прерывной функции распределения, например соединение
точек (x(i); i/n), i=1, 2, ..., n, отрезками прямых. Второй
вариант перехода к непрерывному распределению — по-
строение непараметрической оценки плотности. После это-
го рекомендуется брать размноженные выборки из этого
распределения (являющегося состоятельной оценкой ис-
ходного распределения), непрерывность защитит от совпа-
дений элементов в этих выборках.
Третий вариант построения размноженных выборок бо-
лее прямой. Исходные данные не могут быть определены
совершенно точно и однозначно. Поэтому предлагается к
исходным данным добавлять малые независимые одинако-
во распределенные погрешности. При таком варианте со-
единяем вместе идеи устойчивости и бутстрепа. Поскольку
всегда имеются погрешности измерения, то реальные дан-
ные — это не числа, а интервалы (результат измерения
плюс-минус погрешность).
4. Статистика интервальных данных. Перспектив-
ное и быстро развивающееся направление последних лет —
статистика интервальных данных, в которой рассматрива-
ются асимптотические методы статистического анализа
интервальных данных при больших объемах выборок и ма-
лых погрешностях измерений [2].
В рамках данного научного направления:
• разработана общая схема исследования, включающая
в себя расчет нотны (максимально возможного отклонения
статистики, вызванного интервальностью исходных дан-
ных) и рационального объема выборки (превышение этого
объема не дает существенного повышения точности оцени-
вания);
• оценены математическое ожидание, дисперсия, ко-
эффициент вариации, параметры гамма-распределения и
характеристики аддитивных статистик;
• осуществлена проверка гипотез о параметрах нор-
мального распределения, в том числе с помощью критерия
Стьюдента, а также гипотезы однородности с помощью
критерия Смирнова;
• разработаны подходы к рассмотрению интервальных
данных в основных постановках регрессионного, дискри-
минантного и кластерного анализов;
• изучено влияние погрешностей измерений и наблю-
дений на свойства алгоритмов регрессионного анализа,
• введены и исследованы новые понятия многомерных
и асимптотических нотн и доказаны соответствующие пре-
дельные теоремы;
• разработан интервальный дискриминантный анализ,
в частности, установлено влияние интервальности данных
на показатель качества классификации;
• изучено асимптотическое поведение оценок метода
моментов и оценок максимального правдоподобия, а также
более общих оценок минимального контраста и проведено
асимптотическое сравнение точности указанных выше ме-
тодов в случае интервальных данных;
• найдены условия, при которых в отличие от класси-
ческой математической статистики метод моментов дает
более точные оценки, чем метод максимального правдопо-
добия.
В области асимптотической статистики интервальных
данных российская наука имеет мировой приоритет. Во все
29
виды статистического программного обеспечения включа-
ют алгоритмы интервальной статистики, «параллельные»
обычно используемым алгоритмам прикладной математи-
ческой статистики. Это позволяет в явном виде учесть на-
личие погрешностей результатов наблюдений.
5. Статистика нечисловой природы. Анализ динами-
ки развития прикладной статистики приводит к выводу, что
в XXI в. статистика нечисловой природы станет централь-
ной областью прикладной статистики, поскольку содержит
наиболее общие подходы и результаты.
Исходный объект прикладной математической статисти-
ки — выборка. В вероятностной теории статистики выборка
представляет собой совокупность независимых одинаково
распределенных случайных элементов. Какова природа этих
элементов? В классической математической статистике эле-
менты выборки — числа, в многомерном статистическом
анализе — векторы, в нечисловой статистике элементы вы-
борки — объекты нечисловой природы, которые нельзя
складывать и умножать на числа. Другими словами, объекты
нечисловой природы принадлежат пространствам, не имею-
щим линейной (векторной) структуры [2].
С начала 1970-х гг. под влиянием запросов прикладных
исследований в социально-экономических, технических,
медицинских науках в России активно развивается стати-
стика объектов нечисловой природы. В создании этой
сравнительно новой области прикладной математической
статистики приоритет принадлежит российским ученым.
Большое значение для развития нечисловой статистики
имели запросы теории и практики экспертных оценок [18].
Учебник состоит из трех частей (12 глав). В части I
(главы 1—4) рассмотрены проблемы организации выбо-
рочных исследований на примере двух конкретных марке-
тинговых опросов, модели случайных выборок, в том числе
гипергеометрическая и биномиальная, методы доверитель-
ного оценивания доли и проверки однородности двух би-
номиальных выборок, модели порождения данных, методы
их описания с помощью таблиц и диаграмм, выборочных
характеристик и эмпирической функции распределения,
непараметрических оценок плотности (в пространствах
произвольной природы). Показано, что распределение ре-
зультатов наблюдений (испытаний, измерений, анализов,
опытов), как правило, отличается от нормального распре-
деления. Большое внимание уделено непараметрическим
методам анализа статистических данных, методам оцени-
вания параметров и характеристик. Разработаны и изучены
одношаговые оценки для замены устаревших оценок мак-
симального правдоподобия. Исследована асимптотика ре-
шений экстремальных статистических задач и устойчивость
(робастность) статистических процедур. Оценивание для
сгруппированных данных построено на основе формулы
Эйлера — Маклорена и поправок Шеппарда. Для проверки
гипотез разработан метод моментов, реализованный на
примере гипотезы согласия с гамма-распределением. Про-
демонстрирована крайняя неустойчивость параметрических
методов отбраковки выбросов, приводящая к выводу о не-
возможности их научно обоснованного использования.
Сформулирована предельная теория непараметрических
критериев, опирающаяся на метод приближения ступенча-
тыми функциями. Разработан метод проверки гипотез по
совокупности малых выборок для применения в асимптоти-
ке растущей размерности, когда число неизвестных пара-
метров увеличивается вместе с объемом данных. Рассмотре-
на проблема множественных проверок статистических гипо-
тез, актуальная при разработке высоких статистических
технологий анализа данных.
В части II (главы 5—7) приведены конкретные стати-
стические методы анализа данных различных типов. Разо-
браны методы точечного и доверительного непараметриче-
ского оценивания основных характеристик распределения
(математического ожидания, медианы, дисперсии, среднего
квадратического отклонения, коэффициента вариации), ме-
тоды проверки однородности характеристик двух незави-
симых выборок, обоснована необходимость использования
непараметрического критерия Крамера — Уэлча вместо
статистики критерия Стьюдента. Изучены свойства двух-
выборочного критерия Вилкоксона, обосновано примене-
ние состоятельных критериев проверки однородности неза-
висимых выборок. Разработаны методы проверки однород-
ности связанных выборок, в том числе на основе критериев
проверки гипотезы симметрии. Перечислены основные по-
становки многомерного статистического анализа. Рассмот-
рены линейный (Пирсона) и непараметрические (Спирмена,
Кендалла) коэффициенты парной корреляции. Изложена
задача восстановления линейной зависимости между двумя
переменными на основе непараметрического метода наи-
меньших квадратов, а также основы линейного регрессион-
ного анализа, теории индексов, в том числе индексов по-
требительских цен, статистические методы анализа дина-
мики, в том числе методы анализа и прогнозирования
временнûх рядов и системы эконометрических уравнений.
Включены оригинальные подходы к оцениванию периода и
периодической составляющей сигналов.
Часть III (главы 8—12) посвящена вероятностно-ста-
тистическому моделированию в различных областях при-
менения [19]. Рассмотрены основные понятия теории ста-
тистического моделирования; демографические модели;
статистические модели движения товарных потоков в про-
цессе работы склада (модели логистики); статистическое
моделирование исторических процессов, позволившее су-
щественно уточнить хронологию древнего мира и средне-
вековья; вероятностно-статистическое моделирование по-
мех, создаваемых электровозами. Описан подход к модели-
рованию взаимовлияний факторов методом Жихарева —
Орлова — Кольцова, на основе которого разработана сис-
тема моделей налогообложения и проанализированы мак-
роэкономические балансовые соотношения. Изучена эко-
нометрическая база метода — моделирование и анализ
многомерных временнûх рядов. Рассмотрены комплекс
статистических методов управления качеством, в том числе
методы обнаружения разладки с помощью контрольных
карт, весьма актуальные не только для организации про-
изводства, но и в менеджменте; статистическое моделиро-
вание в экспертных исследованиях. Приведены примеры
процедур экспертных оценок, выделены основные стадии
экспертного опроса. В качестве примера применения обще-
научной теории измерений получены правила выбора вида
средних величин в зависимости от типов шкал, в которых
измерены ответы экспертов. Показано использование мето-
дов средних арифметических и медиан баллов в сочетании
с процедурами согласования кластеризованных ранжи-
ровок. Рассмотрены математические методы анализа экс-
пертных оценок, в частности расстояние Кемени и медиана
Кемени, в пространствах бинарных отношений; медико-
статистические технологии в научных медицинских иссле-
дованиях; проблемы внедрения высоких статистических
технологий. Проанализировано развитие статистического
инструментария отечественных социологов за последние
30 лет, изложены перспективы применения люсианов,
асимптотика квантования и выбор числа градаций в социо-
логических анкетах.
Автор настоящего учебника более 40 лет постоянно за-
нимается статистическими методами. В издание включены
теоретические и практические результаты, полученные им
в 1970-х гг. и в последние годы. Литературные ссылки по-
могут углубленно изучить материал. В части 1 учебника
помещена краткая информация о деятельности автора как
научного работника и преподавателя, о ранее выпущенных
им монографиях, учебниках, учебных пособиях.
В отличие от учебной литературы по математическим
дисциплинам, в настоящей книге практически отсутствуют
доказательства. Однако в нескольких случаях они приведены.
Автор благодарен сотрудникам редакции Издательства
МГТУ им. Н.Э. Баумана, членам редколлегии и секции
«Математические методы исследования» журнала «Завод-
ская лаборатория», всему коллективу кафедры ИБМ-2
«Экономика и организация производства» МГТУ
им. Н.Э. Баумана и заведующему кафедрой профессору
С.Г. Фалько за постоянную поддержку проектов по разра-
ботке и внедрению организационно-экономических, эконо-
метрических и статистических курсов, членам Ученого со-
вета, поддержавшим инициативу о введении статистических
методов в учебный процесс, декану факультета «Инженер-
ный бизнес и менеджмент» профессору И.Н. Омельченко за
совместные научные исследования, рецензентам — заве-
дующему кафедрой «Системы управления экономичес-
кими объектами» Московского авиационного института
В.Д. Калачанову и заместителю директора Института про-
блем управления РАН Д.А. Новикову.
Автор благодарен за помощь в написании гл. 11 сыну
А.А. Орлову и жене Л.А. Орловой.
С текущей научной информацией по теории и практике
статистических методов анализа данных можно ознако-
миться на сайте «Высокие статистические технологии»
http://orlovs.pp.ru, а также на странице «Лаборатория
экономико-математических методов в контроллинге»
http://www.ibm.bmstu.ru/nil/lab.html (сайт научно-учебного
комплекса «Инженерный бизнес и менеджмент» МГТУ
им. Н.Э. Баумана). Достаточно большой объем информации
содержит еженедельник «Эконометрика».
Читатели могут сообщать свои вопросы и замечания по
адресу Издательства или непосредственно автору по элек-
тронной почте Е-mail:
prof-orlov@mail.ru.
Литература
1. Орлов А.И. Прикладная статистика. М.: Экзамен,
2006. 671 с.
2. Орлов А.И. Организационно-экономическое моде-
лирование: В 3 ч. Ч.1: Нечисловая статистика. М.: Изд-во
МГТУ им. Н.Э. Баумана, 2009. 541 с.
3. Орлов А.И. Эконометрика. Ростов н/Д: Феникс,
2009. 572 с.
4. Математическое моделирование процессов налого-
обложения (подходы к проблеме)/ А.И. Орлов, М.А. Кас-
тосов, Н.Ю. Иванова и др. М.: Изд-во ЦЭО Минобразования
РФ, 1997. 232 с.
5. Орлов А.И. Высокие статистические технологии //
Заводская лаборатория. 2003. Т. 69. № 11. С. 55–60.
6. Орлов А.И. Математическое обеспечение сертифи-
кации: сравнительный анализ диалоговых систем по стати-
стическому контролю // Заводская лаборатория. 1996. Т. 62.
№ 7. С. 46—49.
7. Орлов А.И. Распространенная ошибка при использо-
вании критериев Колмогорова и омега-квадрат // Заводская
лаборатория. 1985. Т. 51. №1. С. 60—62.
8. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция
определений термина «статистика». М.: МГУ, 1972. 46 с.
9. Орлов А.И. О развитии прикладной статистики //
Современные проблемы кибернетики (прикладная стати-
стика). М.: Знание, 1981. С. 3—14.
10. Большев Л.Н., Смирнов Н.В. Таблицы математиче-
ской статистики. М.: Наука, 1983. 416 с.
11. Плошко Б.Г., Елисеева И.И. История статистики. М.:
Финансы и статистика. 1990. 295 с.
12. Кудлаев Э.М., Орлов А.И. Вероятностно-статисти-
ческие методы исследования в работах А.Н. Колмогорова //
Заводская лаборатория. 2003. Т. 69. № 5. С. 55—61.
13. Орлов А.И. Математические методы исследования в
работах Бориса Владимировича Гнеденко // Заводская ла-
боратория. 2007. Т. 73. №7. С. 66—72.
14. Смирнов Н.В. Теория вероятностей и математиче-
ская статистика: Избранные труды. М.: Наука, 1970. 289 с.
15. Kotz S., Smith K. The Hausdorff Space and Applied Statistics:
A View from USSR // The American Statistician. November
1988. Vol. 42. No 4. Р. 241—244.
16. Вероятность и математическая статистика. Энци-
клопедия / Под ред. Ю.В. Прохорова. М.: Большая Российская
Энциклопедия, 1999. 910 с.
17. Орлов А.И. Устойчивость в социально-экономичес-
ких моделях. М.: Наука, 1979. 296 с.
18. Орлов А.И. Организационно-экономическое моде-
лирование: В 3 ч. Ч. 2: Экспертные оценки. М.: Изд-во
МГТУ им. Н.Э. Баумана. 2011. 486 с.
19. Неуймин Я.Г. Модели в науке и технике. История,
теория, практика. Л.: Наука, 1984. 190 с.