1199. Орлов А.И. Искусственный интеллект: нечисловая статистика : учебник. — М.: Ай Пи Ар Медиа, 2022. — 446 c. — ISBN 978-5-4497-1435-0. — Текст : электронный // IPR SMART : [сайт]. — URL:
https://www.iprbookshop.ru/117028.html Предлагаем аннотацию, содержание, предисловие, введение.
А.И. Орлов
Искусственный интеллект
Нечисловая статистика
Учебник
2022
Автор:
Орлов А. И. доктор экономических наук, доктор технических наук, кандидат физико-математических наук, профессор, кафедры "Экономика и организация производства" (ИБМ-2) Московский государственный технический университет имени Н.Э. Баумана
Орлов Александр Иванович.
Искусственный интеллект: Нечисловая статистика: учебник. / А.И.Орлов. –... – 2022.
В учебнике впервые систематически рассматривается важная составляющая искусственного интеллекта - сердцевина высоких статистических технологий, одна из четырех основных областей современной прикладной математической статистики – нечисловая статистика. Она порождена потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основой ее математического аппарата является использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В книге рассмотрены основные виды нечисловых данных, методология, процедуры и особенности их статистического анализа. Представлены статистические методы в пространствах произвольной природы, статистика нечисловых данных конкретных видов, статистика интервальных данных. Большое внимание уделяется проблемам практического применения методов и результатов нечисловой статистики.
Подготовлен с учетом требований Федерального государственного образовательного стандарта высшего образования.
Учебник предназначен для студентов, преподавателей и специалистов, заинтересованных в применении современных статистических методов в технике, экономике, управлении, медицине, социологии и иных областях, а также для разработчиков таких методов и соответствующего программного обеспечения. Книга представляет интерес также для исследователей в области искусственного интеллекта, прикладной и математической статистики, анализа данных, методов оптимизации, математического и организационно-экономического моделирования.
(с) Орлов А.И., 2021
Содержание
Предисловие
Введение. Нечисловая статистика - основа высоких статистических технологий
В-1. О развитии статистических методов
В-2. Структура нечисловой статистики
Литература
Глава 1. Нечисловые статистические данные
1.1. Количественные и категоризованные данные
1.2. Основы теории измерений
1.3. Виды нечисловых данных
1.4. Нечеткие множества – частный случай нечисловых данных
1.5. Вероятностные модели порождения нечисловых данных
1.6. Сведение нечетких множеств к случайным
1.7. Данные и расстояния в пространствах произвольной природы
1.8. Аксиоматическое введение расстояний
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 2. Статистические методы в пространствах произвольной природы
2.1. Эмпирические и теоретические средние
2.2. Законы больших чисел
2.3. Экстремальные статистические задачи
2.4. Одношаговые оценки
2.5. Непараметрические оценки плотности
2.6. Статистики интегрального типа
2.7. Методы восстановления зависимостей
2.8. Методы классификации
2.9. Методы шкалирования
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 3. Статистика нечисловых данных конкретных видов
3.1. Инвариантные алгоритмы и средние величины
3.2. Теория случайных толерантностей
3.3. Метод проверки гипотез по совокупности малых выборок
3.4. Теория люсианов
3.5. Метод парных сравнений
3.6. Статистика нечетких множеств
3.7. Статистика нечисловых данных в экспертных оценках
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 4. Статистика интервальных данных
4.1. Основные идеи статистики интервальных данных
4.2. Интервальные данные в задачах оценивания
4.3. Интервальные данные в задачах проверки гипотез
4.4. Линейный регрессионный анализ интервальных данных
4.5. Интервальный дискриминантный анализ
4.6. Интервальный кластер-анализ
4.7. Интервальные данные в инвестиционном менеджменте
4.8. Статистика интервальных данных в прикладной статистике
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Приложение 1. Теоретическая база нечисловой статистики
П-1. Законы больших чисел
П-2. Центральные предельные теоремы
П-3. Теоремы о наследовании сходимости
П-4. Метод линеаризации
П-5. Принцип инвариантности
Литература
Приложение 2. Об авторе этой книги
Предисловие
В "Национальной стратегии развития искусственного интеллекта на период до 2030 года принято следующее определение: "... искусственный интеллект - комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений" (
https://www.garant.ru/products/ipo/prime/doc/72738946/)". В этом определении прямо не говорится про научную основу "комплекса технологических решений". По нашему мнению, в социально-экономической области в качестве такой основы можно использовать организационно-экономическое моделирование, включая высокие статистические технологии, в том числе нечисловую статистику, теорию и практику экспертных оценок, статистические методы анализа данных.
Автор занимается проблемами искусственного интеллекта около полвека (первые статьи напечатаны в 1972 г.). Настоящая книга посвящена важной составляющей искусственного интеллекта - нечисловой статистике (статистике нечисловых данных, статистике объектов нечисловой природы).
В учебнике впервые в мире систематически рассматривается одна из четырех основных областей современной прикладной статистики - нечисловая статистика. Она порождена в 70-х годах ХХ в. потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основой ее математического аппарата является использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В учебнике рассмотрены основные виды нечисловых данных и особенности их статистического анализа. Большое внимание уделяется проблемам практического применения рассматриваемых методов и результатов.
Нечисловую статистику называют также статистикой нечисловых данных или статистикой объектов нечисловой природы. Она является сердцевиной высоких статистических технологий, т.е. современной прикладной статистики. Ее рассматривают также как одну из четырех основных областей статистики. Три других - это статистика чисел (случайных величин), статистика векторов (многомерный статистический анализ), статистика функций (временных рядов и случайных процессов).
Какие данные называют нечисловыми? Описание технического, социально-экономического, медицинского объекта изучения часто удается представить в виде вектора, часть координат которого измерена по количественным шкалам, а часть - по качественным, имеющим конечное число градаций. Это - наиболее распространенный тип нечисловых данных.
В общем случае под нечисловыми данными понимают элементы пространств, не являющихся линейными (векторными), в которых нет операций сложения элементов и их умножения на действительное число. Кроме результатов измерений по качественным признакам, примерами являются последовательности из 0 и 1, бинарные отношения (ранжировки, разбиения, толерантности); множества (в том числе плоские изображения и объемные тела); нечеткие (размытые, расплывчатые, fuzzy) числа и множества, их частный случай - интервалы; результаты парных сравнений и другие объекты, возникающие в прикладных исследованиях. Все эти виды нечисловых данных и вероятностные модели их порождения подробно рассматриваются в учебнике. Их обобщением, как и обобщением числовых данных (чисел, векторов, функций), являются элементы пространств произвольной природы.
Исторически нечисловые данные стали рассматриваться раньше, чем статистические данные в виде действительных чисел. Книга Чисел Ветхого Завета содержит обширные сведения о численностях тех или иных совокупностей. Натуральные числа можно отнести к нечисловым данным - хотя их можно складывать, но умножение на действительное число выводит за пределы натурального ряда. Теория вероятностей также начиналась с моделирования нечисловых данных, таких, как результаты бросания игральных костей и вытаскивания шаров из урн. Однако к началу ХХ века основное внимание статистиков переместилось на рассмотрение числовых случайных величин, моделирующих действительнозначные результаты наблюдений.
К 70-м годам ХХ в. развитие прикладных научных исследований в инженерном деле, социологии, экономике, менеджменте, психологии, медицине и других областях привело к необходимости разработки методов статистического анализа нечисловых данных. В СССР вокруг всесоюзного семинара «Экспертные оценки и нечисловая статистика» сложился неформальный научный коллектив из нескольких десятков активных исследователей.
Сначала изучались методы анализа конкретных видов нечисловых данных, устанавливались связи между ними. Затем пришло понимание статистики нечисловых данных как самостоятельной области прикладной статистики со своей внутренней структурой и разнообразными связями между подходами и результатами, относящимися к тем или иным видам нечисловых данных.
Статистика нечисловых данных была выделена нами как самостоятельная область прикладной статистики в 1979 г. За прошедшие с тех пор годы арсенал ее методов пополнился многими полезными новшествами. Но основные идеи выдержали проверку временем, что и оправдывает их изложение в настоящей книге.
О развитии нечисловой статистики. Как уже отмечалось, в 70-е годы ХХ в. в СССР возник неформальный научный коллектив исследователей, изучающих методы анализа нечисловых данных различных видов. Центром являлся научный семинар "Экспертные оценки и нечисловая статистика" и одноименная комиссия в составе Научного Совета АН СССР по комплексной проблеме "Кибернетика".
Вначале разбирались подходы предшественников, в частности, аксиоматическое введение расстояний между объектами нечисловой природы и нахождение среднего по Кемени, репрезентативная теория измерений, нечеткие множества Заде, парные сравнения по Дэвиду и др. Затем были проведены многочисленные самостоятельные исследования. В частности, были установлены взаимосвязи между подходами и результатами для различных типов нечисловых данных, разработана общая теория статистического анализа нечисловых данных произвольной природы.
В итоге стало возможным говорить о новой области прикладной статистики - нечисловой статистике. Время ее окончательного формирования - первая половина 80-х годов - было и временем наибольшей организационной активности. Две всесоюзные конференции - в Алма-Ате (1981 г.) и в Таллинне (1984 г.) собрали по 300-500 участников.
Со второй половины 80-х годов ХХ в. статистика нечисловых данных (статистика объектов нечисловой природы) стабильно развивается. Много публикаций содержится в журналах "Заводская лаборатория", "Социология: методология, методы, математические модели", периодических сборниках "Статистические методы оценивания и проверки гипотез". Разделу нечисловой статистики - статистике интервальных данных была посвящена Международная конференция ИНТЕРВАЛ-92 (Интервальные и стохастические методы в науке и технике, г. Калининград Московской области, сентябрь 1992 г.)
Неформальный коллектив по нечисловой статистике включает в себя десятки российских исследователей, а если учитывать авторов одной - двух работ - то и сотни. За почти 30 лет выпущено несколько десятков сборников и монографий, много статей в научных журналах. Однако из-за отсутствия формальной инфраструктуры (например, Института нечисловой статистики в составе Российской академии наук) имеются лишь единичные методики и программные продукты, предназначенные для практического использования. В отличие от научных монографий практически отсутствуют учебники и учебные пособия, а также книги, содержащие введение и общий обзор нечисловой статистики.
Настоящая книга заполняет существенный пробел в литературе по нечисловой статистике. Она дает введение в предмет, позволяет познакомиться с нечисловой статистикой на современном научном уровне. Изложение доводится до переднего края ведущихся в настоящее время научных исследований. Постоянно в поле зрения находятся вопросы практического применения рассматриваемых подходов, методов, результатов. В частности, используется опыт разработки нашим коллективом автоматизированного рабочего места МАТЭК (математика в экспертизе), предназначенного для организатора экспертного опроса. В монографии отражены также работы по статистике нечисловых данных и ее применениям, за которые автору в 1992 г. была присуждена ученая степень доктора технических наук (по научному докладу об опубликованных работах, т.е. без написания диссертации классического вида).
Чтобы в сравнительно небольшой книге охватить всю статистику нечисловых данных, приходится идти на жертвы. Мы отказываемся от разбора большинства доказательств, отсылая читателей к публикациям, содержащим эти доказательства. Примерами подобного стиля изложения являются обзоры по статистике нечисловых данных, помещенные в разделе "Математические методы исследования" журнала "Заводская лаборатория" (1990, № 3; 1995, № 3, № 5; 1996, № 3; 2019, № 11).
Стиль книги. В любой математизированной области есть три уровня исследований - методологический, теоретический и практический. На методологическом уровне излагаются общие подходы и формулируются основные результаты. На теоретическом уровне, грубо говоря, доказывают теоремы. В частности, выявление необходимых и достаточных "условий регулярности" обычно осуществляется в результате цепи работ этого уровня.
Например, на методологическом уровне Центральная Предельная Теорема теории вероятностей формулируется так: "При некоторых условиях регулярности распределение центрированной и нормированной суммы независимых случайных величин при росте числа слагаемых стремится к стандартному нормальному распределению". Около двухсот лет - от Муавра и Лапласа до Линдеберга и Феллера - "некоторые условия регулярности" уточнялись в работах теоретического уровня.
В настоящей книге изложение идет в основном на методологическом уровне. При спуске на теоретический уровень приводятся формулировки теорем, в основном без доказательств, но со ссылками на публикации, где они содержатся. Обоснованием для выбора такого варианта построения книги, кроме желания ограничить ее объем разумными рамками, послужило следующее представление о предпочтениях будущих читателей: большинство из них не извлечет пользы из того, что в некоторой формулировке можно заменить требование, скажем, дифференцируемости определенной функции на требование ее непрерывности. Сказанное не означает, что автор отрицает целесообразность проведения научных работ, посвященных подобным ослаблениям условий регулярности. Просто им не место в книге, предназначенной для первого знакомства с нечисловой статистикой.
На практическом уровне исследований большое внимание уделяют конкретному объекту приложений - технической, социально-экономической или медицинской системе. Для достаточно информативного описания каждого такого исследования нужна отдельная монография, которая обычно и готовится в качестве отчета по работе. Поэтому мы вынуждены ограничиться краткими замечаниями о практическом применении различных методов нечисловой статистики. Однако суммарно эти замечания составляют существенную часть как авторского замысла, так и объема книги.
Содержание книги. Во введении кратко обсуждаем историю и современное состояние статистических методов и, прежде всего, прикладной статистики, место в ней статистики нечисловых данных. Анализируется сложившаяся структура нечисловой статистики – сердцевины высоких статистических технологий.
Книга делится на главы, а главы - на разделы. В главе 1 изучаются конкретные виды нечисловых статистических данных, соответствующие вероятностные модели. Сопоставляются количественные и категоризованные данные. Разобраны основы теории измерений. Большое внимание уделено нечетким множествам как частному виду нечисловых данных. Продемонстрирована возможность сведения теории нечетких множеств к теории случайных множеств. Обсуждаются статистические данные и необходимые для их анализа расстояния в пространствах произвольной природы. Обсуждается аксиоматический подход к введению расстояний и показателей различия в различных пространствах объектов нечисловой природы.
В главе 2 развиваются статистические методы анализа данных произвольного вида, лежащих в метрическом пространстве или в пространстве с мерой различия. Эмпирические и теоретические средние приходится определять как решения экстремальных статистических задач, и законы больших чисел оказываются частными случаями утверждений об асимптотическом поведении решений таких задач. Другие классы частных случаев подобных утверждений связаны с теорией одношаговых оценок параметров распределения вероятностей (они имеют преимущества по сравнению с оценками максимального правдоподобия) и с оптимизационными постановками основных задач прикладной статистики, в том числе задач восстановления зависимостей, классификации, шкалирования и снижения размерности. Для описания распределений нечисловых данных разработаны непараметрические оценки плотности, используемые также в регрессионном, дискриминантном и кластерном анализах. В предельной теории статистик интегрального типа найден ряд необходимых и достаточных условий.
Глава 3 посвящена статистическому анализу конкретных видов нечисловых данных. В частности, в рамках репрезентативной теории измерений получены характеризации средних величин свойством устойчивости результата сравнения средних относительно той или иной группы допустимых преобразований шкалы. Изучены случайные толерантности. Метод проверки гипотез по совокупности малых выборок применен в теории люсианов - конечных последовательностей испытаний Бернулли с, вообще говоря, различными вероятностями успеха. Люсианы находят применение в теории парных сравнений. Рассмотрены основные вопросы статистики нечетких множеств. Обсуждается использование нечисловой статистики в теории и практике экспертных оценок - области исследований, во многом стимулировавшей развитие основных идей статистического анализа нечисловых данных.
Глава 4 посвящена основным подходам и результатам статистики интервальных данных, быстро развивающейся в последние годы. Для интервальных данных решен ряд задач оценивания и проверки гипотез. Построены интервальные аналоги регрессионного, дискриминантного и кластерного анализов. Интервальные данные применены в инвестиционном менеджменте. Рассмотрена роль статистики интервальных данных в прикладной статистике.
В приложение 1 включены некоторые вопросы, относящиеся к теоретической базе нечисловой статистики. Рассмотрены классические законы больших чисел, центральные предельные теоремы, метод линеаризации и принцип инвариантности. Теоремы о наследовании сходимости сравнительно малоизвестны и могут представить особый интерес. В приложении 2 содержится информация об авторе, позволяющая читателям лучше понять происхождение идей, изложению которых посвящена настоящая книга.
Нумерация формул, определений. теорем, таблиц, рисунков - своя в каждом разделе. Литература приводится по главам в порядке первого упоминания. Списки литературы включают основные публикации по нечисловой статистике, а также те работы, на которые даются ссылки в тексте. Они не претендуют на полноту хотя бы потому, что перечень известных автору публикаций по рассматриваемой тематике по объему превысил бы настоящую книгу в несколько раз.
Для кого эта книга? Она предназначена для широкого круга читателей - студентов и преподавателей, прикладников и математиков. Для ее чтения достаточно знаний в объеме вводного курса математической статистики, включающего основные задачи описания данных, оценивания и проверки гипотез.
Эта книга - прежде всего учебник. Он предназначен для студентов различных специальностей, прежде всего технических, управленческих и экономических, слушателей институтов повышения квалификации, структур послевузовского (в том числе второго) образования, в частности, программ МВА («Мастер делового администрирования»), преподавателей вузов. Учебник будет полезен инженерам, менеджерам, экономистам, социологам, биологам, медикам, психологам, историкам, другим специалистам, самостоятельно повышающим свой научный уровень. Короче, всем научным и практическим работникам, связанным с анализом данных.
Учебник может быть использован при изучении дисциплин, полностью или частично посвященных методам анализа нечисловых результатов наблюдений (измерений, испытаний, опытов). Типовые названия таких курсов - «Прикладная статистика», «Эконометрика», «Анализ данных», «Статистический анализ», «Теория принятия решений», «Управленческие решения», «Экономико-математическое моделирование», «Прогнозирование», «Хемометрия», «Математические методы в социологии», и т.п. Учебник необходим студентам специальности «Менеджмент высоких технологий», особенно при изучении учебной дисциплины «Организационно-экономическое моделирование».
Книга будет полезна широкому кругу специалистов, заинтересованных в применении современных статистических методов анализа нечисловых данных в любой предметной области. Она необходима разработчикам таких методов и соответствующего программного обеспечения, т.е. специалистам по прикладной статистике.
Специалистам по теории вероятностей и математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную математическую статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований.
Книга представляет интерес для исследователей - специалистов по вопросам управления, в том числе по принятию решений, методам оптимизации и математическому моделированию. Наконец, без нее не сможет обойтись ни один преподаватель прикладной или математической статистики, статистических методов для любой конкретной области применений, если он хочет, чтобы его лекционный курс был современным.
Благодарности. Автор благодарен за полезные обсуждения многочисленным коллегам по научным семинарам, по работе в Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана, в Российской ассоциации статистических методов и Российской академии статистических методов.
С текущей научной информацией по статистическим методам можно познакомиться на сайте «Высокие статистические технологии»
http://orlovs.pp.ru . Достаточно большой объем информации содержит еженедельник "Эконометрика" (электронная газета кафедры "Экономика и организация производства" научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана), выпускаемый с июля 2000 г. (о нем сказано на указанном выше сайте). Автор искренне благодарен разработчику сайта и редактору электронного еженедельника А.А. Орлову за многолетний энтузиазм.
Автор будет благодарен читателям, если они сообщат свои вопросы и замечания по адресу издательства или непосредственно автору по электронной почте Е-mail:
prof-orlov@mail.ru .
Введение. Нечисловая статистика - основа
высоких статистических технологий
В.1. О развитии статистических методов
Четыре столетия статистики. Впервые термин «статистика» появился в «Гамлете» Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира – знать, придворные. По-видимому, оно происходит от латинского слова status, что в оригинале означает «состояние» или «политическое состояние».
В течение следующих 400 лет термин «статистика» понимали и понимают по-разному. В работе [1] собрано более 200 определений этого термина, некоторые из них обсуждаются ниже.
Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: «Статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб (в нашей стране – Федеральная служба государственной статистики (Росстат)) вполне укладывается в это определение.
Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту «Статистика – это бюджет вещей». Тем самым статистические методы были признаны полезными не только для административного управления, но и на уровне отдельного предприятия. Согласно формулировке 1833 г. «цель статистики заключается в представлении фактов в наиболее сжатой форме». Приведем еще два высказывания. Статистика состоит в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел (1895). Статистика – это численное представление фактов из любой области исследования в их взаимосвязи (1909).
В ХХ в. статистику обычно рассматривают как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных (1925). В 1954 г. академик АН УССР Б.В. Гнеденко дал следующее определение: «Статистика состоит из трех разделов:
1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».
Термин «статистика» употребляют еще в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, в специальной литературе статистикой называют функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.
Чтобы подойти к термину «нечисловая статистика», кратко рассмотрим историю реальных статистических работ.
Краткая история статистических методов. Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Росстат. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако у Росстата нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого веков (типовой монографией тех времен можно считать книгу [2], которая в настоящее время ещё легко доступна).
Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах доля мальчиков не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов, к лучшим из них относится очерк [3].
В 1794 г. (по другим данным - в 1795 г.) К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты астероида Церера - для борьбы с ошибками астрономических наблюдений [4]. В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец А. Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [5]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. [3]. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны [6].
Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Разрабатывались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция.
Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н.Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [7]. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, далеких от новых веяний в статистике. Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к наукометрии.
Наукометрия статистических исследований. В рамках движения за создание Всесоюзной статистической ассоциации (учреждена в 1990 г.) был проведен анализ статистики как области научно-практической деятельности. Он показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций (подробнее см. статьи [8,9]). Реально же каждый из специалистов знаком с существенно меньшим количеством книг и статей. Так, в известном трехтомнике М Кендалла и А. Стьюарта [10-12] – наиболее полном на русском языке издании по статистическим методам - всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании в публикациях ценных идей приходится признать, что каждый специалист по статистическим методам владеет лишь небольшой частью накопленных в этой области знаний. Не удивительно, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, о котором еще 30 лет назад писали В.В.Налимов и другие науковеды (см., например, [13]).
Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная. Основа профессиональных знаний исследователя, инженера, экономиста менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап - их тиражирование новому поколению. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном соответствуют 40-60-м годам ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более - прикладных работ. Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются.
Активно продолжается развитие тупиковых направлений. Психологически это понятно. Приведу пример из своего опыта. По заказу Госстандарта я разработал методы оценки параметров гамма-распределения [14]. Поэтому мне близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства Рао-Крамера и т.д. К сожалению, я знаю, что это - тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы - непараметрические. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и мне. Но необходимо идти вперед.
Появление прикладной статистики. В нашей стране термин «прикладная статистика» вошел в широкое употребление в 1981 г. после издания массовым тиражом (33940 экз.) сборника «Современные проблемы кибернетики (прикладная статистика)». В этом сборнике обосновывалась трехкомпонентная структура прикладной статистики [15]. Во-первых, в нее входят ориентированные на прикладную деятельность статистические методы анализа данных (эту область можно назвать прикладной математической статистикой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком относить к математике. Она включает в себя две явно внематематические области. Во-вторых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, как представлять результаты. В-третьих, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных.
В нашей стране термин «прикладная статистика» использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов, о некоторых из которых рассказано в статье [15].
Прикладная статистика и математическая статистика – это две разные научные дисциплины. Различие четко проявляется и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).
Статистические методы. В области статистического анализа данных естественно выделить три вида научной и прикладной деятельности (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов прикладной статистики, предназначенных для анализа данных различной природы;
б) разработка и исследование вероятностно-статистических моделей в соответствии с конкретными потребностями науки и практики (моделей управления качеством, сбора и анализа оценок экспертов и др.);
в) применение статистических методов и моделей для анализа конкретных данных (например, данных о росте цен с целью изучения инфляции).
Кратко рассмотрим три только что выделенных вида научной и прикладной деятельности. По мере движения от а) к в) сужается широта области применения статистического метода, но при этом повышается его значение для анализа конкретной ситуации. Если работам вида а) соответствуют научные результаты, значимость которых оценивается по общенаучным критериям, то для работ вида в) основное - успешное решение задач конкретной области. Работы вида б) занимают промежуточное положение, поскольку, с одной стороны, теоретическое изучение статистических моделей может быть достаточно сложным и математизированным (см., например, монографию [6]), с другой - результаты представляют интерес не для всей науки, а лишь для некоторого направления в ней.
Структура современной статистики. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации [9]. Прикладная статистика - методическая дисциплина, являющаяся центром статистики. При применении методов прикладной статистики к конкретным областям знаний и отраслям народного хозяйства получаем научно-практические дисциплины типа "статистика в промышленности", "статистика в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [6]. Математическая статистика играет роль математического фундамента для прикладной статистики.
К настоящему времени очевидно четко выраженное размежевание этих двух научных направлений. Математическая статистика исходит из сформулированных в 1930-50 гг. постановок математических задач, происхождение которых связано с анализом конкретных статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих задач. Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом почти не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.
Сам термин «прикладная статистика» возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов и накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (считается, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та порождает новые научные дисциплины (сейчас "измерением земли" занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап - окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, уже закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает проф. МГУ им. М.В. Ломоносова В.Н. Тутубалин [16], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.
Подведем итог. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина - прикладная статистика.
В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в популярные среди исследователей статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а методики статистического анализа и пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам. Анализ грубых ошибок в стандартах дан в статье [17].
Что дает прикладная статистика народному хозяйству? Так называлась статья [18], в которой приводились многочисленные примеры успешного использования методов прикладной математической статистики при решении практических задач. Перечень примеров можно продолжать практически безгранично (см., например, недавнюю сводку [19]).
Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США - не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества. Недавно появилась концепция «Шесть сигм» - система управления компанией или ее подразделениями на основе интенсивного использования статистических методов [20, 41]. Внедрение «Шести сигм» дает значительный экономический эффект. Исполнительный директор General Electric Джек Уэлч подчеркнул в ежегодном докладе, что всего за три года «Шесть сигм» сэкономили компании более 2 миллиардов долларов.
В 1988 г. затраты на статистический анализ данных в нашей стране оценивались в 2 миллиарда рублей ежегодно [21]. Согласно расчетам сравнительной стоимости валют на основе потребительских паритетов [6], эту величину можно сопоставить с 2 миллиардами долларов США. Следовательно, объем отечественного "рынка статистических услуг" был на порядок меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.
Публикации по новым статистическим методам, по их применениям в технико-экономических исследованиях, в инженерном деле постоянно появляются, например, в журнале "Заводская лаборатория", в секции "Математические методы исследования". Надо назвать также журналы "Автоматика и телемеханика" (издается Институтом проблем управления Российской академии наук), "Экономика и математические методы" (издается Центральным экономико-математическим институтом РАН).
Однако необходимо констатировать, что для большинства менеджеров, экономистов и инженеров прикладная статистика и другие статистические методы - пока экзотикой. Это объясняется тем, что в вузах современным статистическим методам почти не учат. Во всяком случае, по состоянию на 2022 г. каждый квалифицированный специалист в этой области - самоучка. Этому выводу не мешает то, что в вузовских программах обычно есть два курса, связанных со статистическими методами. Один из них - "Теория вероятностей и математическая статистика". Этот небольшой курс обычно читают специалисты с математических кафедр. Они успевают дать лишь общее представление об основных понятиях математической статистики. Кроме того, внимание математиков обычно сосредоточено на внутриматематических проблемах, их больше интересует доказательства теорем, а не применение современных статистических методов в задачах экономики и менеджмента. Другой курс - "Статистика" или "Общая теория статистики", входящий в стандартный блок экономических дисциплин. Фактически он является введением в прикладную статистику и содержит первые начала эконометрических методов (по состоянию на 1900 г.).
Прикладная статистика и другие статистические методы опираются на два названных вводных курса. Цель - вооружить специалиста современным статистическим инструментарием. Специалист – это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира - Японии и США, Франции и Швейцарии, Перу и Ботсване и др. - статистическим методам обучают в средней школе. ЮНЕСКО постоянно проводят конференции по вопросам такого обучения [22]. В СССР и СЭВ, а теперь - по плохой традиции - и в России игнорируют этот предмет в средней школе и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден - снижение конкурентоспособности специалистов.
Проблемы прикладной статистики и других статистических методов постоянно обсуждаются специалистами. Широкий интерес вызвала дискуссия в журнале «Вестник статистики», в рамках которой были, в частности, опубликованы статьи [9, 18]. На появление в нашей стране прикладной статистики отреагировали и в США [23].
В нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика РАН А.Н. Колмогорова [24]. Во многих случаях именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 50-70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н.В. Смирнов и Л.Н. Большев. В настоящем учебнике постоянно встречаются ссылки на лучшую публикацию ХХ в. по прикладной статистике – составленные ими подробно откомментированные «Таблицы …» [25].
Основное продвижение в статистике конца ХХ в. - это создание нечисловой статистики. Ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы.
Высокие статистические технологии. Термин «высокие технологии» популярен в современной научно-технической литературе. Он используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий статистического анализа данных - как в любой интенсивно развивающейся научно-практической области. В учебнике [6] при обсуждении «точек роста» нашей научно-практической дисциплины в качестве «высоких статистических технологий» выделены технологии непараметрического анализа данных; устойчивые (робастные) технологии; технологии, основанные на размножении выборок, на использовании достижений статистики нечисловых данных и статистики интервальных данных.
Обсудим пока не вполне привычный термин «высокие статистические технологии». Каждое из трех слов несет свою смысловую нагрузку.
«Высокие», как и в других областях, означает, что статистическая технология опирается на современные достижения статистической теории и практики, в частности, теории вероятностей и прикладной математической статистики. При этом «опирается на современные научные достижения» означает, во-первых, что математическая основа технологии получена сравнительно недавно в рамках соответствующей научной дисциплины, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии в нею (а не являются т.н. эвристическими). Со временем, если новые подходы и результаты не заставляют пересмотреть оценку применимости и возможностей технологии, заменить ее на более современную, «высокие статистические технологии» переходят в «классические статистические технологии», такие, как метод наименьших квадратов. Итак, высокие статистические технологии - плоды недавних серьезных научных исследований. Здесь два ключевых понятия - "молодость" технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет) и опора на «высокую науку».
Термин "статистические" привычен, но разъяснить его нелегко. Во всяком случае, к деятельности органов официальной государственной статистики высокие статистические технологии отношения не имеют. Выше уже обсуждалась эволюция терминов «статистика» и «статистические методы».
Наконец, сравнительно редко используемый применительно к статистике термин «технологии». Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:
- планирование статистического исследования;
- организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
- более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок;
- применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
Возможны и иные структуризации статистических технологий. Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только отдельные кирпичики, из которых складывается статистическая технология. Между тем учебники и монографии по статистике обычно рассказывают об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования.
Итак, процедура статистического анализа данных – это информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди статистиков. "Экспертные системы" в области статистического анализа данных пока не стали рабочим инструментом статистиков. Ясно, что и не могли стать. Можно сказать и жестче - это пока научная фантастика или даже вредная утопия.
В литературе статистические технологии рассматриваются явно недостаточно. В частности, обычно все внимание сосредотачивается на том или ином элементе технологической цепочки, а переход от одного элемента к другому остается в тени. Между тем проблема "стыковки" статистических алгоритмов, как известно, требует специального рассмотрения [6], поскольку в результате использования предыдущего алгоритма зачастую нарушаются условия применимости последующего. В частности, результаты наблюдений могут перестать быть независимыми, может измениться их распределение и т.п.
Например, при проверке статистических гипотез большое значение имеют такие хорошо известные характеристики статистических критериев, как уровень значимости и мощность. Методы их расчета и использования при проверке одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза, а потом с учетом результатов ее проверки - вторая, то итоговая процедура, которую также можно рассматривать как проверку некоторой (более сложной) статистической гипотезы, имеет характеристики (уровень значимости и мощность), которые, как правило, нельзя просто выразить через характеристики двух составляющих гипотез, а потому они обычно неизвестны. В результате итоговую процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло, она может войти в число научно обоснованных процедур прикладной статистики. Этот сюжет подробнее рассмотрен в учебнике [6].
Почему живучи «низкие статистические технологии»? «Высоким статистическим технологиям» противостоят, естественно, «низкие статистические технологии». Это те технологии, которые не соответствуют современному уровню науки и техники. Обычно они одновременно и устарели, и не адекватны сути решаемых статистических задач.
Примеры таких технологий неоднократно критически рассматривались, например, в журнале «Заводская лаборатория». Достаточно вспомнить критику использования классических процентных точек критериев Колмогорова и омега-квадрат в ситуациях, когда параметры оцениваются по выборке и эти оценки подставляются в «теоретическую» функцию распределения [39]. Приходилось констатировать широкое распространение таких порочных технологий и конкретных алгоритмов, в том числе в государственных и международных стандартах (перечень ошибочных стандартов дан в [6]), учебниках и распространенных пособиях (разбор ошибок проведен в статьях [39, 40]). Тиражирование ошибок происходит обычно в процессе обучения в вузах или путем самообразования при использовании недоброкачественной литературы.
На первый взгляд вызывает удивление устойчивость «низких статистических технологий», их постоянное возрождение во все новых статьях, монографиях, учебниках. Поэтому, как ни странно, наиболее «долгоживущими» оказываются не работы, посвященные новым научным результатам, а публикации, разоблачающие ошибки, типа статьи [39]. Прошло больше 20 лет с момента ее публикации, но она по-прежнему актуальна, поскольку ошибочное применение критериев Колмогорова и омега-квадрат по-прежнему распространено.
Целесообразно указать здесь по крайней мере три обстоятельства, которые определяют эту устойчивость ошибок.
Первое обстоятельство — прочно закрепившаяся традиция. Учебники по т.н. «Общей теории статистики», написанные экономистами (поскольку учебная дисциплина «Статистика» официально относится к экономике), если беспристрастно проанализировать их содержание, состоят в основном из введения в прикладную статистику, изложенного в стиле «низких статистических технологий», на уровне 1950-х гг. К «низкой» прикладной статистике добавлена некоторая информация о деятельности государственных органов официальной статистики. Примерно таково же положение со статистическими методами в медицине - одни и те же «низкие статистические технологии» переписываются из книги в книгу. Кратко говоря, «профессора-невежды порождают новых невежд» [9]. Так мы писали в 1990 г., но никто из указанных невежд даже не поинтересовался, какие ошибки имеются в виду. Новое поколение, обучившись ошибочным алгоритмам, их использует, а с течением времени и достижением должностей, ученых званий и степеней– пишет новые учебники со старыми ошибками.
Руководство государственных органов официальной статистики РФ, воспользовавшись катаклизмами начала 1990-х годов, сделало вид, что ему неизвестно о создании в 1990 г. Всесоюзной статистической ассоциации и секции статистических методов в ее составе. Росстат по-прежнему закрыт от «высоких статистических технологий» и работает на уровне позапрошлого века. Защита стала надежнее, поскольку в соответствии с современным стилем аппаратной работы на письма и обращения можно не отвечать.
Второе обстоятельство связано с большими трудностями при оценке экономической эффективности применения статистических методов вообще и при оценке вреда от применения ошибочных методов в частности. (А без такой оценки как докажешь, что «высокие статистические технологии» лучше «низких»?) Некоторые соображения по первому из этих вопросов приведены в статье [18], содержащей оценки экономической эффективности ряда работ по применению статистических методов. При оценке вреда от применения ошибочных методов приходится учитывать, что общий успех в конкретной инженерной или научной работе вполне мог быть достигнут вопреки их применению, за счет «запаса прочности» других составляющих общей работы. Например, преимущество одного технологического приема над другим можно продемонстрировать как с помощью критерия Крамера-Уэлча проверки равенства математических ожиданий (что правильно), так и с помощью двухвыборочного критерия Стьюдента (что, вообще говоря, неверно, т.к. обычно не выполняются условия применимости этого критерия - нет ни нормальности распределения, ни равенства дисперсий). Кроме того, приходится выдерживать натиск невежд, защищающих свои ошибочные представления, методики и инструкции, например, государственные стандарты. Вместо исправления ошибок применяются самые разные приемы бюрократической борьбы с теми, кто разоблачает ошибки (подробнее см. [6]).
Третье существенное обстоятельство – трудности со знакомством с высокими статистическими технологиями. В течение последних 15 лет только журнал «Заводская лаборатория» предоставлял такие возможности. К сожалению, поток современных статистических книг, выпускавшихся, в частности, издательством “Финансы и статистика”, практически превратился в узкий ручеек… Возможно, более существенным является влияние естественной задержки во времени между созданием "новых статистических технологий" и написанием полноценной и объемной учебной и методической литературы. Она должна позволять знакомиться с новой методологией, новыми методами, теоремами, алгоритмами, технологиями не по кратким оригинальным статьям, а при обычном обучении.
Как ускорить внедрение "высоких статистических технологий"? Таким образом, весь арсенал используемых статистических методов можно распределить по трем потокам:
- высокие статистические технологии;
- классические статистические технологии,
- низкие статистические технологии.
Основная современная проблема статистических технологий - добиться, чтобы в конкретных статистических исследованиях использовались только технологий первых двух потоков.Под классическими статистическими технологиями понимаем технологии почтенного возраста, сохранившие свое значение для современной статистической практики. Таковы метод наименьших квадратов, статистики Колмогорова, Смирнова, омега-квадрат, непараметрические коэффициенты корреляции Спирмена и Кендалла (относить их к «ранговым» - значит делать уступку «низким статистическим технологиям») и многие другие статистические процедуры.
Каковы возможные пути решения основной современной проблемы в области статистических технологий?
Бороться с конкретными невеждами - дело почти безнадежное. Отстаивая свое положение и должности, они либо нагло игнорируют информацию о своих ошибках, как это делают авторы учебников по «Общей теории статистики», либо с помощью различных бюрократических приемов уходят и от ответственности, и от исправления ошибок по существу (как это было со стандартами по статистическим методам - см. учебник [6]). Третий вариант - признание и исправление ошибок - встречается, увы, редко. Но встречается.
Конечно, необходима демонстрация квалифицированного применения высоких статистических технологий. В 1960-70-х годах этим занималась лаборатория акад. А.Н. Колмогорова в МГУ им. М.В. Ломоносова. Секция «Математические методы исследования» журнала «Заводская лаборатория» опубликовала за последние 40 лет более 1000 статей в стиле «высоких статистических технологий. В настоящее время действует Институт высоких статистических технологий и эконометрики МГТУ им. Н.Э.Баумана. Есть, конечно, целый ряд других научных коллективов, работающих на уровне «высоких статистических технологий».
Но самое основное - обучение. Какие бы новые научные результаты ни были получены, если они остаются неизвестными студентам, то новое поколение исследователей и инженеров вынуждено осваивать их по одиночке, а то и переоткрывать. Т.е. практически новые научные результаты почти исчезают, едва появившись. Избыток публикаций превратился в тормоз развития. По нашим данным, к настоящему времени по статистическим технологиям опубликовано не менее миллиона статей и книг, из них не менее 100 тысяч являются актуальными для современного специалиста. Реальное число публикаций, которые способен освоить исследователь, по нашей оценке, не превышает 2-3 тысяч. Во всяком случае, в наиболее «толстом» (на русском языке) трехтомнике по статистике М. Дж. Кендалла и А. Стьюарта приведено около 2 тысяч литературных ссылок. Итак, каждый исследователь знаком не более чем с 2-3% актуальных литературных источников. Поскольку существенная часть публикаций заражена «низкими статистическими технологиями», то исследователь самоучка имеет мало шансов выйти на уровень «высоких статистических технологий». Одновременно приходится констатировать, что масса полезных результатов погребена в изданиях прошлых десятилетий и имеет мало шансов встать в ряды «высоких статистических технологий» без специально организованных усилий современных специалистов по их адаптации.
Итак, основное - обучение. Несколько огрубляя, можно сказать: что попало в учебные курсы и соответствующие учебные пособия - то сохраняется, что не попало - то пропадает. Подробнее об обучении - в конце раздела. Сейчас - об упомянутом выше Институте высоких статистических технологий и эконометрики (ИВСТЭ) МГТУ им. Н.Э.Баумана. Он был организован в 1989 г. и действует на базе факультета «Инженерный бизнес и менеджмент». Институт на хоздоговорных и госбюджетных началах занимается развитием, изучением и внедрением «высоких статистических технологий», т.е. наиболее современных технологий анализа технических, экономических, социологических, медицинских данных, ориентированных на использование в условиях современного производства и экономики. Основной интерес представляют применения «высоких статистических технологий» для анализа конкретных экономических данных, т.е. в эконометрике. Из экономических дисциплин наиболее перспективным представляется применение «высоких статистических технологий» для поддержки принятия управленческих решений, прежде всего в таком новом (для России) перспективном направлении экономической науки и практики, как контроллинг [42].
Вначале Институт действовал как Всесоюзный центр статистических методов и информатики Центрального правления Всесоюзного экономического общества. В 1990-1992 гг. было выполнено более 100 хоздоговорных работ, в том числе для НИЦентра по безопасности атомной энергетики, ВНИИ нефтепереработки, ПО “Пластик”, ЦНИИ черной металлургии им. Бардина, НИИ стали, ВНИИ эластомерных материалов и изделий, НИИ прикладной химии, ЦНИИ химии и механики, НПО “Орион”, ВНИИ экономических проблем развития науки и техники, ПО “Уралмаш”, “АвтоВАЗ”, МИИТ, Казахского политехнического института, Донецкого государственного госуниверситета и многих других.
Затем ИВСТЭ разрабатывает эконометрические методы анализа нечисловых данных, а также процедуры расчета и прогнозирования индекса инфляции и валового внутреннего продукта (для Министерства обороны РФ). Мы занимаемся методологией построения и использования математических моделей процессов налогообложения (для Министерства налогов и сборов РФ), методологией оценки рисков реализации инновационных проектов высшей школы (для Министерства промышленности, науки и технологий РФ). Институт оценивает влияние различных факторов на формирование налогооблагаемой базы ряда налогов (для Минфина РФ). Мы прорабатываем перспективы применения современных статистических и экспертных методов для анализа данных о научном потенциале (для Министерства промышленности, науки и технологий РФ). Важное направление связано с эколого-экономической тематикой - разработка методологического, программного и информационного обеспечения анализа рисков химико-технологических объектов (для Международного научно-технического центра), методов использования экспертных оценок в задачах экологического страхования (совместно с Институтом проблем рынка РАН). Институт проводит маркетинговые исследования (в частности, для Institute for Market Research GfK MR Russia, Промрадтехбанка, фирм, торгующих растворимым кофе, программным обеспечением, образовательными услугами). Интерес вызывают наши работы по прогнозированию социально-экономического развития России методом сценариев, по экономико-математическому моделированию развития малых предприятий и созданию современных систем информационной поддержки принятия решений для таких организаций.
Институт ведет фундаментальные исследования в области высоких статистических технологий и эконометрики. Информация об Институте представлена на сайте «Высокие статистические технологии» (
http://orlovs.pp.ru),. Институтом издается компьютерный еженедельник «Эконометрика» (около 1,0 тыс. подписчиков). Архив выпусков «Эконометрики» можно рассматривать как хрестоматию по различным разделам эконометрики, а также по высоким статистическим технологиям.
Может возникнуть естественный вопрос: зачем нужны высокие статистические технологии, разве недостаточно обычных статистических методов? Мы считаем и доказываем своими теоретическими и прикладными работами, что совершенно недостаточно. Так, многие данные в информационных системах имеют нечисловой характер, например, являются словами или принимают значения из конечных множеств. Нечисловой характер имеют и упорядочения, которые дают эксперты или менеджеры, например, выбирая главную цель, следующую по важности и т.д. Значит, нужна статистика нечисловых данных. Мы ее построили. Далее, многие величины известны не абсолютно точно, а с некоторой погрешностью - от и до. Другими словами, исходные данные - не числа, а интервалы. Нужна статистика интервальных данных. Мы ее развиваем. В монографии [42] на с.138 хорошо сказано: "Нечеткая логика - мощный элегантный инструмент современной науки, который на Западе (и на Востоке - в Японии, Китае - А.О.) можно встретить в десятках изделий - от бытовых видеокамер до систем управления вооружениями, - у нас до самого последнего времени был практически неизвестен". Напомним, первая монография российского автора по теории нечеткости была написана нами [43]. Ни статистики нечисловых данных, ни статистики интервальных данных, ни статистики нечетких данных нет и не могло быть в классической статистике. Все это - высокие статистические технологии. Они разработаны за последние 10-30-50 лет. А обычные вузовские курсы по общей теории статистики и по математической статистике разбирают научные результаты, полученные в первой половине ХХ века.
Важная часть эконометрики - применение высоких статистических технологий к анализу конкретных экономических данных, что зачастую требует дополнительной теоретической работы по доработке статистических технологий применительно к конкретной ситуации. Большое значение имеют конкретные эконометрические модели, например, модели экспертных оценок или экономики качества. И конечно, такие конкретные применения, как расчет и прогнозирование индекса инфляции. Сейчас уже многих ясно, что годовой бухгалтерский баланс предприятия может быть использован для оценки его финансово-хозяйственной деятельности только с привлечением данных об инфляции. Применение эконометрики дает заметный экономический эффект. Например, в США - не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества.
Преподавание высоких статистических технологий и их сердцевины - нечисловой статистики. Приходится с сожалением констатировать, что в России практически отсутствует подготовка специалистов по высоким статистическим технологиям. В курсах по теории вероятностей и математической статистике обычно даются лишь классические основы этих дисциплин, разработанные в первой половине ХХ в., а преподаватели свою научную деятельность предпочитают посвящать доказательству никому не нужных теорем, а не высоким статистическим технологиям.
В настоящее время появилась надежда на эконометрику. В России начинают развертываться эконометрические исследования и преподавание эконометрики, в том числе не только Институтом высоких статистических технологий и эконометрики. Преподавание этой дисциплины ведется в Московском государственном университете экономики, статистики и информатики (МЭСИ), на экономическом факультете МГУ им. М.В. Ломоносова и еще в нескольких экономических учебных заведениях. Среди технических вузов мы, факультет "Инженерный бизнес и менеджмент" МГТУ им. Н.Э.Баумана, имеем в настоящее время приоритет в преподавания эконометрики [6]. Мы полагаем, что экономисты, менеджеры и инженеры, прежде всего специалисты по контроллингу [42], должны быть вооружены современными средствами информационной поддержки, в том числе высокими статистическими технологиями и эконометрикой. Очевидно, преподавание должно идти впереди практического применения. Ведь как применять то, чего не знаешь?
Один раз - в 1990-1992 гг. мы уже обожглись на недооценке необходимости предварительной подготовки тех, для кого предназначены современные компьютерные средства. Наш коллектив (Всесоюзный центр статистических методов и информатики Центрального правления Всесоюзного экономического общества) разработал систему диалоговых программных систем обеспечения качества продукции. Их созданием руководили ведущие специалисты страны. Но распространение программных продуктов шло на 1-2 порядка медленнее, чем мы ожидали. Причина стала ясна не сразу. Как оказалось, работники предприятий просто не понимали возможностей разработанных систем, не знали, какие задачи можно решать с их помощью, какой экономический эффект они дадут. А не понимали и не знали потому, что в вузах никто их не учил статистическим методам управления качеством. Без такого систематического обучения нельзя обойтись - сложные концепции "на пальцах" за 5 минут не объяснишь.
Есть и противоположный пример - положительный. В середине 1980-х годов в советской средней школе ввели новый предмет "Информатика". И сейчас молодое поколение превосходно владеет компьютерами, мгновенно осваивая быстро появляющиеся новинки, и этим заметно отличается от тех, кому за 40-50 лет. Если бы удалось адекватно выполнить уже принятые на государственном уровне решения и ввести в средней школе курс теории вероятностей и статистики - а такой курс есть в Японии и США, Швейцарии, Кении и Ботсване, почти во всех странах [22] - то ситуация могла бы быть резко улучшена. Надо, конечно, добиться того, чтобы такой курс был построен на высоких статистических технологиях, а не на низких. Другими словами, он должен отражать современные достижения, а не концепции пятидесятилетней или столетней давности.
В.2. Структура нечисловой статистики (в сокращении)
Нечисловая статистика (статистика нечисловых данных, статистика объектов нечисловой природы) как самостоятельное научное направление была выделена в нашей стране. Термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [26]. В том же году в работе [27] была сформулирована программа развития этого нового направления статистических методов.
Со второй половины 80-х годов существенно возрос интерес к этой тематике и у зарубежных исследователей. Это проявилось, в частности, на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Нечисловая статистика используется в нормативно-технической и методической документации, ее применение позволяет получить существенный технико-экономический эффект [28].
Цель настоящего раздела - дать введение в нечисловую статистику (статистику нечисловых данных, статистику объектов нечисловой природы), выделить ее структуру, указать основные идеи и результаты, подробнее рассмотренные в дальнейших главах книги.
Напомним, что объектами нечисловой природы называют элементы пространств, не являющихся линейными. Примерами являются вектора из 0 и 1, измерения в качественных шкалах, бинарные отношения (ранжировки, разбиения, толерантности), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистике (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
нечисловая статистика, или статистика нечисловых данных (ее важная часть – статистика интервальных данных).
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие дискретные распределения. Получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А.Н.Колмогорова, Б.В. Гнеденко, Ю.К. Беляева, Я.П. Лумельского и многих других (см., например, классические монографии [29,30]).
В семидесятых годах ХХ в. в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю.Н. Тюриным, Б.Г.Литваком, А.И.Орловым, Г.А. Сатаровым, Д.С. Шмерлингом и другими специалистами вокруг созданного в 1973 г. научного семинара "Экспертные оценки и нечисловая статистика", развивала в основном вероятностную статистику нечисловых данных. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены десятки сборников и обзоров, перечень которых приведен в итоговой работе [31]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие нечисловой статистики и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок.
Новосибирская группа (Г.С. Лбов, Б.Г. Миркин и др.), как правило, не использовала вероятностные модели, т.е. вела исследования в рамках детерминированного анализа данных. В московской группе в рамках анализа данных также велись работы, в частности, Б.Г.Литваком. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллинне, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других отечественных научных центрах.
Внутреннее деление нечисловой статистики. Внутри рассматриваемого направления прикладной статистики выделяют следующие области:
1. Статистика конкретных видов объектов нечисловой природы.
2. Статистика в пространствах общей (произвольной) природы.
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассматривают:
1.1) теорию измерений;
1.2) статистику бинарных отношений;
1.3) теорию люсианов (бернуллиевских векторов);
1.4) теорию парных сравнений;
1.5) статистику случайных множеств;
1.6) статистику нечетких множеств;
1.7) статистику интервальных данных
1.
аксиоматическое введение метрик;
1.9) многомерное шкалирование и кластер-анализ (существенную часть этой тематики относят также к многомерному статистическому анализу), и др.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [26, 32] и дальнейших главах настоящего учебника. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю, таблицам сопряженности, а также по анализу текстов и некоторые другие (см. [6, 31, 33]).
Применения статистики объектов нечисловой природы. Идеи, подходы, результаты статистики объектов нечисловой природы оказались полезными и в классических областях прикладной статистики. Статистика в пространствах общей природы позволила с единых позиций рассмотреть всю прикладную статистику, в частности, показать, что регрессионный, дисперсионный и дискриминантный анализы являются частными случаями общей схемы регрессионного анализа в пространстве произвольной природы. Поскольку структура модели - объект нечисловой природы, то ее оценивание, в частности, оценивание степени полинома в регрессии, также относится к статистике нечисловых данных. Если учесть, что результаты измерения всегда имеют погрешность, т.е. являются не числами, а интервалами или нечеткими множествами, то приходим к необходимости разработки статистики интервальных данных. Ее развитие заставило пересмотреть некоторые выводы теоретической статистики. Например, в статистике интервальных данных отсутствует состоятельность оценок, нецелесообразно увеличивать объем выборок сверх некоторого предела (см. главу 4).
Технико-экономическая эффективность от применения методов статистики нечисловых данных достаточно высока. К сожалению, из-за изменения экономической ситуации, в частности, из-за инфляции трудно сопоставлять конкретные экономические результаты в разные моменты времени. Кроме того, методы нечисловой статистики составляют часть методов прикладной статистики. А те, в свою очередь - часть методов, входящих в систему информационной поддержки принятия решений на предприятии. Какую часть приращения прибыли предприятия надо отнести на эту систему? Можно проанализировать, как работает система управления фирмой в настоящее время. Но можно только оценивать, скорее всего, с помощью экспертных оценок, каковы были бы результаты финансово-хозяйственной деятельности предприятия, если бы система управления фирмой была бы иной, например, содержала бы методы нечисловой статистики.
Нечисловая статистика как часть прикладной статистики продолжает бурно развиваться. В частности, постоянно увеличивается количество ее практически полезных применений при анализе конкретных технических, экономических, медицинских данных - в научных, инженерно-технических, социологических, исторических, маркетинговых исследованиях, в контроллинге, при управлении качеством и предприятием в целом, в макроэкономике, при проведении научных медицинских работ и др.
Нечисловая статистика и концепция устойчивости. Основой для развития нечисловой статистики послужили результаты, полученные в монографии [26]. Судя по названию, она посвящена проблемам устойчивости в математических моделях социально-экономических явлений и процессов. Устойчивость выводов и принимаемых решений рассматривается относительно допустимых отклонений исходных данных и предпосылок модели. Как связаны проблемы устойчивости с нечисловой статистикой?
Во-первых, результаты объективного измерения нечисловых объектов обычно более устойчивы, чем числовых величин. Например, заключение о качестве изделия (годно - дефектно) более устойчиво, чем результат измерения его числового параметра (например, массы). Из-за погрешности повторного измерения масса изделия будет описываться несколько иным числом, а вывод о дефектности при повторной проверке сохранится.
Во-вторых, человеку свойственно использовать в своем мышлении нечисловые величины, прежде всего слова, а не появившиеся исторические недавно числовые системы. Именно поэтому для описания лингвистических переменных стали использовать нечеткие множества. Нечисловые оценки и выводы - первичны, их числовая оболочка - вторична. Поэтому нечисловая сердцевина устойчивее числовой периферии мышления и принятия решений. Другими словами, результаты субъективного измерения нечисловых объектов также более устойчивы, чем результаты субъективного измерения числовых величин.
В-третьих, многие постановки, приведенные выше, приобретают естественный вид в рамках концепции устойчивости. Например, требование устойчивости результата сравнения средних приводит к характеризации средних величин шкалами измерений, в которых их можно использовать. Любая предельная теорема - это утверждение об устойчивости того или иного математического объекта относительно изменения объема выборки или другого параметра, по которому происходит переход к пределу. Много подобных примеров приведено в монографии [26].
Таким образом, нечисловая статистика - это не только наиболее современная область статистических методов, но и центральная часть этой научно-практической дисциплины, наиболее важная как с теоретической, так и с прикладной точки зрения. Нечисловая статистика – сердцевина высоких статистических технологий [44].
В настоящее время нечисловая статистика (статистика нечисловых данных, статистика объектов нечисловой природы) - весьма развитая область искусственного интеллекта. К ней относятся посвящено большинство новых публикаций по прикладной статистике 45]. Развитию нечисловой статистики посвящена, в частности, часть I монографии [46], статьи [47, 48].
Литература
1. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». – М.: МГУ, 1972. – 46 с.
2. Ленин В.И. Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности. - М.: Политиздат, 1986. - XII, 610 с.
3. Гнеденко Б.В. Очерк по истории теории вероятностей. – М.:УРСС, 2001. – 88 с.
4. Клейн Ф. Лекции о развитии математики в ХIХ столетии. Часть I. - М.-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.
5. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. - М.: Финансы и статистика. 1990. - 295 с.
6. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 3-е, исправленное и дополненное. - М.: Изд-во "Экзамен", 2004. – 576 с.
7. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. - В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.
8. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.
9. Орлов А.И. О перестройке статистической науки и её применений. / Вестник статистики. 1990. № 1. С.65 - 71.
10. Кендалл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 566 с.
11. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973. - 899 с.
12. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976. - 736 с.
13. Налимов В.В., Мульченко З.М. Наукометрия. Изучение развития науки как информационного процесса. - М.: Наука, 1969. - 192 с.
14. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов. 1984. - 53 с. (в настоящее время может быть использован как научная публикация).
15. Орлов А.И. О развитии прикладной статистики. - В сб.: Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981, с.3-14.
16. Тутубалин В.Н. Границы применимости (вероятностно-статистические методы и их возможности). - М.: Знание, 1977. - 64 с.
17. Орлов А.И. Сертификация и статистические методы. - Журнал "Заводская лаборатория". 1997. Т.63. № 3. С.55-62.
18. Орлов А.И. Что дает прикладная статистика народному хозяйству? – Журнал «Вестник статистики». 1986, No.8. С.52 – 56.
19. Орлов А.И., Орлова Л.А. Применение эконометрических методов при решении задач контроллинга. – Журнал «Контроллинг». 2003. №4. С.50-54.
20. Панде П., Холп Л. Что такое «Шесть сигм»? Революционный метод управления качеством / Пер. с англ. - М.: Альпина Бизнес Букс, 2004. - 158 с.
21. Комаров Д.М., Орлов А.И. Роль методологических исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов). - В сб.: Вопросы применения экспертных систем. - Минск: Центросистем, 1988. С.151-160.
22. The teaching of statistics / Studies in mathematical education, vol.7. - Paris, UNESCO, 1991. - 258 pp.
23. Котц С., Смит К. Пространство Хаусдорфа и прикладная статистика: точка зрения ученых СССР. - The American Statistician. November 1988. Vol. 42. № 4. Р. 241-244.
24. Кудлаев Э.М., Орлов А.И. Вероятностно-статистические методы исследования в работах А.Н.Колмогорова. – Журнал «Заводская лаборатория». 2003. Т.69. № 5. С.55-61.
25. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
26. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
27. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. – В сб.: Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. - С.17-33.
28. Кривцов В.С., Орлов А.И., Фомин В.Н. Современные статистические методы в стандартизации и управлении качеством продукции. – Журнал «Стандарты и качество». 1988. No.3. С.32-36.
29. Беляев Ю.К. Вероятностные методы выборочного контроля. - М.: Наука, 1975. - 408 с.
30. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Изд-во стандартов, 1979. - 200 с.
31. Орлов А.И. Статистика объектов нечисловой природы (Обзор). – Журнал «Заводская лаборатория». 1990. Т.56. No.3. С.76-83.
32. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. - М.: Большая Российская энциклопедия, 1999. - 910 с.
33. Толстова Ю.Н. Анализ социологических данных. – М.: Научный мир, 2000. – 352 с.
34. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. - 192 с.
35. Орлов А.И. Асимптотика решений экстремальных статистических задач. – В сб.: Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып.10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. - С. 4-12.
36. Орлов А.И. Асимптотическое поведение статистик интегрального типа. – В сб.: Вероятностные процессы и их приложения. Межвузовский сборник. - М.: МИЭМ, 1989. С.118-123.
37. Кендэл М. Ранговые корреляции. - М.:Статистика,1975. - 216 с.
38. Раушенбах Г.В. Меры близости и сходства. - В сб.: Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - С.169-203.
39. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат. – Журнал «Заводская лаборатория».1985. Т.51. No.1. С.60-62.
40. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона? – Журнал «Заводская лаборатория». 1999. Т.65. No.1. С.51-55.
41. Орлов А.И. «Шесть сигм» - новая система внедрения математических методов исследования. – Журнал «Заводская лаборатория». 2006. Т.72. No.5. С.50 – 53.
42. Контроллинг в бизнесе. Методологические и практические основы построения контроллинга в организациях / А.М. Карминский, Н.И. Оленев, А.Г. Примак, С.Г.Фалько. - М.: Финансы и статистика, 1998. - 256 с.
43. Орлов А. И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980.- 64 с.
44. Орлов А.И. Высокие статистические технологии // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №11. С.55-60.
45. Орлов А.И. Развитие математических методов исследования (2006 – 2015 гг.) // Заводская лаборатория. Диагностика материалов. 2017. Т.83. №1. Ч.1. С. 78-86.
46. Лойко В.И., Луценко Е.В., Орлов А.И. Высокие статистические технологии и системно-когнитивное моделирование в экологии : монография. – Краснодар : КубГАУ, 2019. – 258 с.
47. Орлов А.И. Статистика нечисловых данных за сорок лет (обзор) // Заводская лаборатория. Диагностика материалов. 2019. Т.85. №11. - С. 69-84.
48. Орлов А.И. Статистика нечисловых данных - центральная часть современной прикладной статистики // Научный журнал КубГАУ. 2020. № 156. С. 111–142.