Вышла наша новая книга: Орлов А.И. Нечисловая статистика
Московский государственный технический университет им. Н.Э. Баумана
____________________________________________________________________
А.И.Орлов
ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКОЕ МОДЕЛИРОВАНИЕ
Часть 1
НЕЧИСЛОВАЯ
СТАТИСТИКА
Учебник
Допущено Учебно-методическим объединением вузов
по университетскому политехническому образованию
в качестве учебника для студентов высших учебных заведений,
обучающихся по направлению
«Организация и управление наукоемкими производствами»,
специальности «Менеджмент высоких технологий»
Издательство МГТУ им.Н.Э. Баумана
Москва 2009
Рецензенты:
кафедра «Системы управления экономическими объектами» Московского государственного авиационного института - технического университета (заведующий кафедрой, доктор экономических наук, профессор В.Д. Калачанов),
доктор экономических наук, профессор С.А. Смоляк
Орлов А.И.
Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана. – 2009. – 541 с.
Впервые в систематизированном виде рассмотрена одна из четырех основных областей современной прикладной математической статистики – нечисловая статистика, порожденная потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основа её математического аппарата - использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики.
Проанализированы основные виды нечисловых данных, методология, процедуры и особенности их статистического анализа. Представлены статистические методы в пространствах произвольной природы, статистика нечисловых данных конкретных видов, статистика интервальных данных. Большое внимание уделено практическому применению методов и результатов нечисловой статистики.
Материал учебника соответствует курсам лекций, которые автор читает в МГТУ им. Н.Э. Баумана.
Для студентов, преподавателей и специалистов, заинтересованных в применении современных статистических методов в технике, экономике, управлении, медицине, социологии и иных областях, для разработчиков таких методов и соответствующего программного обеспечения, а также для исследователей в области прикладной и математической статистики, анализа данных, методов оптимизации, математического и организационно-экономического моделирования.
Содержание
Предисловие
Введение. Нечисловая статистика - основа высоких статистических технологий
В-1. О развитии статистических методов
В-2. Структура нечисловой статистики
Литература
Глава 1. Нечисловые статистические данные
1.1. Количественные и категоризованные данные
1.2. Основы теории измерений
1.3. Виды нечисловых данных
1.4. Вероятностные модели порождения нечисловых данных
1.5. Нечеткие множества – частный случай нечисловых данных
1.6. Сведение нечетких множеств к случайным
1.7. Данные и расстояния в пространствах произвольной природы
1.8. Аксиоматическое введение расстояний и показателей различия
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 2. Статистические методы в пространствах произвольной природы
2.1. Эмпирические и теоретические средние
2.2. Законы больших чисел
2.3. Экстремальные статистические задачи
2.4. Одношаговые оценки
2.5. Непараметрические оценки плотности
2.6. Статистики интегрального типа
2.7. Методы восстановления зависимостей
2.8. Методы классификации
2.9. Методы шкалирования
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 3. Статистика нечисловых данных конкретных видов
3.1. Инвариантные алгоритмы и средние величины
3.2. Теория случайных толерантностей
3.3. Метод проверки гипотез по совокупности малых выборок
3.4. Теория люсианов
3.5. Метод парных сравнений
3.6. Статистика нечетких множеств
3.7. Статистика нечисловых данных в экспертных оценках
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Глава 4. Статистика интервальных данных
4.1. Основные идеи статистики интервальных данных
4.2. Интервальные данные в задачах оценивания
4.3. Интервальные данные в задачах проверки гипотез
4.4. Линейный регрессионный анализ интервальных данных
4.5. Интервальный дискриминантный анализ
4.6. Интервальный кластер-анализ
4.7. Интервальные данные в инвестиционном менеджменте
4.8. Статистика интервальных данных в прикладной статистике
Литература
Темы докладов, рефератов, исследовательских работ
Контрольные вопросы и задачи
Приложение 1. Теоретическая база нечисловой статистики
П-1. Законы больших чисел
П-2. Центральные предельные теоремы
П-3. Теоремы о наследовании сходимости
П-4. Метод линеаризации
П-5. Принцип инвариантности
Литература
Приложение 2. Основные книги проф. А.И.Орлова
Предисловие
В монографии впервые систематически рассматривается одна из четырех основных областей современной прикладной статистики — нечисловая статистика. Она порождена в 70-х годах ХХ в. потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основа ее математического аппарата — использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В монографии рассмотрены основные виды нечисловых данных и особенности их статистического анализа. Большое внимание уделено проблемам практического применения рассматриваемых методов и результатов.
Нечисловую статистику называют также статистикой нечисловых данных или статистикой объектов нечисловой природы. Она — сердцевина высоких статистических технологий, т.е. современной прикладной статистики. Ее рассматривают так же как одну из четырех основных областей статистики. Три других — это статистика чисел (случайных величин), статистика векторов (многомерный статистический анализ), статистика функций (временных рядов и случайных процессов).
Какие данные называют нечисловыми? Описание технического, социально-экономического, медицинского объекта изучения часто удается представить в виде вектора, часть координат которого измерена по количественным шкалам, а часть — по качественным, имеющим конечное число градаций. Это наиболее распространенный тип нечисловых данных.
В общем случае под нечисловыми данными понимают элементы пространств, не являющихся линейными (векторными), в которых нет операций сложения элементов и их умножения на действительное число. Кроме результатов измерений по качественным признакам, примерами являются последовательности из 0 и 1, бинарные отношения (ранжировки, разбиения, толерантности); множества (в том числе плоские изображения и объемные тела); нечеткие (размытые, расплывчатые, fuzzy) числа и множества, их частный случай — интервалы; результаты парных сравнений и другие объекты, возникающие в прикладных исследованиях. Все эти виды нечисловых данных и вероятностные модели их порождения подробно рассмотрены в монографии. Их обобщением, как и обобщением числовых данных (чисел, векторов, функций), являются элементы пространств произвольной природы.
Исторически нечисловые данные стали рассматриваться раньше, чем статистические данные в виде действительных чисел. Книга Чисел Ветхого Завета содержит обширные сведения о численностях тех или иных совокупностей. Натуральные числа можно отнести к нечисловым данным — хотя их можно складывать, но умножение на действительное число выводит за пределы натурального ряда. Теория вероятностей также начиналась с моделирования нечисловых данных. Это результаты бросания игральных костей и вытаскивания шаров из урн. Однако к началу ХХ в. основное внимание статистиков переместилось на рассмотрение числовых случайных величин, моделирующих действительнозначные результаты наблюдений.
К 70-м годам ХХ в. развитие прикладных научных исследований в инженерном деле, социологии, экономике, менеджменте, психологии, медицине и других областях привело к необходимости разработки методов статистического анализа нечисловых данных.
Сначала изучались методы анализа конкретных видов нечисловых данных, устанавливались связи между ними. Затем пришло понимание статистики нечисловых данных как самостоятельной области прикладной статистики со своей внутренней структурой и разнообразными связями между подходами и результатами, относящимися к тем или иным видам нечисловых данных.
Статистика нечисловых данных выделена нами как самостоятельная область прикладной статистики в 1979 г. За прошедшие с тех пор годы арсенал ее методов пополнился многими полезными новшествами. Но основные идеи выдержали проверку временем, что и оправдывает их изложение в настоящей книге.
О развитии нечисловой статистики
В 70-е годы ХХ в. в СССР возник неформальный научный коллектив исследователей, изучающих методы анализа нечисловых данных различных видов. Центром стал научный семинар «Экспертные оценки и нечисловая статистика» и одноименная комиссия в составе Научного Совета АН СССР по комплексной проблеме «Кибернетика».
Вначале разбирались подходы предшественников: аксиоматическое введение расстояний между объектами нечисловой природы и нахождение среднего по Кемени, репрезентативная теория измерений, нечеткие множества Заде, парные сравнения по Дэвиду и др. Затем проведены многочисленные самостоятельные исследования; установлены взаимосвязи между подходами и результатами для различных типов нечисловых данных, разработана общая теория статистического анализа нечисловых данных произвольной природы.
В итоге стало возможным говорить о новой области прикладной статистики — нечисловой статистике. Время ее окончательного формирования — первая половина 80-х годах — время наибольшей организационной активности. Две Всесоюзные конференции — в Алма-Ате (1981 г.) и в Таллинне (1984 г.) собрали по 300–500 участников.
Со второй половины 80-х годах ХХ в. статистика нечисловых данных (статистика объектов нечисловой природы) стабильно развивается. Много публикаций содержится в журналах «Заводская лаборатория», «Социология: методология, методы, математическое моделирование», периодических сборниках «Статистические методы оценивания и проверки гипотез». Разделу нечисловой статистики — статистике интервальных данных посвящена Международная конференция ИНТЕРВАЛ-92 (Интервальные и стохастические методы в науке и технике, г. Калининград Московской области, сентябрь 1992 г.).
Неформальный коллектив по нечисловой статистике включает в себя десятки российских исследователей, а если учитывать авторов одной—двух работ — то и сотни. За почти 30 лет выпущено несколько десятков сборников и монографий, много статей в научных журналах. Однако из-за отсутствия формальной инфраструктуры (например, Института нечисловой статистики в составе Российской академии наук) имеются лишь единичные методики и программные продукты, предназначенные для практического использования. В отличие от научных монографий практически отсутствуют учебники и учебные пособия, а также книги, содержащие введение и общий обзор нечисловой статистики.
Настоящая книга заполняет существенный пробел в литературе по нечисловой статистике, дает введение в предмет, позволяет познакомиться с нечисловой статистикой на современном научном уровне. Изложение доводится до переднего края ведущихся в настоящее время научных исследований. Постоянно в поле зрения находятся вопросы практического применения рассматриваемых подходов, методов, результатов. В частности, используется опыт разработки нашим коллективом автоматизированного рабочего места МАТЭК (математика в экспертизе) для организатора экспертного опроса. Отражены также работы по статистике нечисловых данных и ее применениям, за которые автору в 1992 г. присуждена ученая степень доктора технических наук (по научному докладу об опубликованных работах, т.е. без написания диссертации классического вида).
Чтобы в сравнительно небольшой книге охватить всю статистику нечисловых данных, приходится идти на жертвы. Мы отказываемся от разбора большинства доказательств, отсылая читателей к публикациям, содержащим эти доказательства. Примеры подобного стиля изложения — обзоры по статистике нечисловых данных в разделе «Математические методы исследования» журнала «Заводская лаборатория» (1990, № 3; 1995, № 3, № 5; 1996, № 3).
Стиль книги
В любой математизированной области есть три уровня исследований — методологический, теоретический и практический. На методологическом уровне излагаются общие подходы и формулируются основные результаты. На теоретическом уровне, грубо говоря, доказывают теоремы. В частности, выявление необходимых и достаточных «условий регулярности» обычно осуществляется в результате цепи работ этого уровня.
Например, на методологическом уровне Центральная Предельная Теорема теории вероятностей формулируется так: «При некоторых условиях регулярности распределение центрированной и нормированной суммы независимых случайных величин при росте числа слагаемых стремится к стандартному нормальному распределению». Около двухсот лет — от Муавра и Лапласа до Линдеберга и Феллера — «некоторые условия регулярности» уточнялись в работах теоретического уровня.
В настоящей книге изложение идет в основном на методологическом уровне. При спуске на теоретический уровень приводятся формулировки теорем, в основном без доказательств, но со ссылками на публикации, где они содержатся. Обоснованием для выбора такого варианта построения книги, кроме желания ограничить ее объем разумными рамками, послужило следующее представление о предпочтениях будущих читателей: большинство из них не извлечет пользы из того, что в некоторой формулировке можно заменить требование дифференцируемости определенной функции на требование ее непрерывности. Сказанное не означает, что автор отрицает целесообразность проведения научных работ, посвященных подобным ослаблениям условий регулярности. Просто им не место в книге для первого знакомства с нечисловой статистикой.
На практическом уровне исследований большое внимание уделяют конкретному объекту приложений — технической, социально-экономической или медицинской системе. Для достаточно информативного описания каждого такого исследования нужна отдельная монография, которая обычно и готовится в качестве отчета по работе. Поэтому мы ограничились краткими замечаниями о практическом применении различных методов нечисловой статистики. Суммарно эти замечания составляют существенную часть как авторского замысла, так и объема книги.
Содержание книги
Во введении обсуждены история и современное состояние статистических методов, прикладной статистики, место в ней статистики нечисловых данных. Проанализирована сложившаяся структура нечисловой статистики — сердцевины высоких статистических технологий.
Книга делится на главы, а главы — на разделы.
В главе 1 изучены конкретные виды нечисловых статистических данных, соответствующие вероятностные модели. Сопоставлены количественные и категоризованные данные. Разобраны основы теории измерений. Большое внимание уделено нечетким множествам как частному виду нечисловых данных. Продемонстрирована возможность сведения теории нечетких множеств к теории случайных множеств. Обсуждены статистические данные и необходимые для их анализа расстояния в пространствах произвольной природы; аксиоматический подход к введению расстояний и показателей различия в различных пространствах объектов нечисловой природы.
В главе 2 развиты статистические методы анализа данных произвольного вида, лежащих в метрическом пространстве или в пространстве с мерой различия. Эмпирические и теоретические средние приходится определять как решения экстремальных статистических задач, и законы больших чисел оказываются частными случаями утверждений об асимптотическом поведении решений таких задач. Другие классы частных случаев подобных утверждений связаны с теорией одношаговых оценок параметров распределения вероятностей (они имеют преимущества по сравнению с оценками максимального правдоподобия) и с оптимизационными постановками основных задач прикладной статистики, в том числе задач восстановления зависимостей, классификации, шкалирования и снижения размерности. Для описания распределений нечисловых данных разработаны непараметрические оценки плотности, используемые в регрессионном, дискриминантном и кластерном анализах. В предельной теории статистик интегрального типа найден ряд необходимых и достаточных условий.
Глава 3 посвящена статистическому анализу конкретных видов нечисловых данных. В рамках репрезентативной теории измерений получены характеризации средних величин свойством устойчивости результата сравнения средних относительно той или иной группы допустимых преобразований шкалы. Изучены случайные толерантности. Метод проверки гипотез по совокупности малых выборок применен в теории люсианов — конечных последовательностей испытаний Бернулли с различными вероятностями успеха. Люсианы находят применение в теории парных сравнений. Рассмотрены основные вопросы статистики нечетких множеств. Обсуждено использование нечисловой статистики в теории и практике экспертных оценок — области исследований, во многом стимулировавшей развитие основных идей статистического анализа нечисловых данных.
Глава 4 посвящена основным подходам и результатам статистики интервальных данных, быстро развивающейся в последние годы. Для интервальных данных решен ряд задач оценивания и проверки гипотез. Построены интервальные аналоги регрессионного, дискриминантного и кластерного анализов. Интервальные данные применены в инвестиционном менеджменте. Рассмотрена роль статистики интервальных данных в прикладной статистике.
В приложение 1 включены некоторые вопросы, относящиеся к теоретической базе нечисловой статистики. Рассмотрены классические законы больших чисел, центральные предельные теоремы, метод линеаризации и принцип инвариантности. Теоремы о наследовании сходимости сравнительно малоизвестны и могут представлять особый интерес. В приложении 2 содержится информация об авторе, позволяющая читателям лучше понять происхождение идей, изложению которых посвящена настоящая книга.
Нумерация формул, определений, теорем, таблиц, рисунков — своя в каждом разделе. Литература приводится по главам в порядке первого упоминания. Списки литературы включают основные публикации по нечисловой статистике, а также работы, на которые даются ссылки в тексте. Они не претендуют на полноту хотя бы потому, что перечень известных автору публикаций по рассматриваемой тематике по объему превысил бы настоящую книгу в несколько раз.
Для кого эта книга?
Она предназначена для широкого круга читателей — студентов и преподавателей, прикладников и математиков. Для ее чтения достаточно знаний в объеме вводного курса математической статистики, включающего основные задачи описания данных, оценивания и проверки гипотез.
Эта книга — учебник для студентов различных специальностей, прежде всего технических, управленческих и экономических, слушателей институтов повышения квалификации, структур послевузовского (в том числе второго) образования, в частности, программ МВА («Мастер делового администрирования»), преподавателей вузов. Учебник будет полезен инженерам, менеджерам, экономистам, социологам, биологам, медикам, психологам, историкам, другим специалистам, самостоятельно повышающим свой научный уровень. Короче, всем научным и практическим работникам, связанным с анализом данных.
Учебник может быть использован при изучении дисциплин, полностью или частично посвященных методам анализа нечисловых результатов наблюдений (измерений, испытаний, опытов). Типовые названия таких курсов — «Прикладная статистика», «Эконометрика», «Анализ данных», «Статистический анализ», «Теория принятия решений», «Управленческие решения», «Экономико-математическое моделирование», «Прогнозирование», «Хемометрия», «Математические методы в социологии», и т.п. Учебник необходим студентам специальности «Менеджмент высоких технологий», особенно при изучении учебной дисциплины «Организационно-экономическое моделирование».
Книга полезна широкому кругу специалистов, заинтересованных в применении современных статистических методов анализа нечисловых данных в любой предметной области; необходима разработчикам таких методов и соответствующего программного обеспечения, т.е. специалистам по прикладной статистике.
Специалистам по теории вероятностей и математической статистике эта книга может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную математическую статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований.
Книга представляет интерес для исследователей — специалистов по вопросам управления, в том числе по принятию решений, методам оптимизации и математическому моделированию. Без нее не сможет обойтись ни один преподаватель прикладной или математической статистики, статистических методов для любой конкретной области применений, если он хочет, чтобы его лекционный курс был современным.
Благодарности
Автор благодарен за полезные обсуждения многочисленным коллегам по научным семинарам, по работе в Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана, в Российской ассоциации статистических методов и Российской академии статистических методов.
Автор благодарен научному редактору В.И. Осипову, всем сотрудникам издательства за поддержку нашего научного направления и большую работу по подготовке рукописи к изданию.
С текущей научной информацией по статистическим методам можно познакомиться на сайте «Высокие статистические технологии»
http://orlovs.pp.ru и его форуме
http://forum.orlovs.pp.ru/, а также на странице Лаборатории экономико-математических методов в контроллинге на сайте научно-учебного комплекса «Инженерный бизнес и менеджмент» Московского государственного технического университета им. Н.Э. Баумана
http://www.ibm.bmstu.ru/nil/lab.html. Достаточно большой объем информации содержит еженедельник «Эконометрика», выпускаемый с июля 2000 г. (
http://subscribe.ru/catalog/science.hum ... onometrika ). Автор искренне благодарен разработчику сайтов и редактору электронного еженедельника А.А. Орлову за многолетний энтузиазм.
Автор будет благодарен читателям, если они сообщат свои вопросы и замечания по адресу издательства или непосредственно автору по электронной почте Е-mail:
prof-orlov@mail.ru.