Статистика нечисловых данных за сорок лет (обзор)
Александр Иванович Орлов
Сорок лет назад статистика нечисловых данных была выделена как самостоятельная область математических методов исследования. Первоначально использовался термин "статистика объектов нечисловой природы". Наш учебник по статистике нечисловых данных называется "Нечисловая статистика". Статистика нечисловых данных - одна из четырех основных областей прикладной статистики (наряду со статистикой чисел, многомерным статистическим анализом, статистикой временных рядов и случайных процессов). Статистика нечисловых данных делится на статистику в пространствах общей природы и разделы, посвященные конкретным типам нечисловых данных (статистика интервальных данных, статистика нечетких множеств, статистика бинарных отношений и др.). В настоящее время статистика в пространствах общей природы - центральная часть прикладной статистики, а включающая ее статистика нечисловых данных - основная область прикладной статистики. Это утверждение подтверждается анализом публикаций в разделе "Математические методы исследования" нашего журнала. Настоящая статья посвящена анализу основных идей статистики нечисловых данных на фоне развития прикладной статистики. Основой является новая парадигма математических методов исследования. Рассмотрены различные виды нечисловых данных. Проанализирован исторический путь статистической науки. Рассказано о развитии статистики нечисловых данных. Разобраны основные идеи статистики в пространствах общей природы: средние величины, законы больших чисел, экстремальные статистические задачи, непараметрические оценки плотности распределения вероятностей, методы классификации (диагностики и кластер-анализа), статистики интегрального типа. Кратко рассмотрены некоторые статистические методы анализа данных, лежащих в конкретных пространствах нечисловой природы: непараметрическая статистика (в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных), статистика нечетких множеств, теория экспертных оценок (медиана Кемени - это выборочное среднее экспертных упорядочений) и др. Обсуждаются некоторые нерешенные задачи статистики нечисловых данных.
Ключевые слова: математические методы исследования, прикладная статистика, нечисловые данные, статистика в пространствах обшей природы, задачи оптимизации, средние величины, законы больших чисел, непараметрические оценки плотности, статистики интегрального типа, непараметрическая статистика, экспертные оценки, нерешенные задачи.
Введение
В настоящее время статистика нечисловых данных - одна из четырех основных областей прикладной статистики (наряду со статистикой чисел, многомерным статистическим анализом, статистикой временных рядов и случайных процессов). Статистика нечисловых данных делится на статистику в пространствах общей природы и разделы, посвященные конкретным типам нечисловых данных (статистика интервальных данных, статистика нечетких множеств, статистика бинарных отношений и др.). Научные результаты, полученные в рамках статистики в пространствах общей природы, могут быть использованы для конкретных видов данных (например, непараметрические оценки плотности). Следовательно, статистика в пространствах общей природы - центральная часть прикладной статистики, а включающая ее статистика нечисловых данных - основная область прикладной статистики. Это утверждение подтверждается анализом публикаций в разделе "Математические методы исследования" нашего журнала. На первое место вышла именно статистика нечисловых данных. Так, за десять лет (2006 - 2015) ей посвящены 27,6% всех публикаций раздела "Математические методы исследования" нашего журнала, т.е. 63,0% статей по прикладной статистике [1].
Первоначально использовался термин "статистика объектов нечисловой природы". Он впервые появился в 1979 г. в нашей монографии [2] для обозначения совокупности некоторых полученных в ней научных результатов. В том же году в статье [3] нами была развернута программа построения этой новой области статистических методов, приведены первоначальные формулировки ряда основных теорем. Через год в «Заводской лаборатории» появилась обобщающая статья [4] пяти авторов, занимавшихся различными аспектами статистики нечисловых данных. Итоги первых десяти лет развития новой области прикладной статистики были подведены в обстоятельном обзоре [5] (120 литературных ссылок). Дальнейшее развитие было не менее плодотворным. Обзор [6] за тридцать лет содержал 150 литературных ссылок. К тридцатилетию вышел и первый учебник по нечисловой статистике [7]. Здесь использован термин "нечисловая статистика". Он представляется слишком кратким, в то время как исходный термин "статистика объектов нечисловой природы" - слишком тяжеловесным. В настоящей статье будем называть рассматриваемую область прикладной статистики "статистикой нечисловых данных". Такое название в наилучшей степени отражает ее содержание. Все три термина (статистика объектов нечисловой природы, статистика нечисловых данных, нечисловая статистика) - синонимы.
Обсудим содержание, развитие и основные идеи статистики нечисловых данных, особое внимание уделив исследованиям, опубликованным в нашем журнале (см. также сводку [1]).
Новая парадигма математических методов исследования
Появление и развитие статистики нечисловых данных знаменует переход к новой парадигме математических методов исследования.
Парадигма научная (от греч. paradeigma — пример, образец) — совокупность научных достижений, признаваемых всем научным сообществом в тот или иной период времени и служащих основой и образцом новых научных исследований. Понятие парадигмы получило широкое распространение после выхода в свет книги [8] американского историка науки Т. Куна «Структура научных революций» (1962).
Математические методы исследования используются для решения практических задач с давних времен. В Ветхом Завете рассказано о весьма квалифицированно проведенной переписи военнообязанных (Четвертая книга Моисеева "Числа"). В первой половине ХХ в. была разработана классическая парадигма методов обработки данных, полученных в результате измерений (наблюдений, испытаний, анализов, опытов). Математические методы исследования, соответствующие классической парадигме, широко используются. Со стороны может показаться, что в этой области основное давно сделано, современные работы направлены на мелкие усовершенствования. Однако это совсем не так. Новая парадигма математических методов исследования принципиально меняет прежние представления. Она зародилась в 1980-х гг., но была развита в серии наших монографий и учебников уже в XXI в. ( см. [9 - 11] и др.).
Типовые исходные данные в новой парадигме – объекты нечисловой природы (элементы нелинейных пространств, которые нельзя складывать и умножать на число, например, множества, бинарные отношения), а в старой – числа, конечномерные векторы, функции [12]. Ранее (в классической старой парадигме) для расчетов использовались разнообразные суммы, однако объекты нечисловой природы нельзя складывать, поэтому в новой парадигме применяется другой математический аппарат, основанный на расстояниях между объектами нечисловой природы и решении задач оптимизации.
Изменились постановки задач анализа данных. Старая парадигма исходит из идей начала ХХ в., когда К. Пирсон предложил четырехпараметрическое семейство распределений для описания распределений реальных данных. В это семейство как частные случаи входят, в частности, подсемейства нормальных, экспоненциальных, Вейбулла-Гнеденко, гамма-распределений. Сразу было ясно, что распределения реальных данных, как правило, не входят в семейство распределений Пирсона (об этом говорил, например, академик С.Н. Бернштейн в 1927 г. в докладе на Всероссийском съезде математиков [13]). Однако математическая теория параметрических семейств распределений (методы оценивание параметров и проверки гипотез) оказалась достаточно интересной, и именно на ней до сих пор основано преподавание во многих вузах. Итак, в старой парадигме основной подход к описанию данных - распределения из параметрических семейств, а оцениваемые величины – их параметры, в новой парадигме рассматривают произвольные распределения, а оценивают - характеристики и плотности распределений, зависимости, правила диагностики и др. Центральная часть теории – уже не статистика числовых случайных величин, а статистика в пространствах произвольной природы.
В старой парадигме источники постановок новых задач - традиции, сформировавшиеся к середине ХХ века, а в новой - современные потребности математического моделирования и анализа данных (XXI век), т.е. запросы практики. Конкретизируем это общее различие. В старой парадигме типовые результаты - предельные теоремы, в новой - рекомендации для конкретных значений параметров, в частности, объемов выборок. Изменилась роль информационных технологий – ранее они использовались в основном для расчета таблиц (в частности, информатика находилась вне математической статистики), теперь же они - инструменты получения выводов (имитационное моделирование, датчики псевдослучайных чисел, методы размножение выборок, в т.ч. бутстреп, и др.). Вид постановок задач приблизился к потребностям практики – при анализе данных от отдельных задач оценивания и проверки гипотез перешли к статистическим технологиям (технологическим процессам анализа данных). Выявилась важность проблемы «стыковки алгоритмов» - влияния выполнения предыдущих алгоритмов в технологической цепочке на условия применимости последующих алгоритмов. В старой парадигме эта проблема не рассматривалась, для новой – весьма важна.
Если в старой парадигме вопросы методологии моделирования практически не обсуждались, достаточными признавались схемы начала ХХ в., то в новой парадигме роль методологии (учения об организации деятельности) [14] является основополагающей. Резко повысилась роль моделирования – от отдельных систем аксиом произошел переход к системам моделей. Сама возможность применения вероятностного подхода теперь – не «наличие повторяющегося комплекса условий» (реликт физического определения вероятности, использовавшегося до аксиоматизации теории вероятностей А.Н. Колмогоровым в 1930-х гг.), а наличие обоснованной вероятностно-статистической модели. Если раньше данные считались полностью известными, то для новой парадигмы характерен учет свойств данных, в частности, интервальных и нечетких. Изменилось отношение к вопросам устойчивости выводов – в старой парадигме практически отсутствовал интерес к этой тематике, в новой разработана развитая теория устойчивости (робастности) выводов по отношению к допустимым отклонениям исходных данных и предпосылок моделей.
Статистика нечисловых данных развивается в соответствии с новой парадигмой математических методов исследования.
Различные виды нечисловых данных
Типичный исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в статистике нечисловых данных элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной (линейной) структуры.
Примерами объектов нечисловой природы являются:
- значения качественных признаков, в том числе результаты кодировки объектов с помощью заданного перечня категорий (градаций);
- упорядочения (ранжировки) экспертами объектов экспертизы - образцов продукции (при оценке её технического уровня, качества и конкурентоспособности)), ее характеристик, заявок на проведение научных работ (при проведении конкурсов на выделение грантов) и т.п.;
- классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);
- толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;
- результаты парных сравнений или контроля качества продукции по альтернативному признаку («годен» - «брак»), т.е. последовательности из 0 и 1;
- множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;
- слова, предложения, тексты;
- графы;
- вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности организации или анкета эксперта, в которой ответы на часть вопросов носят качественный характер, а на часть - количественный;
- ответы на вопросы экспертной, медицинской, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.
Все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. Только с конца 1970-х годов начала развиваться статистика интервальных данных, в которой предполагается, что исходные данные - это не числа, а интервалы. Статистику интервальных данных можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличны от классических.
Различным подходам к статистическому анализу интервальных данных посвящена дискуссия [15]. В научной школе А.П. Вощинина изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности [16-22]. В разработанной нами асимптотической статистике интервальных данных на значения случайных величин наложены малые интервальные неопределенности (см., например, [23]). Основные результаты этого направления подробно изложены в обширных главах учебников [7, 24, 25] и монографии [26]. Кроме двух основных направлений (полученные в них недавние результаты отражены в статьях [27-29]), разрабатывались и иные подходы (см., например, [30]).
Интервальные данные можно рассматривать как частный случай нечетких множеств. Если характеристическая функция нечеткого множества равна 1 на некотором интервале и равна 0 вне этого интервала, то задание такого нечеткого множества эквивалентно заданию интервала. С методологической точки зрения важно, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств. Цикл соответствующих теорем приведен в монографии [2], а также в учебниках [7, 24, 25, 31], монографии [26], недавней статье [32]. Казалось бы, много публикаций. Но приходится констатировать, что отнюдь не все специалисты знакомы с теоремами о сведении теории нечетких множеств к теории вероятностей.
Исторический путь статистической науки
Развитие статистических методов в нашей стране проанализировано в главе 2 монографии [33, с.13-21]. Дадим здесь краткую сводку, позволяющую выявить роль статистики нечисловых данных.
К 60-м годам ХХ в. в нашей стране сформировалась научно-практическая дисциплина, которую называем классической математической статистикой. Новое поколение училось теории по фундаментальной монографии шведского математика Г. Крамера [34], написанной в военные годы и впервые изданной на русском языке в 1948 г. Из прикладных руководств назовем учебник [35] и таблицы с комментариями [36].
Затем внимание многих специалистов сосредоточилось на изучении математических конструкций, используемых в статистике. Примером таких работ является монография [37]. В ней получены продвинутые математические результаты, но трудно выделить рекомендации для статистика, анализирующего конкретные данные.
Как реакция на уход в математику выделилась новая научная дисциплина - прикладная статистика. В базовом учебнике по прикладной статистике [24] в качестве рубежа, когда это стало очевидным, указан 1981 г. – дату выхода массовым тиражом (33 940 экз.) сборника [38], в названии которого использован термин «прикладная статистика». С этого времени линии развития математической статистики и прикладной статистики разошлись. Первая из этих дисциплин полностью ушла в математику, перестав интересоваться практическими делами. Вторая [24] позиционировала себя в качестве науки об обработке данных – результатов наблюдений, измерений, испытаний, анализов, опытов, обследований.
Вполне естественно, что в прикладной статистике стали развиваться математические методы и модели. Необходимость их развития вытекает из потребностей конкретных прикладных исследований. Это математизированное ядро прикладной статистики назовем теоретической статистикой. Тогда под собственно прикладной статистикой следует понимать обширную промежуточную область между теоретической статистикой и применением статистических методов в конкретных областях. В нее входят, в частности, вопросы формирования вероятностно-статистических моделей и выбора конкретных методов анализа данных (т.е. методология прикладной статистики и других статистических методов), проблемы разработки и применения информационных статистических технологий, организации сбора и анализа данных, т.е. разработки статистических технологий.
Таким образом, общая схема современной статистической науки выглядит следующим образом (от абстрактного к конкретному):
1. Математическая статистика – часть математики, изучающая статистические структуры. Сама по себе не дает рецептов анализа статистических данных, однако разрабатывает методы, полезные для использования в теоретической статистике.
2. Теоретическая статистика – наука, посвященная моделям и методам анализа конкретных статистических данных.
3. Прикладная статистика (в узком смысле) посвящена статистическим технологиям сбора и обработки данных. Она включает в себя методологию статистических методов, вопросы организации выборочных исследований, разработки статистических технологий, создания и использования статистических программных продуктов.
4. Применение статистических методов в конкретных областях (в экономике и менеджменте – эконометрика, в биологии – биометрика, в химии – хемометрия, в технических исследованиях – технометрика, в геологии, демографии, социологии, медицине, истории, и т.д.).
Часто позиции 2 и 3 вместе называют прикладной статистикой. Иногда позицию 1 именуют теоретической статистикой. Эти терминологические расхождения связаны с тем, что описанное выше развитие рассматриваемой научно-прикладной области не сразу, не полностью и не всегда адекватно отражается в сознании специалистов. Так, до сих пор выпускают учебники, соответствующие старой парадигме - уровню представлений середины ХХ века.
Примечание. Здесь мы уточнили схему внутреннего деления статистической теории, предложенную в [39]. Естественный смысл приобрели термины «теоретическая статистика» и «прикладная статистика» (в узком смысле). Однако необходимо иметь в виду, что в базовом учебнике [24] прикладная статистика понимается в широком смысле, т.е. как объединение позиций 2 и 3. К сожалению, в настоящее время невозможно отождествить теоретическую статистику с математической, поскольку последняя (как часть математики - научной специальности «теория вероятностей и математическая статистика») заметно оторвалась от задач практики.
Отметим, что математическая статистика, как и теоретическая с прикладной, заметно отличается от ведомственной науки органов официальной государственной статистики. ЦСУ, Госкомстат, Росстат применяли и применяют лишь проверенные временем приемы XIX века. Возможно, следовало бы от этого ведомства полностью отмежеваться и сменить название научной дисциплины, например, на «Анализ данных». В настоящее время компромиссным самоназванием является термин «статистические методы».
Во второй половине 80-х годов развернулось общественное движение, имеющее целью создание профессионального объединения статистиков. Аналогами являются британское Королевское статистическое общество (основано в 1834 г.) и Американская статистическая ассоциация (создана в 1839 г.). К сожалению, деятельность учрежденной в 1990 г. Всесоюзной статистической ассоциации оказалась парализованной в результате развала СССР. Среди стран СНГ наибольшую активность в настоящее время проявляют узбекские исследователи, регулярно проводящие представительные конференции по статистике и ее применениям.
О развитии статистики нечисловых данных
С 70-х годов ХХ в. в основном на основе запросов теории экспертных оценок (а также технических исследований, экономики, социологии и медицины) развивались различные направления статистики нечисловых данных. Были установлены основные связи между конкретными видами таких объектов, разработаны для них базовые вероятностные модели [40]. Сводка полученных результатов дана в монографии [2], препринте [41]. Это - предыстория статистики нечисловых данных. А история начинается с осмысления созданного, констатации [2, 3] в 1979 г. появления новой области прикладной статистики.
Следующий этап (80-е годы) - развитие статистики нечисловых данных в качестве самостоятельного научного направления в рамках математических методов исследования, ядром которого являются методы статистического анализа данных произвольной природы. Для работ этого периода характерна сосредоточенность на внутренних (внутриматематических) проблемах статистики нечисловых данных. Проводились всесоюзные конференции, выпускались монографии, сборники трудов, защищались диссертации (Орлов А.И., Пярна К.А., Рыданова Г.В., Сатаров Г.А., Трофимов В.А., Шер А.П., Шмерлинг Д.С. и др.). Наиболее представительным является сборник [42], подготовленный совместно комиссией «Статистика объектов нечисловой природы» Научного Совета АН СССР по комплексной проблеме «Кибернетика» и Институтом социологических исследований АН СССР. Конкретная информация по работам 80-х годов имеется в обзорах [5, 6].
В настоящее время в связи с активным использованием наукометрических показателей разнообразными администраторами научной деятельности распространилась преувеличенная оценка роли журналов в развитии науки. Опыт статистики нечисловых данных показывает, что естественная цепочка развития научного результата такова: тезисы доклада — тематический сборник — монография — учебник — широкое использование [43, 44]. Для развития нового направления публикации в научных журналах, вообще говоря, не обязательны. Ясно, что издание собственных журналов или завоевание позиций в уже существующих возможно лишь на этапе зрелости нового направления, но не на этапе его создания.
К 90-м годам статистика нечисловых данных с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. И в 90-е годы наступило время перейти от теоретико-статистических исследований к применению полученных результатов на практике, а также включить их в учебный процесс, что и было сделано. В 90-е годы в «Заводской лаборатории» опубликованы обзоры [5, 12, 40] по статистике объектов нечисловой природы и многочисленные конкретные исследования, рассмотренные в [6].
В 2000-е годы наиболее заметным явлением было появление развернутых изложений основных результатов статистики интервальных данных в учебниках по прикладной статистике, теории принятия решений, эконометрике (см., например, [24, 25, 31]). Был выпущен первый учебник по статистике интервальных данных [7].
В 2010-е годы представленная научной общественности новая парадигма математических методов исследования закрепила положение статистики нечисловых данных как центральной быстро растущей части современной прикладной статистики (ср. обзор [1]).
Статистика в пространствах произвольного вида
В чем принципиальная новизна статистики нечисловых данных? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. Принципиально важно, что в статистике нечисловых данных нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.
Следует отметить, что в статистике нечисловых данных одна и та же математическая схема может с успехом применяться во многих прикладных областях, для анализа данных различных типов, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.
Кратко рассмотрим несколько идей, развиваемых в статистике нечисловых данных для элементов выборок, лежащих в пространствах произвольного вида. Они нацелены на решение классических задач описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.
Первой обсудим проблему определения средних величин. В рамках теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения [45]. Теория измерений [2, 46, 47], в середине ХХ в. рассматривавшаяся как часть математического обеспечения психологии, к настоящему времени признана общенаучной дисциплиной. Проблемы теории измерений постоянно рассматриваются в разделе "Математические методы исследования" [48-51].
В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Теоретическое среднее определяется как решение задачи минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для получения эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке (примером является медиана Кемени [52], методам нахождения которой посвящены недавние работы [53, 54, 55]). При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственными элементами рассматриваемого пространства, а являться некоторыми множествами таких элементов. Они могут оказаться и пустыми. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость (в специально определенном смысле) эмпирических средних к теоретическим [7, 56, 57].
Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить [7, 58] асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в статистике интервальных данных. Полученные результаты относительно асимптотики решений экстремальных статистических задач применяются, например, в работах [59-61].
В статистике в пространствах произвольного вида большую роль играют непараметрические оценки плотности распределения вероятностей, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В статистике нечисловых данных предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в том числе в дискретных пространствах [73-75]. В частности, доказана их состоятельность, изучена скорость сходимости и установлен (для ядерных оценок плотности) примечательный факт совпадения наилучшей скорости сходимости в произвольном пространстве с той, которая имеет быть в классической теории для числовых случайных величин [74].
Пусть X1, X2 ,…, Xn – независимые одинаково распределенные случайные элементы (величины), распределение которых задается вероятностной мерой q. В статьях [63, 64] нами введено несколько видов непараметрических оценок плотности вероятности q по выборке X1, X2 ,…, Xn. Подробнее изучены линейные оценки. В статьях [65, 66] рассмотрены их частные случаи – ядерные оценки плотности в пространствах произвольной природы. В статьях [67, 68] асимптотическая теория ядерных оценок плотности развита, прежде всего, для нужд статистики конкретных видов объектов нечисловой природы, в которой основной интерес представляют конечные пространства Z. Мера p при этом не непрерывная, а дискретная, например, считающая. Таким образом, в рамках единого подхода удается рассмотреть оценки плотностей и оценки вероятностей.
В предположении непрерывности неизвестной плотности f(x) представляется целесообразным «размазать» каждый атом эмпирической меры, т.е. рассмотреть линейные оценки, введенные в нашей первой работе по нечисловой статистике [3, с.24] ...
Цель статей [73, 74] - завершение цикла работ, посвященного математическому изучению асимптотических свойств различных видов непараметрических оценок плотности распределения вероятности в пространствах общей природы. Изучен средний квадрат ошибки ядерной оценки плотности. С целью максимизации порядка его убывания обоснован выбор ядерной функции и последовательности показателей размытости. Основные понятия - круговая функция распределения и круговая плотность. Порядок сходимости в общем случае тот же, что и при оценивании плотности числовой случайной величины [75], но основные условия наложены не на плотность случайной величины, а на круговую плотность. Далее рассматриваем другие виды непараметрических оценок плотности - гистограммные оценки и оценки типа Фикс-Ходжеса. Затем изучаем непараметрические оценки регрессии и их применение для решения задач дискриминантного анализа в пространстве общей природы
Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.
Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации [76 - 78]. Интересно движение мысли в обратном направлении - наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, именно в рамках статистики объектов нечисловой природы (а не, скажем, многомерного статистического анализа). Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Аналогичным образом задачи многомерного шкалирования, т.е. визуализации данных [79 - 81], также естественно отнести к статистике объектов нечисловой природы. Важны методы оценки истинной размерности признакового пространства [82].
Отметим несколько конкретных научных результатов математической теории классификации. В задачах диагностики (дискриминантного анализа), как следует из леммы Неймана-Пирсона, целесообразно строить алгоритмы на основе отношения непараметрических оценок плотностей распределения вероятностей, соответствующих классам [83]. Установлено, что наилучшим показателем качества алгоритма диагностики является прогностическая сила [84]. Устойчивость классификации относительно выбора метода кластер-анализа обосновывает вывод о реальности кластеров [85]. И т.д. (см. соответствующий раздел в обзоре [1]).
Для проверки гипотез в пространствах нечисловой природы могут быть использованы статистики интегрального типа [3, 86], в частности, типа омега-квадрат [87, 88]. Отметим, что предельная теория таких статистик, построенная первоначально в классической постановке, приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [89, 90], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.
О некоторых областях статистики нечисловых данных
Кратко рассмотрим некоторые статистические методы анализа данных [91], лежащих в конкретных пространствах нечисловой природы.
Непараметрическая статистика – это прежде всего ранговая статистика, т.е. основанная на рангах – номерах элементов выборок в вариационных рядах. Ранги измерены в порядковых шкалах, а значения ранговых статистик инвариантны относительно любых строго возрастающих преобразований - допустимых преобразований в таких шкалах. Непараметрическая статистика позволяет делать статистические выводы, оценивать характеристики и плотность распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Математики думают, что это - экспериментальный факт, установленный в прикладных исследованиях. Прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. На этот объективный факт обращал внимание В.В. Налимов в своей классической монографии [92]. Научная школа метролога П.В. Новицкого многочисленными экспериментами подтвердила отсутствие нормальности погрешностей измерений [93]. Опубликованная в «Заводской лаборатории» сводка [94] (см. также [95]) включена в учебники [24, 31]. В [96] установлено, что по выборкам объемов 6-50, как правило, не удается отличить нормальное распределение от других видов распределений.
Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях [24]. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Примеры - оценивание характеристик распределения [97] и проверке гипотезы однородности для независимых [87, 99 - 100] и связанных [88] выборок). Однако эта информация еще не вошла в массовое сознание. До сих пор тупиковой тематике параметрической статистики посвящены обширные разделы учебников и программных продуктов.
Современное состояние непараметрической статистики проанализировано в [101, 102]. Эта область исследований продолжает активно развиваться. Отметим научные результаты как внутри неё [103, 104], так и на стыке с другими областями [105, 106].
Представляют практический интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы, в частности, со статистикой нечетких множеств [107] и со статистикой случайных множеств (напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств [32]), с непараметрической теорией парных сравнений и люсианов (бернуллиевских бинарных векторов) [108], с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [109], а также с рядом других конкретных постановок.
Результаты контроля штучной продукции по альтернативному признаку представляют собой последовательности из 0 и 1 – объекты нечисловой природы (люсианы), а потому теорию статистического контроля относят к статистике нечисловых данных [5, 6]. Постоянно публикуем работы по этой тематике, предназначенные для специалистов по статистическим методам управления качеством продукции [110 - 112].
Статистика нечисловых данных порождена потребностями практики, прежде всего в области экспертных оценок. Можно констатировать, что анализ экспертных оценок [113] - это прикладное «зеркало» общей теории. Решения задач теории экспертных оценок обобщались в статистике нечисловых данных. При движении мысли в обратном направлении результаты статистики в пространствах общей природы интерпретировались для анализа экспертных оценок. Как и для статистики нечисловых данных в целом, публикации шли по траектории: тезисы доклада — тематический сборник — монография — учебник — широкое использование [43, 44]. Вполне естественно, что названия сборников трудов неформального научного коллектива, развивающего статистику нечисловых данных, начинались со слов «Экспертные оценки» [114 - 117]. Отметим, что публикации в журналах не сыграли значительной роли в развитии рассматриваемых научных направлений. Обзор развития экспертных технологий в нашей стране дан в статьях [118 - 120].
Вопросы внедрения математических методов исследования всегда были в центре внимания журнала «Заводская лаборатория. Диагностика материалов» [121 - 123]. Подчеркивалось большое теоретическое и прикладное значение статистики нечисловых данных [124], необходимость перехода от отдельных методов анализа данных к разработке высоких статистических технологий [125, 126] и использования современных систем внедрения математических методов, таких как система «Шесть сигм» и ее аналоги [127]. Обсуждались проблемы программного обеспечения [128-131]. Однако приходится констатировать, что создание линейки современных программных продуктов по статистике нечисловых данных – пока дело будущего.
Нерешенные задачи статистики нечисловых данных
Начнем с обсуждения влияния отклонений от традиционных предпосылок. В вероятностной теории статистических методов выборка обычно моделируется как конечная последовательность независимых одинаково распределенных случайных величин или векторов. В устаревшей парадигме середины ХХ в. часто предполагают, что эти величины (вектора) имеют нормальное распределение.
При внимательном взгляде совершенно ясна нереалистичность приведенных классических предпосылок. Независимость результатов измерений обычно принимается «из общих предположений», между тем во многих случаях очевидна их коррелированность. Одинаковая распределенность также вызывает сомнения из-за изменения во времени свойств измеряемых образцов, средств измерения и психофизического состояния специалистов, проводящих измерения (испытания, анализы, опыты). Даже обоснованность самого применения вероятностных моделей иногда вызывает сомнения, например, при моделировании уникальных измерений (согласно классическим воззрениям, теорию вероятностей обычно привлекают при изучении массовых явлений). И уж совсем редко распределения результатов измерений можно считать нормальными [24, 31].
Итак, методы классической математической статистики обычно используют вне сферы их обоснованной применимости. Какова влияние отклонений от традиционных предпосылок на статистические выводы? В настоящее время об этом имеются лишь отрывочные сведения. Так, три примера в статье [6] показывают весь спектр возможных свойств классических расчетных методов в случае отклонения от нормальности. Методы построения доверительного интервала для математического ожидания оказываются вполне пригодными при таких отклонениях. Методы проверки однородности двух независимых выборок с помощью двухвыборочного критерия Стьюдента пригодны в некоторых случаях. В задаче отбраковки (исключения) резко выделяющихся наблюдений (выбросов) расчетные методы, основанные на нормальности, оказались полностью непригодными.
Итак, имеется необходимость изучения свойств расчетных методов классической математической статистики, опирающихся на предположение нормальности, в ситуациях, когда это предположение не выполнено. Аппаратом для такого изучения наряду с методом Монте-Карло могут послужить предельные теоремы теории вероятностей, прежде всего ЦПТ, поскольку интересующие нас расчетные методы обычно используют разнообразные суммы. Пока подобное изучение не проведено, остается неясной научная ценность, например, применения основанного на предположении многомерной нормальности факторного анализа к векторам из переменных, принимающих небольшое число градаций и к тому же измеренных в порядковой шкале.
Нерешенным проблемам статистики посвящены статьи [132, 133]. Одна из важных проблем - использование асимптотических результатов при конечных объемах выборок. Конечно, естественно изучить свойства алгоритма с помощью метода Монте-Карло. Однако из какого конкретного распределения брать выборки при моделировании? От выбора распределения зависит результат. Кроме того, датчики псевдослучайных чисел лишь имитируют случайность. До сих пор неизвестно, каким датчиком целесообразно пользоваться в случае возможного безграничного роста размерности пространства. В нашем журнале продолжается дискуссия, начатая статьями [134, 135].
Другая проблема – обоснование выбор одного из многих критериев для проверки конкретной гипотезы. Например, для проверки однородности двух независимых выборок можно использовать критерии Стьюдента, Крамера-Уэлча, Лорда, хи-квадрат, Вилкоксона (Манна-Уитни), Ван-дер-Вардена, Сэвиджа, Н.В. Смирнова, типа омега-квадрат (Лемана-Розенблатта), Реньи, Г.В.Мартынова и др. [87, 103]. Какой выбрать?
Критерии однородности проанализированы в [136]. Естественных подходов к сравнению критериев несколько - на основе асимптотической относительной эффективности по Бахадуру, Ходжесу-Леману, Питмену. И каждый из перечисленных критериев является оптимальным при соответствующей альтернативе или подходящем распределении на множестве альтернатив. При этом математические выкладки обычно используют альтернативу сдвига, сравнительно редко встречающуюся в практике анализа реальных статистических данных. Итог печален - блестящая математическая техника, продемонстрированная в [136], не позволяет дать рекомендации для выбора критерия проверки однородности при анализе реальных данных.
Проблемы разработки высоких статистических технологий поставлены в [125, 126] (см. также одноименный сайт
http://orlovs.pp.ru). Используемые при обработке реальных данных статистические технологии состоят из последовательности операций, каждая из которых, как правило, хорошо изучена, поскольку сводится к оцениванию (параметров, характеристик, распределений) или проверке той или иной гипотезы. Однако статистические свойства результатов обработки, полученных в результате последовательного применения таких операций, мало изучены [137]. Необходима теория, позволяющая изучать свойства статистических технологий и так их конструировать, чтобы обеспечить высокое качество обработки данных.
В заключение отметим, что развернутое описание статистики нечисловых данных дано в монографиях [7, 24, 31]. При дальнейшем развитии исследований важно опираться на современную методологию [14, 138].
ЛИТЕРАТУРА
1. Орлов А. И. Развитие математических методов исследования (2006 – 2015 гг.) / Заводская лаборатория. Диагностика материалов. 2017. Т.83. №1. Ч.1. С. 78-86.
2. Орлов А. И. Устойчивость в социально-экономических моделях. – М. : Наука, 1979. – 296 с.
3. Орлов А. И. Статистика объектов нечисловой природы и экспертные оценки / Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1979. С. 17-33.
4. Тюрин Ю. Н., Литвак Б. Г., Орлов А. И., Сатаров Г. А., Шмерлинг Д. С. Анализ нечисловой информации / Заводская лаборатория. 1980. Т.46. №10. С. 931-935.
5. Орлов А. И. Статистика объектов нечисловой природы (Обзор) / Заводская лаборатория. Диагностика материалов. 1990. Т.56. №3. С. 76-83.
6. Орлов А. И. Тридцать лет статистики объектов нечисловой природы (обзор) / Заводская лаборатория. Диагностика материалов. 2009. Т.75. №5. С. 55-64.
7. Орлов А. И. Организационно-экономическое моделирование. Часть 1. Нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. – 544 с.
8. Кун Т. Структура научных революций. М.: АСТ, 2003. — 605 с.
9. Орлов А. И. Новая парадигма прикладной статистики / Заводская лаборатория. Диагностика материалов. 2012. Т.78. №1, часть I. С. 87-93.
10. Орлов А. И. Новая парадигма математических методов исследования / Заводская лаборатория. Диагностика материалов. 2015. Т.81. №7 С. 5-5.
11. Орлов А. И. О новой парадигме математических методов исследования / Научный журнал КубГАУ. 2016. №122. С. 807–832.
12. Орлов А. И. Объекты нечисловой природы / Заводская лаборатория. Диагностика материалов. 1995. Т.61. №3. С.43-52.
13. Бернштейн С. Н. Современное состояние теории вероятностей и ее приложений / Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.
14. Новиков А. М., Новиков Д. А. Методология. – М.: СИНТЕГ, 2007. – 668 с.
15. Дискуссия по анализу интервальных данных / Заводская лаборатория. 1990. Т.56. №7. С.75-95.
16. Вощинин А. П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. - 109 с.
17. Вощинин А. П., Сотиров Г. Р. Оптимизация в условиях неопределенности. — М.: МЭИ, София: Техника, 1989. — 224 с.
18. Вощинин А. П., Акматбеков Р. А. Оптимизация по регрессионным моделям и планирование эксперимента. - Бишкек: Изд-во «Илим», 1991. - 164 с.
19. Вощинин А. П. Метод анализа данных с интервальными ошибками в задачах проверки гипотез и оценивания параметров неявных линейно параметризованных функций / Заводская лаборатория. Диагностика материалов. 2000. Т.66. №3. С.51 – 64.
20. Вощинин А. П. Интервальный анализ данных: развитие и перспективы / Заводская лаборатория. Диагностика материалов. 2002. Т.68. №1. С. 118-126.
21. Вощинин А. П., Бронз П. В. Построение аналитических моделей по данным вычислительного эксперимента в задачах анализа чувствительности и оценки экономических рисков / Заводская лаборатория. Диагностика материалов. 2007. №1. С.101 – 109.
22. Вощинин А. П., Скибицкий Н. В. Интервальный подход к выражению неопределенности измерений и калибровке цифровых измерительных систем / Заводская лаборатория. Диагностика материалов. 2007. Т.73. №11. С.66 – 71.
23. Гуськова Е. А., Орлов А. И. Интервальная линейная парная регрессия (обобщающая статья)/ Заводская лаборатория. Диагностика материалов. 2005. Т.71. №3. С.57-63.
24. Орлов А. И. Прикладная статистика. - М.: Экзамен, 2006. - 671 с.
25. Орлов А. И. Теория принятия решений.– М.: Экзамен, 2006. – 576 с.
26. Орлов А. И., Луценко Е. В. Системная нечеткая интервальная математика. – Краснодар, КубГАУ. 2014. – 600 с.
27. Орлов А. И. Статистика интервальных данных (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2015. Т. 81. № 3. С. 61 - 69.
28. Скибицкий Н. В., Севальнев Н. В. Интервальные модели в задачах оптимального управления с дифференциальными связями // Заводская лаборатория. Диагностика материалов. 2015. Т.81. № 11. С. 73-80.
29. Скибицкий Н. В. Построение прямых и обратных статических характеристик объектов по интервальным данным / Заводская лаборатория. Диагностика материалов. 2017. Т.83. №1. Ч.1. С. 87-93.
30. Таранцев А. А. О связи интервального анализа с теорией вероятностей / Заводская лаборатория. 2004. Т.70. №3. С.60 – 65.
31. Орлов А. И. Эконометрика. - М.: Экзамен, 2002. – 576 с.
32. Орлов А. И. Теория нечетких множеств – часть теории вероятностей / Научный журнал КубГАУ. 2013. № 92. С. 51-60.
33. Орлов А. И., Луценко Е. В., Лойко В. И. Организационно-экономическое, математическое и программное обеспечение контроллинга, инноваций и менеджмента: монография / под общ. ред. С. Г. Фалько. – Краснодар : КубГАУ, 2016. – 600 с.
34. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
35. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. Изд. 3-е, стереотипное. – М.: Наука, 1969. – 512 с.
36. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики / 3-е изд.- М.: Наука, 1983. - 416 с. (1-е изд. – 1965).
37. Каган А. М., Линник Ю. В., Рао С. Р. Характеризационные задачи математической статистики. - М.: Наука, 1972. - 656 с.
38. Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981. – 64 с.
39. Орлов А. И. О перестройке статистической науки и её применений / Вестник статистики. 1990. № 1. С.65 – 71.
40. Орлов А. И. Вероятностные модели конкретных видов объектов нечисловой природы / Заводская лаборатория. Диагностика материалов. 1995. Т.61. №5. С.43-51.
41. Тюрин Ю. Н., Литвак Б. Г., Орлов А. И., Сатаров Г. А., Шмерлинг Д. С. Анализ нечисловой информации. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1981. - 80 с.
42. Андреенков В. Г., Орлов А. И., Толстова Ю. Н. (ответственные редакторы). Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.
43. Орлов А. И. Критерии выбора показателей эффективности научной деятельности / Контроллинг. – 2013. – №3(49). – С.72-78.
44. Лойко В. И., Луценко Е. В., Орлов А. И. Современные подходы в наукометрии. – Краснодар: КубГАУ, 2017. – 532 с.
45. Орлов А. И. Характеризация средних величин шкалами измерения / Научный журнал КубГАУ. 2017. №134. С. 877 – 907.
46. Психологические измерения. Сб. статей. - М.: Мир, 1967. - 196 с.
47. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 248 с.
48. Толстова Ю. Н. Краткая история развития репрезентативной теории измерений / Заводская лаборатория. Диагностика материалов. 1999. Т.65. №3. С. 49 - 56.
49. Орлов А. И. Репрезентативная теория измерений и ее применения / Заводская лаборатория. Диагностика материалов. 1999. Т.65. №3. С. 57-62.
50. Барский Б. В., Соколов М. В. Средние величины, инвариантные относительно допустимых преобразований шкалы измерения / Заводская лаборатория. Диагностика материалов. 2006. Т.72. №1. С.59 – 66.
51. Орлов А. И. Математические методы исследования и теория измерений / Заводская лаборатория. Диагностика материалов. 2006. Т.72. №1. С.67-70.
52. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. – М.: Советское радио, 1972. – 192 с.
53. Жуков М. С., Орлов А. И. Использование экспертных ранжировок при расчетах кредитного риска в банке / Инновации в менеджменте. 2017. № 1. C.18-25.
54. Жуков М. С., Орлов А. И. Задача исследования итогового ранжирования мнений группы экспертов с помощью медианы Кемени / Научный журнал КубГАУ. 2016. № 122. С. 785 – 806.
55. Жуков М. С., Орлов А. И., Фалько С. Г. Экспертные оценки в рисках / Контроллинг. 2017. №4 (66). С. 24-27.
56. Орлов А. И. Средние величины и законы больших чисел в пространствах произвольной природы / Научный журнал КубГАУ. 2013. № 89. С. 556 – 586.
57. Орлов А. И. О средних величинах / Управление большими системами. Выпуск 46. М.: ИПУ РАН, 2013. С.88-117.
58. Орлов А. И. Предельная теория решений экстремальных статистических задач / Научный журнал КубГАУ. 2017. №133. С. 579 – 600.
59. Орлов А. И. Методы поиска наиболее информативных множеств признаков в регрессионном анализе / Заводская лаборатория. Диагностика материалов. 1995. Т.61. №1. С. 56-58.
60. Орлов А. И. Асимптотическое поведение решений экстремальных статистических задач / Заводская лаборатория. Диагностика материалов. 1996. Т.62. №10. С. 45-46.
61. Тырсин А. Н. Робастное построение линейных регрессионных моделей по экспериментальным данным / Заводская лаборатория. Диагностика материалов. 2005. Т.71. №11. С. 53 – 58.
62. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. – М.: Большая Российская Энциклопедия, 1999. – 910 с.
63. Орлов А. И. Оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. – Пермь, 2013. Вып. 25. С.21-33.
64. Орлов А. И. Оценки плотности распределения вероятностей в пространствах произвольной природы / Научный журнал КубГАУ. 2014. № 99. С. 15-32.
65. Орлов А. И. Ядерные оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. – Пермь, 2015. Вып. 26. С. 43-57.
66. Орлов А. И. Предельные теоремы для ядерных оценок плотности в пространствах произвольной природы / Научный журнал КубГАУ. 2015. № 108. С. 316 – 333.
67. Орлов А. И. Непараметрические ядерные оценки плотности вероятности в дискретных пространствах / Научный журнал КубГАУ. 2016. № 122. С. 833 –855.
68. Орлов А. И. Ядерные оценки плотности в конечных пространствах / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. – Пермь, 2016. – Вып. 27. – С. 24-37.
69. Орлов А. И. Статистика объектов нечисловой природы / Теория вероятностей и ее применения. 1980. Т.XXV. № 3. С. 655-656.
70. Орлов А. И. Непараметрические оценки плотности в топологических пространствах // Прикладная статистика. Ученые записки по статистике, т.45. – М.: Наука, 1983. – С. 12-40.
71. Rosenblatt M. Remarks on some nonparametric estimates of a density function / Ann. Math. Statist. 1956. V.27. N 5. P. 832 – 837.
72. Parzen E. On estimation of a probability density function and mode / Ann. Math. Statist. 1962. V.33. N 6. P. 1065-1076.
73. Орлов А. И. Асимптотика оценок плотности распределения вероятностей / Научный журнал КубГАУ. 2017. № 131. С. 845 – 873.
74. Орлов А. И. Скорость сходимости ядерных оценок плотности в пространствах произвольной природы / Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. - Пермь, 2018. - Вып.28. - С. 35-45.
75. Ибрагимов И. А., Хасьминский Р. З. Асимптотическая теория оценивания. – М.: Наука, 1979. – 528 с.
76. Орлов А. И. О развитии математических методов теории классификации / Заводская лаборатория. Диагностика материалов. 2009. Т.75. №7. С.51-63.
77. Орлов А. И., Толчеев В. О. Об использовании непараметрических статистических критериев для оценки точности методов классификации (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2011. Т.77. №3. С.58-66.
78. Орлов А. И. Три основных результата математической теории классификации // Заводская лаборатория. Диагностика материалов. 2016. Т.82. №5. С. 63-70.
79. Перекрест В. Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. - 176 с.
80. Терехина А. Ю. Анализ данных методами многомерного шкалирования. - М.: Наука, 1986. - 168 с.
81. Лагутин М. Б. Визуальное представление тесноты связей / Заводская лаборатория. Диагностика материалов. 2005. Т.71. №7. С.53 – 57.
82. Луценко Е. В., Орлов А. И. Методы снижения размерности пространства статистических данных / Научный журнал КубГАУ. 2016. № 119. С. 92–107.
83. Орлов А. И. Математические методы исследования и диагностика материалов (Обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2003. Т.69. №3. С.53-64.
84. Орлов А. И. Прогностическая сила – наилучший показатель качества алгоритма диагностики / Научный журнал КубГАУ. 2014. № 99. С. 33-–49.
85. Орлов А. И. Устойчивость классификации относительно выбора метода кластер-анализа / Заводская лаборатория. Диагностика материалов. 2013. Т.79. №1. С.68-71.
86. Орлов А. И. Асимптотическое поведение статистик интегрального типа / Доклады АН СССР. 1974. Т.219. №4. С. 808-811.
87. Орлов А. И. О проверке однородности двух независимых выборок / Заводская лаборатория. Диагностика материалов. 2003. Т.69. №1. С.55-60.
88. Орлов А.И. Методы проверки однородности связанных выборок / Заводская лаборатория. Диагностика материалов. 2004. Т.70. №7. С.57-61.
89. Орлов А. И. Асимптотическое поведение статистик интегрального типа / Вероятностные процессы и их приложения. Межвузовский сборник научных трудов. - М.: МИЭМ, 1989. - С. 118-123.
90. Орлов А. И. Предельная теория непараметрических статистик / Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 100. С. 31-52.
91. Орлов А. И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.
92. Налимов В. В. Применение математической статистики при анализе вещества. – М.: Физматгиз, 1960. – 430 с.
93. Новицкий П. В., Зограф И. А. Оценка погрешностей результатов измерений. – Л.: Энергоатомиздат, 1985. – 248 с.
94. Орлов А. И. Часто ли распределение результатов наблюдений является нормальным? / Заводская лаборатория. 1991. Т.57. №7. С.64-66.
95. Орлов А. И. Распределения реальных статистических данных не являются нормальными / Научный журнал КубГАУ. 2016. № 117. С. 71–90.
96. Селезнев В. Д., Денисов К. С. Исследование свойств критериев согласия функции распределения данных с гауссовой методом Монте-Карло для малых выборок / Заводская лаборатория. Диагностика материалов. 2005. Т.71. №1. С.68 - 73
97. Орлов А. И. Непараметрическое точечное и интервальное оценивание характеристик распределения / Заводская лаборатория. Диагностика материалов. 2004. Т.70. №5. С.65-70.
98. Орлов А. И. Проверка статистической гипотезы однородности математических ожиданий двух независимых выборок: критерий Крамера-Уэлча вместо критерия Стьюдента / Научный журнал КубГАУ. 2015. № 110. С. 197–218.
99. Орлов А. И. Двухвыборочный критерий Вилкоксона – анализ двух мифов / Научный журнал КубГАУ. 2014. № 104. С. 91 – 111.
100. Орлов А. И. Состоятельные критерии проверки абсолютной однородности независимых выборок / Заводская лаборатория. Диагностика материалов. 2012. Т.78. №11. С.66-70.
101. Орлов А. И. Структура непараметрической статистики (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2015. Т.81. №7. С. 62-72.
102. Орлов А. И. Современное состояние непараметрической статистики / Научный журнал КубГАУ. 2015. № 106. С. 239 – 269.
103. Орлов А. И. Реальные и номинальные уровни значимости при проверке статистических гипотез / Научный журнал КубГАУ. 2015. № 114. С. 42–54.
104. Орлов А. И. Модель анализа совпадений при расчете непараметрических ранговых статистик / Заводская лаборатория. Диагностика материалов. 2017. Т.83. №11. С. 66-72.
105. Муравьева В. С., Орлов А. И. Непараметрическое оценивание точки пересечения регрессионных прямых / Заводская лаборатория. Диагностика материалов. 2008. Т.74. №1. С. 63-68.
106. Орлов А. И. Непараметрический метод наименьших квадратов с периодической составляющей / Заводская лаборатория. Диагностика материалов. 2014. Т.80. №1. С.65-75.
107. Орлов А. И. Статистика нечетких данных / Научный журнал КубГАУ. 2016. №119. С. 75–91.
108. Орлов А. И. Теория люсианов / Научный журнал КубГАУ. 2014. № 101. С. 275 – 304.
109. Орлов А. И. Расстояния в пространствах статистических данных / Научный журнал КубГАУ. 2014. № 101. С. 227 – 252.
110. Орлов А. И. Статистический контроль по двум альтернативным признакам и метод проверки их независимости по совокупности малых выборок / Заводская лаборатория. Диагностика материалов. 2000. Т.66. №1. С.58-62.
111. Орлов А. И. Основные проблемы контроллинга качества / Научный журнал КубГАУ. 2015. № 111. С. 20-52.
112. Орлов А. И. Предельные теоремы в статистическом контроле / Научный журнал КубГАУ. 2016. № 116. С. 462 – 483.
113. Орлов А. И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.2. Экспертные оценки. — М.: Изд-во МГТУ им. Н. Э. Баумана, 2011. — 486 с.
114. Статистические методы анализа экспертных оценок / Ученые записки по статистике, т. 29. - М.: Наука, 1977. - 385 с.
115. Экспертные оценки / Вопросы кибернетики. - Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика". 1979. - 200 с.
116. Экспертные оценки в системных исследованиях / Сборник трудов. - Вып.4. - М.: ВНИИСИ, 1979. - 120 с.
117. Экспертные оценки в задачах управления / Сборник трудов. - М.: Институт проблем управления. 1982. - 106 с.
118. Орлов А. И. Экспертные оценки / Заводская лаборатория. Диагностика материалов. 1996. Т.62. №1. С.54-60.
119. Орлов А. И. О развитии экспертных технологий в нашей стране / Заводская лаборатория. Диагностика материалов. 2010. Т.76. №11. С.64-70.
120. Орлов А. И. Теория экспертных оценок в нашей стране / Научный журнал КубГАУ. 2013. № 93. С. 1-11.
121. Гнеденко Б. В., Орлов А. И. Роль математических методов исследования в кардинальном ускорении научно-технического прогресса / Заводская лаборатория. 1988. Т.54. №1. С.1 - 4.
122. Орлов А. И. О современных проблемах внедрения прикладной статистики и других статистических методов / Заводская лаборатория. 1992. Т.58. №1. С. 67 - 74.
123. Орлов А. И. Сертификация и статистические методы (обобщающая статья). // Заводская лаборатория. Диагностика материалов. 1997. Т.63. №3. С. 55-62.
124. Горский В. Г., Орлов А. И. Математические методы исследования: итоги и перспективы / Заводская лаборатория. Диагностика материалов. 2002. Т.68. №1. С. 108-112.
125. Орлов А. И. Высокие статистические технологии / Заводская лаборатория. Диагностика материалов. 2003. Т.69. №11. С.55-60.
126. Орлов А. И. О высоких статистических технологиях / Научный журнал КубГАУ. 2015. № 105. С. 14 – 38.
127. Орлов А. И. «Шесть сигм» - новая система внедрения математических методов исследования / Заводская лаборатория. Диагностика материалов. 2006. Т.72. №5. С. 50-53.
128. Орлов А. И. Математическое обеспечение сертификации: сравнительный анализ диалоговых систем по статистическому контролю / Заводская лаборатория. Диагностика материалов. 1996. Т.62. №7. С. 46-49.
129. Смирнова О. С. Программное обеспечение для статистического анализа / Заводская лаборатория. Диагностика материалов. 2008. Т.74. №5. С. 68 – 75.
130. Орлов А. И. Статистические пакеты – инструменты исследователя / Заводская лаборатория. Диагностика материалов. 2008. Т.74. №5. С. 76-78.
131. Жуков М. С. Об алгоритмах расчета медианы Кемени / Заводская лаборатория. Диагностика материалов. 2017. Т.83. №7. С. 72-78.
132. Загоруйко Н. Г., Орлов А. И. Некоторые нерешенные математические задачи прикладной статистики / Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981. - С.53-63.
133. Орлов А. И. Некоторые нерешенные вопросы в области математических методов исследования / Заводская лаборатория. Диагностика материалов. 2002. Т.68. №3. С.52-56.
134. Орлов А. И. Предельные теоремы и метод Монте-Карло / Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С. 67-72.
135. Григорьев Ю. Д. Метод Монте-Карло: вопросы точности асимптотических решений и качества генераторов псевдослучайных чисел / Заводская лаборатория. Диагностика материалов. 2016. Т.82. №7. С. 72-84.
136. Никитин Я. Ю. Асимптотическая эффективность непараметрических критериев. - М.: Наука, 1995. - 240 с.
137. Орлов А. И. Проблема множественных проверок статистических гипотез / Заводская лаборатория. Диагностика материалов. 1996. Т.62. №5. С.51-54.
138. Орлов А. И. О методологии статистических методов / Научный журнал КубГАУ. 2014. № 104. С. 53–80.
Публикация:
Орлов А.И. Статистика нечисловых данных за сорок лет (Обзор) / Заводская лаборатория. Диагностика материалов. 2019. Т.85. №11. С. 69-84.