УДК 316:519.2
Математические методы в социологии за сорок пять лет
Орлов Александр Иванович
д.э.н., д.т.н., к.ф.-м.н., профессор
РИНЦ SPIN-код: 4342-4994
Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5,
prof-orlov@mail.ru Аннотация. Социология - одна из наиболее важных общественных наук. Математические, прежде всего статистические методы - эффективные интеллектуальные инструменты социологов. Проанализируем работы автора настоящей статьи, посвященные разработке статистических методов с целью решения задач социологии. Обсуждаются основные научные события этих лет, прежде всего, формирование прикладной статистики и ее основы - статистики нечисловых данных (в социологии 70-90% переменных имеют нечисловой характер). В течение последних 30 лет российская социология бурно растет по всем количественным параметрам. Очевидно, глубину исследованиям придает использование развитого научного аппарата - методологии и методов сбора и анализа данных, математических моделей. На наш взгляд, принципиальный прорыв был осуществлен в нашей стране в 1970-е годы. Именно тогда в арсенале отечественных социологов появились теория измерений и нечеткие множества, математические методы классификации и многомерное шкалирование, непараметрическая статистика и статистика нечисловых данных. В дальнейшие десятилетия шло естественное развитие научного аппарата. Одни и те же математические и статистические методы и модели могут с успехом применяться в самых разных областях науки и практики. Статистические методы и модели весьма эффективны в социологических, социально-экономических, управленческих, технических и технико-экономических исследованиях, медицине, истории, практически в любой прикладной отрасли и области знания. В рассматриваемой области основное событие последних тридцати пяти лет – это становление научно-практической дисциплины «прикладная статистика», посвященной разработке и применению статистических методов и моделей. Анализ динамики развития прикладной статистики приводит к выводу, что в XXI в. статистика нечисловых данных становится центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.
Ключевые слова: социология¸ математика, статистические методы, выборочные исследования, вероятностно-статистические модели, математическая статистика, прикладная статистика, статистика нечисловых данных, непараметрическая статистика
Mathematical methods in sociology during the forty-five years
Orlov Alexander Ivanovich
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., professor
Bauman Moscow State Technical University, Moscow, Russia
Annotation. Sociology - one of the most important social science. Math, primarily statistical methods - effective intellectual tools of sociologists. Let us analyze the work of the author of this article on the development of statistical methods to meet the challenges of sociology. Then we give the review of development of statistical methods in Russian sociology for 45 years (1970-2015). The basic scientific events of these years, first of all, formation of applied statistics and its basis - statistics of the non-numerical data (in sociology of 70-90% of variables have non-numerical nature) are discussed. Over the last 30 years, the Russian sociology is growing rapidly in all quantitative parameters. Clearly, the depth of investigation gives the use of advanced scientific apparatus - methodology and methods of data collection and analysis, mathematical models. In our view, a fundamental breakthrough was made in our country in the 1970s. It was then in the arsenal of Russian sociologists appeared measurement theory and fuzzy sets, mathematical methods of classification and multidimensional scaling, nonparametric statistics and statistics of non-numeric data. In subsequent decades it has been a natural development of scientific apparatus. The same mathematical and statistical methods and models can be successfully applied in various fields of science and practice. Statistical methods and models are very effective in sociological, socio-economic, managerial, technical and feasibility studies, medicine, history, in almost any industry and application areas of knowledge. Within this field, the main event of the last thirty five years - is becoming a scientific and practical discipline "Applied Statistics", dedicated to the development and application of statistical methods and models. An analysis of the dynamics of applied statistics leads to the conclusion that in the XXI century sstatistics of non-numerical data is becoming a central area of applied statistics, as it contains the most common approaches and results.
Keywords: sociology, mathematics, statistical methods, sample research, probabilistic-statistical models, mathematical statistics, applied statistics, statistics of non-numerical data, nonparametric statistics
1. Введение
Социология - одна из наиболее важных общественных наук. Математические, прежде всего статистические методы - эффективные интеллектуальные инструменты социологов. Проанализируем работы автора настоящей статьи, посвященные разработке статистических методов с целью решения задач социологии. Затем рассмотрим развитие статистических методов в российской социологии за 1974 -2016 г.г. Обсудим основные научные события этих лет, прежде всего, формирование прикладной статистики и ее основы - статистики нечисловых данных (в социологии 70-90% переменных имеют нечисловой характер).
2. О разработке статистических методов с целью решения задач социологии
Работы в области социологии автор настоящей статьи ведет с 1970 г. Однако необходимо отметить, что они всегда были «фоновыми», находились на втором плане по сравнению с основными (на каждый конкретный момент времени) направлениями. Автор настоящей статьи никогда не занимал штатные должности в социологических структурах (одно исключение – член редакционного совета журнала «Социология: методология, методы, математическое моделирование» («Социология: 4М»). Это обстоятельство, конечно, отразилось на интенсивности контактов с теми научными работниками, кто действовал «внутри» социологической науки.
Проанализируем выполненные работы. С 1970 г., т.е. более чем за 45 лет, их накопилось довольно много.
Первые работы 70-х. Первый социологический опрос был проведен нашим коллективом в 1970 г. среди учеников и сотрудников Вечерней математической школы при Московском математическом обществе (ВМШ при ММО). Подобные опросы проводились неоднократно и использовались для решения задач управления ВМШ при ММО, в том числе для улучшения качества маркетинговых коммуникаций при реализации образовательных услуг. Поэтому можно сказать, что наша прикладная научная деятельность началась в социологии в 1970 г., одновременно с началом теоретических исследований в области математической статистики.
Опросы социологического типа использовались как в ВМШ при ММО, так и в интересах математического раздела "Встречи с тремя неизвестными" журнала "Пионера" (тираж 1,5 млн. экз.). Некоторые полученные результаты вошли в публикации, посвященные эти образовательным структурам [1 - 4]. В итоговой брошюре [5] продемонстрировано, как результаты этих опросов использовались в образовательном процессе и при управлении ВМШ при ММО.
Наиболее обширное анкетное исследование было проведено в 1975 г. ВМШ при ММО совместно с НИИ общей и педагогической психологии АПН СССР. Некоторые его итоги (вместе с анализом предыдущих исследований) подведены в статье [6].
Первая наша публикация, относящаяся к математической теории анализа социологических данных, появилась в 1977 году [7]. В ней пропагандировались результаты, относящиеся к характеризации средних величин с помощью шкал измерения (см., например, [8, 9]).
В том же году появилась полностью оригинальная работа [10]. Она основана на одной из идей общей теории устойчивости [8], состоящей в оценке рациональной точности нахождения определенного параметра математической модели реального явления или процесса по известной точности нахождения другого параметра. Предлагается исходить из «принципа уравнивания погрешностей», согласно которому погрешности, имеющие различную природу, должны вносить одинаковый вклад в общую погрешность. Исходя из этого принципа с помощью оригинальных предельных теорем, связанных с обработкой группированных данных, были разработаны методы выбора числа градаций в социологических и иных анкетах на основе известного (оцененного по экспериментальным данным) разброса мнений опрошенных (респондентов).
Следующая публикация [11] посвящена обзору статистических методов анализа нечисловых социологических данных. Разработка нечисловой статистики [9] во многом была стимулирована именно потребностями обработки данных социологических опросов. С математической точки зрения социологические опросы близки к экспертным оценкам, да и с прикладной точки зрения эти области весьма переплетаются. К сожалению, активное участие в научных семинарах по статистическому анализу социологических данных в 70-80-х годах не нашло непосредственного отражения в списке публикаций.
Созданная автором настоящей статьи в 1978 г. комиссия «Статистика объектов нечисловой природы» Научного Совета АН СССР по комплексной проблеме «Кибернетика» и Институт социологических исследований АН СССР с целью подведения итогов и выявлении перспектив развития статистики объектов нечисловой природы, прежде всего применительно к статистическому анализу социологических данных, подготовили и выпустили в 1985 г. фундаментальное издание, которое и на сегодняшний день дает наиболее развернутое представление о новой (на той момент) области прикладной статистики – статистике объектов нечисловой природы [12]. Сборник содержит фундаментальный обзор [13], являвшийся наиболее полным изложением основных идей статистики нечисловых данных вплоть до появления в XXI в. учебников [9] и др. В эту книгу включены также содержательные предисловие и заключение (т.е. две научные статьи), а также многочисленные преамбулы к статьям, подготовленные научными редакторами:
Следующая крупная акция состоялась в 1989 г. Мы, уже от имени Центра статистических методов и информатики Центрального правления Всесоюзного экономического общества, принимали активное участие в организации 3-ей Всесоюзной конференции «Методы социологических исследований». В частности, были сделаны доклады [14, 15]. Итоги подведены в отчете [16] о работе секции 4 «Современные аспекты анализа нечисловых данных» этой конференции.
В 1991 г. начал выходить научный журнал РАН «Социология: методология, методы, математические модели» (позже слова «математические модели» в названии журнала были заменены на «математическое моделирование»), сокращенно «Социология-4М». С момента организации журнала автор настоящей статьи входит в состав редакционного совета. Помимо упомянутого выше отчета [16], в «Социологии-4М» помещены статьи [17 - 19]. Первая из этих публикаций посвящена вопросам построения функции полезности на основе анализа эмпирических данных. Вторая – фундаментальная статья по теории классификации, отражающая результаты различных наших работ предыдущего десятилетия, а также деятельности в составе бюро Комиссии по классификации ВСНТО (Всесоюзного совета научно-технических обществ). Эта Комиссия объединяла несколько сотен исследователей, входящих в т.н. «классификационное движение» (иногда они использовали термин «классиология»). Третья статья представляет собой попытку рассказать исследователям, действующим «внутри» социологии, о многообразии современных статистических методов. Современная ситуация такова, что полезные для себя научные результаты социологи-исследователи могут найти в журнале «Заводская лаборатория. Диагностика материалов», а в последнее время – и в наших учебниках «Эконометрика» [20] и др. Можно понять психологические трудности социолога, обращающегося к столь «чуждым» для него изданиям. Проблема проникновения современных достижений прикладной статистики и других статистических методов в конкретные предметные области – в данном случае в социологию – весьма трудно решается.
Перспективам применению статистических методов анализа социологических данных в науковедении и управлении наукой посвящены исследования [21, 22], выполненные совместно со специалистами Центра исследований и статистики науки Госкомитета по науке и технике.
Итоги тридцатилетнего развития научных исследований в области разработки и применения статистических методов в отечественной социологии подведены в обобщающей статье [23]. Краткий вариант [24] этой статьи под названием «Статистические методы и модели в социально-экономических исследованиях (тридцать лет спустя)» был опубликован годом ранее в сборнике МГУ им. М.В. Ломоносова.
Крайняя (на момент составления настоящей статьи) работа в «Социологии-4М» посвящена (заочной) дискуссии с американцами (прямо скажем, посвящена разоблачению их невежества) [25].
Результаты наших социологических исследований публиковались и в других изданиях. Так, итоги выполненных под нашим руководством конкретных социологических и социально-психологических исследований, проведенных в интересах и на базе Вечерней математической школы при Московском математическом обществе подведены в брошюре [5].
Конкретный прогноз развития российской науки на основе социологического анализа был дан в статье [26]. Прогноз полностью подтвердился. В этой работе автор настоящей статьи выступил не в обычной роли специалиста по методам, а в роли социолога-прогнозиста, действующего в рамках обычной для социологов методологии, в которой анализ статистических данных является лишь одним из инструментов. Другие наши работы в области социально-экономического прогнозирования отражены в сводке [27]. В недавние годы был сделан ряд докладов на социологических конференциях [28 - 31].
Результаты наших исследований по применению социометрии для решения задач управления малыми группами – подразделениями Института высоких статистических технологий и эконометрики впервые приводятся в статье [32] (см. также [33]), затем - в учебнике [34, с.106-108].
Поскольку социологи включают маркетинговые исследования в сферу своей науки, то укажем статью [35]. Во всех учебниках и учебных пособиях автора настоящей статьи, вышедших начиная с 2000 г., имеются главы, посвященные выборочным и маркетинговым исследованиям. В частности, обратим внимание на метод организации и анализа данных об ожидаемом спросе, позволяющем оценивать функцию (ожидаемого) спроса по эмпирическим данным и рассчитывать оптимальную розничную цену при данных издержках или оптовой цене. Вот уже 18 лет студенты факультета «Инженерный бизнес и менеджмент» МГТУ им. Н.Э. Баумана в качестве лабораторной работы опрашивают потребителей и проводят указанные расчеты.
Недавно выпущены три развернутые статьи [25, 36, 37]. В последние годы в изданиях социологов появились сетования на отставание от Запада. В ответ можно посоветовать [38 - 42] изучать отечественные публикации 1970 - 1980-х годов, которые по своему научному уровню выше современных – как отечественных, так и западных.
Для социологического словаря-справочника были подготовлены три статьи типа энциклопедических [43 - 45]. Их переиздали в 2008 г. [46 - 48].
Целесообразно добиться, чтобы специалисты (научные работники и преподаватели), а также студенты-социологи познакомились с современными статистическими методами, рассмотренными, в частности, в учебниках [20, 49]. Но как этого добиться? Ведь в названиях этих книг нет слова «социология»…
При обсуждении вопросов управления наукой в [50, 51] выдвинуто предложение о создании научной специальности «Математические и инструментальные методы социологии», аналогичной экономической специальности 08.00.13 «Математические и инструментальные методы экономики». Отсутствие такой специальности приводит к постепенной деградации в области применения математических методов в социологии, к снижению научного уровня социологических исследований в целом.
Основные результаты, полученные автором настоящей статьи в социологии, отражены в главе 12 «Статистические методы в социологии» учебника [52].
3. «Болезни роста» современной российской социологии
В течение последних 30 лет российская социология бурно растет по всем количественным параметрам. Если в 1989 г. в России было 6 социологических факультетов, отделений, кафедр, то в 2003 г. - уже 105. Число студентов-социологов выросло более чем в 100 раз. Во всех вузах преподают социологию (она вошла в перечень «Общих гуманитарных и социально-экономических дисциплин» государственных образовательных стандартов высшего профессионального образования). Издается более 20 социологических журналов. Каждый год ВАК утверждает около 50 докторских диссертаций по социологии [53, с.2-3].
Очевидно, глубину исследованиям придает использование развитого научного аппарата - методологии и методов сбора и анализа данных, математических моделей. На наш взгляд, принципиальный прорыв был осуществлен в нашей стране в 1970-е годы. Именно тогда в арсенале отечественных социологов появились теория измерений и нечеткие множества, математические методы классификации и многомерное шкалирование, непараметрическая статистика и статистика нечисловых данных.
В дальнейшие десятилетия шло естественное развитие научного аппарата. К сожалению, нельзя сказать, что в последние годы темпы этого развития усилились. Действующие лица 1970-х годов выпустили учебники [20, 49, 54 - 56], но поток научных результатов в области математических методов в социологии не расширился по сравнению с 1970-ми - периодом «бури и натиска». Из этого следует, в частности, что публикации тех лет [8, 57, 58] отнюдь не устарели, они представляют большой интерес для социологов XXI века.
Итак, социология бурно развивается вширь, но весьма медленно - вглубь. Это вполне естественно. Прочитав в 1970 г. популярную книгу В.Э. Шляпентоха [59], автор настоящей статьи провел свое первое полевое исследование. Несмотря на простоту, оно позволило решить управленческие задачи, стоявшие перед автором как директором Вечерней математической школы (ВМШ) при Московском математическом обществе. Итоги многолетней деятельности в ВМШ подведены в [5]. И сейчас наши ученики-маркетологи, готовя выпускные работы на степень магистра делового администрирования, обходятся полевыми исследованиями на столь же простом уровне (см. описание исследования «Потребители растворимого кофе» в [20, гл.1]).
И лишь постепенно практики приходят к необходимости применять более сложные методы. Например, в крупном маркетинговом агентстве, опрашивающем за год около 0,5 млн. потребителей, в котором автор этих слов работал консультантом, был создан специализированный отдел обработки данных, сотрудники которого ежедневно применяли различные алгоритмы статистической обработки данных, включенные в известный пакет SPSS.
Как показывает, в частности, анализ тезисов докладов и выступлений на II Всероссийском социологическом конгрессе «Российское общество и социология в XXI веке: социальные вызовы и альтернативы» [60], большинство участников конгресса не проводит полевых исследований и не испытывает потребности в применении математических и статистических методов. Такие методы необходимы лишь для продвинутых социологических исследований. Очевидно, с укреплением социологических центров в них возникают подразделения анализа данных, которые сначала пользуются стандартными статистическими пакетами, а затем востребуют и современные методы.
В социологии с успехом используются различные методы анализа данных и разнообразные математические модели (см., например, сборник [61]). Обсудим развитие методов обработки результатов выборочных исследований за последние сорок лет.
4. Основное событие - появление прикладной статистики
Математические методы выборочных исследований. Выборочные исследования – один из основных инструментов социологов. Для переноса выводов с выборки на всю интересующую исследователя совокупность необходимо использовать вероятностно-статистические методы и модели. Уже в 1970-х годах в нашей стране активно разрабатывались продвинутые математические и статистические методы анализа данных социологических опросов (см., например, сборники [57, 58]). Отметим, что работы тех уже далеких лет, как правило, отнюдь не устарели и по-прежнему представляют интерес для специалистов по анализу социологических данных и математическому моделированию социальных процессов. Однако за сорок прошедших лет в некоторых направлениях удалось существенно продвинуться. Основное содержание настоящей статьи - обсуждение развития ориентированных на социологию статистических методов и моделей за последние сорок лет в нашей стране.
Одни и те же математические и статистические методы и модели могут с успехом применяться в самых разных областях науки и практики. Статистические методы и модели весьма эффективны в социологических, социально-экономических, управленческих, технических и технико-экономических исследованиях, медицине, истории, практически в любой прикладной отрасли и области знания.
Очевидна связь между исследованиями, выполненными в рамках различных дисциплин. Например, на Втором Всероссийском социологическом конгрессе (2003) активно обсуждалась такая традиционно экономическая тематика, как маркетинговые и инновационные исследования [60]. Однако для специалиста вполне естественным является желание «замкнуться» внутри своей предметной области. Например, довольно странным выглядело бы предложение о преподавании на социологическом факультете в соответствии с учебником по эконометрике [20]. Удивление значительно возросло бы при констатации того, что этот учебник составлен в основном из статей, опубликованных в журнале «Заводская лаборатория. Диагностика материалов» (в прошлом – орган Министерства черной металлургии). Действительно, есть ли что-либо общее у инженера-металлурга, менеджера, экономиста и социолога? Необходимо известное интеллектуальное развитие, чтобы понять, что все эти специалисты могут использовать одни и те же инструменты исследования – статистические методы и модели.
В рассматриваемой области основное событие последних тридцати пяти лет – это становление научно-практической дисциплины «прикладная статистика», посвященной разработке и применению статистических методов и моделей. На Западе, как мы убедились в процессе становления Всесоюзной статистической ассоциации (учреждена в 1990 г.), аналогичный процесс начался несколько раньше и протекает иначе из-за сложившихся традиций и отличия научно-организационных форм.
Появление прикладной статистики. В нашей стране термин «прикладная статистика» вошел в широкое употребление в 1981 г. после выхода массовым тиражом (33940 экз.) сборника «Современные проблемы кибернетики (прикладная статистика)». В этом сборнике обосновывалась трехкомпонентная структура прикладной статистики [62]. Во-первых, в нее входят ориентированные на прикладную деятельность математико-статистические методы анализа данных (эту область можно назвать прикладной математической статистикой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком относить к математике. Она включает в себя две внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных. В нашей стране термин «прикладная статистика» использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов. Эти факты предыстории прикладной статистики также рассмотрены в сборнике [62].
По мнению ряда специалистов, прикладная статистика и математическая статистика – это две разные научные дисциплины. Первая относится к статистике, вторая - к математике. Различие четко проявляется и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся для обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе по математическим методам статистики).
Структура современной статистики. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации (см. об этом, например, статью [63]).
Прикладная статистика - методическая дисциплина, являющаяся центром статистики. При применении методов прикладной статистики к конкретным областям знаний и отраслям народного хозяйства получаем научно-практические дисциплины типа "статистика в промышленности", "статистика в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [20]. Математическая статистика играет роль теоретического (математического) фундамента для прикладной статистики.
К настоящему времени любому специалисту очевидно четко выраженное размежевание математической статистики и прикладной статистики. Математическая статистика исходит из сформулированных в основном в 1930-50 гг. постановок математических задач, происхождение которых связано с анализом статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены лишь обобщению и дальнейшему математическому изучению этих задач. Поток новых математических результатов (теорем) пока не ослабевает, но новые практические рекомендации по обработке статистических данных при этом не появляются. Можно сказать, что в нашей стране математическая статистика как научное направление замкнулась внутри себя.
Научное направление и сам термин «прикладная статистика» возникли как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением в мире научных дисциплин. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов, накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (считается, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та порождает новые научные дисциплины (сейчас "измерением земли" занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап - окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечено, например, в [64], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.
Статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете). Однако современная математическая статистика была создана сравнительно недавно, а именно, в первой половине ХХ века. Именно тогда были разработаны ее основные идеи, получены результаты, излагаемые ныне в учебных курсах математической статистики. Затем математики занялись разработкой внутриматематических проблем, а для создания новых статистических технологий и теоретического обслуживания практики анализа статистических данных стала использоваться новая дисциплина - прикладная статистика.
5. Точки роста прикладной статистики
Внутри прикладной статистики наиболее значимым нам представляется создание и развитие статистики объектов нечисловой природы. Ее называют также статистикой нечисловых данных или нечисловой статистикой. Большое значение имеет развитие непараметрической статистики и методов снижения размерности. Рассмотрим три перечисленные «точки роста» прикладной статистики.
Статистика объектов нечисловой природы как часть прикладной статистики. Согласно общепринятой в настоящее время классификации статистических методов прикладная статистика делится на четыре области: статистика (числовых) случайных величин; многомерный статистический анализ; статистика временных рядов и случайных процессов; статистика объектов нечисловой природы.
Первые три из этих областей являются классическими. Они были хорошо известны еще в первой половине ХХ в. Остановимся на четвертой, сравнительно недавно вошедшей в массовое сознание специалистов. Анализ динамики развития прикладной статистики приводит к выводу, что в XXI в. статистика объектов нечисловой природы становится центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.
Исходный объект в прикладной математической статистике - это выборка. В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры. Примерами объектов нечисловой природы являются: значения качественных признаков, т.е. результаты кодировки объектов (например, ответов на вопросы социологической анкеты) с помощью заданного перечня категорий (градаций); бинарные отношения, в том числе упорядочения (ранжировки), классификации (отношения эквивалентности), толерантности; результаты парных сравнений, т.е. последовательности из 0 и 1; графы; множества (обычные или нечеткие); слова, предложения, тексты; вектора, координаты которых - совокупность значений разнотипных признаков, часть из них носит качественный характер, а часть - количественный; ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д., и т.п.
Напомним, что толерантность - это рефлексивное симметричное отношение. Отличается от классификации (отношения эквивалентности) возможным отсутствием транзитивности. Толерантностями естественно описывать отношения сходства или знакомства. Вероятностно-статистическая теория толерантностей содержится в монографии [8].
В течение 1970-х годов на основе запросов социологии [65], экономики, техники и медицины развивались конкретные направления статистики объектов нечисловой природы. Были установлены связи между конкретными видами таких объектов, разработаны для них вероятностные модели. Научные итоги этого периода подведены в монографии [8].
Следующий этап - выделение статистики объектов нечисловой природы в качестве самостоятельного направления в прикладной статистике, ядром которого являются методы статистического анализа данных произвольной природы. Программа развития этого нового научного направления впервые была сформулирована в статье [66]. Реализация этой программы была осуществлена в 1980-е годы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики. Предварительные итоги были подведены в сборнике научных статей [12], полностью посвященном нечисловой статистике.
К 1990-м годам статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Наступило время перейти к применению полученных результатов на практике. Одним из примеров такого применения являются работы по социологии науки [21, 22].
Непараметрическая статистика. Из многих «точек роста» прикладной статистики, рассмотренных в [49], отметим непараметрическую статистику, или непараметрику. В первой трети ХХ века в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ века, после работ А.Н.Колмогорова и Н.В.Смирнова 1930-х годов. После второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. Все большую роль играют непараметрические оценки плотности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа). В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания сборника статистических таблиц Л.Н. Большева и Н.В. Смирнова [67], содержащего подробные таблицы для основных непараметрических критериев.
Тем не менее, параметрические методы всё еще популярнее непараметрических. Неоднократно публиковались (см., например, [49]) экспериментальные данные, показывающие, что распределения реально наблюдаемых случайных величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны от нормальных (гауссовских). Тем не менее, теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики - пытаться применять подобные методы и модели. С точки зрения прикладной статистики такие попытки напоминают поиск ключей под фонарем, где светло, а не там, где они потеряны.
Почему же неадекватные параметрические методы довольно часто позволяют получать практически полезные выводы? Прикладная статистика позволяет изучать свойства конкретных алгоритмов анализа данных на основе вероятностно-статистических моделей. Например, рассмотрим простейший алгоритм анализа данных - расчет выборочного среднего арифметического. Если мы хотим перенести результаты с выборки на более широкую совокупность, то вынуждены использовать ту или иную модель порождения данных, например, рассматривать наблюденные значения как реализации независимых одинаково распределенных случайных величин (векторов или объектов иной природы). Эта модель позволяет обосновать использование выборочного среднего арифметического как точечной оценки теоретического среднего (математического ожидания), указать (доверительные) границы для теоретического среднего и решить иные задачи [49]. В частности, оказывается, что доверительные границы, рассчитанные при нереалистическом предположении нормальности, при увеличении объема выборки сближаются с адекватными непараметрическими границами, построенными на основе Центральной Предельной Теоремы теории вероятностей (поскольку квантили распределения Стьюдента приближаются к квантилям нормального распределения). В то же время методы отбраковки резко выделяющихся наблюдений, основанные на гипотезе нормальности, крайне неустойчивы, следовательно, не являются адекватными [49].
Ряд непараметрических методов рассмотрен в обзоре [68]. Более подробное изложение можно найти в учебнике [49], в котором, в частности, продемонстрировано, что свой естественный вид многие непараметрические методы, предназначенные для оценивания среднего, плотности, регрессионной зависимости и решения других задач (в частности, в теории классификации [18]), приобретают в рамках статистики объектов нечисловой природы. Отметим также «широту» непараметрики - в нее входят все методы, не опирающиеся на ту или иную модель принадлежности функций распределения результатов наблюдений к некоторому параметрическому семейству распределений. Ранговые методы составляют лишь часть одномерной непараметрики, как и методы, предполагающие непрерывность функции распределения результатов наблюдений. Например, выборочное среднее арифметическое - это непараметрическая оценка среднего в модели, в которой результаты наблюдений имеют произвольную функцию распределения с конечной дисперсией [49].
Статистические методы и социология. Число актуальных для социологов публикаций по статистическим методам - не менее 100000 [49, 63]. Очевидна актуальность поиска необходимой исследователю информации о методах. В среднесрочной перспективе можно ожидать помощи от Интернета (в частности, большой массив полезной информации содержится на сайте "Высокие статистические технологии"
http://orlovs.pp.ru). Однако в настоящее время основные результаты все еще размещены на бумажных носителях. Как нам представляется, представленная в настоящей статье концепция развития статистических методов, разработанная Российской ассоциацией статистических методов, окажется полезной специалистам по анализу социологических данных.
Выше неоднократно отмечалась польза для социологов работ, формально относящихся к экономике, управлению (менеджменту), техническим исследованиям. Обратим внимание на информационный поток, идущий из социологии в другие области. В социологической литературе, как уже отмечалось, получены результаты в маркетинге и управлении инновациями. Отметим, например, работу по дискриминантному анализу [69], имеющую общестатистический интерес.
Самостоятельная проблема - внедрение в практику работы организации современных статистических методов. Обратим внимание на систему «Шесть сигм» организации подобного внедрения [70].
Мы рассмотрели развитие идей и научной области, а не персоналии. В краткой, но весьма содержательной сводке [71] описаны основные научные результаты большого числа отечественных исследователей в области статистических методов анализа социологических данных, названы основные исследовательские коллективы Москвы, Петербурга, Новосибирска и многих иных городов, приведена обширная библиография (119 названий). Подробное же описание требует серии книг, а не статьи.
Литература
1. Орлов А.И., Розенталь А.Л. Вечерняя математическая школа // Квант. 1970. № 3. С.61, 64.
2. Орлов А.И. ВМШ при Московском математическом обществе // Квант. 1973. № 9. С.72-73, 80.
3. Орлов А.И., Розенталь А.Л. Встречи с тремя Неизвестными // Квант. 1974. No.3. С.68, 78-79.
4. Орлов А.И. О математическом разделе «Встречи с тремя Неизвестными» журнала «Пионер» // Заочное обучение математике школьников 8-10 классов. - М.: Изд-во НИИ содержания и методов обучения АПН СССР, 1976. С.78-81.
5. Орлов А.И. О теоретических основах внеклассной работы по математике и опыте Вечерней математической школы при Московском математическом обществе / Бюллетень № 2 Всесоюзного центра статистических методов и информатики. - М.: ВЦСМИ, 1991. - 48 с.
6. Орлов А.И., Гусейнов Г.А. Математические методы в изучении способных к математике школьников // Исследования по вероятностно-статистическому моделированию реальных систем. - М.: Изд-во ЦЭМИ АН СССР, 1977. С.80-93.
7. Орлов А.И. О сравнении совокупностей с помощью средних // В сб.: Методы современной математики и логики в социологических исследованиях. - М.: Изд-во Института социологических исследований АН СССР, 1977. С.149-160.
8. Орлов А.И. Устойчивость в социально-экономических моделях. — М.: Наука, 1979. — 296 с.
9. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. — 541 с.
10. Орлов А.И. Асимптотика квантования и выбор числа градаций в социологических анкетах // Математические методы и модели в социологии. - М.: Изд-во Института социологических исследований АН СССР, 1977. С.42-55.
11. Орлов А.И. Статистика объектов нечисловой природы и обработка социологических данных // Математические методы в социологическом исследовании. - М.: Наука, 1981. С.67-75.
12. Андреенков В.Г., Орлов А.И., Толстова Ю.Н. (ответственные редакторы). Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.
13. Орлов А.И. Общий взгляд на статистику объектов нечисловой природы // Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. С.58-92.
14. Орлов А.И., Никифоров А.М., Никифорова Г.В. Предложения по составу раздела «Статистика объектов нечисловой природы» в статистических пакетах // Методы социологических исследований (3-я Всесоюзная конференция, 4-8 декабря 1989 г., г. Звенигород Московской обл.). Выпуск III. - М.: Ин-т социологии АН СССР, 1989. С.16-17.
15. Орлов А.И. Перспективы использования статистики объектов нечисловой природы в социологических исследованиях // Методы социологических исследований (3-я Всесоюзная конференция, 4-8 декабря 1989 г., г. Звенигород Московской обл.). Выпуск III. - М.: Ин-т социологии АН СССР, 1989. С.17-19.
16. Орлов А.И. Современные аспекты анализа нечисловых данных. – Журнал «Социология: методология, методы, математические модели». 1991. № 2. С.128-130.
17. Орлов А.И. Комментарий к статье Г.А. Сатарова и Л.И. Тихомировой «Методика анализа конкурирующих предпочтений» // Социология: методология, методы, математические модели». 1991. № 1. С.49-50.
18. Орлов А.И. Заметки по теории классификации // Социология: методология, методы, математические модели. 1991. № 2. С.28-50.
19. Орлов А.И. Где узнать социологу о современных статистических методах? // Социология: методология, методы, математические модели. 1993-1994. № 3-4. С.171-176.
20. Орлов А.И. Эконометрика. Изд. 4-е, доп. и перераб. Учебник для вузов. – Ростов-на-Дону: Феникс, 2009. - 572 с.
21. Орлов А.И., Нечаева Е.Г., Соколов А.В. Статистика объектов нечисловой природы и анализ данных о научном потенциале // Социология: методология, методы, математические модели. 1995. №№ 5-6. С.118-136.
22. Орлов А.И., Нечаева Е.Г., Соколов А.В. Перспективы применения современных статистических методов в выборочных исследованиях научных организаций // Международная газета «Наука и технология в России». 1995. № 2(8). С.8-9.
23. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя) // Социология: методология, методы, математические модели. 2005. № 20. С.32-53.
24. Орлов А.И. Статистические методы и модели в социально-экономических исследованиях (тридцать лет спустя) // Математическое моделирование социальных процессов. - М.: МГУ им. М.В.Ломоносова, 2004. [Электронный ресурс] URL:
http://www.studfiles.ru/preview/3373143/ (дата обращения 30.01.2016).
25. Орлов А.И. Теория измерений как часть методов анализа данных: размышления над переводом статьи П.Ф. Веллемана и Л. Уилкинсона // Социология: методология, методы, математическое моделирование. 2012. № 35. С. 155-174.
26. Орлов А.И. Социологический прогноз развития российской науки на 1993-1995 гг. // Международная газета «Наука и технология в России». Июнь 1993 г. № 1. С.29-29.
27. Лындина М.И., Орлов А.И. Методы прогнозирования для ракетно-космической промышленности // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 103. С. 196–221.
28. Орлов А.И., Русанова Г.В., Горчакова Л.С. Статистические методы и модели в социально-экономических исследованиях // Тезисы докладов и выступлений на II Всероссийском социологическом конгрессе «Российское общество и социология в XXI веке: социальные вызовы и альтернативы»: В 3 т. – М.: Альфа-М, 2003. С.519-521.
29. Орлов А.И., Орлова Л.А., Русанова Г.В., Горчакова Л.С. Высокие статистические технологии и перспективы их применения в социологии // Тезисы I Всероссийской научной конференции «Сорокинские чтения-2004: Российское общество и вызовы глобализации». - М.: Альфа-М, 2004. - С.193-196.
30. Орлов А.И. Перспективы применения люсианов в социологии // Тезисы II Всероссийской научной конференции «Сорокинские чтения: Будущее России: стратегии развития». - М.: Альфа-М, 2005. - С.213-216.
31. Орлов А.И., Муравьева В.С., Смольников Р.В. Организационно-экономические методы и модели в социологических исследованиях // Тезисы докладов III Всероссийской научной конференции «Сорокинские чтения: Социальные процессы в современной России: традиции и инновации». Т.2. –М.: КДУ, 2007. – С. 72-75.
32. Орлов А.И. Организационные структуры и механизмы управления // Бизнес-команда и ее лидер. 2005. № 10. С.17-26.
33. Мухин В.В., Орлов А.И. Совершенствование организационных структур и контроллинг персонала на предприятиях типа "Научно-исследовательский институт" ракетно-космической промышленности // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 109. С. 265–296.
34. Колобов А.А., Омельченко И.Н., Орлов А.И. Менеджмент высоких технологий. Интегрированные производственно-корпоративные структуры: организация, экономика, управление, проектирование, эффективность, устойчивость. – М.: Экзамен, 2008. – 621 с.
35. Орлов А.И. Основные идеи современного маркетинга // Маркетинг успеха. 2000. № 12. С.21-39.
36. Орлов А.И. Методы снижения размерности // Приложение 1 к книге: Толстова Ю.Н. Основы многомерного шкалирования: Учебное пособие для вузов. – М.: Издательство КДУ, 2006. - 160 с.
37. Орлов А.И. Организационно-экономические методы и модели и их применение в социологических исследованиях // Математическое моделирование социальных процессов. Вып.10 : сб. ст. / Под ред. А.П. Михайлова. – М.: КДУ, 2009. – С.248 – 263.
38. Орлов А.И. Отечественные достижения: теория устойчивости и нечисловая статистика. - Материалы IV конференции «Современные проблемы формирования методного арсенала социолога» (Москва, 16 февраля 2010 г.). – М.: Институт социологии РАН, 2010. CD диск ISBN 978-5-89697-181-8
39. Орлов А.И. Черная дыра отечественной социологии. - Выступление 09-01-2011 в «Дискуссии о социологии» на сайте Российского общества социологов [Электронный ресурс] URL:
http://www.ssa-rss.ru/index.php?page_id=19&id=456 (дата обращения 30.01.2016).
40. Орлов А.И. Об оценке качества процедур анализа данных // Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского / Отв. ред. и вступит. ст. О.А. Оберемко; НИУ ВШЭ, ИС РАН, РОС. М.: НИУ ВШЭ, 2011. - С.7-13. См. также [Электронный ресурс] URL:
http://soc.hse.ru/news/35110414.html (дата обращения 30.01.2016).
41. Орлов А.И. Теория измерений и методы анализа // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. ISBN 978–5–904804–06–0. – С.2871-2880.
42. Орлов А.И. Теория измерений и методы анализа данных // Современная социология — современной России: Сборник статей памяти первого декана факультета социологии НИУ ВШЭ А. О. Крыштановского [Электронный ресурс] / НИУ ВШЭ; РОС; СоПСо. — М.: НИУ ВШЭ, 2012. – С.217-225.
43. Орлов А.И. Вероятностей теория. – В сб.: Социология: Словарь-справочник. Т.4. Социологическое исследование: Методы, методика, математика и статистика. - М.: Наука, 1991. С.25-27.
44. Орлов А.И. Статистика математическая. – В сб.: Социология: Словарь-справочник. Т.4. Социологическое исследование: Методы, методика, математика и статистика. - М.: Наука, 1991. С.292-294.
45. Орлов А.И. Статистика объектов нечисловой природы. – В сб.: Социология: Словарь-справочник. Т.4. Социологическое исследование: Методы, методика, математика и статистика. - М.: Наука, 1991. С.294-296.
46. Орлов А.И. Статистика математическая // Социологический словарь / Отв. ред. Осипов Г.В., Москвичев Л.Н., Чернощек О.Е. – М.: Норма, 2008. – С.498-499.
47. Орлов А.И. Статистика объектов нечисловой природы // Социологический словарь / Отв. ред. Осипов Г.В., Москвичев Л.Н., Чернощек О.Е. – М.: Норма, 2008. – С.500-501.
48. Орлов А.И. Теория вероятностей // Социологический словарь / Отв. ред. Осипов Г.В., Москвичев Л.Н., Чернощек О.Е. – М.: Норма, 2008. – С.516-517.
49. Орлов А.И. Прикладная статистика. Учебник. - М.: Экзамен, 2006. - 672 с.
50. Орлов А.И. Два типа методологических ошибок при управлении научной деятельностью // Управление большими системами / Сборник трудов. Специальный выпуск 44. Наукометрия и экспертиза в управлении наукой / [под ред. Д.А. Новикова, А.И. Орлова, П.Ю. Чеботарева]. М.: ИПУ РАН, 2013. – С.32–54.
51. Орлов А.И. О некоторых методологически ошибочных методах анализа и оценки результатов научной деятельности // Россия: тенденции и перспективы развития. Ежегодник. Вып. 8. / РАН. ИНИОН. Отд. науч. сотрудничества и междунар. связей; Отв. ред. Ю.С. Пивоваров. – М., 2013. – Ч. 2. – С. 528-533.
52. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.
53. Осипов Г.В. Российская социология в XXI веке // Социологические исследования. 2004. № 3. С. 3-15.
54. Толстова Ю.Н. Анализ социологических данных: методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000. - 352 с.
55. Толстова Ю.Н. Измерение в социологии. - М.: Инфра-М, 1998. - 224 с.
56. Татарова Г.Г. Методология анализа данных в социологии (введение). Учебник для вузов. - М.: NOTA BENE, 1999. - 224 с.
57. Методы современной математики и логики в социологических исследованиях / Под ред. Э.П. Андреева. М.: Институт социологических исследований АН СССР, 1977. - 172 с.
58. Математические методы и модели в социологии / Под ред. В.Н. Варыгина. М.: Институт социологических исследований АН СССР, 1977. - 192 с.
59. Шляпентох В.Э. Социология для всех: некоторые проблемы, результаты, методы. - М.: Советская Россия, 1970. - 247 с.
60. Тезисы докладов и выступлений на II Всероссийском социологическом конгрессе «Российское общество и социология в XXI веке: социальные вызовы и альтернативы»: В 3 томах. М.: Альфа-М, 2003.
61. Актуальные проблемы социологической науки и социальной практики: Научная конференция «Сорокинские чтения - 2002»: Москва, МГУ им. М.В. Ломоносова, 17-18 декабря 2002 г.: Сб. науч. докл. в 3-х томах: Том 3: Математическое моделирование социальных процессов: Выпуск 5. / Под общей редакцией А.А.Самарского, В.И. Добренькова, А.П. Михайлова. М.: МАКС Пресс, 2003.
62. Современные проблемы кибернетики (прикладная статистика). / Под ред. А.И. Орлова. - М.: Знание, 1981. - 64 с.
63. Орлов А.И. О перестройке статистической науки и её применений // Вестник статистики. 1990. № 1. С.65 - 71.
64. Тутубалин В.Н. Границы применимости (вероятностно-статистические методы и их возможности). - М.: Знание, 1977. - 64 с.
65. Орлов А.И. Статистика объектов нечисловой природы и обработка социологических данных // Математические методы в социологическом исследовании. - М.: Наука, 1981. - С.67-75.
66. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки // Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. - С.17-33.
67. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
68. Тюрин Ю.Н., Шмерлинг Д.С. Непараметрические методы статистики // Социология: методология, методы, математические модели. 2004. № 18. С.154-166.
69. Бессокирная Г.П. Дискриминантный анализ для отбора информативных переменных. / Социология: методология, методы, математические модели. 2003. № 16. С.25-35.
70. Панде П., Холп Л. Что такое «Шесть сигм»? Революционный метод управления качеством / Пер. с англ. - М.: Альпина Бизнес Букс, 2004. - 158 с.
71. Толстова Ю.Н. Математические методы в социологии // Социология в России. Под ред. В.А. Ядова. - 2-е изд., перераб. и дополн. - М.: Издательство Института социологии РАН, 1998. - С.83-89, 98-103.
Публикация:
Орлов А.И. Математические методы в социологии за сорок пять лет / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2016. – №03(117). С. 91 – 119. – IDA [article ID]: 1171603004. – Режим доступа:
http://ej.kubagro.ru/2016/03/pdf/04.pdf, 1,812 у.п.л.