768. Орлов А.И. Теория измерений и методы анализа // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. ISBN 978–5–904804–06–0. – С.2871-2880.
Проф., д.э.н., д.т.н., к.ф.-м.н. А.И. Орлов
Директор Института высоких статистических технологий
и эконометрики МГТУ им. Н.Э. Баумана
ТЕОРИЯ ИЗМЕРЕНИЙ И МЕТОДЫ АНАЛИЗА
Предварительно обосновав необходимость развития научной специальности «Математические и инструментальные методы в социологии», рассматриваем роль теории измерений при выборе методов сбора и анализа социологической информации.
Математические и инструментальные методы в социологии
Статья относится к достаточно самостоятельной области – математическим методам анализа социологических данных. Основной интерес в ней – к математическим вопросам, социологические постановки служат для постановки математических задач. Эта область относится к математической социологии – научной дисциплине, аналогичной математической экономике, математической физике и др.
Классификация наук закреплена формальными решениями. Например, в нашей стране утвержден список специальностей научных работников. Однако формальные решения могут быть модернизированы. Время от времени это происходит. Например, около 20 лет назад появились новые группы специальностей – социологические и политологические. Однако недостатки действующей системы очевидны. Приведем четыре примера.
Пример 1. Продолжает использоваться термин «физико-математические науки», хотя его нелепость ясна всем специалистам. Математика относится к формальным наукам, изучает конструкции, созданные мыслью, т.е. находящиеся не в реальном мире, а в идеальном (по Платону). Математика может быть применена в любой сфере деятельности, в любой отрасли народного хозяйства. Например, широко распространен термин «экономико-математические методы и модели», очевидно, относящийся к применению математики в экономике. В то же время физика – одна из областей естествознания, наука, изучающая наиболее общие и фундаментальные закономерности, определяющие структуру и эволюцию материального мира. Термин «физико-математические науки» не более обоснован, чем, например, термины «химико-математические науки» или даже «ветеринарно-социологические науки».
Пример 2. Как известно, статистические методы применялись на практике (и, следовательно, были теоретически разработаны) с древних времен. В Библии Ветхий завет начинается с Пятикнижия Моисеева, и четвертая книга Пятикнижия называется «Числа». Она начинается с описания проведенной под руководством Моисея переписи военнообязанных. Со времен библейского Моисея статистика получила значительное развитие. В США число статистических кафедр в университетах превышает число математических, соответственно и число статистиков больше числа математиков (примерно вдвое) [1]. Следовательно, в США статистика воспринимается одной из «больших» наук: математика, физика, статистика, химия, биология… Совсем не так в нашей стране. В официальной структуре науки статистика упоминается дважды, и оба раза на вторых ролях. Во-первых, как одна из экономических наук (специальность 08.00.12 «Бухгалтерский учет, статистика», присуждаются ученые степени по экономическим наукам). Во-вторых, в названии математической специальности 01.01.05 «теория вероятностей и математическая дисциплина» (присуждаются ученые степени по физико-математическим наукам). Все остальные применения статистических методов, в частности, в социологических исследованиях, остаются вне официальной структуры науки.
Пример 3. На знамени научного прогресса второй половины ХХ в. начертано: «Кибернетика». Однако нет в нашей стране докторов и кандидатов кибернетических наук (есть, правда, математическая специальность «Дискретная математика и математическая кибернетика», при защите присуждается ученая степень по физико-математическим наукам).
Пример 4. Очевидно, что менеджмент (управление людьми) – более широкая сфера деятельности, чем экономика. Управленческие решения необходимо принимать на основе все совокупности социальных, технологических, экологических, экономических, политических факторов [2]. Между тем в действующей официальной номенклатуре специальностей научных работников (в редакции Приказа Минобрнауки РФ от 11.08.2009 N 294) менеджмент находится внутри экономической специальности 08.00.05 «Экономика и управление народным хозяйством». При этом есть целый ряд технических специальностей, включающих в себя термин «управление», среди которых выделяется специальность 05.13.10 «Управление в социальных и экономических системах» (присуждаются ученые степени по техническим (!) наукам).
Приведенные примеры показывают, что действующая официальная номенклатура специальностей научных работников нуждается в модернизации.
К социологическим наукам близки экономические. Вплоть до того, что на включение в свою сферу маркетинга (изучения предпочтений потребителей) претендуют и те, и другие. Однако у экономистов есть специальность 08.00.13 «Математические и инструментальные методы в экономике», а у социологов нет аналогичной специальности, математическая социология не выделена среди социологических наук.
К чему это приводит? В частности, к отсутствию должного внимания к развитию математических методов в социологии, к их вытеснению из перечней секций социологических конференций и конгрессов. В результате падает квалификационный уровень работ. На заседании секции «Измерение в социологии» VI научно-практической конференции памяти первого декана факультета социологии Александра Олеговича Крыштановского «Современная социология — современной России» (1–3 февраля 2012 года) пришлось урезонивать воинствующего невежду, который пытался навязать докладчику свое неправильное понимание проверки значимости при проверке статистических гипотез. Впрочем, и докладчик продемонстрировал непонимание необходимости обязательной проверки значимости различия долей тех или иных значений признаков при сравнения совокупностей, сказавши: «В журнале «Социология-4М» нас заставили проверить значимость различия долей». К необходимости повышения качества математической составляющей социологических исследований мы старались привлечь внимание в работе [3].
Мы считаем необходимым усилить внимание к проблемам развития и применения математических методов анализа социологических данных, математического моделирования социальных процессов, короче – к математической социологии. Целесообразно в рамках социологической науки создать специальность «Математические и инструментальные методы в социологии», аналогичную экономической специальности «Математические и инструментальные методы в экономике».
К математическим методам в социологии относим нет только методы анализа числовых и нечисловых социологических данных, но и методы математического моделирования социальных процессов [4, 5].
Под инструментальными методами понимаем прежде всего методы, нацеленные на развитие и применение информационных технологий, включая сетевые (в том числе модели распространения нововведений в сфере информационных и телекоммуникационных технологий [6] и онлайн исследования [7]).
О развитии математической социологии в нашей стране
Много интересных работ, относящихся к математической социологии, было выполнено в нашей стране в 70-80-е годы ХХ в. Назовем только некоторые из них. В 1977 г. Институт социологических исследований выпустил сборники [8, 9]. На основе материалов Всесоюзной научной конференции «Проблемы применения математических методов в социологическом исследовании» издательство «Наука» опубликовала солидный сборник [10]. Хотя прошло уже 30 лет, материалы этих сборников по-прежнему актуальны. Квалифицированные работы не устаревают. И даже необходимо отметить методологическую несостоятельность современных публикаций Росстата по переписям населения по сравнению с книгой «Числа» Ветхого Завета, в которой рассказано о переписи военнообязанных, проведенной под руководством Моисея.
По сей день наиболее многоплановой публикаций по методам анализа нечисловых данных является сборник [11], подготовленный совместно академическим Институтом социологии и комиссией «Статистика объектов нечисловой природы» Научного Совета АН СССР по комплексной проблеме «Кибернетика». В настоящее время анализу нечисловых данных посвящены обширные разделы в учебниках по прикладной статистике [12], есть и специальные учебники по нечисловой статистике [13], но сборник [11] по-прежнему актуален и необходим тем, кто хочет разобраться в методах анализа нечисловой (т.е. качественной) информации в социологических исследованиях. Отметим, что именно практические запросы социологов (и специалистов по экспертным оценкам) послужили стимулом для разработки нечисловой статистики [13].
В дальнейшем появились адресованные студентам-социологам учебники и учебные пособия, в частности, книги Ю.Н. Толстовой [14-16] и Г.Г. Татаровой [17, 18]. С 1991 г. выпускается журнал «Социология: методология, методы, математическое моделирование» (сокращенно «Социология-4М»). Развитию математических и статистических методов в российской социологии посвящены обзорные работы [19, 20].
Казалось бы, все хорошо в области математической социологии. Однако всё заметнее проявляются отрицательные тенденции. Большинство социологов остаются невежественными в области методов анализа данных. Проявляется это, например, в преклонении перед давно устаревшим западным статистическим пакетом SPSS (анализу статистических пакетов посвящена статья [21]). Полученные еще в 70-е годы ХХ в. научные результаты остаются неизвестными, а потому, естественно, не применяются. Научный инструментарий социолога зачастую соответствует уровню XIX в. В последнее время даже номинальное признание важности математической социологии в виде организации отдельных секций на социологических конгрессах и конференциях постепенно сходит на нет. Подробнее эти мысли развиты в нашем выступлении [22] в «Дискуссии о социологии» на сайте Российского общества социологов.
О теории измерений
Согласно теории измерений все реальные данные измерены в той или иной шкале [12-14]. Обычно выделяют шесть основных шкал – наименований (номинальную), порядковую, интервальную, отношений, разностей, абсолютную. Первые две – шкалы качественных признаков, остальные четыре – шкалы количественных признаков. Только абсолютная шкала не накладывает никаких ограничений на математические методы анализа данных.
Группы допустимых преобразований – вот что интересует нас в шкалах измерения, поскольку именно они задают ограничения на методы обработки данных, измеренных в соответствующих шкалах.
На основе анализа реальной ситуации выясняем шкалу измерения интересующих нас данных, т.е. ее группу допустимых преобразований. Методы анализа данных должны быть инвариантны относительно этой группы. Возникает целый ряд задач:
- является ли инвариантным конкретный метод анализа данных;
- найти хотя бы один конкретный метод анализа данных, решающий поставленную задачу:
- найти все инвариантные методы из некоторого заранее определенного класса;
- для каких шкал инвариантен заданный метод;
- найти все шкалы, относительно которых инвариантен определенный метод;
- найти все методы, выводы с помощью которых инвариантны с вероятностью, стремящейся к 1 (здесь своя достаточно обширная система постановок исследовательских задач), и т.д.
Перейдем к более подробному изложению. Выяснение типов используемых шкал необходимо для адекватного выбора методов анализа данных. Основополагающим требованием является независимость выводов от того, какой именно шкалой измерения воспользовался исследователь (среди всех шкал, переходящих друг в друга при допустимых преобразованиях). Например, если речь о длинах, то выводы не должны зависеть от того, измерены ли длины в метрах, аршинах, саженях, футах или дюймах. Другими словами, выводы должны быть инвариантны относительно группы допустимых преобразований шкалы измерения. Только тогда их можно назвать адекватными, т.е. избавленными от субъективизма исследователя, выбирающего определенную шкалу из множества шкал заданного типа, связанных допустимыми преобразованиями.
Требование инвариантности выводов накладывает ограничения на множество возможных алгоритмов анализа данных. В качестве примера рассмотрим порядковую шкалу. Одни алгоритмы анализа данных позволяют получать адекватные выводы, другие - нет. Например, в задаче проверки однородности двух независимых выборок алгоритмы ранговой статистики (т.е. использующие только ранги результатов измерений) дают адекватные выводы, а статистики Крамера-Уэлча и Стьюдента - нет. Значит, для обработки данных, измеренных в порядковой шкале, критерии Смирнова и Вилкоксона можно использовать, а критерии Крамера-Уэлча и Стьюдента - нет.
Выбор вида средних величин на основе условия устойчивости результата сравнения средних
Оказывается, требование инвариантности является достаточно сильным. Из многих алгоритмов анализа статистических данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.
Пусть Х1 , Х2 ,…, Хn - выборка объема n. Наиболее общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши. Средней величиной (по Коши) является любая функция f(X1, X2,...,Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2,...,Xn, и не больше, чем максимальное из этих чисел. Средними по Коши являются среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое.
Средние величины используются обычно для того, чтобы заменить совокупность чисел (выборку) одним числом, а затем сравнивать совокупности с помощью средних. Пусть, например, Y1, Y2,...,Yn - совокупность оценок экспертов, «выставленных» одному объекту экспертизы, Z1, Z2,...,Zn - второму. Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.
При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в теории измерений). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.
Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn).
Тогда согласно теории измерений для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g (из группы допустимых преобразований в соответствующей шкале) было справедливо также неравенство
f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)),
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть выполнено для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn. И, напомним, для любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно теории измерений только допустимыми средними величинами можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.
С помощью математической теории, развитой в монографии [23], удается описать вид допустимых средних величин в основных шкалах. Рассмотрим обработку, для определенности, мнений респондентов или экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.
Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).
Теорема 1 справедлива при условии, что среднее f(X1, X2,...,Xn) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f(X1, X2,...,Xn) не меняется. Это условие является вполне естественным, ибо среднюю величину находим для совокупности (множества) чисел, а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.
Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Можно применять выборочные квартили, минимум и максимум, децили и т.п. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.
Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н.Колмогоров [24]. Теперь их называют «средними по Колмогорову». Для чисел X1, X2,...,Xn средним по Колмогорову является
G{(F(X1) + F(X2) +...+ F(Xn))/n},
где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее квадратическое, и т.д. (в последних трех случаях усредняются положительные величины).
Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. Справедливы следующие утверждения.
Теорема 2. В шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое.
Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия), потенциальных энергий или координат точек не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.
Теорема 3. В шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = xс, , и среднее геометрическое.
Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F(x) = ex. Среднее геометрическое является пределом степенных средних при . Теоремы 2 и 3 справедливы при выполнении некоторых внутриматематических условий регулярности.
На наш взгляд, теоремы 1-3 должны быть известны всем студентам-социологам. (Как и все специалисты, я не могу претендовать на полное знание литературы. Буду благодарен за указание учебников для социологов, в которых приведены теоремы 1-3.)
Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий. Дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.
К сожалению, достаточно систематическому изучению подверглись лишь средние величины (см. выше) и расстояния ( см. [14, 25] и другие работы Ю.Н. Толстовой). Отметим, что исходные работы 1970-х годов по средним величинам породили достаточно обширное множество следующих работ (обзор дан в [26]), к сожалению, ничего существенно не добавивших к полученному вначале.
По нашему мнению [23, 27], необходимо развивать теорию на стыке математической статистики и теории измерений. Это – призыв к математикам. А социологов надо призвать к использованию полученных результатов. Например, для усреднения порядковых данных использовать не среднее арифметическое, а медиану.
Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, - сравнительного характера, чем количественного [28]. В очередной раз мы убедились в этом в 2011-2012 гг., проводя опросы летного состава авиакомпании «Волга-Днепр» в ходе разработки автоматизированной системы прогнозирования и предотвращения авиационных происшествий. Пилоты достаточно уверенно отвечали на вопросы о том, какое из предшествующих событий сильнее влияет на последующее, без труда ранжировали предшествующие события. Измерения в порядковой шкале не представляли для них сложности. При этом на вопросы типа «В скольких случаях на 1000 полетов осуществится определенное событие» отвечали с трудом или вообще отказывались отвечать. Поэтому пришлось отказаться от измерений в количественных шкалах и ограничиться порядковыми, с соответствующими ограничениями на методы обработки данных.
Литература
1. Налимов В.В. О преподавании математики экспериментаторам // О преподавании математической статистики экспериментаторам. Препринт Межфакультетской лаборатории статистических методов №17. – М.: Изд-во Московского университета им. М.В. Ломоносова, 1971. – С.5-39.
2. Орлов А.И. Менеджмент: организационно-экономическое моделирование. Учебное пособие для вузов. Ростов-на-Дону: Феникс, 2009.
3. Орлов А.И. Об оценке качества процедур анализа данных // Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского / Отв. ред. и вступит. ст. О.А. Оберемко; НИУ ВШЭ, ИС РАН, РОС. М.: НИУ ВШЭ, 2011. - С.7-13.
4. Математическое моделирование социальных процессов. Вып. 10: сб. ст. / Под ред. А.П. Михайлова. М.: КДУ, 2009.
5. Шведовский В.А. Особенности социолого-математического моделирования в исследовании социальных процессов. – М.: АПКиППРО,2009.
6. Делицын Л.Л. Количественные модели распространения нововведений в сфере информационных и телекоммуникационных технологий. М.: МГУКИ, 2009.
7. Онлайн исследования в России 2.0 / Под ред. Шашкина А.В., Девятко И.Ф., Давыдова С.Г. – М.: РИЦ «Северо-Восток», 2010.
8. Методы современной математики и логики в социологических исследованиях. / Под ред. Э.П.Андреева. М.: Институт социологических исследований АН СССР, 1977.
9. Математические методы и модели в социологии. / Под ред. В.Н. Варыгина. М.: Институт социологических исследований АН СССР, 1977.
10. Математические методы в социологическом исследовании. / Под ред. Т.В. Рябушкина и др. М.: Наука, 1981.
11. Анализ нечисловой информации в социологических исследованиях. / Под ред. В.Г. Андреенкова, А.И.Орлова, Ю.Н. Толстовой. М.: Наука, 1985.
12. Орлов А.И. Прикладная статистика. М.: Экзамен, 2006.
13. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. М.: Изд-во МГТУ им. Н.Э. Баумана. 2009.
14. Толстова Ю.Н. Измерение в социологии. М.: Инфра-М, 1998.
15. Толстова Ю.Н. Анализ социологических данных: методология, дескриптивная статистика, изучение связей между номинальными признаками. М.: Научный мир, 2000.
16. Толстова Ю.Н. Основы многомерного шкалирования. Учебное пособие для вузов. М.: Издательство КДУ, 2006.
17. Татарова Г.Г. Методология анализа данных в социологии (введение). Учебник для вузов. М.: NOTA BENE, 1999.
18. Татарова Г.Г. Основы типологического анализа в социологических исследованиях. М.: Издательский Дом «Высшее образование и наука», 2007.
19. Толстова Ю.Н. Математические методы в социологии. / Социология в России. Под ред. В.А. Ядова. - 2-е изд., перераб. и дополн. - М.: Издательство Института социологии РАН, 1998. С.83-89, 98-103.
20. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя). - Журнал «Социология: методология, методы, математические модели». 2005. No.20. С.32-53.
21. Орлов А.И. Статистические пакеты – инструменты исследователя. - Журнал «Заводская лаборатория». 2008. Т.74. No.5. С.76-78.
22. Орлов А.И. Черная дыра отечественной социологии. - Выступление 09-01-2011 в «Дискуссии о социологии» на сайте Российского общества социологов
http://www.ssa-rss.ru/index.php?page_id=19&id=45623. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1979.
24. Колмогоров А.Н. Избранные труды. Математика и механика. М.: Наука, 1985. С. 136–138.
25. Толстова Ю.Н. Адекватность функции расстояния в алгоритмах автоматической классификации. – В сб.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977. С.168-173.
26. Барский Б. В., Соколов М. В. Средние величины, инвариантные относительно допустимых преобразований шкалы измерения. – Журнал «Заводская лаборатория». 2006. №1. С.59-.67.
27. Орлов А.И. Связь между средними величинами и допустимыми преобразованиями шкалы. – Журнал «Математические заметки». 1981. Т. 30. No.4. С. 561-568.
28. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации (препринт). М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1981.
768. Орлов А.И. Теория измерений и методы анализа // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. ISBN 978–5–904804–06–0. – С.2871-2880.
Проф., д.э.н., д.т.н., к.ф.-м.н. А.И. Орлов
Директор Института высоких статистических технологий
и эконометрики МГТУ им. Н.Э. Баумана
ТЕОРИЯ ИЗМЕРЕНИЙ И МЕТОДЫ АНАЛИЗА
Предварительно обосновав необходимость развития научной специальности «Математические и инструментальные методы в социологии», рассматриваем роль теории измерений при выборе методов сбора и анализа социологической информации.
Математические и инструментальные методы в социологии
Статья относится к достаточно самостоятельной области – математическим методам анализа социологических данных. Основной интерес в ней – к математическим вопросам, социологические постановки служат для постановки математических задач. Эта область относится к математической социологии – научной дисциплине, аналогичной математической экономике, математической физике и др.
Классификация наук закреплена формальными решениями. Например, в нашей стране утвержден список специальностей научных работников. Однако формальные решения могут быть модернизированы. Время от времени это происходит. Например, около 20 лет назад появились новые группы специальностей – социологические и политологические. Однако недостатки действующей системы очевидны. Приведем четыре примера.
Пример 1. Продолжает использоваться термин «физико-математические науки», хотя его нелепость ясна всем специалистам. Математика относится к формальным наукам, изучает конструкции, созданные мыслью, т.е. находящиеся не в реальном мире, а в идеальном (по Платону). Математика может быть применена в любой сфере деятельности, в любой отрасли народного хозяйства. Например, широко распространен термин «экономико-математические методы и модели», очевидно, относящийся к применению математики в экономике. В то же время физика – одна из областей естествознания, наука, изучающая наиболее общие и фундаментальные закономерности, определяющие структуру и эволюцию материального мира. Термин «физико-математические науки» не более обоснован, чем, например, термины «химико-математические науки» или даже «ветеринарно-социологические науки».
Пример 2. Как известно, статистические методы применялись на практике (и, следовательно, были теоретически разработаны) с древних времен. В Библии Ветхий завет начинается с Пятикнижия Моисеева, и четвертая книга Пятикнижия называется «Числа». Она начинается с описания проведенной под руководством Моисея переписи военнообязанных. Со времен библейского Моисея статистика получила значительное развитие. В США число статистических кафедр в университетах превышает число математических, соответственно и число статистиков больше числа математиков (примерно вдвое) [1]. Следовательно, в США статистика воспринимается одной из «больших» наук: математика, физика, статистика, химия, биология… Совсем не так в нашей стране. В официальной структуре науки статистика упоминается дважды, и оба раза на вторых ролях. Во-первых, как одна из экономических наук (специальность 08.00.12 «Бухгалтерский учет, статистика», присуждаются ученые степени по экономическим наукам). Во-вторых, в названии математической специальности 01.01.05 «теория вероятностей и математическая дисциплина» (присуждаются ученые степени по физико-математическим наукам). Все остальные применения статистических методов, в частности, в социологических исследованиях, остаются вне официальной структуры науки.
Пример 3. На знамени научного прогресса второй половины ХХ в. начертано: «Кибернетика». Однако нет в нашей стране докторов и кандидатов кибернетических наук (есть, правда, математическая специальность «Дискретная математика и математическая кибернетика», при защите присуждается ученая степень по физико-математическим наукам).
Пример 4. Очевидно, что менеджмент (управление людьми) – более широкая сфера деятельности, чем экономика. Управленческие решения необходимо принимать на основе все совокупности социальных, технологических, экологических, экономических, политических факторов [2]. Между тем в действующей официальной номенклатуре специальностей научных работников (в редакции Приказа Минобрнауки РФ от 11.08.2009 N 294) менеджмент находится внутри экономической специальности 08.00.05 «Экономика и управление народным хозяйством». При этом есть целый ряд технических специальностей, включающих в себя термин «управление», среди которых выделяется специальность 05.13.10 «Управление в социальных и экономических системах» (присуждаются ученые степени по техническим (!) наукам).
Приведенные примеры показывают, что действующая официальная номенклатура специальностей научных работников нуждается в модернизации.
К социологическим наукам близки экономические. Вплоть до того, что на включение в свою сферу маркетинга (изучения предпочтений потребителей) претендуют и те, и другие. Однако у экономистов есть специальность 08.00.13 «Математические и инструментальные методы в экономике», а у социологов нет аналогичной специальности, математическая социология не выделена среди социологических наук.
К чему это приводит? В частности, к отсутствию должного внимания к развитию математических методов в социологии, к их вытеснению из перечней секций социологических конференций и конгрессов. В результате падает квалификационный уровень работ. На заседании секции «Измерение в социологии» VI научно-практической конференции памяти первого декана факультета социологии Александра Олеговича Крыштановского «Современная социология — современной России» (1–3 февраля 2012 года) пришлось урезонивать воинствующего невежду, который пытался навязать докладчику свое неправильное понимание проверки значимости при проверке статистических гипотез. Впрочем, и докладчик продемонстрировал непонимание необходимости обязательной проверки значимости различия долей тех или иных значений признаков при сравнения совокупностей, сказавши: «В журнале «Социология-4М» нас заставили проверить значимость различия долей». К необходимости повышения качества математической составляющей социологических исследований мы старались привлечь внимание в работе [3].
Мы считаем необходимым усилить внимание к проблемам развития и применения математических методов анализа социологических данных, математического моделирования социальных процессов, короче – к математической социологии. Целесообразно в рамках социологической науки создать специальность «Математические и инструментальные методы в социологии», аналогичную экономической специальности «Математические и инструментальные методы в экономике».
К математическим методам в социологии относим нет только методы анализа числовых и нечисловых социологических данных, но и методы математического моделирования социальных процессов [4, 5].
Под инструментальными методами понимаем прежде всего методы, нацеленные на развитие и применение информационных технологий, включая сетевые (в том числе модели распространения нововведений в сфере информационных и телекоммуникационных технологий [6] и онлайн исследования [7]).
О развитии математической социологии в нашей стране
Много интересных работ, относящихся к математической социологии, было выполнено в нашей стране в 70-80-е годы ХХ в. Назовем только некоторые из них. В 1977 г. Институт социологических исследований выпустил сборники [8, 9]. На основе материалов Всесоюзной научной конференции «Проблемы применения математических методов в социологическом исследовании» издательство «Наука» опубликовала солидный сборник [10]. Хотя прошло уже 30 лет, материалы этих сборников по-прежнему актуальны. Квалифицированные работы не устаревают. И даже необходимо отметить методологическую несостоятельность современных публикаций Росстата по переписям населения по сравнению с книгой «Числа» Ветхого Завета, в которой рассказано о переписи военнообязанных, проведенной под руководством Моисея.
По сей день наиболее многоплановой публикаций по методам анализа нечисловых данных является сборник [11], подготовленный совместно академическим Институтом социологии и комиссией «Статистика объектов нечисловой природы» Научного Совета АН СССР по комплексной проблеме «Кибернетика». В настоящее время анализу нечисловых данных посвящены обширные разделы в учебниках по прикладной статистике [12], есть и специальные учебники по нечисловой статистике [13], но сборник [11] по-прежнему актуален и необходим тем, кто хочет разобраться в методах анализа нечисловой (т.е. качественной) информации в социологических исследованиях. Отметим, что именно практические запросы социологов (и специалистов по экспертным оценкам) послужили стимулом для разработки нечисловой статистики [13].
В дальнейшем появились адресованные студентам-социологам учебники и учебные пособия, в частности, книги Ю.Н. Толстовой [14-16] и Г.Г. Татаровой [17, 18]. С 1991 г. выпускается журнал «Социология: методология, методы, математическое моделирование» (сокращенно «Социология-4М»). Развитию математических и статистических методов в российской социологии посвящены обзорные работы [19, 20].
Казалось бы, все хорошо в области математической социологии. Однако всё заметнее проявляются отрицательные тенденции. Большинство социологов остаются невежественными в области методов анализа данных. Проявляется это, например, в преклонении перед давно устаревшим западным статистическим пакетом SPSS (анализу статистических пакетов посвящена статья [21]). Полученные еще в 70-е годы ХХ в. научные результаты остаются неизвестными, а потому, естественно, не применяются. Научный инструментарий социолога зачастую соответствует уровню XIX в. В последнее время даже номинальное признание важности математической социологии в виде организации отдельных секций на социологических конгрессах и конференциях постепенно сходит на нет. Подробнее эти мысли развиты в нашем выступлении [22] в «Дискуссии о социологии» на сайте Российского общества социологов.
О теории измерений
Согласно теории измерений все реальные данные измерены в той или иной шкале [12-14]. Обычно выделяют шесть основных шкал – наименований (номинальную), порядковую, интервальную, отношений, разностей, абсолютную. Первые две – шкалы качественных признаков, остальные четыре – шкалы количественных признаков. Только абсолютная шкала не накладывает никаких ограничений на математические методы анализа данных.
Группы допустимых преобразований – вот что интересует нас в шкалах измерения, поскольку именно они задают ограничения на методы обработки данных, измеренных в соответствующих шкалах.
На основе анализа реальной ситуации выясняем шкалу измерения интересующих нас данных, т.е. ее группу допустимых преобразований. Методы анализа данных должны быть инвариантны относительно этой группы. Возникает целый ряд задач:
- является ли инвариантным конкретный метод анализа данных;
- найти хотя бы один конкретный метод анализа данных, решающий поставленную задачу:
- найти все инвариантные методы из некоторого заранее определенного класса;
- для каких шкал инвариантен заданный метод;
- найти все шкалы, относительно которых инвариантен определенный метод;
- найти все методы, выводы с помощью которых инвариантны с вероятностью, стремящейся к 1 (здесь своя достаточно обширная система постановок исследовательских задач), и т.д.
Перейдем к более подробному изложению. Выяснение типов используемых шкал необходимо для адекватного выбора методов анализа данных. Основополагающим требованием является независимость выводов от того, какой именно шкалой измерения воспользовался исследователь (среди всех шкал, переходящих друг в друга при допустимых преобразованиях). Например, если речь о длинах, то выводы не должны зависеть от того, измерены ли длины в метрах, аршинах, саженях, футах или дюймах. Другими словами, выводы должны быть инвариантны относительно группы допустимых преобразований шкалы измерения. Только тогда их можно назвать адекватными, т.е. избавленными от субъективизма исследователя, выбирающего определенную шкалу из множества шкал заданного типа, связанных допустимыми преобразованиями.
Требование инвариантности выводов накладывает ограничения на множество возможных алгоритмов анализа данных. В качестве примера рассмотрим порядковую шкалу. Одни алгоритмы анализа данных позволяют получать адекватные выводы, другие - нет. Например, в задаче проверки однородности двух независимых выборок алгоритмы ранговой статистики (т.е. использующие только ранги результатов измерений) дают адекватные выводы, а статистики Крамера-Уэлча и Стьюдента - нет. Значит, для обработки данных, измеренных в порядковой шкале, критерии Смирнова и Вилкоксона можно использовать, а критерии Крамера-Уэлча и Стьюдента - нет.
Выбор вида средних величин на основе условия устойчивости результата сравнения средних
Оказывается, требование инвариантности является достаточно сильным. Из многих алгоритмов анализа статистических данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.
Пусть Х1 , Х2 ,…, Хn - выборка объема n. Наиболее общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши. Средней величиной (по Коши) является любая функция f(X1, X2,...,Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2,...,Xn, и не больше, чем максимальное из этих чисел. Средними по Коши являются среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое.
Средние величины используются обычно для того, чтобы заменить совокупность чисел (выборку) одним числом, а затем сравнивать совокупности с помощью средних. Пусть, например, Y1, Y2,...,Yn - совокупность оценок экспертов, «выставленных» одному объекту экспертизы, Z1, Z2,...,Zn - второму. Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.
При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в теории измерений). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.
Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn).
Тогда согласно теории измерений для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g (из группы допустимых преобразований в соответствующей шкале) было справедливо также неравенство
f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)),
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть выполнено для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn. И, напомним, для любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно теории измерений только допустимыми средними величинами можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.
С помощью математической теории, развитой в монографии [23], удается описать вид допустимых средних величин в основных шкалах. Рассмотрим обработку, для определенности, мнений респондентов или экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.
Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).
Теорема 1 справедлива при условии, что среднее f(X1, X2,...,Xn) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f(X1, X2,...,Xn) не меняется. Это условие является вполне естественным, ибо среднюю величину находим для совокупности (множества) чисел, а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.
Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Можно применять выборочные квартили, минимум и максимум, децили и т.п. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.
Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н.Колмогоров [24]. Теперь их называют «средними по Колмогорову». Для чисел X1, X2,...,Xn средним по Колмогорову является
G{(F(X1) + F(X2) +...+ F(Xn))/n},
где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее квадратическое, и т.д. (в последних трех случаях усредняются положительные величины).
Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. Справедливы следующие утверждения.
Теорема 2. В шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое.
Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия), потенциальных энергий или координат точек не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.
Теорема 3. В шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = xс, , и среднее геометрическое.
Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F(x) = ex. Среднее геометрическое является пределом степенных средних при . Теоремы 2 и 3 справедливы при выполнении некоторых внутриматематических условий регулярности.
На наш взгляд, теоремы 1-3 должны быть известны всем студентам-социологам. (Как и все специалисты, я не могу претендовать на полное знание литературы. Буду благодарен за указание учебников для социологов, в которых приведены теоремы 1-3.)
Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий. Дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.
К сожалению, достаточно систематическому изучению подверглись лишь средние величины (см. выше) и расстояния ( см. [14, 25] и другие работы Ю.Н. Толстовой). Отметим, что исходные работы 1970-х годов по средним величинам породили достаточно обширное множество следующих работ (обзор дан в [26]), к сожалению, ничего существенно не добавивших к полученному вначале.
По нашему мнению [23, 27], необходимо развивать теорию на стыке математической статистики и теории измерений. Это – призыв к математикам. А социологов надо призвать к использованию полученных результатов. Например, для усреднения порядковых данных использовать не среднее арифметическое, а медиану.
Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, - сравнительного характера, чем количественного [28]. В очередной раз мы убедились в этом в 2011-2012 гг., проводя опросы летного состава авиакомпании «Волга-Днепр» в ходе разработки автоматизированной системы прогнозирования и предотвращения авиационных происшествий. Пилоты достаточно уверенно отвечали на вопросы о том, какое из предшествующих событий сильнее влияет на последующее, без труда ранжировали предшествующие события. Измерения в порядковой шкале не представляли для них сложности. При этом на вопросы типа «В скольких случаях на 1000 полетов осуществится определенное событие» отвечали с трудом или вообще отказывались отвечать. Поэтому пришлось отказаться от измерений в количественных шкалах и ограничиться порядковыми, с соответствующими ограничениями на методы обработки данных.
Литература
1. Налимов В.В. О преподавании математики экспериментаторам // О преподавании математической статистики экспериментаторам. Препринт Межфакультетской лаборатории статистических методов №17. – М.: Изд-во Московского университета им. М.В. Ломоносова, 1971. – С.5-39.
2. Орлов А.И. Менеджмент: организационно-экономическое моделирование. Учебное пособие для вузов. Ростов-на-Дону: Феникс, 2009.
3. Орлов А.И. Об оценке качества процедур анализа данных // Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского / Отв. ред. и вступит. ст. О.А. Оберемко; НИУ ВШЭ, ИС РАН, РОС. М.: НИУ ВШЭ, 2011. - С.7-13.
4. Математическое моделирование социальных процессов. Вып. 10: сб. ст. / Под ред. А.П. Михайлова. М.: КДУ, 2009.
5. Шведовский В.А. Особенности социолого-математического моделирования в исследовании социальных процессов. – М.: АПКиППРО,2009.
6. Делицын Л.Л. Количественные модели распространения нововведений в сфере информационных и телекоммуникационных технологий. М.: МГУКИ, 2009.
7. Онлайн исследования в России 2.0 / Под ред. Шашкина А.В., Девятко И.Ф., Давыдова С.Г. – М.: РИЦ «Северо-Восток», 2010.
8. Методы современной математики и логики в социологических исследованиях. / Под ред. Э.П.Андреева. М.: Институт социологических исследований АН СССР, 1977.
9. Математические методы и модели в социологии. / Под ред. В.Н. Варыгина. М.: Институт социологических исследований АН СССР, 1977.
10. Математические методы в социологическом исследовании. / Под ред. Т.В. Рябушкина и др. М.: Наука, 1981.
11. Анализ нечисловой информации в социологических исследованиях. / Под ред. В.Г. Андреенкова, А.И.Орлова, Ю.Н. Толстовой. М.: Наука, 1985.
12. Орлов А.И. Прикладная статистика. М.: Экзамен, 2006.
13. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. М.: Изд-во МГТУ им. Н.Э. Баумана. 2009.
14. Толстова Ю.Н. Измерение в социологии. М.: Инфра-М, 1998.
15. Толстова Ю.Н. Анализ социологических данных: методология, дескриптивная статистика, изучение связей между номинальными признаками. М.: Научный мир, 2000.
16. Толстова Ю.Н. Основы многомерного шкалирования. Учебное пособие для вузов. М.: Издательство КДУ, 2006.
17. Татарова Г.Г. Методология анализа данных в социологии (введение). Учебник для вузов. М.: NOTA BENE, 1999.
18. Татарова Г.Г. Основы типологического анализа в социологических исследованиях. М.: Издательский Дом «Высшее образование и наука», 2007.
19. Толстова Ю.Н. Математические методы в социологии. / Социология в России. Под ред. В.А. Ядова. - 2-е изд., перераб. и дополн. - М.: Издательство Института социологии РАН, 1998. С.83-89, 98-103.
20. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя). - Журнал «Социология: методология, методы, математические модели». 2005. No.20. С.32-53.
21. Орлов А.И. Статистические пакеты – инструменты исследователя. - Журнал «Заводская лаборатория». 2008. Т.74. No.5. С.76-78.
22. Орлов А.И. Черная дыра отечественной социологии. - Выступление 09-01-2011 в «Дискуссии о социологии» на сайте Российского общества социологов
http://www.ssa-rss.ru/index.php?page_id=19&id=45623. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1979.
24. Колмогоров А.Н. Избранные труды. Математика и механика. М.: Наука, 1985. С. 136–138.
25. Толстова Ю.Н. Адекватность функции расстояния в алгоритмах автоматической классификации. – В сб.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977. С.168-173.
26. Барский Б. В., Соколов М. В. Средние величины, инвариантные относительно допустимых преобразований шкалы измерения. – Журнал «Заводская лаборатория». 2006. №1. С.59-.67.
27. Орлов А.И. Связь между средними величинами и допустимыми преобразованиями шкалы. – Журнал «Математические заметки». 1981. Т. 30. No.4. С. 561-568.
28. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации (препринт). М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1981.
768. Орлов А.И. Теория измерений и методы анализа // Социология и общество: глобальные вызовы и региональное развитие [Электронный ресурс]: Материалы IV Очередного Всероссийского социологического конгресса / РОС, ИС РАН, АН РБ, ИСППИ. — М.: РОС, 2012. — 1 CD ROM. ISBN 978–5–904804–06–0. – С.2871-2880.
Проф., д.э.н., д.т.н., к.ф.-м.н. А.И. Орлов
Директор Института высоких статистических технологий
и эконометрики МГТУ им. Н.Э. Баумана
ТЕОРИЯ ИЗМЕРЕНИЙ И МЕТОДЫ АНАЛИЗА
Предварительно обосновав необходимость развития научной специальности «Математические и инструментальные методы в социологии», рассматриваем роль теории измерений при выборе методов сбора и анализа социологической информации.
Математические и инструментальные методы в социологии
Статья относится к достаточно самостоятельной области – математическим методам анализа социологических данных. Основной интерес в ней – к математическим вопросам, социологические постановки служат для постановки математических задач. Эта область относится к математической социологии – научной дисциплине, аналогичной математической экономике, математической физике и др.
Классификация наук закреплена формальными решениями. Например, в нашей стране утвержден список специальностей научных работников. Однако формальные решения могут быть модернизированы. Время от времени это происходит. Например, около 20 лет назад появились новые группы специальностей – социологические и политологические. Однако недостатки действующей системы очевидны. Приведем четыре примера.
Пример 1. Продолжает использоваться термин «физико-математические науки», хотя его нелепость ясна всем специалистам. Математика относится к формальным наукам, изучает конструкции, созданные мыслью, т.е. находящиеся не в реальном мире, а в идеальном (по Платону). Математика может быть применена в любой сфере деятельности, в любой отрасли народного хозяйства. Например, широко распространен термин «экономико-математические методы и модели», очевидно, относящийся к применению математики в экономике. В то же время физика – одна из областей естествознания, наука, изучающая наиболее общие и фундаментальные закономерности, определяющие структуру и эволюцию материального мира. Термин «физико-математические науки» не более обоснован, чем, например, термины «химико-математические науки» или даже «ветеринарно-социологические науки».
Пример 2. Как известно, статистические методы применялись на практике (и, следовательно, были теоретически разработаны) с древних времен. В Библии Ветхий завет начинается с Пятикнижия Моисеева, и четвертая книга Пятикнижия называется «Числа». Она начинается с описания проведенной под руководством Моисея переписи военнообязанных. Со времен библейского Моисея статистика получила значительное развитие. В США число статистических кафедр в университетах превышает число математических, соответственно и число статистиков больше числа математиков (примерно вдвое) [1]. Следовательно, в США статистика воспринимается одной из «больших» наук: математика, физика, статистика, химия, биология… Совсем не так в нашей стране. В официальной структуре науки статистика упоминается дважды, и оба раза на вторых ролях. Во-первых, как одна из экономических наук (специальность 08.00.12 «Бухгалтерский учет, статистика», присуждаются ученые степени по экономическим наукам). Во-вторых, в названии математической специальности 01.01.05 «теория вероятностей и математическая дисциплина» (присуждаются ученые степени по физико-математическим наукам). Все остальные применения статистических методов, в частности, в социологических исследованиях, остаются вне официальной структуры науки.
Пример 3. На знамени научного прогресса второй половины ХХ в. начертано: «Кибернетика». Однако нет в нашей стране докторов и кандидатов кибернетических наук (есть, правда, математическая специальность «Дискретная математика и математическая кибернетика», при защите присуждается ученая степень по физико-математическим наукам).
Пример 4. Очевидно, что менеджмент (управление людьми) – более широкая сфера деятельности, чем экономика. Управленческие решения необходимо принимать на основе все совокупности социальных, технологических, экологических, экономических, политических факторов [2]. Между тем в действующей официальной номенклатуре специальностей научных работников (в редакции Приказа Минобрнауки РФ от 11.08.2009 N 294) менеджмент находится внутри экономической специальности 08.00.05 «Экономика и управление народным хозяйством». При этом есть целый ряд технических специальностей, включающих в себя термин «управление», среди которых выделяется специальность 05.13.10 «Управление в социальных и экономических системах» (присуждаются ученые степени по техническим (!) наукам).
Приведенные примеры показывают, что действующая официальная номенклатура специальностей научных работников нуждается в модернизации.
К социологическим наукам близки экономические. Вплоть до того, что на включение в свою сферу маркетинга (изучения предпочтений потребителей) претендуют и те, и другие. Однако у экономистов есть специальность 08.00.13 «Математические и инструментальные методы в экономике», а у социологов нет аналогичной специальности, математическая социология не выделена среди социологических наук.
К чему это приводит? В частности, к отсутствию должного внимания к развитию математических методов в социологии, к их вытеснению из перечней секций социологических конференций и конгрессов. В результате падает квалификационный уровень работ. На заседании секции «Измерение в социологии» VI научно-практической конференции памяти первого декана факультета социологии Александра Олеговича Крыштановского «Современная социология — современной России» (1–3 февраля 2012 года) пришлось урезонивать воинствующего невежду, который пытался навязать докладчику свое неправильное понимание проверки значимости при проверке статистических гипотез. Впрочем, и докладчик продемонстрировал непонимание необходимости обязательной проверки значимости различия долей тех или иных значений признаков при сравнения совокупностей, сказавши: «В журнале «Социология-4М» нас заставили проверить значимость различия долей». К необходимости повышения качества математической составляющей социологических исследований мы старались привлечь внимание в работе [3].
Мы считаем необходимым усилить внимание к проблемам развития и применения математических методов анализа социологических данных, математического моделирования социальных процессов, короче – к математической социологии. Целесообразно в рамках социологической науки создать специальность «Математические и инструментальные методы в социологии», аналогичную экономической специальности «Математические и инструментальные методы в экономике».
К математическим методам в социологии относим нет только методы анализа числовых и нечисловых социологических данных, но и методы математического моделирования социальных процессов [4, 5].
Под инструментальными методами понимаем прежде всего методы, нацеленные на развитие и применение информационных технологий, включая сетевые (в том числе модели распространения нововведений в сфере информационных и телекоммуникационных технологий [6] и онлайн исследования [7]).
О развитии математической социологии в нашей стране
Много интересных работ, относящихся к математической социологии, было выполнено в нашей стране в 70-80-е годы ХХ в. Назовем только некоторые из них. В 1977 г. Институт социологических исследований выпустил сборники [8, 9]. На основе материалов Всесоюзной научной конференции «Проблемы применения математических методов в социологическом исследовании» издательство «Наука» опубликовала солидный сборник [10]. Хотя прошло уже 30 лет, материалы этих сборников по-прежнему актуальны. Квалифицированные работы не устаревают. И даже необходимо отметить методологическую несостоятельность современных публикаций Росстата по переписям населения по сравнению с книгой «Числа» Ветхого Завета, в которой рассказано о переписи военнообязанных, проведенной под руководством Моисея.
По сей день наиболее многоплановой публикаций по методам анализа нечисловых данных является сборник [11], подготовленный совместно академическим Институтом социологии и комиссией «Статистика объектов нечисловой природы» Научного Совета АН СССР по комплексной проблеме «Кибернетика». В настоящее время анализу нечисловых данных посвящены обширные разделы в учебниках по прикладной статистике [12], есть и специальные учебники по нечисловой статистике [13], но сборник [11] по-прежнему актуален и необходим тем, кто хочет разобраться в методах анализа нечисловой (т.е. качественной) информации в социологических исследованиях. Отметим, что именно практические запросы социологов (и специалистов по экспертным оценкам) послужили стимулом для разработки нечисловой статистики [13].
В дальнейшем появились адресованные студентам-социологам учебники и учебные пособия, в частности, книги Ю.Н. Толстовой [14-16] и Г.Г. Татаровой [17, 18]. С 1991 г. выпускается журнал «Социология: методология, методы, математическое моделирование» (сокращенно «Социология-4М»). Развитию математических и статистических методов в российской социологии посвящены обзорные работы [19, 20].
Казалось бы, все хорошо в области математической социологии. Однако всё заметнее проявляются отрицательные тенденции. Большинство социологов остаются невежественными в области методов анализа данных. Проявляется это, например, в преклонении перед давно устаревшим западным статистическим пакетом SPSS (анализу статистических пакетов посвящена статья [21]). Полученные еще в 70-е годы ХХ в. научные результаты остаются неизвестными, а потому, естественно, не применяются. Научный инструментарий социолога зачастую соответствует уровню XIX в. В последнее время даже номинальное признание важности математической социологии в виде организации отдельных секций на социологических конгрессах и конференциях постепенно сходит на нет. Подробнее эти мысли развиты в нашем выступлении [22] в «Дискуссии о социологии» на сайте Российского общества социологов.
О теории измерений
Согласно теории измерений все реальные данные измерены в той или иной шкале [12-14]. Обычно выделяют шесть основных шкал – наименований (номинальную), порядковую, интервальную, отношений, разностей, абсолютную. Первые две – шкалы качественных признаков, остальные четыре – шкалы количественных признаков. Только абсолютная шкала не накладывает никаких ограничений на математические методы анализа данных.
Группы допустимых преобразований – вот что интересует нас в шкалах измерения, поскольку именно они задают ограничения на методы обработки данных, измеренных в соответствующих шкалах.
На основе анализа реальной ситуации выясняем шкалу измерения интересующих нас данных, т.е. ее группу допустимых преобразований. Методы анализа данных должны быть инвариантны относительно этой группы. Возникает целый ряд задач:
- является ли инвариантным конкретный метод анализа данных;
- найти хотя бы один конкретный метод анализа данных, решающий поставленную задачу:
- найти все инвариантные методы из некоторого заранее определенного класса;
- для каких шкал инвариантен заданный метод;
- найти все шкалы, относительно которых инвариантен определенный метод;
- найти все методы, выводы с помощью которых инвариантны с вероятностью, стремящейся к 1 (здесь своя достаточно обширная система постановок исследовательских задач), и т.д.
Перейдем к более подробному изложению. Выяснение типов используемых шкал необходимо для адекватного выбора методов анализа данных. Основополагающим требованием является независимость выводов от того, какой именно шкалой измерения воспользовался исследователь (среди всех шкал, переходящих друг в друга при допустимых преобразованиях). Например, если речь о длинах, то выводы не должны зависеть от того, измерены ли длины в метрах, аршинах, саженях, футах или дюймах. Другими словами, выводы должны быть инвариантны относительно группы допустимых преобразований шкалы измерения. Только тогда их можно назвать адекватными, т.е. избавленными от субъективизма исследователя, выбирающего определенную шкалу из множества шкал заданного типа, связанных допустимыми преобразованиями.
Требование инвариантности выводов накладывает ограничения на множество возможных алгоритмов анализа данных. В качестве примера рассмотрим порядковую шкалу. Одни алгоритмы анализа данных позволяют получать адекватные выводы, другие - нет. Например, в задаче проверки однородности двух независимых выборок алгоритмы ранговой статистики (т.е. использующие только ранги результатов измерений) дают адекватные выводы, а статистики Крамера-Уэлча и Стьюдента - нет. Значит, для обработки данных, измеренных в порядковой шкале, критерии Смирнова и Вилкоксона можно использовать, а критерии Крамера-Уэлча и Стьюдента - нет.
Выбор вида средних величин на основе условия устойчивости результата сравнения средних
Оказывается, требование инвариантности является достаточно сильным. Из многих алгоритмов анализа статистических данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.
Пусть Х1 , Х2 ,…, Хn - выборка объема n. Наиболее общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши. Средней величиной (по Коши) является любая функция f(X1, X2,...,Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2,...,Xn, и не больше, чем максимальное из этих чисел. Средними по Коши являются среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое.
Средние величины используются обычно для того, чтобы заменить совокупность чисел (выборку) одним числом, а затем сравнивать совокупности с помощью средних. Пусть, например, Y1, Y2,...,Yn - совокупность оценок экспертов, «выставленных» одному объекту экспертизы, Z1, Z2,...,Zn - второму. Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.
При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в теории измерений). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.
Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn).
Тогда согласно теории измерений для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g (из группы допустимых преобразований в соответствующей шкале) было справедливо также неравенство
f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)),
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть выполнено для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn. И, напомним, для любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно теории измерений только допустимыми средними величинами можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.
С помощью математической теории, развитой в монографии [23], удается описать вид допустимых средних величин в основных шкалах. Рассмотрим обработку, для определенности, мнений респондентов или экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.
Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).
Теорема 1 справедлива при условии, что среднее f(X1, X2,...,Xn) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f(X1, X2,...,Xn) не меняется. Это условие является вполне естественным, ибо среднюю величину находим для совокупности (множества) чисел, а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.
Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Можно применять выборочные квартили, минимум и максимум, децили и т.п. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.
Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н.Колмогоров [24]. Теперь их называют «средними по Колмогорову». Для чисел X1, X2,...,Xn средним по Колмогорову является
G{(F(X1) + F(X2) +...+ F(Xn))/n},
где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее квадратическое, и т.д. (в последних трех случаях усредняются положительные величины).
Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. Справедливы следующие утверждения.
Теорема 2. В шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое.
Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия), потенциальных энергий или координат точек не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.
Теорема 3. В шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = xс, , и среднее геометрическое.
Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F(x) = ex. Среднее геометрическое является пределом степенных средних при . Теоремы 2 и 3 справедливы при выполнении некоторых внутриматематических условий регулярности.
На наш взгляд, теоремы 1-3 должны быть известны всем студентам-социологам. (Как и все специалисты, я не могу претендовать на полное знание литературы. Буду благодарен за указание учебников для социологов, в которых приведены теоремы 1-3.)
Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий. Дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.
К сожалению, достаточно систематическому изучению подверглись лишь средние величины (см. выше) и расстояния ( см. [14, 25] и другие работы Ю.Н. Толстовой). Отметим, что исходные работы 1970-х годов по средним величинам породили достаточно обширное множество следующих работ (обзор дан в [26]), к сожалению, ничего существенно не добавивших к полученному вначале.
По нашему мнению [23, 27], необходимо развивать теорию на стыке математической статистики и теории измерений. Это – призыв к математикам. А социологов надо призвать к использованию полученных результатов. Например, для усреднения порядковых данных использовать не среднее арифметическое, а медиану.
Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, - сравнительного характера, чем количественного [28]. В очередной раз мы убедились в этом в 2011-2012 гг., проводя опросы летного состава авиакомпании «Волга-Днепр» в ходе разработки автоматизированной системы прогнозирования и предотвращения авиационных происшествий. Пилоты достаточно уверенно отвечали на вопросы о том, какое из предшествующих событий сильнее влияет на последующее, без труда ранжировали предшествующие события. Измерения в порядковой шкале не представляли для них сложности. При этом на вопросы типа «В скольких случаях на 1000 полетов осуществится определенное событие» отвечали с трудом или вообще отказывались отвечать. Поэтому пришлось отказаться от измерений в количественных шкалах и ограничиться порядковыми, с соответствующими ограничениями на методы обработки данных.
Литература
1. Налимов В.В. О преподавании математики экспериментаторам // О преподавании математической статистики экспериментаторам. Препринт Межфакультетской лаборатории статистических методов №17. – М.: Изд-во Московского университета им. М.В. Ломоносова, 1971. – С.5-39.
2. Орлов А.И. Менеджмент: организационно-экономическое моделирование. Учебное пособие для вузов. Ростов-на-Дону: Феникс, 2009.
3. Орлов А.И. Об оценке качества процедур анализа данных // Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского / Отв. ред. и вступит. ст. О.А. Оберемко; НИУ ВШЭ, ИС РАН, РОС. М.: НИУ ВШЭ, 2011. - С.7-13.
4. Математическое моделирование социальных процессов. Вып. 10: сб. ст. / Под ред. А.П. Михайлова. М.: КДУ, 2009.
5. Шведовский В.А. Особенности социолого-математического моделирования в исследовании социальных процессов. – М.: АПКиППРО,2009.
6. Делицын Л.Л. Количественные модели распространения нововведений в сфере информационных и телекоммуникационных технологий. М.: МГУКИ, 2009.
7. Онлайн исследования в России 2.0 / Под ред. Шашкина А.В., Девятко И.Ф., Давыдова С.Г. – М.: РИЦ «Северо-Восток», 2010.
8. Методы современной математики и логики в социологических исследованиях. / Под ред. Э.П.Андреева. М.: Институт социологических исследований АН СССР, 1977.
9. Математические методы и модели в социологии. / Под ред. В.Н. Варыгина. М.: Институт социологических исследований АН СССР, 1977.
10. Математические методы в социологическом исследовании. / Под ред. Т.В. Рябушкина и др. М.: Наука, 1981.
11. Анализ нечисловой информации в социологических исследованиях. / Под ред. В.Г. Андреенкова, А.И.Орлова, Ю.Н. Толстовой. М.: Наука, 1985.
12. Орлов А.И. Прикладная статистика. М.: Экзамен, 2006.
13. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. М.: Изд-во МГТУ им. Н.Э. Баумана. 2009.
14. Толстова Ю.Н. Измерение в социологии. М.: Инфра-М, 1998.
15. Толстова Ю.Н. Анализ социологических данных: методология, дескриптивная статистика, изучение связей между номинальными признаками. М.: Научный мир, 2000.
16. Толстова Ю.Н. Основы многомерного шкалирования. Учебное пособие для вузов. М.: Издательство КДУ, 2006.
17. Татарова Г.Г. Методология анализа данных в социологии (введение). Учебник для вузов. М.: NOTA BENE, 1999.
18. Татарова Г.Г. Основы типологического анализа в социологических исследованиях. М.: Издательский Дом «Высшее образование и наука», 2007.
19. Толстова Ю.Н. Математические методы в социологии. / Социология в России. Под ред. В.А. Ядова. - 2-е изд., перераб. и дополн. - М.: Издательство Института социологии РАН, 1998. С.83-89, 98-103.
20. Орлов А.И. Статистические методы в российской социологии (тридцать лет спустя). - Журнал «Социология: методология, методы, математические модели». 2005. No.20. С.32-53.
21. Орлов А.И. Статистические пакеты – инструменты исследователя. - Журнал «Заводская лаборатория». 2008. Т.74. No.5. С.76-78.
22. Орлов А.И. Черная дыра отечественной социологии. - Выступление 09-01-2011 в «Дискуссии о социологии» на сайте Российского общества социологов
http://www.ssa-rss.ru/index.php?page_id=19&id=45623. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1979.
24. Колмогоров А.Н. Избранные труды. Математика и механика. М.: Наука, 1985. С. 136–138.
25. Толстова Ю.Н. Адекватность функции расстояния в алгоритмах автоматической классификации. – В сб.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977. С.168-173.
26. Барский Б. В., Соколов М. В. Средние величины, инвариантные относительно допустимых преобразований шкалы измерения. – Журнал «Заводская лаборатория». 2006. №1. С.59-.67.
27. Орлов А.И. Связь между средними величинами и допустимыми преобразованиями шкалы. – Журнал «Математические заметки». 1981. Т. 30. No.4. С. 561-568.
28. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации (препринт). М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1981.
http://www.ssa-rss.ru/files/File/congre ... part18.pdf