Математические теории рейтингов
(конспект к докладу)
Слово «рейтинг» происходит от английского «to rate» (оценивать) и «rating» (оценка, оценивание). Оценка – это число, градация качественного признака (удовл,, хор., отл.), реже – упорядочение (ранжировка) или математи-ческий объект иной природы.
Варианты постановок задач:
1. Непосредственная оценка.
2. Оценка с использованием обучающих выборок
3. Оценка на основе системы показателей с весовыми коэффициентами
1. Непосредственная оценка
1.1. Усреднение чисел
Каким средним пользоваться – средним арифметическим или медианой?
1.2. Усреднение других видов ответов экспертов
Усреднение бинарных отношений – медиана Кемени
2. Оценка с использованием обучающих выборок
2.1. Линейный дискриминантный анализ Рональда Фишера.
2.2. Использование непараметрических оценок плотностей
2.3. Иные методы распознавания образов, в том числе с использованием нейро-сетей
3. Оценка на основе системы показателей с весовыми коэффициентами
3.0. Показатели (факторы), индексы и границы
3.1. Построение системы показателей, обычно иерархической (единичные по-казатели – групповые – обобщенный). Экспертные методы – расширение, су-жение. Информативное подмножество признаков.
3.2. Способы усреднения при переходе от единичных показателей к групповым и от групповых к обобщенному– см. п. 1.1.
3.3. Задание весов – непосредственно, косвенно – парные сравнения и др., с помощью обучающих выборок (экспертно-статистический метод).
Частные вопросы
1. Бинарные рейтинги
2. Устойчивость хозяйственных решений во времени эквивалентна использова-нию моделей с дисконтированием.
Тезисы:
БИНАРНЫЕ РЕЙТИНГИ И ИХ СРАВНЕНИЕ
Орлов А.И.
(МГТУ им. Н.Э. Баумана, Москва)
orlov@ibm.bmstu.ru
Ключевые слова: рейтинг, дискриминантный анализ, непараметриче-ские оценки плотности, прогностическая сила.
Введение
Обсудим наиболее простой случай, когда рейтинговая оценка принимает два значения, для простоты изложения, 0 и 1. Такие рейтинги называем бинар-ными. Иногда строят рейтинг в виде функции f(x1, x2, …, xm) от единичных показателей (факторов) x1, x2, …, xm. , а для принятия решения используют неко-торый порог K. Принимают одно решение, если f(x1, x2, …, xm) < K, и альтернативное, если f(x1, x2, …, xm) > K. В этом случае для принятия решения используется бинарный рейтинг вида g(f(x1, x2, …, xm)), где функция g прини-мает два значения, а именно, g(z) = 0 при z < K и g(z) = 1 при z > K.
На основе бинарных рейтингов можно сконструировать рейтинг с большим числом градаций. Пусть рейтинговая оценка h принимает одно из трех значе-ний A < B < C. С ней можно связать два бинарных рейтинга p и q, таких, что для первого из них p = 0 при h < C и p =1 при h = C, для второго q = 0 при h < B и q =1 при h > B. Ясно, что h = A тогда и только тогда, когда p = q =0, и h = C тогда и только тогда, когда p =q =1, в то время как h = B тогда и только тогда, когда p =0, q = 1. Таким образом, использование рейтинга h с тремя возможны-ми значениями эквивалентно использованию двух бинарных рейтингов p и q.
1. Бинарные рейтинги и дискриминантный анализ
Объект оценки с помощью бинарного рейтинга относится к одному из двух классов. Следовательно, теория бинарных рейтингов – часть дискриминантно-го анализа, имеющего целью отнесение объекта к одному из двух классов [1]. Классы предполагаются заданными - плотностями вероятностей или обучаю-щими выборками.
Математические методы диагностики, как и статистические методы в це-лом, делятся на параметрические и непараметрические. Первые основаны на предположении, что классы описываются распределениями из некоторых па-раметрических семейств. Обычно рассматривают многомерные нормальные распределения, при этом зачастую без обоснования принимают гипотезу о том, что ковариационные матрицы для различных классов совпадают. Именно в таких предположениях сформулирован классический дискриминантный анализ Фишера. Как известно, обычно не только нет теоретических оснований счи-тать, что наблюдения извлечены из нормального распределения, но и проверка статистических гипотез согласия с нормальным законом дает отрицательный результат. Известно также, что по выборкам, объем которых не превосходит 50, нельзя сделать обоснованный вывод о принадлежности к нормальному за-кону.
Поэтому более корректными, чем параметрические, являются непараметри-ческие методы диагностики. Исходная идея таких методов основана на лемме Неймана-Пирсона, входящей в стандартный курс математической статистики. Согласно этой лемме решение об отнесении вновь поступающего объекта к одному из двух классов принимается на основе отношения плотностей f(x)/g(x), где f(x) - плотность распределения, соответствующая первому классу, а g(x) - плотность распределения, соответствующая второму классу.
Если плотности распределения неизвестны, то применяют их непараметрические оценки, построенные по обучающим выборкам. Пусть обучающая выборка объектов из первого класса состоит из n элементов, а обучающая выбор-ка для второго класса - из m объектов. Тогда рассчитывают значения непараметрических оценок плотностей fn(x) и gm(x) для первого и второго клас-сов соответственно, а диагностическое решение принимают по их отношению [2]. Достоинством таких рейтингов является их универсальность, возможность применения без необходимости обоснования трудно проверяемых условий (например, нормальности распределения характеристик объектов оценки). Не-достатком является отсутствие явных формул, задающих рейтинг в виде кон-кретной функции f(x1, x2, …, xm) от единичных показателей (факторов) x1, x2, …, xm, описывающих объект оценки.
Есть и иные методы, в частности, основанные на использовании нейросетей для диагностики и рейтингования.
2. Проблема сравнения рейтингов
Популярны линейные рейтинги f(x1, x2, …, xm) = a1x1 + a2x2 + … + amxm в ви-де линейной функции от единичных показателей (факторов) x1, x2, …, xm. Ко-эффициенты a1, a2, …, am называют коэффициентами важности (весомости, значимости). Их определяют либо экспертным путем, либо по статистическим данным, используя обучающие выборки.
По одним и тем же данным могут быть построены различные рейтинги. Например, с помощью обучающих выборок можно построить непараметрический бинарный рейтинг (заданный алгоритмически) и линейный рейтинг (по Фише-ру). В той же прикладной задаче может оказаться полезным также и линейный рейтинг на основе экспертных оценок коэффициентов.
Результаты обработки реальных данных с помощью некоторого алгоритма диагностики в случае двух классов описываются долями: правильной диагно-стики в первом классе ; правильной диагностики во втором классе ; долями классов в объединенной совокупности .
Нередко как показатель качества алгоритма диагностики (прогностической «силы») используют долю правильной диагностики . Однако показатель определяется, в частности, через характеристики и , частично за-данные исследователем (например, на них влияет тактика отбора образцов для изучения). При диагностике тяжести заболевания алгоритм группы под руководством И.М. Гельфанда оказался хуже тривиального - объявить всех больных легкими, не требующими специального наблюдения. Причина появления нелепости понятна. Хотя доля тяжелых больных невелика, но смертельные исходы сосредоточены именно в этой группе больных. Поэтому целесообразна гипер-диагностика - рациональнее часть легких больных объявить тяжелыми, чем наоборот.
Итак, долю правильной диагностики нецелесообразно использовать как показатель качества алгоритма диагностики.
3. Прогностическая сила
Для сравнения рейтингов (алгоритмов диагностики) предлагаем использо-вать (эмпирическую) прогностическую силу , где . Здесь - функция стандартного нормального распределения вероятностей с математическим ожиданием 0 и дисперсией 1, а - обратная ей функция. При росте объемов выборок распределение является асимптотически нормальным [3].
Как проверить обоснованность использования прогностической силы? Возьмем два значения порога K1 и K2. Тогда теоретические прогностические силы должны совпадать: . Выполнение этого равенства можно про-верить как статистическую гипотезу по алгоритмам [3].
Показатель качества классификации (из монографии [3])
Для выявления информативного набора признаков целесообразно ис-пользовать метод пересчета на модель линейного дискриминантного анализа, согласно которому статистической оценкой прогностической "силы" является
где - функция стандартного нормального распределения вероятностей с математическим ожиданием 0 и дисперсией 1, а - обратная ей функ-ция.
Пример 1. Если доли правильной классификации κ = 0,90 и λ = 0,80, то Φ-1(κ) = 1,28 и Φ-1(λ) = 0,84, откуда d* = 2,12 и прогностическая сила δ* = Φ-1(1,06) = 0,86. При этом доля правильной классификации μ может принимать любые значения между 0,80 и 0,90, в зависимости от доли элементов того или иного класса среди анализируемых данных.
Если классы описываются выборками из многомерных нормальных со-вокупностей с одинаковыми матрицами ковариаций, а для классификации применяется классический линейный дискриминантный анализ Р.Фишера, то величина представляет собой состоятельную статистическую оценку так называемого расстояния Махаланобиса между рассматриваемыми двумя сово-купностями (конкретный вид этого расстояния сейчас не имеет значения), не-зависимо от порогового значения, определяющего конкретное решающее пра-вило. В общем случае показатель вводится как эвристический.
Пусть алгоритм классификации применялся к совокупности, состоящей из т объектов первого класса и n объектов второго класса.
Теорема 1. Пусть т, п. Тогда для всех х
,
где - истинная "прогностическая сила" алгоритма диагностики; - ее эмпирическая оценка,
;
) - плотность стандартного нормального распределения веро-ятностей с математическим ожиданием 0 и дисперсией 1.
С помощью теоремы 1 по и обычным образом определяют довери-тельные границы для "прогностической силы" .
Пример 2. В условиях примера 1 при m = n = 100 найдем асимптотиче-ское среднее квадратическое отклонение А(0,90; 0,80).
Поскольку φ(Φ-1(κ)) = φ(1,28) = 0,176, φ(Φ-1(λ)) = φ(0,84) = 0,280, φ(d*/2) = φ(1,06) = 0,227, то подставляя в выражение для А2 численные значения, полу-чаем, что
.
При m = n = 100 имеем А(0,90; 0,80) = 0,0252. При доверительной вероятности γ = 0,95 имеем u(0,95) = Φ-1(1,0,975) = 1,96, а потому нижняя доверительная граница для прогностической силы δ есть δН = 0,86 – 1,96 Ч 0,0252 = 0,81, а верхняя доверительная граница такова: δВ = 0,86 + 1,96 Ч 0,0252 = 0,91. Аналогичный расчет при m = n = 1000 дает δН = 0,845, δВ = 0,875.
Как проверить обоснованность пересчета на модель линейного дискриминантного анализа? Допустим, что классификация состоит в вычислении некоторого прогностического индекса у и сравнении его с заданным порогом с. Объект относят к первому классу, если у<с, ко второму, если у>с. Прогностический индекс – это обычно линейная функция от характеристик рассматри-ваемых объектов. Другими словами, от координат векторов, описывающих объекты.
Возьмем два значения порога с1 и c2. Если пересчет на модель линейного дискриминантного анализа обоснован, то , как можно показать, "прогностические силы" для обоих правил совпадают: . Выполнение этого равен-ства можно проверить как статистическую гипотезу.
Пусть - доля объектов первого класса, для которых y<c1, а - доля объектов первого класса, для которых c1<y<c2. Аналогично пусть - доля объектов второго класса, для которых c1<y<c2, а - доля объектов второго класса, для которых у>с2. Тогда можно рассчитать две оценки одного и того же расстояния Махаланобиса. Они имеют вид:
Теорема 2. Если истинные прогностические силы двух правил диагностики совпадают, то при при всех х
,
где
;
.
Из теоремы 2 вытекает метод проверки рассматриваемой гипотезы: при выполнении неравенства
она принимается на уровне значимости, асимптотически равном , в про-тивном случае - отвергается.
Пример 3. Пусть данные примеров 1 и 2 соответствуют порогу с1. Пусть порогу с2 соответствуют κ’ = 0,95 и λ’ = 0,70. Тогда в обозначениях теоремы 3 κ1 = 0,90, κ2 = 0,05, λ2 = 0,10, λ3 = 0,70. Далее d*(c1) = 2,12 (пример 1), d*(c2) = 2,17, T(κ1, κ2) = 2,22, T(λ3, λ2) = 0,89. Гипотеза о совпадении прогностических сил на двух порогах принимается на уровне значимости α = 0,05 тогда и только тогда, когда
,
т.е. когда
.
Так, гипотеза принимается при m = n = 1000 и отвергается при m = n = 5000.
Литература
1. ОРЛОВ А.И. Заметки по теории классификации // Социология: методология, методы, математические модели. 1991. No.2. С.28-50.
2. ОРЛОВ А.И. Математические методы исследования и диагностика мате-риалов // Заводская лаборатория. 2003. Т.69. No.3. С.53-64.
3. ОРЛОВ А.И. Прикладная статистика. М.: Экзамен, 2006. – 671 с.
Публикация тезисов:
644. Орлов А.И. Бинарные рейтинги и их сравнение. – В сб.: Теория активных систем / Труды международной научно-практической конференции (14-15 ноября 2007 г., Москва, Россия). Общая редакция – В.Н. Бурков, Д.А. Новиков. – М.: ИПУ РАН, 2007. – С.186-190.