Ссылка понятная и ничего нового мне не добавила. Вообще-то не первый раз таблицами сопряженности занимаюсь. 2 вопроса, которые я написала, давно зрели и возикают регулярно. Флейс, часто цитируемый, в продаже как-то не очень присутствует; на книжном рынке периодически спрашивала -- нет. В родной библиотеке можно в читалке с ним поработать. В данный момент нет под рукой.
Переменные неупорядоченные, сугубо номинальные. Поясню свои вопросы в примерах из своей предметной области Столбцы -- отдельные выборки (студенты разных вузов или жители разных городов области или больные с разной группой крови и т.п.). Строки - число заболевших в этих группах. Болезнь может быть не одна, а несколько. Будем считать для простоты, что они, болезни взаимоисключающие (что, конечно не всегда в жизни). Практический вопрос -- различается ли заболеваемость (или распространённость, по контексту проблемы) в рассматриваемых группах. Болезни могут быть редкими. Сравниваемых групп может быть больше двух. Того, что дает статпакет по умолчанию, или того, что можно самой посчитать в excel (а часто бывает, что данные сразу представлены в виде наблюдаемых частот, и руками хи^2 считать приходится) недостаточно.
Числовой пример из реальной жизни (где сразу обе мои проблемы присутствуют). На станции переливания крови обследуют доноров на гепатиты В и С. Интересует, одинакова ли выявляемость гепатитов в зависимости от группы крови. За некоторый период времени у определённой категории доноров ( женщины, резус отрицательные) по гепатиту С получены следующие данные (число наблюдений):
Группа крови: 1 2 3 4
Гепатита С НЕТ 681 633 428 207
Гепатит С ЕСТЬ 7 12 16 4
Итого по столбцу 688 645 444 211
Считаем хи^2 для данной таблицы сопряженности и получаем 9,45 и p=0,023. ( Хотя чуток напрягает, то что в одной из ячеек таблицы ожидаемая частота поучается меньше 5, о чем предупреждают многие литературные источники)
Но этого ответа нам недостаточно. Нам интересно, какие именно проценты по столбцу различаются. Проценты выявленного гепатита С:
1 группа--1,0%; 2 группа-- 1,9%; 3 группа -- 3,6%, 4 группа -- 1,9%.
Возникает ситуация близкая к ANOVA; попарных сравнений может быть 6 штук. И возникает вопрос с интерпретацией получаемого уровня значимости.
Далее. В эконометрике Вы приводите формулу (стр. 51) для сравнения долей (разность долей, делённая на корень из суммы квадратов ошибок). Эту же формулу приводят Юнкеров и Григорьев -- Питерская военно-медицинская академия -- и называют критерием Стьюдента, не указывая, правда, распределение рассчитанной статистики. Впрочем, для медицины -- что Стьюдента, что стандартное нормальное -- невелика разница при таком числе наблюдений.
В нашем примере при сравнении процента гепатитов в 1 и 3 группах получаем статистику Q =2,68 и p=0,0036. Кстати, ощутимая разница с таблицей сопряженности в целом. Бывают ситуации, когда хи^2 для таблицы сопряженности не значимый выходит, а парочка отдельно взятых долей различается при проверке таким способом.
Помимо проблемы множественных сравнений, возникает проблема сравнения малых долей. Все сравниваемые доли значительно меньше 10%. В той же эконометрике Вы отсылаете к приближениям с помощью распределения Пуассона, без конкретных разъяснений, увы. А в некоторых книжках, преимущественно питерских авторов гуляет идея с угловым преобразованием Фишера. Почему-то в статьях западных биологов-медиков она не бросается в глаза. Зато присутствует иногда так называемая Poisson regression, в чем я пока не разобралась. Что и смущает меня. Почему к Вам на форум и обратилась.
|