Cравнение долей

Marinakom · **Добавлено:** Пт мар 23, 2007 5:05 pm

Здравствуйте!
Анализ таблиц сопряженности с помощью критерия хи^2 описан во многих книгах по прикладной статистике и представлен в статпакетах (SPSS, Statistica). Тем не менее, на практике часто возникают две проблемы.
1. Исходная таблица сопряженности имеет размерность не 2*2, а 3*4 , а то и больше строк. По содержательной стороне вопроса интересен не только уровень значимости для всей таблицы, а также для попарно взятых отдельных долей. Я в таких случаях пользуюсь формулой, приводимой в книге Эконометрика (п2.3 Проверка однородности двух биномиальных выборок). Но встает вопрос с множественными сравнениями. Нужно ли что-то делать по аналогии с поправкой Бонферрони и изменять критическое значение уровня значимости?
2. Часто сравниваемые в п.1. доли оказываются довольно маленькими. Я анализирую данные медико-биологического характера, и этими долями оказываются какие-нибудь редкие заболевания в разных группах пациентов. В книгах по биостатитсике ( Гублер, например) рекомендуют пользоваться угловым преобразованием Фишера. Хотя опять же метод относится, не во всей таблицы сопряженности в целом, а только к двум отдельно взятым долям. По сравнению с точным методом Фишера (который вроде как эталонный) расхождения приличные иногда выходят.
Что порекомендуете делать с малыми долями?

Проф.А.И.Орлов · **Добавлено:** Пт мар 23, 2007 11:38 pm

1. Известен ряд вероятностно-статистических моделей порождения данных, собранных в виде таблицы сопряженности. И много гипотез, которые целесообразно проверить.
Что Вас интересует7
Аналог дисперсионного анализа?
2. Распределения малых долей хорошо описываются распределением Пуассона (т.н. "закон малых чисел").
Не пытались проверять однородность (равенство параметров) двух распределений Пуассона7

Marinakom · **Добавлено:** Сб мар 24, 2007 4:04 pm

1. Да, хочу аналог дисперсионного анализа.
2. Спасибо за подсказку. Стала двигаться в данном направлении. Надеюсь вернуться к дискуссии спустя некоторое время.

Проф.А.И.Орлов · **Добавлено:** Сб мар 24, 2007 4:53 pm

Много есть про таблицы сопряженности.
Например: http://www.learnspss.ru/hndbook/glava11/cont2.htm
Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. - М.: Наука,1973. Гл.33, с.719-790.
Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. - М.: Финансы и статистика, 1989. - 319 с.
И т.д.

Сначала - вероятностно-статистическая модель.
Потом - постановка задачи.
Затем - метод решения.

Какова модель?

Известно, что рассматривают три вероятностно-статистические модели получения таблицы 2 Х 2.
1. Задана выборка из двумерного распределения случайного вектора (Х,У), координаты которого принимают два значения. В этом случае маргинальные чатоты - т.е. суммы по строкам и суммы по столбцам - являются случайными величинами. Поскольку сумма итогов по строкам равна объему выборки, как и сумма итогов по столбцам, то говорят о двух маргинальных частотах - одна есть сумма значений элементов таблицы, стоящих в первой строке, а вторая суть сумма значений эдлементов таблицы, стоящих в первом столбце.
2. Модель сравнения двух выборок. В этом случае одна маргинальная частота задана (сумма значений элементов таблицы, стоящих в первой строке, равна объему первой выборки).
3. Обе маргинальные частоты заданы.

В случае таблиц сопряженности различают еще упорядоченные переменные и неупорядоченные...

Marinakom · **Добавлено:** Вс мар 25, 2007 9:52 am

Ссылка понятная и ничего нового мне не добавила. Вообще-то не первый раз таблицами сопряженности занимаюсь. 2 вопроса, которые я написала, давно зрели и возикают регулярно. Флейс, часто цитируемый, в продаже как-то не очень присутствует; на книжном рынке периодически спрашивала -- нет. В родной библиотеке можно в читалке с ним поработать. В данный момент нет под рукой.

Переменные неупорядоченные, сугубо номинальные. Поясню свои вопросы в примерах из своей предметной области Столбцы -- отдельные выборки (студенты разных вузов или жители разных городов области или больные с разной группой крови и т.п.). Строки - число заболевших в этих группах. Болезнь может быть не одна, а несколько. Будем считать для простоты, что они, болезни взаимоисключающие (что, конечно не всегда в жизни). Практический вопрос -- различается ли заболеваемость (или распространённость, по контексту проблемы) в рассматриваемых группах. Болезни могут быть редкими. Сравниваемых групп может быть больше двух. Того, что дает статпакет по умолчанию, или того, что можно самой посчитать в excel (а часто бывает, что данные сразу представлены в виде наблюдаемых частот, и руками хи^2 считать приходится) недостаточно.
Числовой пример из реальной жизни (где сразу обе мои проблемы присутствуют). На станции переливания крови обследуют доноров на гепатиты В и С. Интересует, одинакова ли выявляемость гепатитов в зависимости от группы крови. За некоторый период времени у определённой категории доноров ( женщины, резус отрицательные) по гепатиту С получены следующие данные (число наблюдений):
Группа крови: 1 2 3 4
Гепатита С НЕТ 681 633 428 207
Гепатит С ЕСТЬ 7 12 16 4
Итого по столбцу 688 645 444 211

Считаем хи^2 для данной таблицы сопряженности и получаем 9,45 и p=0,023. ( Хотя чуток напрягает, то что в одной из ячеек таблицы ожидаемая частота поучается меньше 5, о чем предупреждают многие литературные источники)
Но этого ответа нам недостаточно. Нам интересно, какие именно проценты по столбцу различаются. Проценты выявленного гепатита С:
1 группа--1,0%; 2 группа-- 1,9%; 3 группа -- 3,6%, 4 группа -- 1,9%.
Возникает ситуация близкая к ANOVA; попарных сравнений может быть 6 штук. И возникает вопрос с интерпретацией получаемого уровня значимости.
Далее. В эконометрике Вы приводите формулу (стр. 51) для сравнения долей (разность долей, делённая на корень из суммы квадратов ошибок). Эту же формулу приводят Юнкеров и Григорьев -- Питерская военно-медицинская академия -- и называют критерием Стьюдента, не указывая, правда, распределение рассчитанной статистики. Впрочем, для медицины -- что Стьюдента, что стандартное нормальное -- невелика разница при таком числе наблюдений.
В нашем примере при сравнении процента гепатитов в 1 и 3 группах получаем статистику Q =2,68 и p=0,0036. Кстати, ощутимая разница с таблицей сопряженности в целом. Бывают ситуации, когда хи^2 для таблицы сопряженности не значимый выходит, а парочка отдельно взятых долей различается при проверке таким способом.

Помимо проблемы множественных сравнений, возникает проблема сравнения малых долей. Все сравниваемые доли значительно меньше 10%. В той же эконометрике Вы отсылаете к приближениям с помощью распределения Пуассона, без конкретных разъяснений, увы. А в некоторых книжках, преимущественно питерских авторов гуляет идея с угловым преобразованием Фишера. Почему-то в статьях западных биологов-медиков она не бросается в глаза. Зато присутствует иногда так называемая Poisson regression, в чем я пока не разобралась. Что и смущает меня. Почему к Вам на форум и обратилась.

Игорь · **Добавлено:** Вс мар 25, 2007 10:06 am

УДАЛЕНО в знак несогласия

Проф.А.И.Орлов · **Добавлено:** Вс мар 25, 2007 12:06 pm

Распределение Стьюдента к сравнению долей отношения не имеет.
Тот, кто пишет об этом - невежда.
Любым рекомендациям невежд верить нельзя.
Чтобы выявлять невежд, надо разбираться в теории.

Marinakom · **Добавлено:** Вс мар 25, 2007 2:01 pm

Справочные материалы по attestatsoft загрузила. Действительно, краткие и ёмкие. С формулами, которые спокойно можно забить в excel. И с большим количеством ссылок. Есть над чем работать.

К книжке по военно-медицинской статистике отношусь настороженно, там полно вызывающих недоверие мест. Это тема отдельного, другого разговора, но не хочу в неё погружаться; хочется конструктивизма. Что мне удастся разобрать и понять в прикладной статистке -- никому не известно. По мере возможностей двигаюсь вперёд. Спасибо всем, кто в этом помогает.

Когда у человека появляется серьезное заболевание, он идёт к доктору, а также читает книжки. Но не по анатомии, физиологии, биохимии, гистологии вообще, а поближе к своей проблеме. Возможно, на бред шарлатана наткнётся, но в общении с доктором скорректирует направления своего познания.

Высокие статистические технологии

Cравнение долей

Кто сейчас на форуме