Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 22, 2024 1:21 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 8 ] 
Автор Сообщение
 Заголовок сообщения: Несколько практических задач по анализу угловых наблюдений
СообщениеДобавлено: Вс мар 03, 2013 8:17 pm 
Не в сети

Зарегистрирован: Вс мар 03, 2013 4:27 pm
Сообщений: 4
Здравствуйте, уважаемый Александр Иванович и другие пользователи данного форума. Современные реалии таковы, что статистический анализ данных становятся обязательной составной частью исследований в самых разных областях биологии, в том числе в ранее мало его задействовавшей энтомологии, в которой происходит моя научная деятельность. И это, на мой взгляд, правильно, поскольку снимает с полученных в ходе исследования выводов традиционный налет субъективизма. Однако необходимость использования статистических методов, причем корректно, вызывает у не привыкших к ним и не обученных им в рамках программы ВУЗа энтомологов серьезные затруднения. И я не являюсь исключением. С одной стороны, в научных библиотеках и на просторах сети Интернет на сегодняшний день можно найти огромное количество информации по данной тематике, однако с другой, как я понял в процессе ознакомления с данным форумом, далеко не каждый источник заслуживает доверия, а данные во многих из них устарели. Кроме в некоторых источниках материал изложен в форме, в которой его усвоение неспециалистом достаточно затруднительно. Поэтому, так и не найдя решения моего вопроса самостоятельно, несмотря на упорные попытки и большое количество затраченного времени, я решил посоветоваться со специалистами. Решение это и привело к моей регистрации на этом форуме, поскольку я посчитал его лучшим русскоязычным ресурсом по данной тематики. Искренне надеюсь, что Вы сочтете возможным ответить на мои вопросы.

Мое исследование состоит в следующем. Изучается ориентация гнезд двух видов насекомых по сторонам света. Для каждого вида из каждого изучаемого биотопа имеется по одной выборки азимутов вектора ориентации гнезд, объемом от 10 до 50.
На глаз предположительно имеется такая картина: гнезда обоих видов ориентированы, в основном, в восточном направлении, но векторы ориентации гнезд первого вида более сконцентрированы вокруг отметки 90 градусов, а а второго - более рассеянны. Причем разница субъективно существенная. Но в наша время это - не довод, нужна статистическая значимость.
Задачи я поставил такие (возможно неправильно поставил, тогда, пожалуйста, уточните):

1.Одновыборочные:
1.1. Произвести оценку средних и показателей рассеяния генеральной совокупности, из которой была извлечена каждая выборка.
1.2. Определить симметрично ли распределение относительно среднего.

2. Двухвыборочные (сопоставление выборки первого вида насекомого с выборкой второго из одного и того же биотопа):
2.1.Проверить однородность средних.
2.2.Проверить однородность рассеяния.

Какими методами следует для этих целей воспользоваться и где найти подробное руководство по их использованию?

Использованный для измерения компас имел цену деления в 6 градусов. Как это корректно учесть? Сгруппировать данные в класс-интервалы, длинной по 6 градусов?

Понимаю, что, скорее всего, я сформулировал задачи не совсем правильно с точки зрения статистической терминологии, но прошу за это прощения. Если что-то непонятно, постараюсь переформулировать. Книги по статистике, в том числе последнее издание "Эконометрики" и "Прикладную статистику" читал, однако там примеров подобных задач не нашел. Также ознакомился с книгой Мардиа "Статистический анализ угловых наблюдений" под редакцией Большева. Там я нашел решения большей части вышеописанных задач, однако почти все они опираются на распределение Мизеса. Однако о то, как проверить согласие эмпирического распределения с распределением Мизеса я не понял. Да и возможно это вообще по таким малым выборкам? Далее в тексте в примерах подсчета конкретных критериев автор применял их к тем или иным практическим задачам без всякой проверки согласия. Та же ситуация и с зоологами использовавшими эти критерии, с работами которых мне удалось ознакомиться. Но, Александр Иванович, насколько я понял Вашу позицию, проверка нормальности в подобной ситуации невозможна, а сами нормальные распределения реальных величин редки. Наверное, и с распределением Мизеса то же самое? Но ранговые непараметрические критерии использовать, несколько я понимаю, не получается, т. к. много связок (что с ценой деления аж в 6 градусов закономерно). Так как же быть? Неужели корректного решения моих задач нет вообще? Надеюсь на Ваше понимание. Заранее благодарен.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Сб мар 09, 2013 2:36 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Уважаемый Энтомолог!

Вы правильно поняли мою позицию - нет оснований предполагать, что данные подчиняются распределению Мизеса. Не ясно мне, как выглядят Ваши данные - кратны 6 (градусам), или же имеют погрешность 6 (градусов).

Для большинства задач ответы есть в указанных Вами моиз книгах:

1.Одновыборочные:
1.1. Произвести оценку средних и показателей рассеяния генеральной совокупности, из которой была извлечена каждая выборка.
Рассчитать средние арифметические и выборочные дисперсии.
1.2. Определить симметрично ли распределение относительно среднего.
Применить критерии проверки симметрии распределения - критерии знаков (приняв за центр распределения значение среднего арифметического), проверки равенства 0 математического ожидания приняв за центр распределения значение выборочной медианы), типа омега-квадрат для проверки симметрии распределения (приняв за центр распределения значение среднего арифметического).

2. Двухвыборочные (сопоставление выборки первого вида насекомого с выборкой второго из одного и того же биотопа):
2.1.Проверить однородность средних.
Применить критерий Крамера-Уэлча.
2.2.Проверить однородность рассеяния.
Метод проверки у меня не выписан. Однако, если средние однородны (или вычтя разность средних из значений второй выборки), можно проверить однородность средних для выборок, составленных из квадратов исходных данных с помощью критерия Крамера-Уэлча.

Наши Интернет-ресурсы: сайты с книгами и статьями в открытом доступе:
«Высокие статистические технологии» http://orlovs.pp.ru/ ,
«Лаборатория экономико-математических методов в контроллинге МГТУ им. Н.Э. Баумана» http://ibm.bmstu.ru/nil/biblio.html ,
еженедельник «Эконометрика» http://subscribe.ru/catalog/science.hum ... onometrika
Конкретные вопросы, связанные с нашей деятельностью, можно обсудить на форуме http://forum.orlovs.pp.ru/
Персональная страница на сайте МГТУ им.Н.Э. Баумана http://www.bmstu.ru/ps/~orlov/
Википедия: http://ru.wikipedia.org/ статья «Орлов, Александр Иванович (учёный)»


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Пн мар 25, 2013 12:39 am 
Не в сети

Зарегистрирован: Вс мар 03, 2013 4:27 pm
Сообщений: 4
Александр Иванович, большое спасибо за то. что нашли время ознакомиться с моей проблемой и ответить. Данные получены путем измерения компасом с ценой деления в 6 градусов. Соответственно, каждый раз измеряемой величине было присвоено значение ближайшего к наблюдаемому направлению деления шкалы и абсолютная погрешность, равная половине деления шкалы, т. е. +/- 3 градуса. В итоге получилось несколько групп повторяющихся вариант. Или, иными словами, ряд чисел, кратных шести, с соответствующей частотой встречаемости для каждого.

Не совсем понял, можно ли применять указанные вами методы в случае угловых наблюдений, или как их для этого надо модифицировать, ведь, насколько я понял, в таких случаях применяют специальные критерии, отличные от тех, что используются в для линейных данных.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Сб мар 30, 2013 1:43 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Уважаемый Энтомолог!

В чем специфика угловых наблюдений по сравнению с линейными данными? В том, что 0 градусов и 360 градусов - это одно и то же. Если же две группы результатов наблюдений полностью лежат между 0 и 360 градусами, т.е. нет перехода через 0 и 360 градусов, то, на мой взгляд, можно угловые наблюдения обрабатывать так же, как линейные данные.
В Вашем случае, как я понял, можно выделить направление, которое обе группы не переходят. Принимаем его за 0 градусов.
Конечно, параметрические семейства распределений, популярные для линейных данных, нельзя прилагать к анализу угловых наблюдений. Но мы рассматриваем непараметрические постановки.

Специфика Ваших данных - в большом числе повторов. Вы пишете об этом:
Цитата:
ранговые непараметрические критерии использовать, несколько я понимаю, не получается, т. к. много связок (что с ценой деления аж в 6 градусов закономерно)


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Вс мар 31, 2013 12:23 am 
Не в сети

Зарегистрирован: Вс мар 03, 2013 4:27 pm
Сообщений: 4
Еще раз спасибо! Действительно гениально простое решение, а то книга Мардиа меня совсем запутала. С линейными разбираться куда проще и информации для этого применяемых о методах куда больше. Но по-прежнему для меня остается неясным применение предложенных вами критериев, в частности критерия Крамера-Уэлча. Ведь он, насколько я понимаю, параметрический. И что дает сравнении средних выборок составленных из квадратов исходных данных. Я попробовал - статистически значимых различий не обнаружено. Но даже на глаз различия в рассеяние видится существенным. Пробовал сравнивать при помощи критерия Ансари-Бредли, который описан в книге Холлендера и Вульфа "Непараметрические методы статистики", предварительно добавив повторяющимся вариантам малые случайные числа. В результате получил очень высокую статистическую значимость различий (p<<0,001). Однако правомерность такой процедуры для меня сомнительна. Также была совсем крамольная мысль "восстановить" исходные данные из группированных путем добавки к вариантам выборки равномерно распределённые случайных чисел в диапазоне от -3 до 3 (ведь этот процесс по сути обратен тому, который происходил в поле при сборе данных). Тогда можно было бы применять любые ранговые методы. Но поскольку ничего подобного в литературе не нашел, наверное, это чистой воды мой антинаучный измышлизм. Или нет? Ведь, хотя ясно что при каждом новом наборе случайных чисел результаты статистики будут несколько иными, но все равно достигаемый уровень значимости не будет превышать 0,001 (проверил на нескольких парах таким образом "откорректированных" выборок, что более чем достаточно для отклонения нулевой гипотезы по принятым в биологии стандартам.
Также с интересом прочитал главу Вашей книги посвященную статистике интервальных данных. Однако, к сожалению возможно ли применить эту информацию для решения моих задач и как это сделать для меня осталось неясным. Прошу прощения за дилетантские вопросы. Не подумайте, что до того как задать их на данном форуме я недостаточно времени и сил посвятил изучению литературы. Поверьте это не так, вникая в статистику я потратил уже в общей сложности не одну сотню часов у монитора и заработал астенопию от чего теперь посматриваю на экран одним глазом. Сроки сдачи работы уже поджимают, а определенности по-прежнему нет. Коллеги советуют произвести обработку абы как по старой зоологической традиции, но моя позиция в этом отношении категорична, и некорректности в статобработке, по сути являющейся фальсификацией данных, в своих работах я допускать не намерен. Поэтому очень прошу не оставить мою проблему без внимания.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Вс мар 31, 2013 12:23 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
1. Критерий Крамера-Уэлча - непараметрический, поскольку нет никаких предположений о функциях распределения. Предназначен для обнаружения различий в математических ожиданиях.
2. Как сказано в главе 5 книги Холлендера и Вулфа, критерий Ансари-Брэдли предназначен для обнаружения различий в дисперсиях, когда медианы известны или равны. Если нет оснований считать, что "медианы известны или равны", но надо проверить, если ли различия в дисперсиях, то можно использовать другие критерии из той же главы.
3. Хорошая процедура получается, если "предварительно добавить повторяющимся вариантам малые случайные числа". Так делал, например, А.М. Никифоров в 80-е. При этом мы вместо группы связанных рангов получаем ту или иную упорядоченность наблюдений двух выборок. Соответствующие им значения ранговой статистики меняются в некотором интервале. Этот интервал надо вычислить точно или оценить по результатам статистического моделирования. Интервал возможных значений статистики порождает интервал возможных значений достигаемого уровня значимости.
4. Подход на основе "восстановления" исходные данные из группированных путем добавки к вариантам выборки равномерно распределённых случайных чисел в диапазоне от -3 до 3 вполне правомерен. Близко к этому направление под названием "анализ сгруппированных данных" (см. файл 784 внизу моей персональной страницы http://www.bmstu.ru/ps/~orlov/ .
5. В моих публикациях по статистике интервальных данных есть небольшой раздел "Интервальные данные в задачах проверки гипотез".


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Чт апр 04, 2013 9:46 pm 
Не в сети

Зарегистрирован: Вс мар 03, 2013 4:27 pm
Сообщений: 4
Еще раз большое спасибо! Стало быть, я не настолько безнадежен в своих попытках постичь логически суть проблемы. В принципе, основания ожидать что медианы генеральных совокупностей равны есть, но, конечно, гарантии никто не даст. Так что я, по Вашему совету воспользовался критерием Мозеса, не требующим равенства медиан. Получилось p < 0,005, что в моем случает тоже более чем достаточно. Но по этому критерию хотелось бы прояснить важный момент. В вышеупомянутой книге ясно сказано, что результаты вычисления этой статистики по одним и тем же выборкам разными людьми могут быть различны, что понятно, т. к. алгоритм довольно произвольный. Но насколько это критично? Ведь если б разброс был совсем громадным, разве могли бы авторы рекомендовать этот критерий? Быть может, с момента написания книги он был усовершенствован или хотя бы даны четкие рекомендации в каких случаях на сколько подгрупп и какого объема делить? Наверное, интервал колебания значения статистики можно было бы тоже выяснить помощью моделирования, но к сожалению в этой области я не обладаю достаточными знаниями. Мне бы чисто как пользователю сборник рецептов и жестких ограничений. Типа "в таких-то случаях нужно делать так-то, в в так-то так-то делать нельзя". Конечно, такой подход ущербен, по сравнению с глубоким постижением предмета, но тоже имеет право на существование, как например пользование интернетом мною в данный момент, не предполагающее углубленного знания работы компьютера и программного обеспечения. Поэтому очень прошу понять мое положение и порекомендовать конкретные источники, где можно в явной рецептурной форме найти как вычислить всю необходимую статистику, включая те самые предложенные Никифоровым интервалы или как и с помощью каких программ их можно смоделировать.

Вашу статью о сгруппированных данных я прочел и, в общих чертах, понял их специфику. Однако как приложить результаты этого исследования к моим задачам, в частности задаче обеспечения корректного использования ранговых критериев для анализа сгруппированных данных я не знаю.

У меня появилась идея (правда о ее состоятельности мне судить сложно), как б. м. корректно "восстановить" предложенным мной способом исходные данные из сгруппированных для подсчета ранговых двухвыборочных статистик. Эта процедура представляется мне следующим образом:
1.Добавляя поочередно разные наборы случайных чисел к вариантам исходной выборки в диапазоне интервала группировки получить некое достаточно большое число потенциально возможных "восстановленных" выборок n.
2.Точно так же поступить с исходной выборкой для второго вида получив такое же число "восстановленных" выборок.
3.В случайном порядке сравнивать попарно разные "восстановленные" выборки, в результате получится большой набор возможных значений статистики, среди которых останется лишь найти два экстремальных (минимум и максимум), соответствующие им уровни значимости и будут границами того самого интервала для достигаемого уровня значимости для сравнения исходных выборок сгруппированных данных. Или, возможно, поступить проще: среди сгенерированных в п. 1. и 2. выборок найти две с экстремальными значениями того признака, различия по которому определяет выбранный критерий и вычислить его лишь для той пары выборок, для которой различия в этом признаке будут минимальны. Это и даст нам нижнюю границу интервала достигаемого уровня значимости, а если традиционно пользоваться методом процентных точек, то только она и нужна. Ну, и естественно, помимо уровня значимости в результатах исследования надо будет привести вышеупомянутое n и характеристики датчика случайных чисел. Но к сожалению я не знаю, как подобное осуществить на практике и насколько это реально. Быть может, такая методика уже давно и широко применяется? Мои знания по этой проблеме практически равны нулю, т. к. трудно найти более далекую от моих интересов до сего дня область науки, нежели информатика и программирование. А на то, чтобы постигать ее с азов нет ни времени ни сил. Не могли ли бы Вы мне в этом помочь? Я понимаю, что Вы лично загружены научной и преподавательской работой, но, быть может, Вы сможете порекомендовать мне человека, который смог бы бескорыстно оказать мне помощь по данному вопросу, возможно, даже на правах соавтора? Заранее благодарен за посильную помощь.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Несколько практических задач по анализу угловых наблюден
СообщениеДобавлено: Сб апр 13, 2013 9:07 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Уважаемый Энтомолог!

С большим удовольствием прочитал Ваш пост. Видно, что Вы глубоко проникли в суть проблем прикладной статистики. Предложения Ваши адекватны (в Вашей терминологии - состоятельны).

Проблема в том, что прикладная статистика не признана в РФ научной специальностью, как следствие, нет организованной системы специалистов. Все - самоучки. За двадцать с лишним лет "реформ" хрупкое неформальное сообщество рассыпалось.
Переводчик книги Холлендера и Вульфа Дмитрий Семенович Шмерлинг (schmerling@hse.ru , http://www.hse.ru/org/persons/63808) мог бы лет 20 назад прояснить ситуацию с критерием Мозеса, но сейчас он, мне кажется, не очень интересуется непараметрической статистикой. Впрочем, Вы можете ему написать.
Созданный мной Всесоюзный центр статистических методов и информатики погиб в результате развала СССР и либерализации цен. С тех пор я зарабатываю на жизнь преподаванием студентам-экономистам. Меня хватило на то, чтобы написать полтора десятка книг, но не на то, чтобы создать коллектив специалистов по статистическим методам.
Можно было бы ожидать, что математики специальности "теория вероятностей и математическая статистика" наведут порядок в методах обработки данных. Однако они предпочитают доказывать теоремы, поскольку именно такая деятельность поддерживается.
Довольно много полузнаек или попросту невежд. О некоторых написал на этом форуме.
Могу посоветовать Вам одно - самому стать специалистом в биологической специальности биометрии (биометрике), которую можно расшифровать как "статистические методы в биологии".


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 8 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB