Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 22, 2024 8:12 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 7 ] 
Автор Сообщение
 Заголовок сообщения: Общие вопросы по статистике
СообщениеДобавлено: Ср сен 08, 2010 7:32 am 
Не в сети

Зарегистрирован: Ср сен 08, 2010 7:05 am
Сообщений: 2
Откуда: Якутск
Уважаемый Александр Иванович,

Информация на Вашем сайте и форуме весьма интересна и полезна, но одновременно трудна для понимания и практического применения для людей, относительно "далеких" от математики. В частности, для меня - чем больше читаю, тем больше запутываюсь, так как то, что очевидно для математика, для меня - темный лес. В связи с этим, возникли следующие общие дилетантские вопросы:
1. Непонятно, почему использование центральной предельной теоремы (ЦПТ) рассматривается как непараметрический подход? Ведь пределом в ЦПТ является функция стандартного нормального распределения (СНР) с параметрами мю=0 и сигма=1. И почему же критикуется предположение нормальности для параметрических критериев, если и нормальность и параметры изначально присутствуют в самой ЦПТ?
Если всё в конце концов упирается в ЦПТ, и соответственно, в СНР, зачем ломать копьи относительно параметрики и непараметрики? Насколько я понимаю, суть дела сводится к аппроксимации того или иного набора данных ЦПТ, а как это достигается - параметрикой или непараметрикой - это второстепенный вопрос, в основном связанный с размером выборки?
2. Неясно, почему критерий Крамера-Уэлча считается непараметрическим, если его формула почти такая же, как и Стьюдента, и в нем присутствуют аналогичные параметры? Ведь он не оперирует рангами, скажем, как классический непараметрический критерий Вилкоксона. К этому, что Вы можете сказать об аналогичном критерии Пагуровой, приведенном в программе AtteStat Игоря Гладышева? По формуле этот критерий один к одному - Крамера-Уэлча, только критические значения берутся другие.
У меня вообще создается впечатление, что один тип от другого отличается только тем, что дается сугубо теоретическая "установка" о наличии или отсутствии известного распределения - формулы-то практически идентичные. Просто в одном случае оперируем квантилями U(p), в другом - Стьюдента, в третьем - ...? Но ведь во всех случаях опять-таки в конечном счете используется ЦПТ с его СНР?
3. В главе 4 "Эконометрики" говорится о практическом отсутствии нормальности в реальных данных, однако речь в основном идет о погрешностях измерений. Но ведь сами данные и погрешности - это разные вещи, или я что-то не понимаю?
4. Пожалуйста, объясните доступно, что такое внутриматематическое свойство типа регулярности, имеющее отношение к распределению случайной величины?
5. Как следует из Ваших учебников и статей, для использования ЦПТ необходима относительно большая выборка, от n=30-50 и больше. В биологии мы имеем дело с малыми размерами выборок, в среднем около 5, максимум 10. Из истории известно, что критерий Стьюдента был создан именно для малых выборок, непараметрическим аналогом которого является критерий Вилкоксона. Из информации в Ваших учебниках я так и не понял, следует ли из современных наработок, что ЦПТ можно без ущерба применять и при малых выборках (n=5-10)? Или же все еще необходимо пользоваться классикой, в частности, критерием Вилкоксона?
6. Утверждается (подглава 4.1 "Эконометрики"), что любые реальные данные целесообразно моделировать лишь с помощью дискретных случайных величин, принимающих конечное число значений.
Между тем, многие критерии требуют непрерывности функции распределения, в частности, рассмотренный Лемана-Розенблатта. Что делать, если считаю правильным пользоваться именно дискретными величинами?
7. Что Вы можете сказать о так называемой бивес-оценке? К сожалению, уже не помню, в какой книге я читал о нем. Там было показано (с примерами), что бивес-оценка выдает промежуточную величину между арифметическим средним и медианой.
8. Насчет мощности критерия: в простых случаях обычно альтернативная гипотеза сводится к простому отрицанию нулевой гипотезы, без конкретизации. Например, Н0 - различий нет, Н1 - различия есть. Как определить достаточную мощность критерия в таких случаях?
9. ПОЖЕЛАНИЕ: было бы крайне полезно написать учебник для "чайников" по современной прикладной статистике понятным для простого обывателя языком, с минимумом математического изложения. Поверьте, фразы типа "...рассмотрим статистики интегрального типа [формула]...", "...пусть [формула], тогда..." или "...из [формула] очевидно, что..." совершенно непонятны и пугающи для не математика. Между тем несомненно, что есть крайняя необходимость в таком учебнике. Хорошим примером для классической статистики считаю книгу Стэнтона Гланца "Медико-биологическая статистика". - М.: Практика, 1999. - 459 с.

С уважением,
Айал Максимов


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср сен 08, 2010 12:12 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Только автор АттеСтат'а не Гладышев, а Гайдышев


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср сен 08, 2010 2:06 pm 
Не в сети

Зарегистрирован: Чт мар 20, 2008 1:25 pm
Сообщений: 191
Откуда: Солнечная система
Цитата:
Информация на Вашем сайте и форуме весьма интересна и полезна, но одновременно трудна для понимания и практического применения для людей, относительно "далеких" от математики

Студенты 2-4-6 курсов воспринимают, не жалуясь. Возможно, потому, что изучали теорию вероятностей и математическую статистику. См. справочник "Математика случая", в печатном варианте: Орлов А.И. Вероятность и прикладная статистика - основные факты. - М.: КНОРУС, 2010.

Цитата:
1. Непонятно, почему использование центральной предельной теоремы (ЦПТ) рассматривается как непараметрический подход


Суммируются случайные величины, имеющие произвольные распределения. Т.е. рассматривается непараметрическая постановка. Надо знать, что статистическая задача называется параметрической, если заранее предполагается, что исходные данные имеют распределения, входящее в то или иное параметрическое семейство - экспоненциальных распределений. Вейбулла-Гнеденко, нормальных, логарифмически нормальных и др. Если же предполагается, что исходные данные имеют произвольое распределение, то задача является непараметрической. См. цитированный справочник.

То, что в результате суммирования случайных величин с произвольным распределением получаем случайную величину с нормальным распределением - величайший математический результат, потому и называется ЦПТ.
Кстати, в результате перемножения случайных величин с произвольным распределением получаем случайную величину с
логарифмически нормальным распределением.

Цитата:
2. Неясно, почему критерий Крамера-Уэлча считается непараметрическим,

Потому что исходная постановка непараметрическая. Выборки взяты из произвольных распределений.

Цитата:
К этому, что Вы можете сказать об аналогичном критерии Пагуровой, приведенном в программе AtteStat Игоря Гладышева? По формуле этот критерий один к одному - Крамера-Уэлча, только критические значения берутся другие.


Пагурова вслед за Уэлчем изучала этот критерий, когда выборки берутся из нормальных распределений. Статистический критерий - это не только статистика, но и правила принятия решений (критические значения).
Автор комментариев к программе AtteStat допускает неточности, поскольку не является специалистом по прикладной статистике.

Цитата:
В главе 4 "Эконометрики" говорится о практическом отсутствии нормальности в реальных данных,

Распределения реальных данных, как правило, не являются нормальными. Перечитайте раздел еще раз.

Цитата:
4. Пожалуйста, объясните доступно, что такое внутриматематическое свойство типа регулярности, имеющее отношение к распределению случайной величины?

Эта фраза означает, что в тексте для математиков стояли бы еще некоторые условия, которых Вы все равно не поймете. Например, в ЦПТ - что дробь Ляпунова должна стремиться к нулю.


Цитата:
5. Как следует из Ваших учебников и статей, для использования ЦПТ необходима относительно большая выборка, от n=30-50 и больше. В биологии мы имеем дело с малыми размерами выборок, в среднем около 5, максимум 10. Из истории известно, что критерий Стьюдента был создан именно для малых выборок, непараметрическим аналогом которого является критерий Вилкоксона. Из информации в Ваших учебниках я так и не понял, следует ли из современных наработок, что ЦПТ можно без ущерба применять и при малых выборках (n=5-10)? Или же все еще необходимо пользоваться классикой, в частности, критерием Вилкоксона?


Критерий Стьюдента не является научно обоснованным, в отличие от критерия Вилкоксона.
Какой объем выборок достаточен для применения асимптотических результатов - обычно требует численных расчетов. Ответ зависит от того, как поставить задачу, какие отклонения считать малыми. Об этом - в моих учебниках в разделах про устойчивость (устойчивость к изменению объема выборки).
Цитата:
6. Утверждается (подглава 4.1 "Эконометрики"), что любые реальные данные целесообразно моделировать лишь с помощью дискретных случайных величин, принимающих конечное число значений.
Между тем, многие критерии требуют непрерывности функции распределения, в частности, рассмотренный Лемана-Розенблатта. Что делать, если считаю правильным пользоваться именно дискретными величинами?

Применять статистические методы, предназначенные для анализа дискретных данных. Критерий Крамера-Уэлча, таблицы сопряженности и др.
Цитата:
7. Что Вы можете сказать о так называемой бивес-оценке? К сожалению, уже не помню, в какой книге я читал о нем. Там было показано (с примерами), что бивес-оценка выдает промежуточную величину между арифметическим средним и медианой.

Не знаю, что это такое.
Цитата:
8. Насчет мощности критерия: в простых случаях обычно альтернативная гипотеза сводится к простому отрицанию нулевой гипотезы, без конкретизации. Например, Н0 - различий нет, Н1 - различия есть. Как определить достаточную мощность критерия в таких случаях?

Надо вычислить мощность критерия как функцию альтернативной гипотезы.
Цитата:
9. ПОЖЕЛАНИЕ: было бы крайне полезно написать учебник для "чайников" по современной прикладной статистике понятным для простого обывателя языком, с минимумом математического изложения. Поверьте, фразы типа "...рассмотрим статистики интегрального типа [формула]...", "...пусть [формула], тогда..." или "...из [формула] очевидно, что..." совершенно непонятны и пугающи для не математика. Между тем несомненно, что есть крайняя необходимость в таком учебнике. Хорошим примером для классической статистики считаю книгу Стэнтона Гланца "Медико-биологическая статистика". - М.: Практика, 1999. - 459 с.

Книг достаточно - от Холлендера-Вулфа и Руниона (1980-е) но брошюры Новикова Д.А. и Новочадова www.mtas.ru
Еще больше книг с ошибками - см. по соседству тему "Профессора-невежды готовят себе на смену новых невежд" http://forum.orlovs.pp.ru/viewtopic.php?t=548 .


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср сен 08, 2010 7:35 pm 
Не в сети

Зарегистрирован: Ср сен 08, 2010 7:05 am
Сообщений: 2
Откуда: Якутск
Уважаемый Граф,

Благодарю за быстрый отклик, но все-таки некоторые Ваши ответы немного не по сути заданных вопросов.
Цитата:
Студенты 2-4-6 курсов воспринимают, не жалуясь.
Из моего письма вообще-то ясно, что я не студент 2-6 МАТЕМАТИЧЕСКИХ курсов и специально не изучал статистику, а в меру своих способностей пытаюсь понять то, что мне действительно непонятно. Иначе бы и вопросов не задавал...
Цитата:
То, что в результате суммирования случайных величин с произвольным распределением получаем случайную величину с нормальным распределением - величайший математический результат, потому и называется ЦПТ
.
Это как раз и понятно; суть же моего вопроса заключался в другом - почему ЦПТ с ее СНР, а следовательно, с уже заданными параметрами мю и сигма, рассматривается как непараметрический подход, в то время как мю и сигма - это параметры, причем СНР, а не гамма-, экспоненциального и т.д. распределения? Или же СНР, мю и сигма не имеют никакого значения, и не являются параметрами? Вот что мне непонятно. А просто заранее предполагать/допускать можно все что угодно - например, что черное это белое, и на этом строить гипотезы цветовой гаммы.
По критерию Крамера-Уэлча - фактически тот же вопрос, что и выше. То, что
Цитата:
исходная постановка непараметрическая
, формально понятно, но как быть с параметрами в формуле - вот где корень моего непонимания. Например, для критерия Вилкоксона такой "непонятки" не возникает - в его формуле нет параметров среднего и стандартного отклонения, и объявление его непараметрическим не вызывает недоумения. А так можно ведь и критерий Стьюдента объявить непараметрическим, исходя из того, что я просто решил объявить постановку вопроса непараметрическим и использовать при этом критерий Стьюдента. Ну и что, что в формуле Стьюдента есть параметры, требуется нормальность и равенство дисперсий? Вот я чисто формально предположил, что подход у меня непараметрический и точка! Почему Стьюдента нельзя, а Крамера-Уэлча можно, в то время как формулы практически идентичны?
Из Ваших ответов я понимаю так, что все дело - в критических значениях? Если так, то можно ли трактовать тему следующим образом: наличие параметров или их отсутствие в критериях, условие нормальности, равенства дисперсий - это чистая формальность, не имеющая решающего значения и все определяется используемыми критическими значениями? Но ведь и критические значения откуда-то берутся, и насколько я понимаю, также из определенных типов распределения, то есть параметрических семейств. Тот же U(p) - это, на мой взгляд, фактически z Фишера, т.е. предполагает нормальность (что и есть на деле - СНР в ЦПТ!), а следовательно, использование U(p) является параметрическим подходом. В чем я ошибаюсь?
Цитата:
Распределения реальных данных, как правило, не являются нормальными. Перечитайте раздел еще раз.

Считаю, что мой вопрос Вами не понят. На всякий случай перечитал главу 4.1 - еще раз убедился, что речь в основном и конкретным образом идет именно о ПОГРЕШНОСТЯХ измерений (вступительные и завершающие абзацы не в счет). Возможно, погрешности измерений и сами реальные данные - это одно и то же в глазах прикладного статистика, но для меня это не очевидно. Прошу разъяснить.
По 5-му вопросу попробую разобраться при помощи Ваших книг об устойчивости.
Цитата:
Надо вычислить мощность критерия как функцию альтернативной гипотезы
. А как это сделать? Позволю напомнить - я не математик.
Я пытался понять книги Холлендера-Вулфа и Руниона - не получается, они написаны для специалистов, для новичка в статистике - отнюдь не в помощь. Книга Новикова и Новочадова - тоже не тот случай, и на мой взгляд, наоборот, она поверхностна. Например, рассматриваемый там критерий Крамера-Уэлча описан крайне неполно, нет даже информации о том, является ли он параметрическим или нет; скромно (в сноске) приведено, что он является эффективным "заменителем" критерия Стьюдента, и всё. А почему и как - нет сведений. По сути, это бесполезная для понимания сущности критерия информация. В книге также обсуждаются такие вещи, как гистограммы в Excel, классические уровни 0,95 и т.п., которые Орловым А.И. объявлены прошлым веком.
Так что, необходимость в популярной и в то же время достаточно полной книге по СОВРЕМЕННОЙ прикладной статистике есть, которая "разжевывала" бы непосвященным, например, суть "правильных" критериев, их преимущества и недостатки, теорию и практику доступным языком, и, что немаловажно - как применять эти знания самостоятельно, например, при помощи Excel.

С уважением,
Айал


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 13, 2010 11:46 am 
Не в сети

Зарегистрирован: Чт мар 20, 2008 1:25 pm
Сообщений: 191
Откуда: Солнечная система
Прикладной статистике надо учиться.
Кто не учится - остается невеждой.
А сейчас - не вижу смысла тратить время на дискуссию с лицом, которое даже не удосужилось посмотреть соседний раздел "Преподавание" и увидеть, что речь идет о студентах факультета "Инженерный бизнес и менеджмент", т.е. экономистах, а отнюдь не математиках.
И т.д.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 13, 2010 4:24 pm 
Не в сети

Зарегистрирован: Пт мар 26, 2010 9:39 pm
Сообщений: 7
Айал писал(а):
Я пытался понять книги Холлендера-Вулфа и Руниона - не получается, они написаны для специалистов, для новичка в статистике - отнюдь не в помощь.
Айал

Книга Руниона как раз написана "для новичка в статистике", и утверждать обратное может только случайный человек.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 17, 2010 3:34 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Этот форум - не место для болтовни невежд.
Тексты невежд уничтожаю.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 4


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB