Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Чт мар 28, 2024 8:33 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 11 ] 
Автор Сообщение
 Заголовок сообщения: О преобразованиях исходных данных
СообщениеДобавлено: Чт мар 27, 2014 8:29 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Александр Иванович, пока народ статистикой не интересуется, и на форуме затишье, могу я поинтересоваться, как Вы относитесь к преобразованиям исходных данных, н-р, Бокса-Кокса (Box-Cox transformation) и др.? Стоит в это погружаться?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 8:05 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Исходить надо из вероятностно-статистической модели данных.
Обычно изучаем выборку - набор независимых одинаково распределенных случайных величин.
Если применить заранее выбранное преобразование, например, возвести элементы выборки в квадрат или прологарифмировать, то получим опять выборку - набор независимых одинаково распределенных случайных величин, но с другим распределением.
Если параметры преобразования определяются по выборке, то набор после преобразования - уже не выборка. Нарушается независимость. Например, если данные центрировать выборочным средним арифметическим и нормировать выборочным средним квадратическим отклонением, то получим набор зависимых величин (их сумма равна 0, а сумма квадратов равна 1). Поскольку нарушается независимость, то становятся неясными свойства дальнейших применяемых алгоритмов обработки данных.
Поиск по запросу "Box-Cox transformation" вывел на безграмотную (с массой ошибочных утверждений) статью Порунова А.Н., из которой ясно, что это преобразование имеет параметр, определяемый по выборке. Значит, оно портит выборку, нарушает независимость. Применять его не рекомендуется.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 8:59 am 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Да, параметр преобразования в данном случае определяется по имеющейся выборке (методом МП). Тогда возникает совсем уж "бытовой" вопрос: Бокс и Кокс на тот момент были уже не новички в статистике. Им что, подобное соображение в голову не пришло? Или авторам вариаций на эту тему ( Зеллнеру-Реванкару, Йео-Джонсону и др.)?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 1:45 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Невежды. Не знают основ теории вероятностей и математической статистики.
Можно сказать "политкорректно": наука развивается, и указанные лица остались в прошлом. Это как если бы химик вспомнил про флогистон.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 3:17 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Цитата:
Например, если данные центрировать выборочным средним арифметическим и нормировать выборочным средним квадратическим отклонением, то получим набор зависимых величин (их сумма равна 0, а сумма квадратов равна 1). Поскольку нарушается независимость, то становятся неясными свойства дальнейших применяемых алгоритмов обработки данных.


Хорошо, а как тогда быть с многомерными методами: н-р, анализом главных компонент (PCA), где с этого все начинается? А как вычислить корреляционную матрицу для факторного анализа, если не стандартизировать исходные данные (сначала центрировать, вычитая среднее, а затем нормировать сигмой)?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 7:03 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Появляющаяся зависимость учитывается в указанных Вами методах многомерного статистического анализа. Их разработчики были грамотными статистиками. Про корреляционную матрицу не понял. Никто не занимается специально центрированием и нормированием исходных данных, считают коэффициенты корреляции по известным формулам.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 7:50 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Цитата:
Про корреляционную матрицу не понял.


Так факторный анализ работает с ней. С красавицей.

Цитата:
считают коэффициенты корреляции по известным формулам.


Знамо дело: ковариацию нормируют произведением сигм.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Ср апр 02, 2014 9:11 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Попытайтесь понять, о чем речь.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Пн июн 23, 2014 9:09 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Алексадр Иванович, у меня тут возникло ощущение, что в посте №3 я поддакнул не по делу: параметр преобразования не определяется по выборке, а подбирается из условия максимизации функции правдоподобия, т.е. решается оптимизационная задача.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Пн июн 23, 2014 9:27 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11265
Т.е. определяется по выборке, неважно, с помощью какого алгоритма.
И преобразованные величины, в отличие от исходных, не являются независимыми одинаково распределенными случайными величинами.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: О преобразованиях исходных данных
СообщениеДобавлено: Пн июн 23, 2014 9:48 pm 
Не в сети

Зарегистрирован: Чт ноя 13, 2008 4:01 pm
Сообщений: 86
Да, теперь все более или менее понятно. Спасибо за разъяснения.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 85


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB