Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Вс дек 22, 2024 7:57 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 11 ] 
Автор Сообщение
 Заголовок сообщения: Вопрос про фиктивные переменные
СообщениеДобавлено: Пн сен 11, 2006 3:41 pm 
Не в сети

Зарегистрирован: Пн сен 11, 2006 1:57 pm
Сообщений: 5
Здравствуйте Александр Иванович.

Столкнулся с любопытным (на мой взгляд) набором данных.
Данные (приведены в конце сообщания) представляют собой
цены подержанных автомобилей в городе Томске (весна 2006г.).
Смысл столбцов:
Price - цена (тыс. руб.),
Age - возраст (число лет),
VAZ210X, где X = {5,6,7,9} - фиктивные переменные,
принимающие значения 1, если автомобиль соответствующей марки,
и 0 в противном случае.
Как говорится во всех популярных учебниках по эконометрике,
чтобы не попасть в "ловушку" (dummy trap) необходимо одну
фиктивную переменную исключить, при этом не дается указаний
какую именно.

В чем необычность этого набора:
если оценивать параметры модели
LN(Price)=B1+B2*Age+B3*VAZ2105+B4*VAZ2106+B5*VAZ2107 + u,
то все коэффициенты получаются значимыми на 5% и 1% уровнях
значимости, но если в состав фиктивных переменных
включить VAZ2109, исключив любую другую, то все
коэффициенты перед фиктивными перемеными кроме VAZ2109
оказываются незначимымыми на 5% и 1% уровнях значимости.

Вам не кажется это странным?

С уважением,
Александр Богданов.

PS: чтобы перенести данные в Excel нужно
1. скопировать их буфер обмена
2. открыть блокнот (notepad)
3. вставить в него данные из буфера обмена
4. сохранить файл
5. изменить расширение файла на CSV
6. открыть файл в Excel

Данные:
========================================
Price;Age;VAZ2105;VAZ2106;VAZ2107;VAZ2109
50 000 ;12 ;0 ;1 ;0 ;0
35 000 ;22 ;1 ;0 ;0 ;0
80 000 ;8 ;0 ;0 ;1 ;0
75 000 ;13 ;0 ;0 ;0 ;1
45 000 ;13 ;0 ;1 ;0 ;0
45 000 ;13 ;0 ;1 ;0 ;0
50 000 ;15 ;0 ;1 ;0 ;0
45 000 ;13 ;0 ;1 ;0 ;0
28 000 ;22 ;0 ;1 ;0 ;0
35 000 ;24 ;0 ;1 ;0 ;0
90 000 ;7 ;0 ;0 ;1 ;0
85 000 ;10 ;0 ;0 ;0 ;1
185 000 ;2 ;0 ;0 ;0 ;1
116 000 ;3 ;0 ;0 ;1 ;0
58 000 ;11 ;1 ;0 ;0 ;0
130 000 ;5 ;0 ;0 ;0 ;1
152 000 ;4 ;0 ;0 ;0 ;1
140 000 ;5 ;0 ;0 ;0 ;1
65 000 ;9 ;0 ;1 ;0 ;0
145 000 ;4 ;0 ;0 ;0 ;1
90 000 ;10 ;0 ;0 ;0 ;1
145 000 ;5 ;0 ;0 ;0 ;1
105 000 ;6 ;0 ;0 ;0 ;1
123 000 ;6 ;0 ;0 ;0 ;1
123 000 ;6 ;0 ;0 ;0 ;1
40 000 ;18 ;1 ;0 ;0 ;0
95 000 ;9 ;0 ;0 ;0 ;1
120 000 ;7 ;0 ;0 ;0 ;1
45 000 ;13 ;0 ;1 ;0 ;0
65 000 ;9 ;1 ;0 ;0 ;0
80 000 ;11 ;0 ;0 ;0 ;1
130 000 ;6 ;0 ;0 ;0 ;1
75 000 ;12 ;0 ;0 ;0 ;1
56 000 ;11 ;1 ;0 ;0 ;0
95 000 ;9 ;0 ;0 ;0 ;1
35 000 ;17 ;0 ;1 ;0 ;0
30 000 ;17 ;0 ;1 ;0 ;0
35 000 ;23 ;1 ;0 ;0 ;0
40 000 ;19 ;0 ;0 ;1 ;0
42 000 ;14 ;1 ;0 ;0 ;0
45 000 ;13 ;0 ;0 ;1 ;0
50 000 ;13 ;1 ;0 ;0 ;0
60 000 ;10 ;0 ;1 ;0 ;0
70 000 ;8 ;1 ;0 ;0 ;0
79 000 ;11 ;0 ;0 ;0 ;1
90 000 ;6 ;0 ;0 ;1 ;0
115 000 ;8 ;0 ;0 ;0 ;1
130 000 ;2 ;1 ;0 ;0 ;0
130 000 ;6 ;0 ;0 ;0 ;1
135 000 ;5 ;0 ;0 ;0 ;1
145 000 ;5 ;0 ;0 ;0 ;1
156 000 ;3 ;0 ;0 ;0 ;1
130 000 ;2 ;0 ;0 ;1 ;0
135 000 ;2 ;0 ;0 ;1 ;0
138 000 ;1 ;0 ;0 ;1 ;0
130 000 ;1 ;0 ;1 ;0 ;0
142 000 ;1 ;0 ;0 ;1 ;0
90 000 ;5 ;0 ;1 ;0 ;0
90 000 ;5 ;0 ;1 ;0 ;0
115 000 ;2 ;0 ;1 ;0 ;0
75 000 ;9 ;0 ;1 ;0 ;0
75 000 ;7 ;0 ;0 ;1 ;0
25 000 ;11 ;0 ;0 ;1 ;0
45 000 ;12 ;0 ;1 ;0 ;0
47 000 ;12 ;0 ;1 ;0 ;0
57 000 ;10 ;0 ;1 ;0 ;0
75 000 ;7 ;0 ;1 ;0 ;0
65 000 ;9 ;0 ;1 ;0 ;0
25 000 ;26 ;0 ;1 ;0 ;0
30 000 ;27 ;0 ;1 ;0 ;0
38 000 ;26 ;0 ;1 ;0 ;0
60 000 ;10 ;0 ;0 ;1 ;0
70 000 ;6 ;0 ;1 ;0 ;0
105 000 ;3 ;0 ;0 ;1 ;0
120 000 ;3 ;0 ;0 ;1 ;0
40 000 ;18 ;0 ;1 ;0 ;0
200 000 ;2 ;0 ;0 ;0 ;1
50 000 ;18 ;0 ;1 ;0 ;0
62 000 ;7 ;1 ;0 ;0 ;0
125 000 ;7 ;0 ;0 ;0 ;1
45 000 ;9 ;1 ;0 ;0 ;0
120 000 ;5 ;0 ;0 ;0 ;1
75 000 ;12 ;0 ;0 ;0 ;1
110 000 ;7 ;0 ;0 ;0 ;1
150 000 ;3 ;0 ;0 ;0 ;1
35 000 ;16 ;0 ;0 ;1 ;0
70 000 ;7 ;0 ;0 ;1 ;0
53 000 ;13 ;1 ;0 ;0 ;0
78 000 ;7 ;0 ;1 ;0 ;0
78 000 ;7 ;0 ;1 ;0 ;0
78 000 ;7 ;0 ;1 ;0 ;0
120 000 ;7 ;0 ;0 ;0 ;1
70 000 ;10 ;0 ;1 ;0 ;0
45 000 ;14 ;0 ;0 ;1 ;0
100 000 ;7 ;0 ;0 ;0 ;1
====================================


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 11, 2006 10:24 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Такого рода модели меня не интересовали.
В моем учебнике "Эконометрика" ничего подобного нет.
Не уверен, что такие модели вообще можно рассматривать в рамках простой вероятностно-статистической теории. Дело в том, что обычно независимые переменные рассматриваются как непрерывные и имеющие нормальные распределения. А здесь "фиктивные" переменные принимают только два значения.
Может быть, независимые переменные рассматриваются как детерминированные (заданные)?


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 11, 2006 11:23 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Сама модель нелепа.
Ибо в ней сказано, что цена есть линейная функция от возраста. Это достаточно разумно, хотя и приводит для больших возрастов к отрицательной цене.
Нелепо то, что для разных видов автомобилей меняется только свободный член, а наклон - один и тот же.
Скорее уж считать, что каждый год происходит уценка на один и тот же процент, а автомобили отличаются только начальтной ценой.
А самое разумное - обработать данные отдельно для каждого типа автомобиля.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт сен 12, 2006 8:22 am 
Не в сети

Зарегистрирован: Пн сен 11, 2006 1:57 pm
Сообщений: 5
Цитата:
Скорее уж считать, что каждый год происходит уценка на один и тот же процент, а автомобили отличаются только начальтной ценой.

Для этого в модели стоит логарифм цены (в исходных данных
просто цена, т.к. это сырые данные).

Цитата:
В моем учебнике "Эконометрика" ничего подобного нет.


Что касается вашего учебника, то в нем действительно нет
даже упоминания фиктивных переменных, но я бы и не назвал
ваш учебник популярным в наших краях.
Если зайти в магазины, то на полках будут стоять книги авторов:
Доугерти, Айвазян, Магнус-Катышев-Пересецкий, Елисеева
и ряда других. Вашу книгу я купил этим летом в Алма-Ате,
хотя электронный вариант у меня был, но бумажный читать удобнее.

По поводу фиктивных переменных.
Пусть имеется следующая задача: необходимо определить
на сколько в среднем при прочих равных условиях отличается
цена подержанного автомобиля ВАЗ2106 от цены ВАЗ2109.
Просто собрать данные по каждому автомобилю и сравнить их
средние цены будет некорректно - выборки могут сильно
различаться по возрасту, пробегу, комплектации.
В этом случае можно ввести фиктивную переменную d, равную 0
для ВАЗ2106 и равную 1 для ВАЗ2109, и построить, например,
такую модель:
LN(Цена)=B1+B2*Возраст+B3*Пробег + B4*d + u.

Если коэффициент перед B4 окажется статистически значимым,
то это и будет означать, что цены (точнее логарифмы цен)
автомобилей при прочих равных условиях отличаются
на величину B4. Естественно, все это будет иметь смысл, только
если остальные коэффициенты не противоречат здравой логике.

Вопрос заключался в том, что рассматриваемые модели
оказались чувствительными к порядку введения фиктивных
переменных в модель, чего вроде бы как быть не должно.

С уважением,
Александр Богданов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Re: Вопрос про фиктивные переменные
СообщениеДобавлено: Вт сен 12, 2006 12:21 pm 
Не в сети

Зарегистрирован: Пн июн 26, 2006 5:24 pm
Сообщений: 25
Alexander Bogdanov писал(а):
Столкнулся с любопытным (на мой взгляд) набором данных.

Для начала следует определиться, какую практическую пользу необходимо извлечь из анализа. Если целью является получение прогноза цены автомобиля на основе значений набора параметров, то считаю, что должны быть введены следующие параметры:
количественные: пробег, год выпуска (или возраст - не меет значения);
порядковые: состояние систем - ряд параметров, включающих экспертные оценки состояния кузова, ходовой части, салона и т.д.;
номинальные: тип кузова, возможно, марка автомобиля (как у Вас в примере) и цвет и т.д.
Формально для таких данных возможно использование множественной регрессии. Возможно использование линейного дискриминантного анализа и нейросетевой модели. О качестве модели следует судить не по "значимости" коэффициентов, а по количеству верно классифицированных объектов (автомобилей) представленной Вами обучающей выборки. Если эта величина составит процентов 90, то решение вполне успешно. Считаю, что решение данной задачи вполне возможно. Фактически данная задача легко решается в уме эксперта по продажам подержанных автомобилей.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Вт сен 12, 2006 3:21 pm 
Не в сети

Зарегистрирован: Пн сен 11, 2006 1:57 pm
Сообщений: 5
2Programmer:
думаю следует пояснить откуда все это взялось.
Мне необходимо было продемонстировать студентам как работают
фиктивные переменные. Я взял набор данных и обнаружил этот
эффект. Он мне показался странным.

Что касается набора факторов, то я решил ограничиться возрастом
автомобиля, т.к. он сильно влияет на цену. Естественно, пробег
и другие перечисленные вами признаки также оказывают на нее,
влияние. Но представьте себе, что вам эти данные неизвестны или
вы считаете их недостоверными. Если зайдете на сайт auto.ru
и посмотрите, что там пишут, то вы скоро поймете, что доверять можно
только нескольким параметрам: возраст, марка, цвет, возможно
что-то еще. Даже тип кузова часто указывают неверно.

Впрочем речь не об этом, а о "странном" на мой взгляд
поведении фиктивных переменных. Если вы с этим каждый
день сталкиваетесь, напишите мне, что вы делаете в таких ситуациях.

А по поводу того, что задача решается в уме экспертом
замечу, что природа заложила в мозг человека (да и не
только человека) способности решать сложнейшие задачи,
(например человек может без труда взять со стола ручку,
попробуйте напишите такую программу для робота),
но следует ли из этого, что мы должны забросить моделирование,
если вы об этом?

С уважением,
Александр Богданов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения: Александр Богданов
СообщениеДобавлено: Вт сен 12, 2006 8:29 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
1. Модель Ваша не описана. Я писал:
Цитата:
обычно независимые переменные рассматриваются как непрерывные и имеющие нормальные распределения. А здесь "фиктивные" переменные принимают только два значения.
Может быть, независимые переменные рассматриваются как детерминированные (заданные)?

2. Алгоритм также не описан. Зачем как-то "вводить" переменные?
Если посмотреть на первую модель:
Цитата:
LN(Price)=B1+B2*Age+B3*VAZ2105+B4*VAZ2106+B5*VAZ2107 + u,

то естественно положить B1 = 0 и оценить остальные параметры.
Если взять вторую модель:
Цитата:
LN(Цена)=B1+B2*Возраст+B3*Пробег + B4*d + u.

то зачем как-то "вводить" переменные? Формально применить МНК...
3.
Цитата:
Просто собрать данные по каждому автомобилю и сравнить их
средние цены будет некорректно - выборки могут сильно
различаться по возрасту, пробегу, комплектации.

Если смешаете вместе такие данные - разве их качество улучшится?
Наверно, у Вас очень умные студенты - они могут понять то, что мне недоступно. Или ВЫ им подробнее рассказываете.
4. О диверсионной деятельности в эконометрике есть темы в других разделах форума:
в "Экономика и менеджмент" - темы "Троянские кони" и "Эконометрика по Айвазяну";
в "Преподавание" - "Вдумчивый невежда".
Я думал, что 11-тысячный тираж моей "Эконометрики" завалил все прилавки - оказывается, не так.
Но всегда можно обратиться в Интернет-магазины - достаточно в поисковой машине Яндекса назвать "Орлов А.И." и на открывшейся странице кликнуть на "Орлов А.И. на Маркете".


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 15, 2006 7:31 am 
Не в сети

Зарегистрирован: Пн июн 26, 2006 5:24 pm
Сообщений: 25
Alexander Bogdanov писал(а):
Что касается набора факторов, то я решил ограничиться возрастом автомобиля, т.к. он сильно влияет на цену. Естественно, пробег и другие перечисленные вами признаки также оказывают на нее, влияние. Но представьте себе, что вам эти данные неизвестны или вы считаете их недостоверными.

Это совсем другая проблема. Полагаю (мнение здесь и далее сугубо личное), что одной из задач прикладной статистики является ИЗМЕРЕНИЕ статистических характеристик объектов (или их совокупности). Помимо физических (цвет, возраст) у объектов есть характеристики статистические. Обычно подделать пытаются характеристики, доступные для непосредственного наблюдения. Статистические хактеристики подделать сложнее. Фальсификаторы действуют в меру своих познаний. Статистическими методами можно, к примеру, установить (по крайней мере, обоснованно предположить) факт фальсификации выборов. Как приложить эту идею к Вашей проблеме - совсем другой вопрос. Начинать нужно с Поппера и Лакатоса
Alexander Bogdanov писал(а):
Впрочем речь не об этом, а о "странном" на мой взгляд
поведении фиктивных переменных. Если вы с этим каждый
день сталкиваетесь, напишите мне, что вы делаете в таких ситуациях.

Предлагаю на время забыть об этих переменных. И анализировать только те переменные, которые наблюдаются. Тем более не заставлять это делать студентов. Для начала рассказать им о шкалах измерений и провести мысль, что сваливать в одну кучу разнородные данные нельзя, а надо использовать методы анализа, применимые к переменным в данных шкалах. Помню, наш преподаватель курс теории пластичности поставил не на систематическом изложении научно доказанных фактов, а на критике различных существовавших в то время теорий. До сих пор не могу избавиться от какого-то комплекса, связанного с этим, когда отсутствует стройная структура знаний, и приходится заново формировать данную структуру самостоятельно.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пт сен 15, 2006 11:32 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Сама по себе модель с фиктивными переменными - давняя попытка совместно применить регрессионный и дисперсионный анализ.

Не всегда обоснованным выглядит то, что изменение значений фиктивных переменных приводит лишь к сдвигу регрессионной зависимости, а не к какому-либо иному ее преобразованию.

С точки зрения прикладной статистики рассматриваемая задача с фиктивными переменными - весьма частный случай задачи аппроксимации зависимости (параметрической регрессии) в пространствах производной природы (см. учебник "Прикладная статистика", глава "Оценивание". раздел "Асимптотика решений экстремальных статистических задач", подраздел "Задачи аппроксимации зависимости (параметрической регрессии)" - см. наш сайт и с.299-302 печатного издания).


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 18, 2006 11:30 am 
Не в сети

Зарегистрирован: Пн сен 11, 2006 1:57 pm
Сообщений: 5
Все, разобрался.

Моя ошибка была в том, что я считал, что если в одном случае все
переменные значимы, то и других должна быть такая же ситуация.
Это не верно. Из одного другое не следует.

Вообще наблюдаемое поведение фиктивных переменных означает,
что автомобили ВАЗ2105, ВАЗ2106 и ВАЗ2107 не сильно отличаются
в цене между собой, но значимо отличаются от ВАЗ2109.

Поговорив с людьми понимающими в автомобилях, я получил этому
подтверждение. С их слов ситуация выглядит так. Автомобили
ВАЗ2105, 06 и 07 - это незначительные вариации на одну тему,
в то время, как ВАЗ2109 - это принципиальная другая модель
(другой кузов, привод, двигатель).

Еще раз повторюсь, что это было не исследование, а всего-лишь
демонстрационный пример того, как работают фиктивные переменные.

С уважением,
Александр Богданов.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Пн сен 18, 2006 11:46 am 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11639
Обратитм внимание, что вначале был статистический анализ данных (этап 1), который привел к постановке проблемы (этап 2), решение которой обнаружено после привлечения соображений, касающихся реальной ситуации (этап 3).


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 5


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB