Высокие статистические технологии

Форум сайта семьи Орловых

Текущее время: Пн дек 23, 2024 5:43 am

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 4 ] 
Автор Сообщение
 Заголовок сообщения: Похожие наборы данных
СообщениеДобавлено: Ср сен 19, 2007 5:58 pm 
Не в сети

Зарегистрирован: Ср сен 19, 2007 5:13 pm
Сообщений: 2
Здравствуйте, Александр Иванович,

В настоящее время пытаюсь решить примерно следующую задачу.
В систему неприрывно поступают данные в виде наборов пар вида имя=значение. То есть что-то вроде:
> a=1; b=2; c=3
> a=1; b=2
> a=1; b=3; k=5
> a=2; b=4; e=5; g=7; x=2

При этом множество переменных и их значений не определено и может расти исходя из поступающих наборов.

Известно следующее:
1. есть переменные, такие что два набора, имеющие разные значения таких переменных скорее непохожи чем похожи
2. есть переменные, такие что два набора, имеющие одинаковые значения таких переменных скорее похожи чем непохожи
3. могут существовать переменные, обладающие как 1м так и 2м свойством
4. могут существовать переменные, не обладающие ни 1м ни 2м свойством
5. переменная "a" обладает 1м свойством а переменная "b" обладает 2м свойством (для простоты допустим что "a" и "b" присутствуют во всех наборах)

Необходимо:
1. Понять характер остальных переменных. При этом, поскольку постоянно поступают новые наборы данных, необходимо подстраивать данные знания под общую картину наборов. То есть система может сначала ошибочно решить, что переменная обладает 1м или 2м свойством, затем, накопив достаточно знаний об этой переменной, иметь возможность отказаться от своих предположений.
2. Собственно, основная цель задачи - сгруппировать похожие наборы на основе переменных, обладающих 1м и 2м свойствами

Хотелось бы получить представление о том, в каком направлении искать решение? Или, быть может, подобная или похожая задача уже имеет готовое решение.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср сен 19, 2007 6:51 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
1. Если
Цитата:
основная цель задачи - сгруппировать похожие наборы на основе переменных, обладающих 1м и 2м свойствами
,
то речь идет о кластерном анализе, позволяющем разбить наборы на группы похожих. И - в дальнейшем - о дискриминантном анализе, дающем правила отнесения вновь поступающего набора в один из классов.
Т.е. о теории классификации - см. пп. 5.3, 5.4 "Эконометрики".
Тут надо ввести меру сходства наборов, например, в виде суммы таких мер по отдельным переменным.

2. Если же
Цитата:
Необходимо:
1. Понять характер остальных переменных. При этом, поскольку постоянно поступают новые наборы данных, необходимо подстраивать данные знания под общую картину наборов. То есть система может сначала ошибочно решить, что переменная обладает 1м или 2м свойством, затем, накопив достаточно знаний об этой переменной, иметь возможность отказаться от своих предположений.
, то Вы хотите классифицировать переменные, относя их в один из 4-х классов.
При этом понятие "похожесть наборов", видимо, не связано с переменными. Т.е. для каждой пары наборов Вы каким-то образом знаете, похожи они или не похожи.

В варианте 1 исходное понятие - переменные, по ним оцениваеться похожесть.
В варианте 2 исходное понятие - похожесть, по знаниям о похожести классифицируются переменные.

Тпак что остается неясной постановка задачи.

В целом же эту проблематику можно отнести к плохо определенной области под названием "Искусственный интеллект".


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср сен 19, 2007 8:19 pm 
Не в сети

Зарегистрирован: Ср сен 19, 2007 5:13 pm
Сообщений: 2
основная цель задачи - сгруппировать похожие наборы на основе переменных, обладающих 1м и 2м свойствами

НО.
К сожалению изначально я знаю ровно 1 переменную, обладающую 1м свойством, и ровно 1 переменную, обладающую 2м свойством. Характер остальных переменных для меня неизвестен. И условия задачи таковы, что я не могу использовать переменные если я не знаю их характера. Исходя только из этих знаний, все что я могу - это объединять все наборы, имеющие одинаковое значение переменной 2-го рода (при этом разрешая конфликты в случае наличия в двух наборах разных значений переменных 1 рода и одинаковых значений переменных 2 рода, впрочем это уже детали). При этом число кластеров будет стремиться к числу значений известной мне переменной 2 рода.
Проблема состоит в том, что известная мне переменная 2 рода слишком непостоянна и количество наблюдаемых значений слишком велико (ожидание числа наборов с одинаковым значением этой переменной около 20).
Поэтому возникает необходимость использовать переменные, характер которых изначально неизвестен. Для этого необходимо оценить их характер.


На данный момент у меня есть подобие решения для упрощенной модели. Упрощение заключается в том, что я считаю характер переменных дискретным (то есть, если наборы имеют одинаковые значения переменной 2 рода, то такие наборы эквивалентны; и если наборы имеют разные значения переменной 1 рода, то они не эквивалентны)

Пусть v(r,n) - значение переменной n в наборе r.
Пусть Nc - множество переменных 1 рода, Nu - множество переменных второго рода (пересечение может быть непустым)
Тогда
n in Nc -> (NOT(v(r1,n) = v(r2,n)) -> NOT(r1 ~ r2))
n in Nu -> (v(r1,n) = v(r2,n) -> r1 ~ r2)

Допустим, есть 2 набора r1 и r2.
Оба набора содержат переменные a,b и c.
a in Nc
b in Nu
c - переменная, чей характер пока не определен

Очевидно, что возможны 4 ситуации:
S1. v(r1, a) = v(r2, a) AND v(r1, b) = v(r2, b)
S2. v(r1, a) = v(r2, a) AND NOT (v(r1, b) = v(r2, b))
S3. NOT(v(r1, a) = v(r2, a)) AND v(r1, b) = v(r2, b)
S3. NOT(v(r1, a) = v(r2, a)) AND NOT(v(r1, b) = v(r2, b))

В S1 ситуации r1 ~ r2, в S4 ситуации NOT(r1 ~ r2), а S2 и S3 - неопределенность.

На основе большого числа наблюдаемых ситуаций S1 и S4 я делаю предположение что:
A1. c in Nc если НЕ существует (на текущем объеме наблюдений) таких r1, r2 что верно NOT(v(r1,n) = v(r2,n)) AND r1 ~ r2
A2. c in Nu если НЕ существует (на текущем объеме наблюдений) таких r1, r2 что верно v(r1,n) = v(r2,n) AND NOT(r1 ~ r2)

Проблемы данного упрощения следующие:
P1. Допустим я считаю, что N наблюдений переменной 'c' достаточно для А1 или А2. Существует вероятность что на N+M (M>0) наблюдениях переменной c я опровергну предположения А1 или А2
P2. Характер свойств по своей природе не дискретный и, поэтому, ситуации S2, S3 - не редкость в данной модели.

Очень хочется избавиться от дискретности характера переменных и перейти к вероятностным(?) характеристикам.


Вернуться наверх
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Чт сен 20, 2007 5:01 pm 
Не в сети

Зарегистрирован: Вт сен 28, 2004 11:58 am
Сообщений: 11640
1. Не вполне понятно, о чем речь.
Цитата:
На основе большого числа наблюдаемых ситуаций S1 и S4 я делаю предположение что:
A1. c in Nc если НЕ существует (на текущем объеме наблюдений) таких r1, r2 что верно NOT(v(r1,n) = v(r2,n)) AND r1 ~ r2
A2. c in Nu если НЕ существует (на текущем объеме наблюдений) таких r1, r2 что верно v(r1,n) = v(r2,n) AND NOT(r1 ~ r2)

Ранее о
Цитата:
текущем объеме наблюдений
ничего не сказано.
Не ясно, что здесь за "n", и куда делось ранее введенное "с".

В фразе
Цитата:
Существует вероятность что на N+M (M>0) наблюдениях переменной c я опровергну предположения А1 или А2
термин "вероятность", видимо, не относится к теории вероятностей.

Тем не менее общее направление мысли достаточно ясно.

2. По поводу поставленных мыслей можно сказать следующее:

Есть основания считать, что окружающий мир дискретен (см. "Заключение" в учебнике "Прикладная статистика " на сайте). Всегда целесообразно разобрать дискретный случай.

Чтобы

Цитата:
перейти к вероятностным(?) характеристикам,
надо построить вероятностную модель порождения исходных данных.


Вернуться наверх
 Профиль  
 
Показать сообщения за:  Сортировать по:  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB