Cравнение выборочной и генеральной дисперсии

dats · **Добавлено:** Сб ноя 02, 2019 8:16 am

Александр Иванович, добрый день.
Подскажите, пожалуйста, есть какие-либо непараметрические методы сравнения выборочной дисперсии с известным значением дисперсии генеральной совокупности?
В интернете находится только параметрический хи-квадрат.

Проф.А.И.Орлов · **Добавлено:** Сб ноя 02, 2019 1:52 pm

Пусть имеется выборка - последовательность независимых одинаково распределенных случайных величин, имеющих четыре конечных момента (т.е. квадраты таких величин имеют конечную дисперсию).
Тогда выборочная дисперсия является асимптотически нормальной с математическим ожиданием, равным теоретической дисперсии, и дисперсией, равной дисперсии квадратов элементов выборки, деленной на объем выборки.

Это непараметрическое утверждение имеется в учебнике Боровкова А.А. "Математическая статистика", а также может быть доказано на основе метода линеаризации (см. раздел 4.4 главы 4 "Теоретические основы прикладной статистики" учебника А.И. Орлова "Прикладная статистика").

На основе асимптотической нормальности выборочной дисперсии можно проводить сравнение выборочной дисперсии с известным значением дисперсии генеральной совокупности (проверять гипотезу равенства дисперсии генеральной совокупности заданному числу). Надо взять разность выборочной дисперсии и заданному числу, разделить эту разность на среднее квадратическое отклонение выборочной дисперсии. Если результат не превосходит 1,96 по абсолютной величине, то гипотеза равенства принимается на уровне значимости 0,05, в противном случае отклоняется.

dats · **Добавлено:** Пн ноя 04, 2019 6:34 pm

Александр Иванович, что то я запутался. Что такое

Проф.А.И.Орлов писал(а):

среднее квадратическое отклонение выборочной дисперсии

?

(Понятно, что выборочная дисперсия это тоже случайная величина и у нее есть СКО, но как его посчитать если у нас только одна выборка)

И разве нигде не надо умножить на корень из размера выборки?

Проф.А.И.Орлов · **Добавлено:** Пн ноя 04, 2019 10:02 pm

См. выше: "выборочная дисперсия является асимптотически нормальной с математическим ожиданием, равным теоретической дисперсии, и дисперсией, равной дисперсии квадратов элементов выборки, деленной на объем выборки".
Следовательно, среднее квадратическое отклонение выборочной дисперсии равно квадратному корню из (дисперсии квадратов элементов выборки, деленной на объем выборки).
Чтобы оценить (дисперсию квадратов элементов выборки), надо составить новую выборку, состоящую из квадратов элементов исходной выборки, и для этой новой выборки рассчитать выборочную дисперсию.

dats · **Добавлено:** Вс ноя 10, 2019 6:30 pm

Спасибо. Теперь понятно.

Хотел уточнить. "Выборочная дисперсия является асимптотически нормальной". Понятно, что ее распределение стремится к нормальному с увеличением размера выборки.
Но насколько стремится? Вот если размер выборки 30, насколько квантиль этого асимптотически нормального распределения при доверительной вероятности 0,95 может отличаться от 1,96?

Проф.А.И.Орлов · **Добавлено:** Пн ноя 11, 2019 8:31 pm

dats писал(а):

Вот если размер выборки 30, насколько квантиль этого асимптотически нормального распределения при доверительной вероятности 0,95 может отличаться от 1,96?

Не знаю.
Нужны исследования. Видимо, методом Монте-Карло (статистических испытаний).
Ответ эксперта (на основе интуиции и опыта изучения подобных ситуаций) - мало отличается.

dats · **Добавлено:** Пн ноя 25, 2019 12:52 pm

Александр Иванович, прочитал Вашу статью в Научном журнале КубГАУ, №112(08), 2015 г. "Непараметрическое оценивавшие характеристик распределения вероятностей".
В статье Вы даете ссылку на монографию Боровкова, но формула для непараметрического доверительного интервала дисперсии иная, чем написано выше.

Можно ли формулу, указанную в статье для ДИ, использовать для критерия сравнения выборочной и генеральной дисперсии по принципу (Выб. Дисп - Ген. Дисп)/d <= 1,96 (при p = 0,95)?
(d рассчитывается по п. 4 статьи через четвертый центральный выборочный момент).

Если воспользоваться

Проф.А.И.Орлов писал(а):

См. выше: "выборочная дисперсия является асимптотически нормальной с математическим ожиданием, равным теоретической дисперсии, и дисперсией, равной дисперсии квадратов элементов выборки, деленной на объем выборки".
Следовательно, среднее квадратическое отклонение выборочной дисперсии равно квадратному корню из (дисперсии квадратов элементов выборки, деленной на объем выборки).
Чтобы оценить (дисперсию квадратов элементов выборки), надо составить новую выборку, состоящую из квадратов элементов исходной выборки, и для этой новой выборки рассчитать выборочную дисперсию.

то получается дисперсия дисперсии выборки -1, 2, 3, -10, 4 будет такая же, как и для выборки 1, 2, 3, 10, 4 (минусы при возведении в квадрат уйдут).

Проф.А.И.Орлов · **Добавлено:** Ср ноя 27, 2019 12:13 pm

В статье:
Орлов А.И. Непараметрическое оценивание характеристик распределений вероятностей // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 112. С. 1–20

даются те же формулы (по существу), что и выше в настоящей теме. Доверительные границы даются с помощью величины
Согласно с.9 статьи доверительные границы находятся с помощью величины
d2 = (m4 - ((n – 1) /n ) 4 (квадрат несмещенной оценки дисперсии) ) / n
Если несмещенную оценку дисперсии заменить на выборочную дисперсию, то "уйдет" множитель ((n – 1) /n ) 4 (будет заменен на 1).

"...получается дисперсия дисперсии выборки -1, 2, 3, -10, 4 будет такая же, как и для выборки 1, 2, 3, 10, 4 (минусы при возведении в квадрат уйдут)".
Совершенно верно. Рассматриваем дисперсию квадратов исходных величин.

dats · **Добавлено:** Ср ноя 27, 2019 1:00 pm

Взял в Excel 2016 миллион выборок (10 раз по сто тысяч если это имеет значение) стандартного нормального распределения размером n=50 и получил следующие значения квантилей:
(дов. вероятность / значение квантиля):
0,025 -3,02
0,05 -2,40
0,95 1,41
0,975 1,66

Если выборки размером n=100 (кол-во выборок также миллион), то:
0,025 -2,60
0,05 -2,10
0,95 1,45
0,975 1,71

При n<50 отличие от 1,96 (p-0,95) наверное будет еще больше.

И распределение критерия какое-то не очень симметричное относительно 0.

Проф.А.И.Орлов · **Добавлено:** Ср ноя 27, 2019 3:15 pm

О чем речь?

Что за доверительная вероятность (какая величина оценивается)?
Что за квантиль?

Датчик псевдослучайных чисел Excel 2016 дает глупости?

dats · **Добавлено:** Ср ноя 27, 2019 5:27 pm

А как проверить датчик псевдослучайных чисел Excel 2016?
Я взял 100 тыс. выборок размером n=50 из псевдослучайных чисел из стандартного нормального распределения и получил 100 тыс. значений корень(50)*(xсрi-о)/1.
Упорядочил выборку по неубыванию и рассчитал квантили при заданных p=0,025, 0.05, 0,95 и 0,975. Они получились (округленно) -1,96, -1,64, 1,64 и 1,96. Так же и должно быть?

А при попытке найти аналогичные квантили (при заданной p) для критерия сравнения выборочной дисперсии с генеральной получил (кол-во выборок миллион) получил:
(заданная дов. вероятность / соответствующее ей значение квантиля):
0,025 -3,02
0,05 -2,40
0,95 1,41
0,975 1,66

Если выборки размером n=100 (кол-во выборок также миллион), то:
0,025 -2,60
0,05 -2,10
0,95 1,45
0,975 1,71

Полученные мной данные значения критерия сравнения выборочной дисперсии с генеральной не являются асимптотически нормальными?

Проф.А.И.Орлов · **Добавлено:** Чт ноя 28, 2019 10:18 pm

Выразим приведенные численные значения в терминах теории вероятностей и математической статистики.
Изучается (методом Монте-Карло) распределение некоторой статистики (описание см. в предыдущих постах) в зависимости от объема выборки n.

Порядок квантиля р - Значение квантиля при n = 50 - Значение квантиля при n = 100 - Предельное значение квантиля

0,025 - (-3,02) - (-2,60) - (-1,96),
0.05 - (-2,40) - (-2,10) - (-1,64),
0,95 -1,41 - 1,45 - 1,64
0,975 - 1,66 - 1,71 - 1,96

Таким образом, при росте объема выборки квантили становятся ближе к асимптотическим значениям.
Считать ли отличие, например, 1,45 от 1,64 или 1,71 от 1,96 большим или малым?
Ответ, очевидно, зависит от той проблемы, для решения которой рассчитывается выборочная дисперсия.
Если делать заключение "целом", без учета конкретной проблемы, то, на мой взгляд, можно принять, что при n = 100 имеет быть асимптотическая нормальность.
Было бы интересно рассчитать при дальнейших значениях объемов выборок (500, 1000, 1000), чтобы увидеть скорость сходимости распределения статистики к асимптотическому распределению.

dats · **Добавлено:** Ср дек 04, 2019 2:56 pm

Получилось вот так (миллион выборок в каждом случае из нормального распределения (0, 1)).
Расчеты пришлось делать в R, т.к. Excel при размере выборок более ста уже не справляется (виснет).

Первая строка - размер выборки, первый столбец - доверительная вероятность, при которой рассчитаны соответствующие значения квантилей.

n / p 20 30 40 50 100 500 1000 5000 10000 20000
0,025 -4,27 -3,55 -3,21 -3,01 -2,58 -2,18 -2,11 -2,02 -2,00 -1,99
0,05 -3,28 -2,78 -2,54 -2,40 -2,10 -1,81 -1,76 -1,69 -1,68 -1,67
0,95 1,39 1,40 1,40 1,41 1,45 1,53 1,56 1,60 1,62 1,63
0,975 1,62 1,63 1,65 1,66 1,70 1,81 1,85 1,91 1,92 1,93

Видно, что с n=20 по n=100 значения квантилей с ростом размера выборки возрастают линейно, далее рост замедляется (видимо какая-то экспоненциальная зависимость).

Это считается быстрой сходимостью?
При p = 0,975 прям точно значение квантиля 1,96 не получилось, но это наверное не принципиально?

Практическая задача - внутренний контроль качества результатов измерений - сравнение выборочной дисперсии повторяемости и/или воспроизводимости результатов измерений, проводимых в хим. лаборатории со значением, указанном в аттестованной методике измерений (как правило в виде стандартного отклонения или предела повторяемости/воспроизводимости). Выборки при этом 5 -30 измерений (больше экономически нецелесообразно). Сейчас такого рода задачи согласно НД решаются через постулат о нормальном распределении и, соответственно с использованием критерия хи-квадрат :-)

(ГОСТ Р ИСО 5725 1-6, РМГ 76, РМГ 61).

Проф.А.И.Орлов · **Добавлено:** Чт дек 05, 2019 11:58 am

1. Вами получены весьма интересные данные о сходимости выборочного распределения выборочной дисперсии к предельному.
В духе рекомендаций статьи:

Орлов А.И. Метод статистических испытаний в прикладной статистике // Заводская лаборатория. Диагностика материалов. 2019. Т.85. №5. С. 67-79.

По моему мнению члена редколлегии, было бы хорошо их опубликовать, например, написав статью в этот журнал.

2.

Проф.А.И.Орлов писал(а):

Сейчас такого рода задачи согласно НД решаются через постулат о нормальном распределении и, соответственно с использованием критерия хи-квадрат :-)

(ГОСТ Р ИСО 5725 1-6, РМГ 76, РМГ 61).

Нормативную документацию часто составляют невежды. О грубых ошибках в ГОСТах по прикладной статистике и статистическим методам обеспечения качества продукции рассказано в моих учебниках, в частности, в учебнике "Эконометрика":

Орлов А.И. Эконометрика. Учебник для вузов. — М.: Экзамен, 2002 (1-е изд.), 2003 (2-е изд.), 2004 (3-е изд.). — 576 с. http://ibm.bmstu.ru/nil/biblio.html#books-13-econ

К сожалению, борьба с невеждами требует большой затраты времени и сил, поэтому редко практикуется.

3. Поскольку есть два алгоритма решения одной и той же задачи, то естественно их сравнить - насколько различаются? Что будет с решениями такого рода задач согласно НД, если постулат о нормальном распределении не верен (каково влияние отклонения от нормальности на практические выводы? Т.е. речь идет об изучении устойчивости выводов к отклонениям распределений от нормальности. См., например:

Орлов А.И. Устойчивые экономико-математические методы и модели. Разработка и развитие устойчивых экономико-математических методов и моделей для модернизации управления предприятиями. — Saarbrücken (Germany), LAP (Lambert Academic Publishing), 2011. — 436 с. ISBN 978-3-8433-1743-6
http://www.bmstu.ru/ps/~orlov/fileman/l ... 0%BB%D0%B8
http://www.biblion.ru/product/850354/ ,
http://my-shop.ru/shop/books/1097227.html

dats · **Добавлено:** Сб дек 07, 2019 1:21 pm

Проф.А.И.Орлов писал(а):

1. Вами получены весьма интересные данные о сходимости выборочного распределения выборочной дисперсии к предельному.
В духе рекомендаций статьи:

Орлов А.И. Метод статистических испытаний в прикладной статистике // Заводская лаборатория. Диагностика материалов. 2019. Т.85. №5. С. 67-79.

По моему мнению члена редколлегии, было бы хорошо их опубликовать, например, написав статью в этот журнал.
...

Александр Иванович, а в статье достаточно ограничится рассмотрением сходимости на примере нормального распределения или еще рассмотреть на примере равномерного и/или гамма распределения? (это потребует доп. времени для проведения вычислений).

Я так понимаю, что статьи в ЗЛ, про которую Вы написали выше, в свободном доступе еще нет?

Проф.А.И.Орлов · **Добавлено:** Пн дек 09, 2019 2:59 pm

Проф.А.И.Орлов писал(а):

Александр Иванович, а в статье достаточно ограничится рассмотрением сходимости на примере нормального распределения или еще рассмотреть на примере равномерного и/или гамма распределения? (это потребует доп. времени для проведения вычислений).

Конечно, лучше рассмотреть примеры выборок из различных распределений. (см. полученную Вами статью). Нормальное распределение, равномерное распределение, гамма-распределение - хороший набор. К сожалению, в настоящее время нет теории, показывающей, какие распределения использовать. Но думаю, что перечисленных трех достаточно.

Правила для авторов в "Заводской лаборатории": https://www.zldm.ru/jour/about/submissi ... Guidelines
При отправке в журнал направьте и мне, чтобы я мог проследить судьбу статьи.

Высокие статистические технологии

Cравнение выборочной и генеральной дисперсии

Кто сейчас на форуме