WikiDer > Проблема Беренса – Фишера

Behrens–Fisher problem

Нерешенная проблема в статистике:

Необходимо ли приближение, аналогичное аргументу Фишера, для решения проблемы Беренса – Фишера?

В статистика, то Проблема Беренса – Фишера, названный в честь Вальтер Беренс и Рональд Фишер, это проблема интервальная оценка и проверка гипотезы о разнице между средствами двух нормально распределенный населения, когда отклонения двух популяций не считаются равными на основании двух независимый образцы.

Технические характеристики

Одна из трудностей при обсуждении проблемы Беренса – Фишера и предлагаемых решений заключается в том, что существует множество различных интерпретаций того, что имеется в виду под «проблемой Беренса – Фишера». Эти различия касаются не только того, что считается релевантным решением, но даже основного положения рассматриваемого контекста.

Контекст

Позволять Икс₁, ..., Икс_п и Y₁, ..., Y_м быть i.i.d. образцы из двух популяций, которые происходят из одного и того же расположение – масштабная семья раздач. Предполагается, что параметры масштаба неизвестны и не обязательно равны, и проблема состоит в том, чтобы оценить, можно ли обоснованно считать параметры местоположения равными. Lehmann^[1] утверждает, что «проблема Беренса – Фишера» используется как для этой общей формы модели, когда семейство распределений является произвольным, так и для случая, когда ограничение на нормальное распределение сделан. В то время как Леманн обсуждает ряд подходов к более общей проблеме, в основном основанных на непараметрических методах,^[2] в большинстве других источников «проблема Беренса – Фишера» используется только для случая, когда распределение считается нормальным: большая часть данной статьи делает это предположение.

Требования к решениям

Были представлены решения проблемы Беренса – Фишера, использующие либо классический или Байесовский вывод точки зрения, и любое решение было бы условно недействительным, если судить с другой точки зрения. Если рассмотрение ограничено только классическим статистическим выводом, можно искать решения проблемы вывода, которые просты для практического применения, отдавая предпочтение этой простоте любой неточности в соответствующих утверждениях вероятности. Если требуется точность уровней значимости статистических тестов, может быть дополнительное требование, чтобы процедура максимально использовала статистическую информацию в наборе данных. Хорошо известно, что точный тест может быть получен путем случайного отбрасывания данных из большего набора данных до тех пор, пока размеры выборки не станут равными, объединения данных в пары и взятия различий, а затем использования обычного t-тест проверить, что разница средних значений равна нулю: очевидно, что это не было бы «оптимальным» ни в каком смысле.

Задача определения интервальных оценок для этой проблемы - та, где частотный подход не может обеспечить точное решение, хотя некоторые приближения доступны. Стандартные байесовские подходы также не дают ответа, который можно выразить в виде простых простых формул, но современные вычислительные методы байесовского анализа действительно позволяют находить по существу точные решения.^{[нужна цитата]} Таким образом, исследование проблемы может быть использовано для выяснения различий между частотным и байесовским подходами к интервальной оценке.

Краткое описание различных подходов

Подход Беренса и Фишера

Рональд Фишер в 1935 г. введен исходный вывод^[3]^[4] чтобы применить его к этой проблеме. Он сослался на более раннюю статью Вальтер Ульрих Беренс с 1929 г. Беренс и Фишер предложили найти распределение вероятностей из

{ displaystyle T Equiv {{ bar {x}} _ {1} - { bar {x}} _ {2} over { sqrt {s_ {1} ^ {2} / n_ {1} + s_ {2} ^ {2} / n_ {2}}}}}

куда ${ displaystyle { bar {x}} _ {1}}$ и ${ displaystyle { bar {x}} _ {2}}$ два образец означает, и s₁ и s₂ их Стандартное отклонение. Видеть Распределение Беренса – Фишера. Фишер аппроксимировал это распределение, игнорируя случайное изменение относительных размеров стандартных отклонений,

{ Displaystyle {s_ {1} / { sqrt {n_ {1}}} over { sqrt {s_ {1} ^ {2} / n_ {1} + s_ {2} ^ {2} / n_ { 2}}}}.}

Решение Фишера вызвало споры, потому что оно не имело свойства, согласно которому гипотеза равных средних отклонено с вероятностью α если бы средства были фактически равны. С тех пор было предложено множество других методов решения проблемы, и их влияние на получаемые доверительные интервалы было исследовано.^[5]

Приближенное t-решение Велча

Широко используется метод Б. Л. Велч,^[6] кто, как и Фишер, был в Университетский колледж Лондона. Дисперсия средней разницы

{ displaystyle { bar {d}} = { bar {x}} _ {1} - { bar {x}} _ {2}}

приводит к

{ displaystyle s _ { bar {d}} ^ {2} = { frac {s_ {1} ^ {2}} {n_ {1}}} + { frac {s_ {2} ^ {2}} {n_ {2}}}.}

Welch (1938) аппроксимировал распределение ${ displaystyle s _ { bar {d}} ^ {2}}$ типом III Распределение Пирсона (масштабный распределение хи-квадрат) чьи первые два моменты согласен с тем из ${ displaystyle s _ { bar {d}} ^ {2}}$ . Это относится к следующему числу степеней свободы (d.f.), которое обычно не является целым числом:

{ Displaystyle ню приблизительно {( гамма _ {1} + гамма _ {2}) ^ {2} над гамма _ {1} ^ {2} / (п_ {1} -1) + гамма _ {2} ^ {2} / (n_ {2} -1)} quad { text {где}} gamma _ {i} = sigma _ {i} ^ {2} / n_ {i} .}

При нулевой гипотезе равных ожиданий μ₁ = μ₂, распределение статистики Беренса – Фишера Т, который также зависит от коэффициента дисперсии σ₁²/σ₂², теперь можно аппроксимировать Распределение Стьюдента с этими ν степени свободы. Но это ν содержит дисперсию населения σ_я², а они неизвестны. Следующая оценка заменяет только дисперсию генеральной совокупности дисперсией выборки:

{ displaystyle { hat { nu}} приблизительно { frac {(g_ {1} + g_ {2}) ^ {2}} {g_ {1} ^ {2} / (n_ {1} -1 ) + g_ {2} ^ {2} / (n_ {2} -1)}} quad { text {where}} g_ {i} = s_ {i} ^ {2} / n_ {i}.}

Этот ${ displaystyle { hat { nu}}}$ случайная величина. Распределения t со случайным числом степеней свободы не существует. Тем не менее, Behrens – Fisher Т можно сравнить с соответствующим квантилем Распределение Стьюдента с этими оценочными числами степеней свободы, ${ displaystyle { hat { nu}}}$ , который обычно не является целым числом. Таким образом, граница между областью принятия и отклонения тестовой статистики Т рассчитывается на основе эмпирических отклонений s_я², в некотором смысле плавная функция от них.

Этот метод также не дает точной номинальной ставки, но, как правило, не так уж и далек.^{[нужна цитата]} Однако, если дисперсии генеральной совокупности равны или если выборки довольно малы, а дисперсии генеральной совокупности можно предположить приблизительно равными, правильнее использовать T-критерий Стьюдента.^{[нужна цитата]}

Другие подходы

Было предложено несколько различных подходов к общей проблеме, некоторые из которых претендуют на «решение» некоторой версии проблемы. Среди них:^[7]

Чепмен в 1950 году,^[8]
Прокофьева и Шишкина 1974 г.,^[9]
Дудевича и Ахмеда в 1998 году.^[10]

При сравнении выбранных методов Дудевича,^[7] Выяснилось, что для практического использования рекомендуется процедура Дудевича – Ахмеда.

Точные решения общих и обобщенных задач Беренса – Фишера.

В течение нескольких десятилетий принято считать, что не было найдено точного решения общей проблемы Беренса – Фишера.^{[нужна цитата]} Однако в 1966 году было доказано, что у него есть точное решение.^[11] В 2018 г. функция плотности вероятности обобщенного распределения Беренса – Фишера м средства и м отличные стандартные ошибки от м выборки различных размеров из независимых нормальных распределений с различными средними и дисперсиями были доказаны, и в статье также были рассмотрены его асимптотические приближения.^[12] Последующий документ показал, что классическая парная т-test - это центральная задача Беренса – Фишера с ненулевым коэффициентом корреляции населения, и соответствующая функция плотности вероятности была получена путем решения связанной с ней нецентральной задачи Беренса – Фишера с ненулевым коэффициентом корреляции населения.^[13] Он также решил более общую нецентральную проблему Беренса – Фишера с ненулевым коэффициентом корреляции населения в приложении.^[13]

Варианты

Изучен второстепенный вариант проблемы Беренса – Фишера.^[14] В этом случае проблема состоит в том, чтобы, предполагая, что два средних значения совокупности фактически одинаковы, сделать выводы об общем среднем значении: например, можно потребовать доверительный интервал для общего среднего.

Обобщения

Одно обобщение проблемы включает многомерные нормальные распределения с неизвестными ковариационными матрицами и известна как многомерная задача Беренса – Фишера.^[15]

В непараметрический Задача Беренса – Фишера не предполагает, что распределения являются нормальными.^[16]^[17] Тесты включают Тест Куккони 1968 года и Лепаж тест 1971 г.

Примечания

^ Леманн (1975) стр.95
^ Леманн (1975) Раздел 7
^ Фишер, Р. А. (1935). «Фидуциальный аргумент в статистическом выводе». Анналы евгеники. 8 (4): 391–398. Дои:10.1111 / j.1469-1809.1935.tb02120.x. HDL:2440/15222.
^ Фидуциальный аргумент Р. А. Фишера и теорема Байеса Тедди Зайденфельда
^ Sezer, A. et al. Сравнение доверительных интервалов для задачи Беренса – Фишера. Comm. Статистика. 2015
^ Уэлч (1938, 1947)
^ ^а ^б Дудевич, Ма, Май и Су (2007)
^ Чепмен, Д. Г. (1950). «Примерно два пробных теста». Анналы математической статистики. 21 (4): 601–606. Дои:10.1214 / aoms / 1177729755.
^ Прокофьев, В. Н .; Шишкин, А. Д. (1974). «Последовательная классификация нормальных множеств с неизвестными дисперсиями». Radio Engng. Электрон. Phys. 19 (2): 141–143.
^ Дудевич и Ахмед (1998, 1999)
^ Кабе, Д. Г. (декабрь 1966 г.). «О точном распределении статистики Фишера-Берен-Велча». Метрика. 10 (1): 13–15. Дои:10.1007 / BF02613414. S2CID 120965543.
^ Сяо, Юншунь (22 марта 2018 г.). «О решении обобщенной задачи Беренса-Фишера». Дальневосточный журнал теоретической статистики. 54 (1): 21–140. Дои:10.17654 / TS054010021. Получено 21 мая 2020.
^ ^а ^б Сяо, Юншунь (12 декабря 2018 г.). "О решении нецентральной задачи Беренса-Фишера с ненулевым коэффициентом корреляции населения". Дальневосточный журнал теоретической статистики. 54 (6): 527–600. Дои:10.17654 / TS054060527. Получено 21 мая 2020.
^ Янг, Г. А., Смит, Р. Л. (2005) Основы статистического вывода, ЧАШКА. ISBN 0-521-83971-8 (стр. 204)
^ Беллони и Дидье (2008)
^ Бруннер, Э. (2000). "Непараметрическая задача Беренса – Фишера: асимптотическая теория и приближение малой выборки". Биометрический журнал. 42: 17–25. Дои:10.1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U.
^ Конечке, Франк (2015). "nparcomp: программный пакет R для непараметрических множественных сравнений и одновременных доверительных интервалов". Журнал статистического программного обеспечения. 64 (9). Дои:10.18637 / jss.v064.i09. Получено 26 сентября 2016.

внешняя ссылка

Донг, Б. (2004) Проблема Беренса – Фишера: подход, основанный на эмпирическом правдоподобии Рабочий документ по эконометрике EWP0404, Университет Виктории

[1] Леманн (1975) стр.95

[2] Леманн (1975) Раздел 7

[3] Фишер, Р. А. (1935). «Фидуциальный аргумент в статистическом выводе». Анналы евгеники. 8 (4): 391–398. Дои:10.1111 / j.1469-1809.1935.tb02120.x. HDL:2440/15222.

[4] Фидуциальный аргумент Р. А. Фишера и теорема Байеса Тедди Зайденфельда

[5] Sezer, A. et al. Сравнение доверительных интервалов для задачи Беренса – Фишера. Comm. Статистика. 2015

[6] Уэлч (1938, 1947)

[DMMS-7] а ^б Дудевич, Ма, Май и Су (2007)

[8] Чепмен, Д. Г. (1950). «Примерно два пробных теста». Анналы математической статистики. 21 (4): 601–606. Дои:10.1214 / aoms / 1177729755.

[9] Прокофьев, В. Н .; Шишкин, А. Д. (1974). «Последовательная классификация нормальных множеств с неизвестными дисперсиями». Radio Engng. Электрон. Phys. 19 (2): 141–143.

[10] Дудевич и Ахмед (1998, 1999)

[11] Кабе, Д. Г. (декабрь 1966 г.). «О точном распределении статистики Фишера-Берен-Велча». Метрика. 10 (1): 13–15. Дои:10.1007 / BF02613414. S2CID 120965543.

[12] Сяо, Юншунь (22 марта 2018 г.). «О решении обобщенной задачи Беренса-Фишера». Дальневосточный журнал теоретической статистики. 54 (1): 21–140. Дои:10.17654 / TS054010021. Получено 21 мая 2020.

[Xiao2018b-13] а ^б Сяо, Юншунь (12 декабря 2018 г.). "О решении нецентральной задачи Беренса-Фишера с ненулевым коэффициентом корреляции населения". Дальневосточный журнал теоретической статистики. 54 (6): 527–600. Дои:10.17654 / TS054060527. Получено 21 мая 2020.

[14] Янг, Г. А., Смит, Р. Л. (2005) Основы статистического вывода, ЧАШКА. ISBN 0-521-83971-8 (стр. 204)

[15] Беллони и Дидье (2008)

[Brunner2000-16] Бруннер, Э. (2000). "Непараметрическая задача Беренса – Фишера: асимптотическая теория и приближение малой выборки". Биометрический журнал. 42: 17–25. Дои:10.1002 / (SICI) 1521-4036 (200001) 42: 1 <17 :: AID-BIMJ17> 3.0.CO; 2-U.

[nparcomp-17] Конечке, Франк (2015). "nparcomp: программный пакет R для непараметрических множественных сравнений и одновременных доверительных интервалов". Журнал статистического программного обеспечения. 64 (9). Дои:10.18637 / jss.v064.i09. Получено 26 сентября 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Navigation