WikiDer > Тест последовательного отношения вероятностей

Sequential probability ratio test

В последовательный тест отношения вероятностей (SPRT) - это особый последовательная проверка гипотез, разработан Авраам Вальд[1] и позже было доказано, что они оптимальны Уолдом и Джейкоб Вулфовиц.[2] Результат Неймана и Пирсона 1933 г. вдохновил Уолда переформулировать ее как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает практическое правило когда собраны все данные (и известно их отношение правдоподобия).

Первоначально разработанная для использования в контроль качества Исследования в области производства, SPRT был разработан для использования в компьютеризованном тестировании испытуемых-людей в качестве критерия завершения.[3][4][5]

Теория

Как в классическом проверка гипотезы, SPRT начинается с пары гипотез, скажем и для нулевая гипотеза и Альтернативная гипотеза соответственно. Их необходимо указать следующим образом:

Следующим шагом является вычисление кумулятивной суммы логарифмаотношение правдоподобия, , по мере поступления новых данных: с , то для =1,2,...,

В правило остановки простая схема определения порога:

  • : продолжить мониторинг (критическое неравенство)
  • : Принимать
  • : Принимать

куда и () зависят от желаемого ошибки типа I и типа II, и . Их можно выбрать следующим образом:

и

Другими словами, и необходимо решить заранее, чтобы правильно установить пороговые значения. Числовое значение будет зависеть от приложения. Причина того, что это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частота дискретизации, можно было бы установить более агрессивные пороги. В непрерывном случае точные оценки верны.

Пример

Пример из учебника оценка параметров из функция распределения вероятностей. Рассмотрим экспоненциальное распределение:

Гипотезы

Тогда функция логарифма правдоподобия (LLF) для одной выборки равна

Совокупная сумма LLF для всех Икс является

Соответственно, правило остановки:

После перестановки мы наконец находим

Порогов просто два параллельные линии с склон . Отбор проб следует прекратить, когда сумма проб выйдет за пределы область продолжения выборки.

Приложения

Производство

Тест проводится по метрике пропорции и проверяет, что переменная п равно одной из двух желаемых точек, п1 или же п2. Область между этими двумя точками известна как регион безразличия (ИК). Например, предположим, что вы выполняете исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы на лоте было 3% дефектных виджетов или меньше, но 1% или меньше - это идеальный лот, который прошел бы успешно. В этом примере п1 = 0.01 и п2 = 0.03 и область между ними - IR, потому что руководство считает эти лоты маргинальными и не возражает против их классификации в любом случае. Образцы виджетов будут отбираться по одному из партии (последовательный анализ) до тех пор, пока тест не определит с допустимым уровнем ошибки, что партия идеальна или ее следует отклонить.

Тестирование испытуемых-людей

SPRT в настоящее время является преобладающим методом классификации экзаменуемых по шкале переменной длины. компьютеризированный классификационный тест (CCT)[нужна цитата]. Два параметра: п1 и п2 задаются путем определения оценки (порога) для испытуемых по метрике правильной пропорции и выбора точки выше и ниже этой оценки. Например, предположим, что для теста установлено значение 70%. Мы могли выбрать п1 = 0.65 и п2 = 0.75 . Затем тест оценивает вероятность того, что истинная оценка экзаменуемого по этой метрике равна одному из этих двух баллов. Если у экзаменуемого установлено 75%, они сдают экзамен, а если у него 65%, они не сдаются.

Эти точки не указаны полностью произвольно. Оценка всегда должна устанавливаться юридически оправданным методом, например модифицированная процедура Angoff. Опять же, область безразличия представляет собой область оценок, с которыми разработчик тестов согласен идти в любом случае (прошел или не прошел). Верхний параметр п2 концептуально является наивысшим уровнем, который разработчик тестов готов принять за Fail (потому что все, кто ниже него, имеют хорошие шансы на провал), а нижний параметр п1 это самый низкий уровень, который разработчик тестов готов принять для прохождения (потому что все, кто выше него, имеют приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотрите сложный случай лицензионного теста для врачей: в какой момент мы должны считать кого-то находящимся на одном из этих двух уровней?

Хотя SPRT был впервые применен для тестирования во времена классическая теория тестирования, как применено в предыдущем абзаце, Reckase (1983) предположил, что теория ответа элемента использоваться для определения п1 и п2 параметры. Оценка порезов и область безразличия определяются в метрике скрытой способности (тета) и переводятся в метрику пропорции для вычисления. С тех пор исследования CCT применяли эту методологию по нескольким причинам:

  1. Банки крупных предметов обычно калибруются с помощью IRT.
  2. Это позволяет более точно указать параметры.
  3. Используя функцию ответа элемента для каждого элемента, можно легко изменить параметры между элементами.

Выявление аномальных медицинских результатов

Spiegelhalter и другие.[6] показали, что SPRT можно использовать для мониторинга работы врачей, хирургов и других практикующих врачей таким образом, чтобы своевременно предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольд Шипман как убийцу задолго до того, как его опознали.

Расширения

MaxSPRT

Совсем недавно, в 2011 году, расширение метода SPRT под названием Maximized Sequential Probability Ratio Test (MaxSPRT)[7] был представлен. Отличительной особенностью MaxSPRT является учет составной односторонней альтернативной гипотезы и введение верхней границы остановки. Этот метод использовался в нескольких медицинских исследованиях.[8]

Смотрите также

Рекомендации

  1. ^ Вальд, Авраам (июнь 1945 г.). «Последовательная проверка статистических гипотез». Анналы математической статистики. 16 (2): 117–186. Дои:10.1214 / aoms / 1177731118. JSTOR 2235829.
  2. ^ Wald, A .; Вулфовиц, Дж. (1948). «Оптимальный характер теста последовательного отношения вероятностей». Анналы математической статистики. 19 (3): 326–339. Дои:10.1214 / aoms / 1177730197. JSTOR 2235638.
  3. ^ Фергюсон, Ричард Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения.. Неопубликованная докторская диссертация, Питтсбургский университет.
  4. ^ Reckase, M. D. (1983). Процедура принятия решения с использованием специализированного тестирования. В Д. Дж. Вайсс (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
  5. ^ Эгген, Т. Дж. Х. М. (1999). «Выбор элемента в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Прикладное психологическое измерение. 23 (3): 249–261. Дои:10.1177/01466219922031365.
  6. ^ Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Spiegelhalter, D. et al. Int J Qual Health Care том 15 7-13 (2003)
  7. ^ Куллдорф, Мартин; Дэвис, Роберт Л .; Кольчак †, Маргаретт; Льюис, Эдвин; Лиу, Трейси; Платт, Ричард (2011). «Тест на максимальное последовательное соотношение вероятностей для надзора за безопасностью лекарств и вакцин». Последовательный анализ. 30: 58–78. Дои:10.1080/07474946.2011.539924.
  8. ^ Со второго по последний абзацы раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест максимального последовательного отношения вероятностей для надзора за безопасностью лекарств и вакцин Kulldorff, M. et al. Последовательный анализ: методы проектирования и приложения том 30, выпуск 1

дальнейшее чтение

внешняя ссылка