Начиная с образец наблюдается с случайная переменнаяИкс имея данный закон распределения с набором нефиксированных параметров, которые обозначим вектором , а параметрический вывод проблема состоит в вычислении подходящих значений - назовите их оценки - этих параметров именно по образцу. Оценка подходит, если замена ее неизвестным параметром не приведет к серьезным повреждениям в следующих вычислениях. В Алгоритмический вывод, пригодность оценки выражается в совместимость с наблюдаемым образцом.
В этом контексте методы повторной выборки нацелены на создание набора значений-кандидатов для замены неизвестных параметров, которые мы читаем как их совместимые копии. Они представляют собой совокупность спецификаций случайного вектора. [1] совместим с наблюдаемой выборкой, где совместимость ее значений имеет свойства распределения вероятностей. Подставляя параметры в выражение оспариваемого закона распределения, мы загружаем целые совокупности случайных величин. совместимый с наблюдаемым образцом.
Обоснование алгоритмов вычисления реплик, которые мы обозначим бутстрап населения процедуры, заключается в определении набора статистики проявляющие специфические свойства, обозначающие хорошее поведение, w.r.t. неизвестные параметры. Статистика выражается как функции наблюдаемых значений. , по определению. В может быть выражено как функция неизвестных параметров и случайного начального значения сквозь механизм отбора проб, в очереди. Тогда, подставляя второе выражение в первое, получаем выражения как функции от начальных чисел и параметров - основные уравнения - что мы инвертируем, чтобы найти значения последних как функцию: i) статистики, значения которой, в свою очередь, фиксируются на наблюдаемых; и ii) семена, которые случайны в соответствии с их собственным распределением. Следовательно, из набора исходных образцов мы получаем набор реплик параметров.
Для каждого образца семян вектор параметров получается из решения указанной системы с фиксированы на наблюдаемые значения. вычислив огромный набор совместимых векторов, скажем, N, эмпирическое предельное распределение получают:
(2)
куда - j-я компонента общего решения уравнения (1) и где это индикаторная функция из в интервале Некоторая неопределенность остается, если Икс является дискретным, и это мы вскоре рассмотрим. Вся процедура может быть представлена в виде следующего алгоритма, в котором индекс из обозначает вектор параметров, из которого выводится вектор статистики.
Алгоритм
Создание наборов параметров с помощью начальной загрузки
Учитывая образец из случайной величины с вектором параметров неизвестный,
повторить для удовлетворительного числа N итераций:
взять образец семени размера м из исходной случайной величины;
получать как решение (1) в θ с и ;
Добавить к ; численность населения.
Кумулятивная функция распределения параметра Λ экспоненциальной случайной величины при статистической
Кумулятивная функция распределения параметра A однородной непрерывной случайной величины при статистике
Вы можете легко увидеть из таблица достаточной статистики что мы получаем кривую на рисунке слева, вычисляя эмпирическое распределение (2) по совокупности, полученное с помощью вышеуказанного алгоритма, когда: i) Икс является экспоненциальной случайной величиной, ii) , и
,
и кривая на картинке справа, когда: i) Икс является равномерной случайной величиной в , ii) , и
.
Замечание
Обратите внимание, что точность, с которой получается закон распределения параметров популяций, совместимых с выборкой, не зависит от размера выборки. Напротив, это функция от количества нарисованных семян. В свою очередь, это число является чисто вопросом вычислительного времени, но не требует какого-либо расширения наблюдаемых данных. С другим методы начальной загрузки фокусируясь на генерации образцов реплик (например, предложенных (Эфрон и Тибширани 1993) ошибка harv: цель отсутствует: CITEREFEfron_and_Tibshirani1993 (помощь)) точность оценочных распределений зависит от размера выборки.
Пример
За как ожидается, будет представлять Распределение Парето, спецификация которого требует значений для параметров и k,[2] у нас есть кумулятивная функция распределения:
Совместная эмпирическая кумулятивная функция распределения параметров случайной величины Парето, когда и на основе 5000 реплик.
На рисунке справа показан трехмерный график эмпирической кумулятивной функции распределения (2) .
Примечания
^По умолчанию заглавные буквы (например, U, Икс) будем обозначать случайные величины и строчные буквы (ты, Икс) их соответствующие реализации.
^Обозначим здесь символами а и k параметры Парето в другом месте указано через k и .
Рекомендации
Эфрон Б. и Тибширани Р. (1993). Знакомство с Bootsrap. Фриман, Нью-Йорк: Чепмен и Холл.
Аполлони, В; Malchiodi, D .; Гайто, С. (2006). Алгоритмический вывод в машинном обучении. Международная серия по продвинутому интеллекту. 5 (2-е изд.). Аделаида: Мэджилл. Advanced Knowledge International
Apolloni, B .; Bassis, S .; Гайто. S .; Мальчиоди, Д. (2007). «Оценка медицинских процедур путем изучения основных функций с хорошей уверенностью». Текущий фармацевтический дизайн. 13 (15): 1545–1570. Дои:10.2174/138161207780765891. PMID17504150.