WikiDer > Компромисс смещения и дисперсии - Википедия

Bias–variance tradeoff - Wikipedia

Функциональные и зашумленные данные.

спред = 5

спред = 1

спред = 0,1

Функция (красный) аппроксимируется с использованием радиальные базисные функции (синий). На каждом графике показано несколько испытаний. Для каждого испытания несколько точек данных с зашумлением предоставляются в качестве обучающего набора (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но разница между различными испытаниями мала. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно соответствуют красному. Однако в зависимости от шума в разных испытаниях разница между испытаниями увеличивается. На самом нижнем изображении приближенные значения для x = 0 сильно различаются в зависимости от того, где были расположены точки данных.

В статистика и машинное обучение, то компромисс между смещением и дисперсией свойство модели, что отклонение оценок параметров по образцы можно уменьшить, увеличив предвзятость в по оценкам параметры. дилемма смещения – дисперсии или же проблема смещения – дисперсии конфликт в попытке одновременно минимизировать эти два источника ошибка что предотвращает контролируемое обучение алгоритмы от обобщения за пределами их Обучающий набор:^[1]^[2]

В ошибка смещения ошибка из-за ошибочных предположений при обучении алгоритм. Сильное смещение может привести к тому, что алгоритм упустит соответствующие отношения между функциями и целевыми выходными данными (недостаточное соответствие).
В отклонение - ошибка из-за чувствительности к небольшим колебаниям обучающей выборки. Высокая дисперсия может заставить алгоритм моделировать случайный шум в обучающих данных, а не в предполагаемых выходных данных (переоснащение).

Этот компромисс универсален: было показано, что асимптотически несмещенная модель должна иметь неограниченную дисперсию.^[3]

В разложение смещения – дисперсии это способ анализа алгоритма обучения ожидал ошибка обобщения применительно к конкретной проблеме в виде суммы трех членов, смещения, дисперсии и величины, называемой несводимая ошибка, возникающий из-за шума в самой проблеме.

Мотивация

Компромисс смещения и дисперсии является центральной проблемой контролируемого обучения. В идеале хочется выбрать модель что оба точно фиксируют закономерности в данных обучения, но также обобщает хорошо к невидимым данным. К сожалению, сделать и то и другое одновременно невозможно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но рискуют переобучиться зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые не имеют тенденции к переобучению, но могут не соответствовать данные их обучения, не в состоянии уловить важные закономерности.

Это часто делается заблуждение^[4]^[5] предположить, что сложные модели должны иметь высокую дисперсию; В некотором смысле модели с высокой дисперсией являются «сложными», но обратное не обязательно. Кроме того, нужно быть осторожным при определении сложности: в частности, количество параметров, используемых для описания модели, является плохим показателем сложности. Это иллюстрируется примером, адаптированным из:^[6] Модель ${ displaystyle f_ {a, b} (x) = a sin (bx)}$ имеет всего два параметра ( ${ displaystyle a, b}$ ), но он может интерполировать любое количество точек, колебаясь с достаточно высокой частотой, что приводит как к высокому смещению, так и к большой дисперсии.

Интуитивно понятно, что смещение уменьшается за счет использования только локальной информации, тогда как дисперсию можно уменьшить только путем усреднения по нескольким наблюдениям, что по сути означает использование информации из большего региона. Поучительный пример см. В разделе о k-ближайших соседях или на рисунке справа. Чтобы сбалансировать, сколько информации используется из соседних наблюдений, модель может быть сглаженный через явный регуляризация, Такие как усадка.

Разложение среднеквадратичной ошибки смещением – дисперсией

Предположим, что у нас есть обучающий набор, состоящий из набора точек ${ displaystyle x_ {1}, dots, x_ {n}}$ и реальные ценности ${ displaystyle y_ {i}}$ связанный с каждой точкой ${ displaystyle x_ {i}}$ . Предположим, что существует функция с шумом ${ Displaystyle у = е (х) + varepsilon}$ , где шум, ${ displaystyle varepsilon}$ , имеет нулевое среднее значение и дисперсию ${ displaystyle sigma ^ {2}}$ .

Мы хотим найти функцию ${ Displaystyle { шляпа {f}} (х; D)}$ , что приближает истинную функцию ${ displaystyle f (x)}$ насколько это возможно, с помощью некоторого алгоритма обучения, основанного на обучающем наборе данных (выборке) ${ Displaystyle D = {(x_ {1}, y_ {1}) точки, (x_ {n}, y_ {n}) }}$ . Мы делаем «насколько это возможно» точными, измеряя среднеквадратичная ошибка между ${ displaystyle y}$ и ${ Displaystyle { шляпа {f}} (х; D)}$ : мы хотим ${ Displaystyle (у - { шляпа {f}} (х; D)) ^ {2}}$ быть минимальным, как для ${ displaystyle x_ {1}, dots, x_ {n}}$ а для точек за пределами нашей выборки. Конечно, мы не можем надеяться на это идеально, поскольку ${ displaystyle y_ {i}}$ содержать шум ${ displaystyle varepsilon}$ ; это означает, что мы должны быть готовы принять несводимая ошибка в любой функции, которую мы придумали.

Нахождение ${ displaystyle { hat {f}}}$ обобщение на точки за пределами обучающей выборки может быть выполнено с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какая бы функция ${ displaystyle { hat {f}}}$ выбираем, можем разложить его ожидал ошибка на невидимом образце ${ displaystyle x}$ следующее:^[7]^:34^[8]^:223

{ displaystyle operatorname {E} _ {D} { Big [} { big (} y - { hat {f}} (x; D) { big)} ^ {2} { Big]} = { Big (} operatorname {Bias} _ {D} { big [} { hat {f}} (x; D) { big]} { Big)} ^ {2} + operatorname { Var} _ {D} { big [} { hat {f}} (x; D) { big]} + sigma ^ {2}}

куда

{ displaystyle operatorname {Bias} _ {D} { big [} { hat {f}} (x; D) { big]} = operatorname {E} _ {D} { big [} { hat {f}} (x; D) { big]} - f (x)}

и

{ displaystyle operatorname {Var} _ {D} { big [} { hat {f}} (x; D) { big]} = operatorname {E} _ {D} [{ big (} operatorname {E} _ {D} [{ hat {f}} (x; D)] - { hat {f}} (x; D) { big)} ^ {2}].}

Ожидание варьируется в зависимости от выбора обучающего набора. ${ Displaystyle D = {(x_ {1}, y_ {1}) точки, (x_ {n}, y_ {n}) }}$ , все взяты из одного совместного распределения ${ Displaystyle Р (х, у)}$ . Три термина представляют:

площадь предвзятость метода обучения, который можно рассматривать как ошибку, вызванную упрощающими допущениями, встроенными в метод. Например, при приближении нелинейной функции ${ displaystyle f (x)}$ используя метод обучения для линейные модели, будет ошибка в оценках ${ displaystyle { hat {f}} (х)}$ из-за этого предположения;
то отклонение метода обучения, или, интуитивно понятно, насколько метод обучения ${ displaystyle { hat {f}} (х)}$ будет двигаться вокруг своего среднего;
неприводимая ошибка ${ displaystyle sigma ^ {2}}$ .

Поскольку все три члена неотрицательны, это формирует нижнюю границу ожидаемой ошибки для невидимых выборок.^[7]^:34

Чем сложнее модель ${ displaystyle { hat {f}} (х)}$ То есть, чем больше точек данных будет захвачено, тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения – дисперсии для квадрата ошибки происходит следующим образом.^[9]^[10] Для удобства обозначений мы сокращаем ${ displaystyle f = f (x)}$ , ${ displaystyle { hat {f}} = { hat {f}} (x; D)}$ и мы бросаем ${ displaystyle D}$ индекс в наших операторах ожидания. Прежде всего напомним, что по определению для любой случайной величины ${ displaystyle X}$ , у нас есть

{ displaystyle operatorname {Var} [X] = operatorname {E} [X ^ {2}] - operatorname {E} [X] ^ {2}.}

Переставляя, получаем:

{ displaystyle operatorname {E} [X ^ {2}] = operatorname {Var} [X] + operatorname {E} [X] ^ {2}.}

С ${ displaystyle f}$ является детерминированный, т.е. не зависит от ${ displaystyle D}$ ,

{ displaystyle operatorname {E} [f] = f.}

Таким образом, учитывая ${ Displaystyle у = е + varepsilon}$ и ${ displaystyle operatorname {E} [ varepsilon] = 0}$ (потому что ${ displaystyle varepsilon}$ шум), следует ${ displaystyle operatorname {E} [y] = operatorname {E} [f + varepsilon] = operatorname {E} [f] = f.}$

Кроме того, поскольку ${ displaystyle operatorname {Var} [ varepsilon] = sigma ^ {2},}$

{ displaystyle operatorname {Var} [y] = operatorname {E} [(y- operatorname {E} [y]) ^ {2}] = operatorname {E} [(yf) ^ {2}] = operatorname {E} [(f + varepsilon -f) ^ {2}] = operatorname {E} [ varepsilon ^ {2}] = operatorname {Var} [ varepsilon] + operatorname {E} [ varepsilon] ^ {2} = sigma ^ {2} + 0 ^ {2} = sigma ^ {2}.}

Таким образом, поскольку ${ displaystyle varepsilon}$ и ${ displaystyle { hat {f}}}$ независимы, мы можем написать

{ displaystyle { begin {align} operatorname {E} { big [} (y - { hat {f}}) ^ {2} { big]} & = operatorname {E} { big [ } (f + varepsilon - { hat {f}}) ^ {2} { big]} [5pt] & = operatorname {E} { big [} (f + varepsilon - { hat {f }} + operatorname {E} [{ hat {f}}] - operatorname {E} [{ hat {f}}]) ^ {2} { big]} [5pt] & = имя оператора {E} { big [} (f- operatorname {E} [{ hat {f}}]) ^ {2} { big]} + operatorname {E} [ varepsilon ^ {2}] + operatorname {E} { big [} ( operatorname {E} [{ hat {f}}] - { hat {f}}) ^ {2} { big]} + 2 operatorname {E } { big [} (f- operatorname {E} [{ hat {f}}]) varepsilon { big]} + 2 operatorname {E} { big [} varepsilon ( operatorname {E } [{ hat {f}}] - { hat {f}}) { big]} + 2 operatorname {E} { big [} ( operatorname {E} [{ hat {f}} ] - { hat {f}}) (f- operatorname {E} [{ hat {f}}]) { big]} [5pt] & = (f- operatorname {E} [{ hat {f}}]) ^ {2} + operatorname {E} [ varepsilon ^ {2}] + operatorname {E} { big [} ( operatorname {E} [{ hat {f} }] - { hat {f}}) ^ {2} { big]} + 2 (f- operatorname {E} [{ hat {f}}]) operatorname {E} [ vareps ilon] +2 operatorname {E} [ varepsilon] operatorname {E} { big [} operatorname {E} [{ hat {f}}] - { hat {f}} { big]} +2 operatorname {E} { big [} operatorname {E} [{ hat {f}}] - { hat {f}} { big]} (f- operatorname {E} [{ шляпа {f}}]) [5pt] & = (f- operatorname {E} [{ hat {f}}]) ^ {2} + operatorname {E} [ varepsilon ^ {2}] + operatorname {E} { big [} ( operatorname {E} [{ hat {f}}] - { hat {f}}) ^ {2} { big]} [5pt] & = (f- operatorname {E} [{ hat {f}}]) ^ {2} + operatorname {Var} [ varepsilon] + operatorname {Var} { big [} { hat {f} } { big]} [5pt] & = operatorname {Bias} [{ hat {f}}] ^ {2} + operatorname {Var} [ varepsilon] + operatorname {Var} { big [} { hat {f}} { big]} [5pt] & = operatorname {Bias} [{ hat {f}}] ^ {2} + sigma ^ {2} + operatorname { Var} { big [} { hat {f}} { big]}. End {align}}}

Наконец, функция потерь MSE (или отрицательная логарифм правдоподобия) получается путем взятия математического ожидания над ${ displaystyle x sim P}$ :

{ displaystyle { text {MSE}} = operatorname {E} _ {x} { bigg {} operatorname {Bias} _ {D} [{ hat {f}} (x; D)] ^ {2} + operatorname {Var} _ {D} { big [} { hat {f}} (x; D) { big]} { bigg }} + sigma ^ {2}.}

Подходы

Снижение размерности и выбор функции может уменьшить дисперсию за счет упрощения моделей. Точно так же больший обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предикторов) имеет тенденцию уменьшать смещение за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; Например,

линейный и Обобщенный линейный модели могут быть упорядоченный чтобы уменьшить их дисперсию за счет увеличения предвзятости.^[11]
В искусственные нейронные сети, дисперсия увеличивается, а смещение уменьшается по мере увеличения количества скрытых единиц,^[12] хотя это классическое предположение было предметом недавних дебатов.^[5] Как и в GLM, обычно применяется регуляризация.
В k-ближайший сосед модели, высокая стоимость $k$ приводит к высокому смещению и низкой дисперсии (см. ниже).
В инстанциальное обучение, регуляризацию можно добиться, варьируя смесь прототипы и экземпляры.^[13]
В деревья решений, глубина дерева определяет дисперсию. Деревья решений обычно обрезаются, чтобы контролировать дисперсию.^[7]^:307

Один из способов решить эту проблему - использовать модели смеси и ансамблевое обучение.^[14]^[15] Например, повышение объединяет множество "слабых" (с высоким смещением) моделей в ансамбль, который имеет меньшее смещение, чем отдельные модели, в то время как упаковка объединяет «сильных» учеников таким образом, чтобы уменьшить их дисперсию.

Проверка модели такие методы как перекрестная проверка (статистика) может использоваться для настройки моделей с целью оптимизации компромисса.

k-ближайшие соседи

В случае $k$ регрессия ближайших соседей, когда ожидание принимается за возможное разметку фиксированного обучающего набора, выражение в закрытой форме существует, связывающее разложение смещения – дисперсии с параметром $k$ :^[8]^{:37, 223}

{ displaystyle operatorname {E} [(y - { hat {f}} (x)) ^ {2} mid X = x] = left (f (x) - { frac {1} {k }} sum _ {i = 1} ^ {k} f (N_ {i} (x)) right) ^ {2} + { frac { sigma ^ {2}} {k}} + sigma ^ {2}}

куда ${ Displaystyle N_ {1} (х), точки, N_ {k} (х)}$ являются $k$ ближайшие соседи $Икс$ в обучающем наборе. Смещение (первый член) - это монотонно возрастающая функция от $k$ , а дисперсия (второй член) спадает как $k$ увеличена. Фактически, при "разумных предположениях" смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающей выборки приближается к бесконечности.^[12]

Приложения

В регрессе

Декомпозиция смещения – дисперсии составляет концептуальную основу регрессии. регуляризация такие методы как Лассо и регресс гребня. Методы регуляризации вносят смещение в регрессионное решение, которое может значительно уменьшить дисперсию по сравнению с метод наименьших квадратов (МНК) решение. Хотя решение OLS обеспечивает непредвзятые оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения – дисперсии было первоначально сформулировано для регрессии методом наименьших квадратов. В случае классификация под 0-1 проигрыш (коэффициент ошибочной классификации), можно найти аналогичное разложение.^[16]^[17] В качестве альтернативы, если проблема классификации может быть сформулирована как вероятностная классификация, то ожидаемая квадратичная ошибка предсказанных вероятностей относительно истинных вероятностей может быть разложена, как и раньше.^[18]

В обучении с подкреплением

Несмотря на то, что разложение смещения-дисперсии не применяется напрямую в обучение с подкреплением, аналогичный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своей среде, неоптимальность алгоритма RL может быть разложена на сумму двух членов: члена, связанного с асимптотическим смещением, и члена, связанного с переобучением. Асимптотическая погрешность напрямую связана с алгоритмом обучения (независимо от количества данных), в то время как условие переобучения происходит из-за того, что количество данных ограничено.^[19]

В человеческом обучении

Хотя дилемма смещения и дисперсии широко обсуждалась в контексте машинного обучения, была изучена в контексте человеческое познание, в первую очередь Герд Гигеренцер и коллеги в контексте изученной эвристики. Они утверждали (см. Ссылки ниже), что человеческий мозг решает дилемму в случае обычно разреженных, плохо охарактеризованных обучающих наборов, предоставляемых опытом, путем принятия эвристики с высоким смещением / низкой дисперсией. Это отражает тот факт, что подход с нулевым смещением плохо переносится на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Результирующие эвристики относительно просты, но дают лучшие выводы в более широком спектре ситуаций.^[20]

Geman и другие.^[12] утверждают, что дилемма смещения-дисперсии подразумевает, что такие способности, как общие распознавание объекта не может быть изучен с нуля, но требует определенной степени «жесткой проводки», которая позже настраивается на опыте. Это связано с тем, что безмодельные подходы к выводу требуют непрактично больших обучающих наборов, если они хотят избежать высокой дисперсии.

Navigation