WikiDer > Потеря Хубера

Huber loss

В статистика, то Потеря Хубера это функция потерь используется в надежная регрессия, который менее чувствителен к выбросы в данных, чем квадрат ошибки потери. Иногда используется вариант классификации.

Определение

Потеря Хубера (зеленый,

{ displaystyle delta = 1}

) и квадрате потерь ошибок (синий) в зависимости от

{ Displaystyle у-е (х)}

Функция потерь Хубера описывает штраф, понесенный процедура оценки $ж$ . Хубер (1964) определяет функцию потерь кусочно как^[1]

{ displaystyle L _ { delta} (a) = { begin {cases} { frac {1} {2}} {a ^ {2}} & { text {for}} | a | leq delta , delta (| a | - { frac {1} {2}} delta), & { text {в противном случае.}} end {cases}}}

Эта функция квадратична для малых значений $а$ , и линейный для больших значений, с равными значениями и наклонами различных участков в двух точках, где ${ Displaystyle | а | = дельта}$ . Переменная $а$ часто относится к остаткам, то есть к разнице между наблюдаемыми и прогнозируемыми значениями. ${ Displaystyle а = у-е (х)}$ , поэтому первое можно расширить до^[2]

{ displaystyle L _ { delta} (y, f (x)) = { begin {case} { frac {1} {2}} (yf (x)) ^ {2} & { textrm {for} } | yf (x) | leq delta, delta , | yf (x) | - { frac {1} {2}} delta ^ {2} & { textrm {в противном случае.}} end {case}}}

Мотивация

Две очень часто используемые функции потерь: квадрат потери, ${ Displaystyle L (а) = а ^ {2}}$ , а абсолютная потеря, ${ Displaystyle L (а) = | а |}$ . Функция потерь в квадрате дает среднее арифметическое-объективный оценщик, а функция потерь абсолютного значения приводит к медиана-смещенная оценка (в одномерном случае и геометрическая медиана-смещенная оценка для многомерного случая). Квадрат потерь имеет тот недостаток, что в нем часто преобладают выбросы - при суммировании по набору ${ displaystyle a}$ (как в ${ textstyle сумма _ {я = 1} ^ {п} L (а_ {я})}$ ), на выборочное среднее слишком сильно влияют несколько особенно крупных ${ displaystyle a}$ -значения при тяжелом хвосте распределения: с точки зрения теория оценки, асимптотическая относительная эффективность среднего для распределений с тяжелыми хвостами мала.

Как определено выше, функция потерь Хубера равна сильно выпуклый в равномерной окрестности своего минимума ${ displaystyle a = 0}$ ; на границе этой равномерной окрестности функция потерь Хубера имеет дифференцируемое продолжение до аффинной функции в точках ${ displaystyle a = - delta}$ и ${ displaystyle a = delta}$ . Эти свойства позволяют ему сочетать большую часть чувствительности несмещенной по среднему и минимальной дисперсии оценки среднего (с использованием квадратичной функции потерь) и устойчивости несмещенной по медиане оценки (с использованием функции абсолютного значения).

Функция потерь псевдогубера

В Функция потерь псевдогубера может использоваться как гладкая аппроксимация функции потерь Хьюбера. Он сочетает в себе лучшие свойства L2 квадрат потери и L1 абсолютная потеря будучи сильно выпуклым при приближении к целевому / минимуму и менее крутым для экстремальных значений. Эту крутизну можно контролировать с помощью ${ displaystyle delta}$ ценить. В Функция потерь псевдогубера гарантирует, что производные непрерывны для всех степеней. Он определяется как^[3]^[4]

{ displaystyle L _ { delta} (a) = delta ^ {2} left ({ sqrt {1+ (a / delta) ^ {2}}} - 1 right).}

Таким образом, эта функция приближает ${ displaystyle a ^ {2} / 2}$ для малых значений ${ displaystyle a}$ , и аппроксимирует прямую линию с наклоном ${ displaystyle delta}$ для больших значений ${ displaystyle a}$ .

Хотя приведенная выше форма является наиболее распространенной, существуют и другие гладкие аппроксимации функции потерь Хубера.^[5]

Вариант классификации

За классификация целей, вариант потери Хубера, названный модифицированный Хубер иногда используется. Учитывая предсказание ${ displaystyle f (x)}$ (реальная оценка классификатора) и истинный двоичный метка класса ${ Displaystyle у в {+ 1, -1 }}$ , модифицированная потеря Хубера определяется как^[6]

{ Displaystyle L (у, е (х)) = { begin {case} max (0,1-y , f (x)) ^ {2} & { textrm {for}} , , y , f (x) geq -1, - 4y , f (x) & { textrm {в противном случае.}} end {case}}}

Период, термин ${ Displaystyle макс (0,1-у , е (х))}$ это потеря петли использован опорные векторные машины; то квадратично сглаженная потеря петель является обобщением ${ displaystyle L}$ .^[6]

Приложения

Функция потерь Хубера используется в надежная статистика, М-оценка и аддитивное моделирование.^[7]

Смотрите также

Рекомендации

^ Хубер, Питер Дж. (1964). «Надежная оценка параметра местоположения». Анналы статистики. 53 (1): 73–101. Дои:10.1214 / aoms / 1177703732. JSTOR 2238020.
^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения. п. 349. Архивировано с оригинал на 2015-01-26. По сравнению с Хасти и другие., потеря масштабируется с коэффициентом 1/2, чтобы соответствовать первоначальному определению Хубера, данному ранее.
^ Charbonnier, P .; Blanc-Feraud, L .; Обер, G .; Барло, М. (1997). «Детерминированная регуляризация с сохранением границ в компьютерной визуализации». IEEE Trans. Обработка изображений. 6 (2): 298–311. CiteSeerX 10.1.1.64.7521. Дои:10.1109/83.551699. PMID 18282924.
^ Hartley, R .; Зиссерман, А. (2003). Многоканальная геометрия в компьютерном зрении (2-е изд.). Издательство Кембриджского университета. п.619. ISBN 978-0-521-54051-3.
^ Ланге, К. (1990). «Сходимость алгоритмов восстановления изображений со сглаживанием Гиббса». IEEE Trans. Med. Изображения. 9 (4): 439–446. Дои:10.1109/42.61759. PMID 18222791.
^ ^а ^б Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска. ICML.
^ Фридман, Дж. Х. (2001). «Аппроксимация жадной функции: машина для повышения градиента». Анналы статистики. 26 (5): 1189–1232. Дои:10.1214 / aos / 1013203451. JSTOR 2699986.

[1] Хубер, Питер Дж. (1964). «Надежная оценка параметра местоположения». Анналы статистики. 53 (1): 73–101. Дои:10.1214 / aoms / 1177703732. JSTOR 2238020.

[2] Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения. п. 349. Архивировано с оригинал на 2015-01-26. По сравнению с Хасти и другие., потеря масштабируется с коэффициентом 1/2, чтобы соответствовать первоначальному определению Хубера, данному ранее.

[3] Charbonnier, P .; Blanc-Feraud, L .; Обер, G .; Барло, М. (1997). «Детерминированная регуляризация с сохранением границ в компьютерной визуализации». IEEE Trans. Обработка изображений. 6 (2): 298–311. CiteSeerX 10.1.1.64.7521. Дои:10.1109/83.551699. PMID 18282924.

[4] Hartley, R .; Зиссерман, А. (2003). Многоканальная геометрия в компьютерном зрении (2-е изд.). Издательство Кембриджского университета. п.619. ISBN 978-0-521-54051-3.

[5] Ланге, К. (1990). «Сходимость алгоритмов восстановления изображений со сглаживанием Гиббса». IEEE Trans. Med. Изображения. 9 (4): 439–446. Дои:10.1109/42.61759. PMID 18222791.

[zhang-6] а ^б Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска. ICML.

[7] Фридман, Дж. Х. (2001). «Аппроксимация жадной функции: машина для повышения градиента». Анналы статистики. 26 (5): 1189–1232. Дои:10.1214 / aos / 1013203451. JSTOR 2699986.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Navigation