WikiDer > Прогресс в погоне за проекцией

Projection pursuit regression

В статистика, Прогрессивная регрессия преследования (PPR) это статистическая модель разработан Джером Х. Фридман и Вернер Штютцле который является продолжением аддитивные модели. Эта модель адаптирует аддитивные модели тем, что сначала проецирует матрица данных из объясняющие переменные в оптимальном направлении, прежде чем применять сглаживающие функции к этим независимым переменным.

Обзор модели

Модель состоит из линейные комбинации из гребневые функции: нелинейные преобразования линейных комбинаций независимых переменных. Базовая модель принимает вид

{ displaystyle y_ {i} = beta _ {0} + sum _ {j = 1} ^ {r} f_ {j} ( beta _ {j} ^ { mathrm {T}} x_ {i} ) + varepsilon,}

куда Икс_я является 1 × п ряд матрица дизайна содержащие независимые переменные, например я, у_я предсказание 1 × 1, {β_j} представляет собой набор р векторы (каждый единичный вектор длины п), которые содержат неизвестные параметры, {ж_j} представляет собой набор р первоначально неизвестные гладкие функции, которые отображаются из ℝ → ℝ, и р является гиперпараметром. Хорошие значения для р можно определить через перекрестная проверка или перспективная поэтапная стратегия, которая останавливается, когда соответствие модели не может быть значительно улучшено. В качестве р стремится к бесконечности и с соответствующим набором функций {ж_j} модель PPR представляет собой универсальный оценщик, поскольку он может аппроксимировать любую непрерывную функцию в ℝ^п.

Оценка модели

Для заданного набора данных ${ Displaystyle {(у_ {я}, х_ {я}) } _ {я = 1} ^ {п}}$ , цель - минимизировать функцию ошибок

{ displaystyle min _ {f_ {j}, beta _ {j}} S = sum _ {i = 1} ^ {n} left [y_ {i} - sum _ {j = 1} ^ {r} f_ {j} ( beta _ {j} ^ { mathrm {T}} x_ {i}) right] ^ {2}}

по функциям ${ displaystyle f_ {j}}$ и векторы ${ displaystyle beta _ {j}}$ . Не существует метода для решения сразу по всем переменным, но его можно решить с помощью переменная оптимизация. Сначала рассмотрим каждый ${ displaystyle (е_ {j}, beta _ {j})}$ пара индивидуально: пусть все другие параметры будут фиксированными, и найдите «остаток», дисперсию вывода, не учитываемую этими другими параметрами, заданную формулой

{ displaystyle r_ {i} = y_ {i} - sum _ {l neq j} f_ {l} ( beta _ {l} ^ { mathrm {T}} x_ {i})}

Задача минимизации функции ошибок теперь сводится к решению

{ displaystyle min _ {f_ {j}, beta _ {j}} S '= sum _ {i = 1} ^ {n} left [r_ {i} -f_ {j} ( beta _ {j} ^ { mathrm {T}} x_ {i}) right] ^ {2}}

для каждого j в очереди. Обычно новые ${ displaystyle (е_ {j}, beta _ {j})}$ пары добавляются к модели поэтапно.

Кроме того: предварительно подогнанные пары могут быть скорректированы после определения новых подгоночных пар с помощью алгоритма, известного как переоборудование, что влечет за собой пересмотр предыдущей пары, повторный расчет остатка с учетом того, как изменились другие пары, переоснащение для учета этой новой информации, а затем циклический просмотр всех подходящих пар таким образом, пока параметры не сойдутся. Этот процесс обычно приводит к модели, которая работает лучше с меньшим количеством подгонок, хотя обучение занимает больше времени, и обычно можно достичь той же производительности, пропустив подгонку и просто добавив больше подгонок к модели (увеличивая р).

Решение упрощенной функции ошибок для определения ${ displaystyle (е_ {j}, beta _ {j})}$ пара может быть выполнена с попеременной оптимизацией, где сначала случайный ${ displaystyle beta _ {j}}$ используется для проецирования ${ displaystyle X}$ в одномерном пространстве, а затем оптимальное ${ displaystyle f_ {j}}$ для описания связи между этой проекцией и остатками с помощью вашего любимого метода регрессии точечной диаграммы. Тогда если ${ displaystyle f_ {j}}$ остается постоянным, предполагая ${ displaystyle f_ {j}}$ когда-то дифференцируемый, оптимальные обновленные веса ${ displaystyle beta _ {j}}$ можно найти через Метод Гаусса-Ньютона- квазиньютоновский метод, в котором отбрасывается часть гессиана, содержащая вторую производную. Чтобы вывести это, сначала Тейлор раскрыть ${ displaystyle f_ {j} ( beta _ {j} ^ {T} x_ {i}) приблизительно f_ {j} ( beta _ {j, old} ^ {T} x_ {i}) + { точка {f_ {j}}} ( beta _ {j, old} ^ {T} x_ {i}) ( beta _ {j} ^ {T} x_ {i} - beta _ {j, old} ^ {T} x_ {i})}$ , затем снова подключите расширение к упрощенной функции ошибок ${ displaystyle S '}$ и выполните некоторые алгебраические манипуляции, чтобы представить его в форме

{ displaystyle min _ { beta _ {j}} S ' приблизительно sum _ {i = 1} ^ {n} underbrace {{ dot {f_ {j}}} ( beta _ {j, old} ^ {T} x_ {i}) ^ {2}} _ {w} { Bigg [} { bigg (} underbrace { beta _ {j, old} ^ {T} x_ {i} + { frac {r_ {i} -f_ {j} ( beta _ {j, old} ^ {T} x_ {i})} {{ dot {f_ {j}}} ( beta _ {j, old} ^ {T} x_ {i})}}} _ { hat {b}} { bigg)} - beta _ {j} ^ {T} x_ {i} { Bigg]} ^ {2 }}

Это взвешенный метод наименьших квадратов проблема. Если мы решим для всех весов ${ displaystyle w}$ и поместите их в диагональную матрицу ${ displaystyle W}$ , сложите все новые цели ${ displaystyle { hat {b}}}$ в вектор и использовать полную матрицу данных ${ displaystyle X}$ вместо одного примера ${ displaystyle x_ {i}}$ , то оптимальный ${ displaystyle beta _ {j}}$ дается закрытой формой

{ displaystyle { underset { beta _ {j}} { operatorname {arg , min}}} { Big |} { vec { hat {b}}} - X beta _ {j} { Big |} _ {W} ^ {2} = (X ^ { mathrm {T}} WX) ^ {- 1} X ^ { mathrm {T}} W { vec { hat {b }}}}

Используйте это обновленное ${ displaystyle beta _ {j}}$ найти новую проекцию ${ displaystyle X}$ и переоборудовать ${ displaystyle f_ {j}}$ на новую диаграмму рассеяния. Затем используйте этот новый ${ displaystyle f_ {j}}$ обновлять ${ displaystyle beta _ {j}}$ разрешив вышеуказанное, и продолжайте этот чередующийся процесс, пока ${ displaystyle (е_ {j}, beta _ {j})}$ сходится.

Было показано, что на скорость сходимости, смещение и дисперсию влияет оценка ${ displaystyle beta _ {j}}$ и ${ displaystyle f_ {j}}$ .

Обсуждение

Модель PPR принимает форму базовой аддитивной модели, но с дополнительными ${ displaystyle beta _ {j}}$ компонент, поэтому каждый ${ displaystyle f_ {j}}$ соответствует диаграмме рассеяния ${ displaystyle beta _ {j} ^ {T} X ^ {T}}$ против остаточный (необъяснимая дисперсия) во время обучения, а не с использованием самих исходных данных. Это ограничивает проблему поиска каждого ${ displaystyle f_ {j}}$ к низкому размеру, что делает его решаемым с помощью обычных методов наименьших квадратов или сплайновой подгонки и обхода проклятие размерности во время тренировки. Потому что ${ displaystyle f_ {j}}$ взят из проекции ${ displaystyle X}$ , результат выглядит как "гребень", ортогональный размеру проекции, поэтому ${ displaystyle {f_ {j} }}$ часто называют «ридж-функциями». Направления ${ displaystyle beta _ {j}}$ выбраны для оптимизации соответствия их соответствующих функций гребня.

Обратите внимание: поскольку PPR пытается соответствовать проекциям данных, может быть трудно интерпретировать подобранную модель в целом, потому что каждая входная переменная учитывалась сложным и многогранным образом. Это может сделать модель более полезной для прогнозирования, чем для понимания данных, хотя визуализация отдельных гребневых функций и рассмотрение того, какие проекции обнаруживает модель, могут дать некоторое понимание.

Преимущества оценки PPR

Он использует одномерные функции регрессии вместо их многомерной формы, таким образом эффективно справляясь с проклятие размерности
Одномерная регрессия позволяет проводить простую и эффективную оценку
Относительно обобщенные аддитивные модели, PPR может оценить гораздо более богатый класс функций
В отличие от методов локального усреднения (таких как k-ближайшие соседи), PPR может игнорировать переменные с низкой объяснительной силой.

Недостатки оценки PPR

PPR требует изучения M-мерного пространства параметров, чтобы оценить ${ displaystyle beta _ {j}}$ .
Необходимо выбрать параметр сглаживания для ${ displaystyle f_ {j}}$ .
Модель часто трудно интерпретировать

Расширения PPR

Были предложены альтернативные средства сглаживания, такие как радиальная функция, гармоническая функция и аддитивная функция, и их характеристики варьируются в зависимости от используемых наборов данных.
Также использовались альтернативные критерии оптимизации, такие как стандартные абсолютные отклонения и средние абсолютные отклонения.
Обычный метод наименьших квадратов может использоваться для упрощения расчетов, поскольку часто данные не имеют сильной нелинейности.
Нарезанная обратная регрессия (SIR) использовалась для выбора векторов направления для PPR.
Обобщенный PPR сочетает в себе регулярный PPR с итеративно взвешенным методом наименьших квадратов (IRLS) и функция ссылки для оценки двоичных данных.

PPR против нейронных сетей (NN)

Оба прогноза преследуют регрессию и нейронные сети модели проецируют входной вектор на одномерную гиперплоскость, а затем применяют нелинейное преобразование входных переменных, которые затем добавляются линейным образом. Таким образом, оба следуют одним и тем же шагам, чтобы преодолеть проклятие размерности. Основное отличие состоит в том, что функции ${ displaystyle f_ {j}}$ Подгонка в PPR может быть разной для каждой комбинации входных переменных и оценивается по одной, а затем обновляется весовыми коэффициентами, тогда как в NN все они указываются заранее и оцениваются одновременно.

Таким образом, оценка PPR более проста, чем NN, и преобразования переменных в PPR управляются данными, тогда как в NN эти преобразования фиксированы.

Смотрите также

Проекционное преследование

Navigation