Аппроксимации матриц низкого ранга являются важными инструментами в применении методы ядра для крупномасштабного обучения проблемы.[1]
Методы ядра (например, опорные векторные машины или же Гауссовские процессы[2]) проецировать точки данных в многомерные или бесконечномерные пространство функций и найти оптимальную гиперплоскость расщепления. в ядерный метод данные представлены в виде матрица ядра (или же, Матрица Грама). Многие алгоритмы могут решить машинное обучение проблемы с использованием матрица ядра. Основная проблема ядерный метод это высокий вычислительная стоимость связана с матрицы ядра. Стоимость как минимум квадратична по количеству точек данных обучения, но большинство методы ядра включать вычисление инверсия матриц или же разложение на собственные значения и стоимость становится кубической по количеству обучающих данных. Большие тренировочные наборы вызывают большие затраты на хранение и вычисления. Несмотря на методы разложения низкого ранга (Разложение Холецкого) уменьшают эту стоимость, они по-прежнему требуют вычисления матрица ядра. Один из подходов к решению этой проблемы - матричные аппроксимации низкого ранга. Самые популярные из них: Метод Нистрома и случайные особенности. Оба они были успешно применены для эффективного обучения ядра.
Приближение Нистрома
Методы ядра становится неосуществимым, когда количество очков
настолько велик, что матрица ядра
не могут быть сохранены в памяти.
Если
количество обучающих примеров, стоимость хранения и вычислений требуется найти решение проблемы с помощью общих ядерный метод является
и
соответственно. Приближение Нистрома может позволить значительно ускорить вычисления.[2][3] Это ускорение достигается за счет использования вместо матрица ядра его приближение
из классифицировать
. Преимущество метода заключается в том, что нет необходимости вычислять или сохранять все матрица ядра, но только его размерный блок
.
Это снижает требования к хранению и сложности до
и
соответственно.
Теорема для ядерной аппроксимации
это матрица ядра для некоторых ядерный метод. Рассмотрим первый
очков в тренировочной выборке. Тогда существует матрица
из классифицировать
:
, куда
,
обратимая матрица
и

Доказательство
Приложение для разложения по сингулярным числам
Применение сингулярное разложение (СВД) в матрицу
с размерами
производит особая система состоящий из сингулярные значения
векторов
и
такие, что они образуют ортонормированные базы
и
соответственно:

Если
и
матрицы с
'песок
В столбцах и
это диагональ
матрица, имеющая сингулярные значения
во-первых
-записи по диагонали (все остальные элементы матрицы нулевые):

тогда матрица
можно переписать как:[4]
.
Дальнейшее доказательство
является
матрица данных

Применение сингулярного разложения к этим матрицам:

это
-мерная матрица, состоящая из первых
строки матрицы 


Применение сингулярного разложения к этим матрицам:

С
находятся ортогональные матрицы,

Замена
, приближение для
может быть получен:
(
не обязательно ортогональная матрица).
Однако, определяя
, его можно вычислить следующим образом:

По характеристике ортогональная матрица
: равенство
держит. Затем, используя формулу, обратную матричное умножение
за обратимые матрицы
и
, выражение в фигурных скобках можно переписать как:
.
Тогда выражение для
:
.
Определение
, доказательство окончено.
Общая теорема для аппроксимации ядра для карты признаков
Для карты характеристик
с ассоциированным ядро
: равенство
также следует заменой
оператором
такой, что
,
,
, и
оператором
такой, что
,
,
. Еще раз, простая проверка показывает, что карта признаков нужна только для доказательства, а конечный результат зависит только от вычисления функции ядра.
Приложение для регуляризованных наименьших квадратов
В векторной и ядерной нотации проблема Регуляризованный метод наименьших квадратов можно переписать как:
.
Вычислив градиент и установив значение 0, можно получить минимум:

Обратная матрица
можно вычислить, используя Тождество матрицы Вудбери:

Он имеет желаемые требования к хранению и сложности.
Аппроксимация случайных карт признаков
Позволять
- образцы данных,
- рандомизированный карта характеристик (отображает один вектор в вектор более высокой размерности), так что внутреннее произведение между парой преобразованных точек аппроксимирует их ядро оценка:
,
куда
отображение, вложенное в Ядро RBF.
С
низкоразмерен, ввод можно легко преобразовать с помощью
, после этого могут применяться различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты функций для вычисления приближений к ядрам RBF. Например, Случайные особенности Фурье и случайные функции биннинга.
Случайные особенности Фурье
Случайные особенности Фурье карта производит Монте-Карло приближение к карте признаков. Метод Монте-Карло считается рандомизированным. Эти случайные особенности состоит из синусоид
случайно взятый из преобразование Фурье из ядро быть приближенным, где
и
находятся случайные переменные. Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью сопоставлений. Полученный скаляр пропускается через синусоиду. Произведение преобразованных точек будет приближать инвариантное к сдвигу ядро. Поскольку карта гладкая, случайные особенности Фурье хорошо работают с задачами интерполяции.
Возможности случайного биннинга
Карта случайного разбиения на части разделяет входное пространство с помощью случайно сдвинутых сеток с произвольно выбранными разрешениями и назначает входной точке двоичную битовую строку, которая соответствует ячейкам, в которые она попадает. Сетки построены так, что вероятность того, что две точки
присваиваются одному и тому же бункеру, пропорционально
. Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и поэтому является несмещенной оценкой
. Поскольку это сопоставление не является гладким и использует близость между входными точками, функции случайного объединения хорошо работают для аппроксимации ядер, которые зависят только от
- расстояние между точками данных.
Сравнение методов аппроксимации
Подходы для крупномасштабного обучения ядра (Метод Нистрома и случайные признаки) отличается тем, что в методе Нюстрёма используются базисные функции, зависящие от данных, в то время как в подходе случайных признаков базисные функции выбираются из распределения, независимого от обучающих данных. Это различие приводит к улучшенному анализу подходов к обучению ядра, основанных на методе Нистрома. Когда есть большой разрыв в собственном спектре ядро матрица, подходы, основанные на методе Нистрома, могут дать лучшие результаты, чем Случайные особенности основанный подход.[5]
Смотрите также
внешняя ссылка
Рекомендации
- ^ Фрэнсис Р. Бах и Майкл И. Джордан (2005). «Прогнозирующая низкоранговая декомпозиция для ядерных методов». ICML.
- ^ а б Уильямс, C.K.I. и Сигер М. (2001). «Использование метода Нистрома для ускорения ядерных машин». Достижения в системах обработки нейронной информации.CS1 maint: использует параметр авторов (связь)
- ^ Петрос Дринес и Майкл В. Махони (2005). «О методе Нюстрёма для аппроксимации матрицы Грама для улучшенного обучения на основе ядра». Журнал исследований машинного обучения 6, стр. 2153–2175.
- ^ К. Эккарт, Г. Янг, Аппроксимация одной матрицы другой более низкого ранга. Психометрика, Том 1, 1936, страницы 211–8. Дои:10.1007 / BF02288367
- ^ Тяньбао Ян, Ю-Фэн Ли, Мехрдад Махдави, Ронг Джин и Чжи-Хуа Чжоу (2012). "Метод Нистрома против случайных характеристик Фурье: теоретическое и эмпирическое сравнение". Достижения в системах обработки нейронной информации 25 (NIPS).