WikiDer > Метрика Вассерштейна

Wasserstein metric

В математика, то Расстояние Вассерштейна или же Метрика Канторовича – Рубинштейна это функция расстояния определяется между распределения вероятностей на данном метрическое пространство .

Интуитивно, если рассматривать каждое распределение как единицу количества земли (почвы), насыпанной на , метрика - это минимальная «стоимость» превращения одной сваи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее нужно переместить. По этой аналогии метрика известна в Информатика как расстояние землекопа.

Название «расстояние Вассерштайна» было придумано Р. Л. Добрушин в 1970 году, после русский математик Леонид Васерштейн кто представил концепцию в 1969 году. английский-языковые публикации используют Немецкий написание «Вассерштейн» (приписывается имени «Васерштейн» Немецкий источник).

Определение

Позволять быть метрическое пространство для которого каждая вероятностная мера на это Радоновая мера (так называемый Радоновое пространство). За , позволять обозначают совокупность всех вероятностных мер на с конечным момент. Тогда существует некая в такой, что:

В Расстояние Вассерштейна между двумя вероятностными мерами и в определяется как

куда обозначает совокупность всех мер на с маргиналы и по первому и второму факторам соответственно. (Набор также называется набором всех муфты из и .)

Вышеуказанное расстояние обычно обозначают (обычно среди авторов, предпочитающих написание "Вассерштейн") или (обычно среди авторов, предпочитающих написание "Васерштейн"). В оставшейся части этой статьи будет использоваться обозначение.

Метрика Вассерштейна может быть эквивалентно определена следующим образом:

куда обозначает ожидаемое значение из случайная переменная и инфимум берется по всем совместным распределениям случайных величин и с маргиналами и соответственно.

Интуиция и подключение к оптимальному транспорту

Два одномерных распределения и , нанесенный на оси x и y, и одно возможное совместное распределение, которое определяет транспортный план между ними. Совместный план распределения / транспортировки не уникален

Один из способов понять мотивацию приведенного выше определения - рассмотреть оптимальная транспортная задача. То есть для распределения массы на пространстве , мы хотим перенести массу таким образом, чтобы она преобразовалась в распределение на той же площади; преобразование "груды земли" в кучу . Эта проблема имеет смысл только в том случае, если создаваемая свая имеет ту же массу, что и перемещаемая свая; поэтому без ограничения общности предположим, что и - распределения вероятностей, содержащие общую массу 1. Предположим также, что задана некоторая функция стоимости

что дает стоимость транспортировки единицы массы из точки к точке .План транспорта для переезда. в можно описать функцией что дает количество массы, от которой нужно двигаться к . Вы можете представить себе задачу как необходимость переместить кучу земли определенной формы. к дыре в земле формы так что в конце и груда земли, и яма в земле полностью исчезнут. Чтобы этот план был значимым, он должен удовлетворять следующим свойствам

То есть общая масса переместилась снаружи бесконечно малая область вокруг должно быть равно и общая масса переместилась в регион вокруг должно быть . Это эквивалентно требованию, чтобы быть совместное распределение вероятностей с маргиналами и . Таким образом, бесконечно малая масса, переносимая из к является , а стоимость переезда , следуя определению функции стоимости. Таким образом, общая стоимость транспортного плана является

План не уникален; Оптимальный транспортный план - это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование для того, чтобы план был действительным, заключается в том, что это совместное распределение с маржинальными и ; позволяя обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна

Если стоимость перемещения - это просто расстояние между двумя точками, тогда оптимальная стоимость идентична определению расстояние.

Примеры

Точечные массы (вырожденные распределения)

Позволять и быть двумя вырожденные распределения (т.е. Дельта-распределения Дирака), расположенные в точках и в . Есть только одна возможная связь этих двух мер, а именно точечная масса расположен в . Таким образом, используя обычный абсолютная величина функция расстояния на , для любого , то -Вассерштейн расстояние между и является

По аналогичным соображениям, если и точечные массы, расположенные в точках и в , и мы используем обычный Евклидова норма на как функция расстояния, то

Нормальные распределения

Позволять и быть двумя невырожденными Гауссовские меры (т.е. нормальные распределения) на , с соответствующими ожидаемые значения и и симметричный положительный полуопределенный ковариационные матрицы и . Потом,[1] относительно обычной евклидовой нормы на , расстояние 2-Вассерштейна между и является

Этот результат обобщает предыдущий пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, и в этом случае след Член исчезает, и остается только член, включающий евклидово расстояние между средними.

Приложения

Метрика Вассерштейна - это естественный способ сравнить распределения вероятностей двух переменных. Икс и Y, где одна переменная выводится из другой посредством небольших неоднородных возмущений (случайных или детерминированных).

В информатике, например, метрика W1 широко используется для сравнения дискретных распределений, например то цветные гистограммы из двух цифровые изображения; видеть расстояние землекопа Больше подробностей.

В своей статье «Вассерштейн ГАН» Арджовский и др.[2] использовать метрику Вассерштейна-1 как способ улучшить исходную структуру Генеративные состязательные сети (GAN), чтобы облегчить исчезающий градиент и проблемы с развалом режима.

Метрика Вассерштейна имеет формальную связь с Прокрустовый анализ, с применением к мерам хиральности [3], и для анализа формы [4].

Характеристики

Метрическая структура

Можно показать, что Wп удовлетворяет все аксиомы из метрика на пп(M). Кроме того, сходимость по Wп эквивалентно обычному слабая сходимость мер плюс схождение первых пые моменты.[5]

Двойное представление W1

—Следующее двойное представление W1 является частным случаем теоремы двойственности Канторович и Рубинштейн (1958): когда μ и ν имеют ограниченный поддерживать,

где Lip (ж) обозначает минимальную Постоянная Липшица за ж.

Сравните это с определением Радоновая метрика:

Если метрика d ограничено некоторой константой C, тогда

и поэтому сходимость в метрике Радона (идентичной полная сходимость вариаций когда M это Польское пространство) влечет сходимость в метрике Вассерштейна, но не наоборот.

Эквивалентность W2 и соболевской нормы отрицательного порядка

При подходящих предположениях расстояние Вассерштейна второго порядка липшицево эквивалентно однородному отрицательному порядку. Соболева норма.[6] Точнее, если взять быть связаны Риманово многообразие оснащен положительной мерой , то мы можем определить для полунорма

и для подписанная мера на двойственная норма

Тогда любые две вероятностные меры и на удовлетворяют верхней границе

В обратном направлении, если и у каждого есть плотность относительно стандартная мера объема на которые оба ограничены над некоторыми , и имеет неотрицательный Кривизна Риччи, тогда

Разделимость и полнота

Для любого п ≥ 1 метрическое пространство (пп(M), Wп) является отделяемый, и является полный если (M, d) отделимо и полно.[7]

Смотрите также

Рекомендации

  1. ^ Олкин И. и Пукельсхайм Ф. (1982). «Расстояние между двумя случайными векторами с заданными дисперсионными матрицами». Приложение линейной алгебры. 48: 257–263. Дои:10.1016/0024-3795(82)90112-4. ISSN 0024-3795.CS1 maint: несколько имен: список авторов (связь)
  2. ^ Арджовски (2017). "Генеративные состязательные сети Вассерштейна". ICML.
  3. ^ Петижан, М. (2002). «Хиральные смеси» (PDF). Журнал математической физики. 43 (8): 4147–4157. Дои:10.1063/1.1484559.
  4. ^ Петижан, М. (2004). «От подобия форм к дополнительности форм: к теории стыковки». Журнал математической химии. 35 (3): 147–158. Дои:10.1023 / B: JOMC.0000033252.59423.6b. S2CID 121320315.
  5. ^ Климент, Филипп; Деш, Вольфганг (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества. 136 (1): 333–339. Дои:10.1090 / S0002-9939-07-09020-X.
  6. ^ Пейр, Реми (2018). "Сравнение между W2 расстояние и ЧАС−1 норма, и локализация расстояния Вассерштейна ». ESAIM Control Optim. Расчет. Вар. 24 (4): 1489–1501. Дои:10.1051 / cocv / 2017050. ISSN 1292-8119. (См. Теоремы 2.1 и 2.5.)
  7. ^ Богачев В.И.; Колесников, А. (2012). «Проблема Монжа – Канторовича: достижения, связи, перспективы». Русская математика. Обзоры. 67 (5): 785–890. Дои:10.1070 / RM2012v067n05ABEH004808.

внешняя ссылка