WikiDer > Метрика Вассерштейна
В математика, то Расстояние Вассерштейна или же Метрика Канторовича – Рубинштейна это функция расстояния определяется между распределения вероятностей на данном метрическое пространство .
Интуитивно, если рассматривать каждое распределение как единицу количества земли (почвы), насыпанной на , метрика - это минимальная «стоимость» превращения одной сваи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее нужно переместить. По этой аналогии метрика известна в Информатика как расстояние землекопа.
Название «расстояние Вассерштайна» было придумано Р. Л. Добрушин в 1970 году, после русский математик Леонид Васерштейн кто представил концепцию в 1969 году. английский-языковые публикации используют Немецкий написание «Вассерштейн» (приписывается имени «Васерштейн» Немецкий источник).
Определение
Позволять быть метрическое пространство для которого каждая вероятностная мера на это Радоновая мера (так называемый Радоновое пространство). За , позволять обозначают совокупность всех вероятностных мер на с конечным момент. Тогда существует некая в такой, что:
В Расстояние Вассерштейна между двумя вероятностными мерами и в определяется как
куда обозначает совокупность всех мер на с маргиналы и по первому и второму факторам соответственно. (Набор также называется набором всех муфты из и .)
Вышеуказанное расстояние обычно обозначают (обычно среди авторов, предпочитающих написание "Вассерштейн") или (обычно среди авторов, предпочитающих написание "Васерштейн"). В оставшейся части этой статьи будет использоваться обозначение.
Метрика Вассерштейна может быть эквивалентно определена следующим образом:
куда обозначает ожидаемое значение из случайная переменная и инфимум берется по всем совместным распределениям случайных величин и с маргиналами и соответственно.
Интуиция и подключение к оптимальному транспорту
Один из способов понять мотивацию приведенного выше определения - рассмотреть оптимальная транспортная задача. То есть для распределения массы на пространстве , мы хотим перенести массу таким образом, чтобы она преобразовалась в распределение на той же площади; преобразование "груды земли" в кучу . Эта проблема имеет смысл только в том случае, если создаваемая свая имеет ту же массу, что и перемещаемая свая; поэтому без ограничения общности предположим, что и - распределения вероятностей, содержащие общую массу 1. Предположим также, что задана некоторая функция стоимости
что дает стоимость транспортировки единицы массы из точки к точке .План транспорта для переезда. в можно описать функцией что дает количество массы, от которой нужно двигаться к . Вы можете представить себе задачу как необходимость переместить кучу земли определенной формы. к дыре в земле формы так что в конце и груда земли, и яма в земле полностью исчезнут. Чтобы этот план был значимым, он должен удовлетворять следующим свойствам
То есть общая масса переместилась снаружи бесконечно малая область вокруг должно быть равно и общая масса переместилась в регион вокруг должно быть . Это эквивалентно требованию, чтобы быть совместное распределение вероятностей с маргиналами и . Таким образом, бесконечно малая масса, переносимая из к является , а стоимость переезда , следуя определению функции стоимости. Таким образом, общая стоимость транспортного плана является
План не уникален; Оптимальный транспортный план - это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование для того, чтобы план был действительным, заключается в том, что это совместное распределение с маржинальными и ; позволяя обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна
Если стоимость перемещения - это просто расстояние между двумя точками, тогда оптимальная стоимость идентична определению расстояние.
Примеры
Точечные массы (вырожденные распределения)
Позволять и быть двумя вырожденные распределения (т.е. Дельта-распределения Дирака), расположенные в точках и в . Есть только одна возможная связь этих двух мер, а именно точечная масса расположен в . Таким образом, используя обычный абсолютная величина функция расстояния на , для любого , то -Вассерштейн расстояние между и является
По аналогичным соображениям, если и точечные массы, расположенные в точках и в , и мы используем обычный Евклидова норма на как функция расстояния, то
Нормальные распределения
Позволять и быть двумя невырожденными Гауссовские меры (т.е. нормальные распределения) на , с соответствующими ожидаемые значения и и симметричный положительный полуопределенный ковариационные матрицы и . Потом,[1] относительно обычной евклидовой нормы на , расстояние 2-Вассерштейна между и является
Этот результат обобщает предыдущий пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, и в этом случае след Член исчезает, и остается только член, включающий евклидово расстояние между средними.
Приложения
Метрика Вассерштейна - это естественный способ сравнить распределения вероятностей двух переменных. Икс и Y, где одна переменная выводится из другой посредством небольших неоднородных возмущений (случайных или детерминированных).
В информатике, например, метрика W1 широко используется для сравнения дискретных распределений, например то цветные гистограммы из двух цифровые изображения; видеть расстояние землекопа Больше подробностей.
В своей статье «Вассерштейн ГАН» Арджовский и др.[2] использовать метрику Вассерштейна-1 как способ улучшить исходную структуру Генеративные состязательные сети (GAN), чтобы облегчить исчезающий градиент и проблемы с развалом режима.
Метрика Вассерштейна имеет формальную связь с Прокрустовый анализ, с применением к мерам хиральности [3], и для анализа формы [4].
Характеристики
Метрическая структура
Можно показать, что Wп удовлетворяет все аксиомы из метрика на пп(M). Кроме того, сходимость по Wп эквивалентно обычному слабая сходимость мер плюс схождение первых пые моменты.[5]
Двойное представление W1
—Следующее двойное представление W1 является частным случаем теоремы двойственности Канторович и Рубинштейн (1958): когда μ и ν имеют ограниченный поддерживать,
где Lip (ж) обозначает минимальную Постоянная Липшица за ж.
Сравните это с определением Радоновая метрика:
Если метрика d ограничено некоторой константой C, тогда
и поэтому сходимость в метрике Радона (идентичной полная сходимость вариаций когда M это Польское пространство) влечет сходимость в метрике Вассерштейна, но не наоборот.
Эквивалентность W2 и соболевской нормы отрицательного порядка
При подходящих предположениях расстояние Вассерштейна второго порядка липшицево эквивалентно однородному отрицательному порядку. Соболева норма.[6] Точнее, если взять быть связаны Риманово многообразие оснащен положительной мерой , то мы можем определить для полунорма
и для подписанная мера на двойственная норма
Тогда любые две вероятностные меры и на удовлетворяют верхней границе
В обратном направлении, если и у каждого есть плотность относительно стандартная мера объема на которые оба ограничены над некоторыми , и имеет неотрицательный Кривизна Риччи, тогда
Разделимость и полнота
Для любого п ≥ 1 метрическое пространство (пп(M), Wп) является отделяемый, и является полный если (M, d) отделимо и полно.[7]
Смотрите также
- Метрика Леви
- Метрика Леви – Прохорова
- Общее расстояние вариации вероятностных мер
- Теория транспорта
- Дистанция движителя земли
![]() | Эта статья включает в себя список общих Рекомендации, но он остается в основном непроверенным, потому что ему не хватает соответствующих встроенные цитаты. (Июль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
Рекомендации
- ^ Олкин И. и Пукельсхайм Ф. (1982). «Расстояние между двумя случайными векторами с заданными дисперсионными матрицами». Приложение линейной алгебры. 48: 257–263. Дои:10.1016/0024-3795(82)90112-4. ISSN 0024-3795.CS1 maint: несколько имен: список авторов (связь)
- ^ Арджовски (2017). "Генеративные состязательные сети Вассерштейна". ICML.
- ^ Петижан, М. (2002). «Хиральные смеси» (PDF). Журнал математической физики. 43 (8): 4147–4157. Дои:10.1063/1.1484559.
- ^ Петижан, М. (2004). «От подобия форм к дополнительности форм: к теории стыковки». Журнал математической химии. 35 (3): 147–158. Дои:10.1023 / B: JOMC.0000033252.59423.6b. S2CID 121320315.
- ^ Климент, Филипп; Деш, Вольфганг (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества. 136 (1): 333–339. Дои:10.1090 / S0002-9939-07-09020-X.
- ^ Пейр, Реми (2018). "Сравнение между W2 расстояние и ЧАС−1 норма, и локализация расстояния Вассерштейна ». ESAIM Control Optim. Расчет. Вар. 24 (4): 1489–1501. Дои:10.1051 / cocv / 2017050. ISSN 1292-8119. (См. Теоремы 2.1 и 2.5.)
- ^ Богачев В.И.; Колесников, А. (2012). «Проблема Монжа – Канторовича: достижения, связи, перспективы». Русская математика. Обзоры. 67 (5): 785–890. Дои:10.1070 / RM2012v067n05ABEH004808.
- Виллани, Седрик (2008). Оптимальный транспорт, старый и новый. Springer. ISBN 978-3-540-71050-9.
- Амбросио, Л., Джильи, Н. и Саваре, Г. (2005). Градиентные потоки в метрических пространствах и в пространстве вероятностных мер. Базель: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.CS1 maint: несколько имен: список авторов (связь)
- Джордан, Ричард; Киндерлерер, Дэвид; Отто, Феликс (1998). «Вариационная формулировка уравнения Фоккера – Планка». SIAM J. Math. Анальный. 29 (1): 1–17 (электронный). CiteSeerX 10.1.1.6.8815. Дои:10.1137 / S0036141096303359. ISSN 0036-1410. МИСТЕР 1617171.
- Рюшендорф, Л. (2001) [1994], «Метрика Вассерштейна», Энциклопедия математики, EMS Press