WikiDer > Относительная энтропия

Relative entropy

В математическая статистика, то относительная энтропия (также называемый Дивергенция Кульбака – Лейблера ${ displaystyle D _ { text {KL}}}$ ) является мерой того, как распределение вероятностей отличается от второго эталонного распределения вероятностей.^[1]^[2] Приложения включают характеристику относительного (Шеннон) энтропия в информационных системах случайность в непрерывном Временные ряды, и получение информации при сравнении статистических моделей вывод. В отличие от изменение информации, это распределение асимметричный мера и, следовательно, не может считаться статистической метрика распространения - тоже не удовлетворяет неравенство треугольника. В простом случае относительная энтропия, равная 0, означает, что два рассматриваемых распределения идентичны. Говоря упрощенно, это мера неожиданности с разнообразными приложениями, такими как прикладная статистика, механика жидкости, нейробиология и машинное обучение.

Введение и контекст

Рассмотрим два распределения вероятностей ${ displaystyle P}$ и ${ displaystyle Q}$ . Обычно, ${ displaystyle P}$ представляет данные, наблюдения или точно измеренное распределение вероятностей. Распределение ${ displaystyle Q}$ представляет собой теорию, модель, описание или приближение ${ displaystyle P}$ . Дивергенция Кульбака-Лейблера затем интерпретируется как средняя разность количества битов, необходимых для кодирования выборок ${ displaystyle P}$ используя код, оптимизированный для ${ displaystyle Q}$ а не оптимизированный для ${ displaystyle P}$ .

Этимология

Относительная энтропия была введена Соломон Кульбак и Ричард Лейблер в 1951 году как направленное расхождение между двумя дистрибутивами; Кульбак предпочел термин информация о дискриминации.^[3] Расхождение обсуждается в книге Кульбака 1959 года: Теория информации и статистика.^[2]

Определение

За дискретные распределения вероятностей ${ displaystyle P}$ и ${ displaystyle Q}$ определены на том же вероятностное пространство, ${ displaystyle { mathcal {X}}}$ , относительная энтропия из ${ displaystyle Q}$ к ${ displaystyle P}$ определено^[4] быть

{ displaystyle D _ { text {KL}} (P parallel Q) = sum _ {x in { mathcal {X}}} P (x) log left ({ frac {P (x) } {Q (x)}} right).}

что эквивалентно

{ displaystyle D _ { text {KL}} (P parallel Q) = - sum _ {x in { mathcal {X}}} P (x) log left ({ frac {Q (x )} {P (x)}} right)}

Другими словами, это ожидание логарифмической разности вероятностей ${ displaystyle P}$ и ${ displaystyle Q}$ , где математическое ожидание берется с использованием вероятностей ${ displaystyle P}$ . Относительная энтропия определяется, только если для всех ${ displaystyle x}$ , ${ Displaystyle Q (х) = 0}$ подразумевает ${ Displaystyle P (x) = 0}$ (абсолютная непрерывность). В любое время ${ Displaystyle P (x)}$ равен нулю, вклад соответствующего члена интерпретируется как ноль, потому что

{ displaystyle lim _ {x to 0 ^ {+}} x log (x) = 0.}

Для дистрибутивов ${ displaystyle P}$ и ${ displaystyle Q}$ из непрерывная случайная величина, относительная энтропия определяется как интеграл:^[5]^{:п. 55}

{ displaystyle D _ { text {KL}} (P parallel Q) = int _ {- infty} ^ { infty} p (x) log left ({ frac {p (x)} { q (x)}} right) , dx}

куда ${ displaystyle p}$ и ${ displaystyle q}$ обозначить плотности вероятности из ${ displaystyle P}$ и ${ displaystyle Q}$ .

В более общем смысле, если ${ displaystyle P}$ и ${ displaystyle Q}$ вероятность меры над набором ${ displaystyle { mathcal {X}}}$ , и ${ displaystyle P}$ является абсолютно непрерывный относительно ${ displaystyle Q}$ , то относительная энтропия из ${ displaystyle Q}$ к ${ displaystyle P}$ определяется как

{ displaystyle D _ { text {KL}} (P parallel Q) = int _ { mathcal {X}} log left ({ frac {dP} {dQ}} right) , dP, }

куда ${ displaystyle { frac {dP} {dQ}}}$ это Производная Радона – Никодима из ${ displaystyle P}$ относительно ${ displaystyle Q}$ , и при условии, что выражение в правой части существует. Эквивалентно (по Правило цепи), это можно записать как

{ displaystyle D _ { text {KL}} (P parallel Q) = int _ { mathcal {X}} log left ({ frac {dP} {dQ}} right) { frac { dP} {dQ}} , dQ,}

какой энтропия из ${ displaystyle Q}$ относительно ${ displaystyle P}$ . Продолжая в этом случае, если ${ displaystyle mu}$ есть ли какая-либо мера на ${ displaystyle { mathcal {X}}}$ для которого ${ displaystyle p = { frac {dP} {d mu}}}$ и ${ displaystyle q = { frac {dQ} {d mu}}}$ существуют (это означает, что ${ displaystyle p}$ и ${ displaystyle q}$ абсолютно непрерывны относительно ${ displaystyle mu}$ ), то относительная энтропия из ${ displaystyle Q}$ к ${ displaystyle P}$ дается как

{ displaystyle D _ { text {KL}} (P parallel Q) = int _ { mathcal {X}} p log left ({ frac {p} {q}} right) , d mu.}

Логарифмы в этих формулах приняты равными основание 2, если информация измеряется в единицах биты, или к базе ${ displaystyle e}$ если информация измеряется в нац. Большинство формул относительной энтропии верны независимо от основания логарифма.

Существуют различные соглашения для обозначения ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ прописью. Часто это называют расхождением между ${ displaystyle P}$ и ${ displaystyle Q}$ , но это не передает фундаментальной асимметрии отношения. Иногда, как в этой статье, это может быть описано как расхождение ${ displaystyle P}$ из ${ displaystyle Q}$ или как расхождение из ${ displaystyle Q}$ к ${ displaystyle P}$ . Это отражает асимметрия в Байесовский вывод, который начинается из а прежний ${ displaystyle Q}$ и обновления к в задний ${ displaystyle P}$ . Еще один распространенный способ обозначить ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ как относительная энтропия ${ displaystyle P}$ относительно ${ displaystyle Q}$ .

Базовый пример

Кульбак^[2] дает следующий пример (Таблица 2.1, Пример 2.1). Позволять ${ displaystyle P}$ и ${ displaystyle Q}$ - распределения, показанные в таблице и на рисунке. ${ displaystyle P}$ - распределение в левой части рисунка, a биномиальное распределение с ${ Displaystyle N = 2}$ и ${ displaystyle p = 0,4}$ . ${ displaystyle Q}$ - это распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами ${ displaystyle x = 0}$ , ${ displaystyle 1}$ , или же ${ displaystyle 2}$ (т.е. ${ Displaystyle { mathcal {X}} = {0,1,2 }}$ ), каждая с вероятностью ${ displaystyle p = 1/3}$ .

Икс	0	1	2
Распределение п(Икс)	${ displaystyle 9/25}$	${ displaystyle 12/25}$	${ displaystyle 4/25}$
Распределение Q(Икс)	${ displaystyle 1/3}$	${ displaystyle 1/3}$	${ displaystyle 1/3}$

Относительные энтропии ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ и ${ Displaystyle D _ { текст {KL}} (Q параллельно P)}$ рассчитываются следующим образом. В этом примере используется натуральный журнал с базой е, назначенный ${ displaystyle operatorname {ln}}$ получить результаты в нац (видеть единицы информации).

{ displaystyle { begin {align} D _ { text {KL}} (P parallel Q) & = sum _ {x in { mathcal {X}}} P (x) ln left ({ frac {P (x)} {Q (x)}} right) & = { frac {9} {25}} ln left ({ frac {9/25} {1/3} } right) + { frac {12} {25}} ln left ({ frac {12/25} {1/3}} right) + { frac {4} {25}} ln left ({ frac {4/25} {1/3}} right) & = { frac {1} {25}} left (32 ln (2) +55 ln (3) -50 ln (5) right) приблизительно 0,0852996 end {align}}}

{ displaystyle { begin {align} D _ { text {KL}} (Q parallel P) & = sum _ {x in { mathcal {X}}} Q (x) ln left ({ frac {Q (x)} {P (x)}} right) & = { frac {1} {3}} ln left ({ frac {1/3} {9/25} } right) + { frac {1} {3}} ln left ({ frac {1/3} {12/25}} right) + { frac {1} {3}} ln left ({ frac {1/3} {4/25}} right) & = { frac {1} {3}} left (-4 ln (2) -6 ln (3 ) +6 ln (5) right) приблизительно 0,097455 end {align}}}

Интерпретации

Относительная энтропия от ${ displaystyle Q}$ к ${ displaystyle P}$ часто обозначается ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ .

В контексте машинное обучение, ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ часто называют получение информации достигнуто, если ${ displaystyle P}$ будет использоваться вместо ${ displaystyle Q}$ который в настоящее время используется. По аналогии с теорией информации он называется относительная энтропия из ${ displaystyle P}$ относительно ${ displaystyle Q}$ . В контексте теория кодирования, ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ можно построить, измерив ожидаемое количество дополнительных биты требуется, чтобы код образцы из ${ displaystyle P}$ используя код, оптимизированный для ${ displaystyle Q}$ а не код, оптимизированный для ${ displaystyle P}$ .

Выражено на языке Байесовский вывод, ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ является мерой информации, полученной путем пересмотра своих убеждений на основе априорное распределение вероятностей ${ displaystyle Q}$ к апостериорное распределение вероятностей ${ displaystyle P}$ . Другими словами, это количество информации, потерянной при ${ displaystyle Q}$ используется для приближения ${ displaystyle P}$ .^[6] В приложениях ${ displaystyle P}$ обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, в то время как ${ displaystyle Q}$ обычно представляет собой теорию, модель, описание или приближение из ${ displaystyle P}$ . Чтобы найти распространение ${ displaystyle Q}$ что ближе всего к ${ displaystyle P}$ , мы можем минимизировать расхождение KL и вычислить информационная проекция.

Относительная энтропия - это частный случай более широкого класса статистические расхождения называется ж-расхождения а также класс Расхождения Брегмана. Это единственное такое расхождение по вероятностям, которое принадлежит обоим классам. Хотя это часто интуитивно воспринимается как способ измерения расстояния между распределения вероятностей, расхождение Кульбака – Лейблера не является истинным метрика. Он не подчиняется Неравенство треугольника, и вообще ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ не равно ${ Displaystyle D _ { текст {KL}} (Q параллельно P)}$ . Однако его бесконечно малый форма, в частности Гессен, дает метрический тензор известный как Информационная метрика Fisher.

Артур Хобсон доказал, что относительная энтропия - это единственная мера разницы между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением для тех, которые встречаются в обычно используемых характеристика энтропии.^[7] Как следствие, взаимная информация является единственной мерой взаимозависимости, которая подчиняется определенным связанным условиям, поскольку может быть определена в терминах расходимости Кульбака – Лейблера.

Мотивация

Иллюстрация относительной энтропии для двух нормальные распределения. Хорошо видна типичная асимметрия.

В теории информации Теорема Крафт – Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения ${ displaystyle x_ {i}}$ из множества возможностей ${ displaystyle X}$ можно рассматривать как представление неявного распределения вероятностей ${ displaystyle q (x_ {i}) = 2 ^ {- ell _ {i}}}$ над ${ displaystyle X}$ , куда ${ displaystyle ell _ {i}}$ длина кода для ${ displaystyle x_ {i}}$ в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на данные, которые должны быть переданы, если код, оптимальный для данного (неправильного) распределения. ${ displaystyle Q}$ используется, по сравнению с использованием кода, основанного на истинном распределении ${ displaystyle P}$ .

{ displaystyle { begin {align} D _ { text {KL}} (P parallel Q) & = - sum _ {x in { mathcal {X}}} p (x) log q (x ) + sum _ {x in { mathcal {X}}} p (x) log p (x) & = mathrm {H} (P, Q) - mathrm {H} (P) конец {выровнено}}}

куда ${ Displaystyle mathrm {H} (P, Q)}$ это перекрестная энтропия из ${ displaystyle P}$ и ${ displaystyle Q}$ , и ${ Displaystyle mathrm {H} (P)}$ это энтропия из ${ displaystyle P}$ (что то же самое, что кросс-энтропия P с самим собой).

Относительная энтропия ${ Displaystyle KL (P параллельно Q)}$ можно рассматривать как нечто вроде измерения того, насколько далеко распределение Q от распределения P. Кросс-энтропия ${ Displaystyle H (P, Q)}$ сам по себе является таким измерением, но имеет тот недостаток, что ${ Displaystyle H (P, P) =: H (P)}$ не ноль, поэтому мы вычитаем ${ Displaystyle H (P)}$ сделать ${ Displaystyle KL (P параллельно Q)}$ более точно согласны с нашим понятием расстояния. (К сожалению, это все еще несимметрично.) Относительная энтропия относится к "функция оценки"в теории большие отклонения.^[8]^[9]

Характеристики

Относительная энтропия всегда неотрицательный,

{ Displaystyle D _ { текст {KL}} (P параллельно Q) geq 0,}

результат, известный как Неравенство Гиббса, с

{ Displaystyle D _ { текст {KL}} (P параллельно Q)}

нуль если и только если

{ Displaystyle P = Q}

почти всюду. Энтропия

{ Displaystyle mathrm {H} (P)}

таким образом, устанавливает минимальное значение для кросс-энтропии

{ Displaystyle mathrm {H} (P, Q)}

, то ожидал количество биты требуется при использовании кода на основе

{ displaystyle Q}

скорее, чем

{ displaystyle P}

; поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать, чтобы идентифицировать значение.

{ displaystyle x}

срисованный с

{ displaystyle X}

, если используется код, соответствующий распределению вероятностей

{ displaystyle Q}

, а не "истинное" распределение

{ displaystyle P}

.

Относительная энтропия остается хорошо определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразования параметров. Например, если преобразование выполняется из переменной ${ displaystyle x}$ изменять ${ Displaystyle у (х)}$ , то, поскольку ${ Displaystyle P (x) dx = P (y) dy}$ и ${ Displaystyle Q (x) dx = Q (y) dy}$ относительную энтропию можно переписать:

{ displaystyle { begin {align} D _ { text {KL}} (P parallel Q) & = int _ {x_ {a}} ^ {x_ {b}} P (x) log left ( { frac {P (x)} {Q (x)}} right) , dx [6pt] & = int _ {y_ {a}} ^ {y_ {b}} P (y) log left ({ frac {P (y) , { frac {dy} {dx}}} {Q (y) , { frac {dy} {dx}}}} right) , dy = int _ {y_ {a}} ^ {y_ {b}} P (y) log left ({ frac {P (y)} {Q (y)}} right) , dy end {выровнено}}}

куда

{ Displaystyle у_ {а} = у (х_ {а})}

и

{ displaystyle y_ {b} = y (x_ {b})}

. Хотя предполагалось, что преобразование было непрерывным, это не обязательно. Это также показывает, что относительная энтропия дает размерно согласованный количество, так как если

{ displaystyle x}

переменная с размерами,

{ Displaystyle P (x)}

и

{ Displaystyle Q (х)}

также имеют размеры, поскольку, например,

{ Displaystyle P (x) dx}

безразмерен. Аргумент логарифмического члена был и остается безразмерным, как и должно быть. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства в теории информации.^[10] (Такие как самоинформация или же Энтропия Шеннона), которые могут стать неопределенными или отрицательными для недискретных вероятностей.

Относительная энтропия добавка за независимые распределения во многом так же, как энтропия Шеннона. Если ${ displaystyle P_ {1}, P_ {2}}$ независимые распределения, с совместным распределением ${ Displaystyle P (x, y) = P_ {1} (x) P_ {2} (y)}$ , и ${ displaystyle Q, Q_ {1}, Q_ {2}}$ аналогично, тогда

{ displaystyle D _ { text {KL}} (P parallel Q) = D _ { text {KL}} (P_ {1} parallel Q_ {1}) + D _ { text {KL}} (P_ { 2} parallel Q_ {2}).}

Относительная энтропия ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ является выпуклый в паре вероятностные массовые функции ${ displaystyle (p, q)}$ , т.е. если ${ displaystyle (p_ {1}, q_ {1})}$ и ${ displaystyle (p_ {2}, q_ {2})}$ - две пары вероятностных массовых функций, то
${ displaystyle D _ { text {KL}} ( lambda p_ {1} + (1- lambda) p_ {2} parallel lambda q_ {1} + (1- lambda) q_ {2}) leq lambda D _ { text {KL}} (p_ {1} parallel q_ {1}) + (1- lambda) D _ { text {KL}} (p_ {2} parallel q_ {2}) { text {for}} 0 leq lambda leq 1.}$

Примеры

Многомерные нормальные распределения

Предположим, что у нас есть два многомерные нормальные распределения, со средствами ${ displaystyle mu _ {0}, mu _ {1}}$ и с (неособым) ковариационные матрицы ${ displaystyle Sigma _ {0}, Sigma _ {1}.}$ Если два распределения имеют одинаковую размерность, ${ displaystyle k}$ , то относительная энтропия между распределениями будет следующей:^[11]^{:п. 13}

{ displaystyle D _ { text {KL}} left ({ mathcal {N}} _ {0} parallel { mathcal {N}} _ {1} right) = { frac {1} {2 }} left ( operatorname {tr} left ( Sigma _ {1} ^ {- 1} Sigma _ {0} right) + left ( mu _ {1} - mu _ {0} right) ^ { mathsf {T}} Sigma _ {1} ^ {- 1} left ( mu _ {1} - mu _ {0} right) -k + ln left ({ frac { det Sigma _ {1}} { det Sigma _ {0}}} right) right).}

В логарифм в последнем сроке нужно принять за основу е поскольку все термины, кроме последнего, являются базовымие логарифмы выражений, которые либо являются множителями функции плотности, либо возникают естественным образом. Таким образом, уравнение дает результат, измеряемый в нац. Разделив все выражение выше на ${ Displaystyle ln (2)}$ дает расхождение в биты.

Особый случай и обычное количество в вариационный вывод, - относительная энтропия между диагональным многомерным нормальным и стандартным нормальным распределением (с нулевым средним и единичной дисперсией):

{ Displaystyle D _ { текст {KL}} left ({ mathcal {N}} left ( left ( mu _ {1}, ldots, mu _ {k} right) ^ { mathsf {T}}, operatorname {diag} left ( sigma _ {1} ^ {2}, ldots, sigma _ {k} ^ {2} right) right) parallel { mathcal {N }} left ( mathbf {0}, mathbf {I} right) right) = {1 over 2} sum _ {i = 1} ^ {k} left ( sigma _ {i} ^ {2} + mu _ {i} ^ {2} -1- ln left ( sigma _ {i} ^ {2} right) right).}

Отношение к метрикам

У кого-то может возникнуть соблазн назвать относительную энтропию "метрика расстояния"на пространстве вероятностных распределений, но это было бы неправильно, так как это не симметричный - то есть, ${ displaystyle D _ { text {KL}} (P parallel Q) neq D _ { text {KL}} (Q parallel P)}$ - и не удовлетворяет неравенство треугольника. Это порождает топология на пространстве распределения вероятностей. Более конкретно, если ${ Displaystyle {P_ {1}, P_ {2}, ldots }}$ последовательность распределений такая, что

{ displaystyle lim _ {n to infty} D _ { text {KL}} (P_ {n} parallel Q) = 0}

тогда говорят, что

{ displaystyle P_ {n} { xrightarrow {D}} Q.}

Неравенство Пинскера влечет за собой, что

{ displaystyle P_ {n} { xrightarrow {D}} P Rightarrow P_ {n} { xrightarrow {TV}} P,}

где последнее означает обычную сходимость в полное изменение.

Информационная метрика Fisher

Относительная энтропия напрямую связана с Информационная метрика Fisher. Это можно пояснить следующим образом. Предположим, что вероятностные распределения ${ displaystyle P}$ и ${ displaystyle Q}$ оба параметризованы некоторым (возможно, многомерным) параметром ${ displaystyle theta}$ . Рассмотрим тогда два близких значения ${ Displaystyle P = P ( theta)}$ и ${ Displaystyle Q = P ( theta _ {0})}$ так что параметр ${ displaystyle theta}$ незначительно отличается от значения параметра ${ displaystyle theta _ {0}}$ . В частности, до первого порядка (с помощью Соглашение о суммировании Эйнштейна)

{ Displaystyle P ( theta) = P ( theta _ {0}) + Delta theta _ {j} P_ {j} ( theta _ {0}) + cdots}

с ${ displaystyle Delta theta _ {j} = ( theta - theta _ {0}) _ {j}}$ небольшое изменение ${ displaystyle theta}$ в ${ displaystyle j}$ направление, и ${ displaystyle P_ {j} left ( theta _ {0} right) = { frac { partial P} { partial theta _ {j}}} ( theta _ {0})}$ соответствующая скорость изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 при ${ Displaystyle P = Q}$ , т.е. ${ displaystyle theta = theta _ {0}}$ , он меняется только на второй заказ в малых параметрах ${ displaystyle Delta theta _ {j}}$ . Более формально, как и для любого минимума, первые производные дивергенции обращаются в нуль

{ displaystyle left. { frac { partial} { partial theta _ {j}}} right | _ { theta = theta _ {0}} D _ { text {KL}} (P ( theta) parallel P ( theta _ {0})) = 0,}

и по Расширение Тейлора один имеет до второго порядка

{ Displaystyle D _ { текст {KL}} (P ( theta) parallel P ( theta _ {0})) = { frac {1} {2}} Delta theta _ {j} Delta theta _ {k} g_ {jk} ( theta _ {0}) + cdots}

где Матрица Гессе расхождения

{ displaystyle g_ {jk} ( theta _ {0}) = left. { frac { partial ^ {2}} { partial theta _ {j} , partial theta _ {k}} } right | _ { theta = theta _ {0}} D _ { text {KL}} (P ( theta) parallel P ( theta _ {0}))}

должно быть положительно полуопределенный. Сдача ${ displaystyle theta _ {0}}$ варьировать (и отбрасывать субиндекс 0) гессиан ${ displaystyle g_ {jk} ( theta)}$ определяет (возможно, вырожденный) Риманова метрика на $θ$ пространство параметров, называемое информационной метрикой Фишера.

Информационная метрическая теорема Фишера

Когда ${ Displaystyle р _ {(х, rho)}}$ удовлетворяет следующим условиям регулярности:

{ Displaystyle { tfrac { partial log (p)} { partial rho}}, { tfrac { partial ^ {2} log (p)} { partial rho ^ {2}}} , { tfrac { partial ^ {3} log (p)} { partial rho ^ {3}}}}

существовать,

{ displaystyle { begin {align} left | { frac { partial p} { partial rho}} right | &

куда $ξ$ не зависит от $ρ$

{ displaystyle left. int _ {x = 0} ^ { infty} { frac { partial p (x, rho)} { partial rho}} right | _ { rho = 0} , dx = left. int _ {x = 0} ^ { infty} { frac { partial ^ {2} p (x, rho)} { partial rho ^ {2}}} справа | _ { rho = 0} , dx = 0}

тогда:

{ displaystyle { mathcal {D}} (p (x, 0) parallel p (x, rho)) = { frac {c rho ^ {2}} {2}} + { mathcal {O }} left ( rho ^ {3} right) { text {as}} rho to 0.}

Вариация информации

Другой теоретико-информационной метрикой является Вариация информации, что примерно является симметризацией условная энтропия. Это метрика на множестве перегородки дискретного вероятностное пространство.

Отношение к другим количествам теории информации

Многие из других величин теории информации можно интерпретировать как приложения относительной энтропии к конкретным случаям.

Самоинформация

В самоинформация, также известный как информационное содержание сигнала, случайной величины или мероприятие определяется как отрицательный логарифм числа вероятность наступления данного исхода.

Применительно к дискретная случайная величина, самоинформация может быть представлена как^{[нужна цитата]}

{ displaystyle operatorname { operatorname {I}} (m) = D _ { text {KL}} left ( delta _ { text {im}} parallel {p_ {i} } right) ,}

- относительная энтропия распределения вероятностей ${ Displaystyle P (я)}$ из Дельта Кронекера представляя уверенность в том, что ${ Displaystyle я = м}$ - то есть количество дополнительных битов, которые необходимо передать для идентификации ${ displaystyle i}$ если бы только распределение вероятностей ${ Displaystyle P (я)}$ доступен приемнику, не факт, что ${ Displaystyle я = м}$ .

Взаимная информация

В взаимная информация,^{[нужна цитата]}

{ Displaystyle { begin {align} operatorname {I} (X; Y) & = D _ { text {KL}} (P (X, Y) parallel P (X) P (Y)) & = operatorname {E} _ {X} {D _ { text {KL}} (P (Y mid X) parallel P (Y)) } & = operatorname {E} _ {Y} {D _ { text {KL}} (P (X mid Y) parallel P (X)) } end {align}}}

относительная энтропия продукта ${ Displaystyle P (X) P (Y)}$ из двух предельная вероятность распределения из совместное распределение вероятностей ${ Displaystyle P (X, Y)}$ - т.е. ожидаемое количество дополнительных битов, которые необходимо передать для идентификации ${ displaystyle X}$ и ${ displaystyle Y}$ если они кодируются с использованием только их маржинальных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность ${ Displaystyle P (X, Y)}$ является известно, это ожидаемое количество дополнительных битов, которые в среднем должны быть отправлены для идентификации ${ displaystyle Y}$ если стоимость ${ displaystyle X}$ еще не известно получателю.

Энтропия Шеннона

В Энтропия Шеннона,^{[нужна цитата]}

{ displaystyle { begin {align} mathrm {H} (X) & = operatorname {E} left [ operatorname {I} _ {X} (x) right] & = log (N ) -D _ { text {KL}} left (p_ {X} (x) parallel P_ {U} (X) right) end {align}}}

это количество битов, которое необходимо передать для идентификации ${ displaystyle X}$ из ${ displaystyle N}$ равновероятные возможности, меньше относительная энтропия равномерного распределения на случайные вариации из ${ displaystyle X}$ , ${ Displaystyle P_ {U} (X)}$ , из истинного распределения ${ Displaystyle P (X)}$ - т.е. меньше ожидаемое количество сохраненных битов, которое нужно было бы отправить, если бы значение ${ displaystyle X}$ были закодированы по равномерному распределению ${ Displaystyle P_ {U} (X)}$ а не истинное распределение ${ Displaystyle P (X)}$ .

Условная энтропия

В условная энтропия^[12],^{[нужна цитата]}

{ displaystyle { begin {align} mathrm {H} (X mid Y) & = log (N) -D _ { text {KL}} (P (X, Y) parallel P_ {U} ( X) P (Y)) & = log (N) -D _ { text {KL}} (P (X, Y) parallel P (X) P (Y)) - D _ { text {KL }} (P (X) parallel P_ {U} (X)) & = mathrm {H} (X) - operatorname {I} (X; Y) & = log (N) - operatorname {E} _ {Y} left [D _ { text {KL}} left (P left (X mid Y right) parallel P_ {U} (X) right) right] конец {выровнен}}}

это количество битов, которые необходимо передать для идентификации ${ displaystyle X}$ из ${ displaystyle N}$ равновероятные возможности, меньше относительная энтропия распределения продукта ${ Displaystyle P_ {U} (X) P (Y)}$ от истинного совместного распределения ${ Displaystyle P (X, Y)}$ - т.е. меньше ожидаемое количество сохраненных битов, которое пришлось бы отправить, если бы значение ${ displaystyle X}$ были закодированы по равномерному распределению ${ Displaystyle P_ {U} (X)}$ а не условное распределение ${ Displaystyle P (X | Y)}$ из ${ displaystyle X}$ данный ${ displaystyle Y}$ .

Перекрестная энтропия

Когда у нас есть набор возможных событий, исходящих из раздачи $п$ , мы можем их закодировать (с сжатие данных без потерь) с помощью энтропийное кодирование. Это сжимает данные, заменяя каждый входной символ фиксированной длины на соответствующий уникальный, переменной длины, код без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) могут быть закодированы как биты (0, 10, 11)). Если мы знаем распределение $п$ заранее мы можем разработать оптимальную кодировку (например, используя Кодирование Хаффмана). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем самую короткую длину (при условии, что закодированные события выбираются из $п$ ), что будет равно Энтропия Шеннона из $п$ (обозначается как ${ displaystyle mathrm {H} (p)}$ ). Однако, если мы используем другое распределение вероятностей ( $q$ ) при создании схемы энтропийного кодирования, то большее количество биты будет использоваться (в среднем) для идентификации события из набора возможных. Это новое (большее) число измеряется перекрестная энтропия между $п$ и $q$ .

В перекрестная энтропия между двумя распределения вероятностей ( $п$ и $q$ ) измеряет среднее количество биты необходимо для идентификации события из набора возможностей, если схема кодирования используется на основе заданного распределения вероятностей $q$ , а не "истинное" распределение $п$ . Кросс-энтропия для двух распределений $п$ и $q$ над тем же вероятностное пространство таким образом определяется следующим образом:^{[нужна цитата]}

{ displaystyle mathrm {H} (p, q) = operatorname {E} _ {p} [- log (q)] = mathrm {H} (p) + D _ { text {KL}} ( p parallel q).}

В этом сценарии относительные энтропии можно интерпретировать как дополнительное количество битов, которое в среднем необходимо (сверх ${ displaystyle mathrm {H} (p)}$ ) для кодирования событий из-за использования $q$ для построения схемы кодирования вместо $п$ .

Байесовское обновление

В Байесовская статистикаотносительную энтропию можно использовать как меру получения информации при переходе от предварительное распространение к апостериорное распределение: ${ Displaystyle р (х) к р (х середина I)}$ . Если какой-то новый факт ${ displaystyle Y = y}$ обнаружен, его можно использовать для обновления апостериорного распределения для ${ displaystyle X}$ из ${ Displaystyle р (х середина I)}$ к новому апостериорному распределению ${ Displaystyle р (х середина у, я)}$ с помощью Теорема Байеса:

{ Displaystyle п (х середина у, I) = { гидроразрыва {п (у середина х, я) п (х середина I)} {р (у середина I)}}}

В этом дистрибутиве появился новый энтропия:

{ displaystyle mathrm {H} { big (} p (x mid y, I) { big)} = - sum _ {x} p (x mid y, I) log p (x середина y, I),}

которая может быть меньше или больше исходной энтропии ${ Displaystyle mathrm {H} (п (х середина I))}$ . Однако с точки зрения нового распределения вероятностей можно оценить, что использовался исходный код на основе ${ Displaystyle р (х середина I)}$ вместо нового кода на основе ${ Displaystyle р (х середина у, я)}$ добавил бы ожидаемое количество бит:

{ displaystyle D _ { text {KL}} { big (} p (x mid y, I) parallel p (x mid I) { big)} = sum _ {x} p (x mid y, I) log left ({ frac {p (x mid y, I)} {p (x mid I)}} right)}

к длине сообщения. Таким образом, это представляет собой количество полезной информации или получение информации о ${ displaystyle X}$ , что мы можем оценить, было изучено путем открытия ${ displaystyle Y = y}$ .

Если дополнительный фрагмент данных, ${ displaystyle Y_ {2} = y_ {2}}$ , затем входит распределение вероятностей для ${ displaystyle x}$ может быть обновлен, чтобы дать новое лучшее предположение ${ Displaystyle p (х середина y_ {1}, y_ {2}, I)}$ . Если заново исследовать получение информации для использования ${ Displaystyle p (х середина y_ {1}, I)}$ скорее, чем ${ Displaystyle р (х середина I)}$ , оказывается, что оно может быть больше или меньше, чем предполагалось ранее:

{ displaystyle sum _ {x} p (x mid y_ {1}, y_ {2}, I) log left ({ frac {p (x mid y_ {1}, y_ {2}), I)} {p (x mid I)}} right)}

может быть ≤ или> чем

{ displaystyle displaystyle sum _ {x} p (x mid y_ {1}, I) log left ({ frac {p (x mid y_ {1}, I)} {p (x середина I)}} right)}

и поэтому совокупный информационный выигрыш нет подчиняются неравенству треугольника:

{ displaystyle D _ { text {KL}} { big (} p (x mid y_ {1}, y_ {2}, I) parallel p (x mid I) { big)}}

может быть <, = или>, чем

{ displaystyle D _ { text {KL}} { big (} p (x mid y_ {1}, y_ {2}, I) parallel p (x mid y_ {1}, I) { big )} + D _ { text {KL}} { big (} p (x mid y_ {1}, I) parallel p (x mid I) { big)}}

Все, что можно сказать, это то, что на средний, усредняя с помощью ${ displaystyle p (y_ {2} mid y_ {1}, x, I)}$ , две стороны будут усреднены.

Байесовский экспериментальный дизайн

Общая цель в Байесовский экспериментальный дизайн состоит в том, чтобы максимизировать ожидаемую относительную энтропию между апостериорной и апостериорной.^[13] Когда апостериорные значения аппроксимируются как распределения Гаусса, проект, максимизирующий ожидаемую относительную энтропию, называется Байесовский d-оптимальный.

Информация о дискриминации

Относительная энтропия ${ textstyle D _ { текст {KL}} { bigl (} p (x mid H_ {1}) parallel p (x mid H_ {0}) { bigr)}}$ также можно интерпретировать как ожидаемое информация о дискриминации за ${ displaystyle H_ {1}}$ над ${ displaystyle H_ {0}}$ : средняя информация на выборку для различения в пользу гипотезы. ${ displaystyle H_ {1}}$ против гипотезы ${ displaystyle H_ {0}}$ , когда гипотеза ${ displaystyle H_ {1}}$ правда.^[14] Другое название этой величины, данное ей И. Дж. Хорошо, это ожидаемый масса доказательств за ${ displaystyle H_ {1}}$ над ${ displaystyle H_ {0}}$ следует ожидать от каждого образца.

Ожидаемый вес доказательств для ${ displaystyle H_ {1}}$ над ${ displaystyle H_ {0}}$ является нет такой же, как ожидаемый прирост информации о распределении вероятностей на выборку ${ displaystyle p (H)}$ гипотез,

{ displaystyle D _ { text {KL}} (p (x mid H_ {1}) parallel p (x mid H_ {0})) neq IG = D _ { text {KL}} (p ( H mid x) parallel p (H mid I)).}

Любую из двух величин можно использовать в качестве вспомогательная функция в байесовском дизайне эксперимента, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приведут к довольно разным экспериментальным стратегиям.

На шкале энтропии получение информации разница между почти достоверностью и абсолютной достоверностью очень мала - кодирование в соответствии с почти достоверностью почти не требует больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, на логит масштаб, подразумеваемый весом доказательств, разница между ними огромна - возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне), что, скажем, Гипотеза Римана правильно, по сравнению с уверенностью, что это правильно, потому что у человека есть математическое доказательство. Эти две разные шкалы функция потерь для неопределенности обе полезно, в зависимости от того, насколько хорошо каждый из них отражает конкретные обстоятельства рассматриваемой проблемы.

Принцип минимума дискриминационной информации

Идея относительной энтропии как информации для различения привела Кульбака к предложению принципа Минимальная информация о дискриминации (MDI): учитывая новые факты, новый дистрибутив ${ displaystyle f}$ следует выбрать такой, который так же трудно отличить от исходного распределения ${ displaystyle f_ {0}}$ по возможности; так что новые данные дают небольшой выигрыш в информации ${ displaystyle D _ { text {KL}} (е параллельно f_ {0})}$ насколько возможно.

Например, если у вас было предыдущее распределение ${ Displaystyle р (х, а)}$ над ${ displaystyle x}$ и ${ displaystyle a}$ , и впоследствии узнал истинное распределение ${ displaystyle a}$ был ${ Displaystyle и (а)}$ , то относительная энтропия между новым совместным распределением для ${ displaystyle x}$ и ${ displaystyle a}$ , ${ Displaystyle д (х середина а) и (а)}$ , а более раннее предварительное распределение будет:

{ displaystyle D _ { text {KL}} (q (x mid a) u (a) parallel p (x, a)) = operatorname {E} _ {u (a)} left {D_ { text {KL}} (q (x mid a) parallel p (x mid a)) right } + D _ { text {KL}} (u (a) parallel p (a)) ,}

т.е. сумма относительной энтропии ${ Displaystyle р (а)}$ предварительное распределение для ${ displaystyle a}$ из обновленного дистрибутива ${ Displaystyle и (а)}$ , плюс ожидаемое значение (с использованием распределения вероятностей ${ Displaystyle и (а)}$ ) относительной энтропии априорного условного распределения ${ Displaystyle р (х середина а)}$ из нового условного распределения ${ Displaystyle д (х середина а)}$ . (Обратите внимание, что часто более позднее ожидаемое значение называют условная относительная энтропия (или же условное расхождение Кульбака-Лейблера) и обозначается ${ Displaystyle D _ { текст {KL}} (д (х середина а) параллель р (х середина а))}$ ^[2]^[12]^{:п. 22}) Это минимизируется, если ${ Displaystyle д (х середина а) = п (х середина а)}$ за всю поддержку ${ Displaystyle и (а)}$ ; и отметим, что этот результат включает теорему Байеса, если новое распределение ${ Displaystyle и (а)}$ на самом деле δ-функция, представляющая уверенность в том, что ${ displaystyle a}$ имеет одно особое значение.

MDI можно рассматривать как расширение Лапласс Принцип недостаточной причины, а Принцип максимальной энтропии из E.T. Джейнс. В частности, это естественное распространение принципа максимальной энтропии с дискретных на непрерывные распределения, для которых энтропия Шеннона перестает быть столь полезной (см. дифференциальная энтропия), но относительная энтропия остается не менее актуальной.

В инженерной литературе ДИ иногда называют Принцип минимальной кросс-энтропии (MCE) или Minxent для краткости. Минимизация относительной энтропии от ${ displaystyle m}$ к ${ displaystyle p}$ относительно ${ displaystyle m}$ эквивалентно минимизации кросс-энтропии ${ displaystyle p}$ и ${ displaystyle m}$ , поскольку

{ displaystyle mathrm {H} (p, m) = mathrm {H} (p) + D _ { text {KL}} (p parallel m),}

что уместно, если кто-то пытается выбрать адекватное приближение к ${ displaystyle p}$ . Однако это так же часто нет задача, которую человек пытается решить. Вместо этого так же часто ${ displaystyle m}$ это некоторая фиксированная априорная мера, и ${ displaystyle p}$ который пытается оптимизировать, минимизируя ${ Displaystyle D _ { текст {KL}} (п параллельно м)}$ при условии некоторого ограничения. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как ${ Displaystyle D _ { текст {KL}} (п параллельно м)}$ , скорее, чем ${ Displaystyle mathrm {H} (п, м)}$ .

Отношение к доступной работе

График зависимости давления от объема доступной работы на моль газообразного аргона относительно окружающей среды, рассчитанный как

{ displaystyle T_ {o}}

умноженное на расхождение Кульбака – Лейблера.

Сюрпризы^[15] добавить, где вероятности умножаются. Сюрприз для вероятностного события ${ displaystyle p}$ определяется как ${ Displaystyle s = к пер (1 / р)}$ . Если ${ displaystyle k}$ является ${ displaystyle left {1,1 / ln 2,1.38 times 10 ^ {- 23} right }}$ тогда сюрприз в ${ displaystyle {}$ натс, биты или ${ Displaystyle J / K }}$ так что, например, есть ${ displaystyle N}$ кусочки сюрприза за то, что все "головы" ${ displaystyle N}$ монеты.

Наиболее вероятные состояния (например, для атомов в газе) выводятся путем максимизации средний сюрприз ${ displaystyle S}$ (энтропия) для заданного набора управляющих параметров (например, давления ${ displaystyle P}$ или объем ${ displaystyle V}$ ). Это сдерживало максимизация энтропии, оба классически^[16] и квантово-механически,^[17] сводит к минимуму Гиббс доступность в единицах энтропии^[18] ${ Displaystyle А экв -к пер (Z)}$ куда ${ displaystyle Z}$ ограниченная множественность или функция распределения.

Когда температура ${ displaystyle T}$ фиксирована, свободная энергия ( ${ displaystyle T times A}$ ) также минимизируется. Таким образом, если ${ displaystyle T, V}$ и количество молекул ${ displaystyle N}$ постоянны, Свободная энергия Гельмгольца ${ Displaystyle F Equiv U-TS}$ (куда ${ displaystyle U}$ это энергия) минимизируется по мере «уравновешивания» системы. Если ${ displaystyle T}$ и ${ displaystyle P}$ остаются постоянными (скажем, во время процессов в вашем теле), Свободная энергия Гиббса ${ Displaystyle G = U + PV-TS}$ вместо этого минимизируется. Изменение свободной энергии в этих условиях является мерой доступной работай это может быть сделано в процессе. Таким образом доступна работа для идеального газа при постоянной температуре. ${ displaystyle T_ {o}}$ и давление ${ displaystyle P_ {o}}$ является ${ Displaystyle W = Delta G = NkT_ {o} Theta (V / V_ {o})}$ куда ${ displaystyle V_ {o} = NkT_ {o} / P_ {o}}$ и ${ Displaystyle Theta (х) = х-1- пер х geq 0}$ (смотрите также Неравенство Гиббса).

В более общем смысле^[19] в работа доступна относительно некоторой окружающей среды получается путем умножения температуры окружающей среды ${ displaystyle T_ {o}}$ по относительной энтропии или чистый сюрприз ${ displaystyle Delta I geq 0,}$ определяется как среднее значение ${ Displaystyle к ln (п / п_ {о})}$ куда ${ displaystyle p_ {o}}$ это вероятность данного состояния при окружающих условиях. Например, доступная работа по уравновешиванию одноатомного идеального газа с окружающими значениями ${ displaystyle V_ {o}}$ и ${ displaystyle T_ {o}}$ таким образом ${ displaystyle W = T_ {o} Delta I}$ , где относительная энтропия

{ displaystyle Delta I = Nk left [ Theta left ({ frac {V} {V_ {o}}} right) + { frac {3} {2}} Theta left ({ frac {T} {T_ {o}}} right) right].}

Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, накладывают ограничения на преобразование горячего в холодное, как в пламенном кондиционировании воздуха или в устройстве без источника питания для преобразования кипящего - вода в ледяную воду обсуждается здесь.^[20] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации

За матрицы плотности ${ displaystyle P}$ и ${ displaystyle Q}$ на Гильбертово пространство, то квантовая относительная энтропия из ${ displaystyle Q}$ к ${ displaystyle P}$ определяется как

{ displaystyle D _ { text {KL}} (P parallel Q) = operatorname {Tr} (P ( log (P) - log (Q))).}

В квантовая информатика минимум ${ Displaystyle D _ { текст {KL}} (P параллельно Q)}$ по всем разделимым состояниям ${ displaystyle Q}$ также может использоваться как мера запутанность в состоянии ${ displaystyle P}$ .

Связь между моделями и реальностью

Подобно тому, как относительная энтропия «фактического из окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности из модели» также полезна, даже если единственные подсказки, которые у нас есть о реальности, - это некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (умноженное на температуру окружающей среды) количество доступная работа, в то время как в последнем случае он сообщает вам о сюрпризах, которые реальность уже приготовила, или, другими словами, сколько модели еще предстоит изучить.

Хотя этот инструмент для оценки моделей по сравнению с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистическая модель через Информационный критерий Акаике особенно хорошо описаны в статьях^[21] и книга^[22] Бернхэмом и Андерсоном. В двух словах, относительная энтропия реальности модели может быть оценена с точностью до постоянного аддитивного члена функцией отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратическое отклонение). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора моделей.

При попытке подогнать параметризованные модели к данным существуют различные оценщики, которые пытаются минимизировать относительную энтропию, например максимальная вероятность и максимальный интервал оценщики.^{[нужна цитата]}

Симметричное расхождение

Сами Кульбак и Лейблер фактически определили расхождение как:

{ displaystyle D _ { text {KL}} (P parallel Q) + D _ { text {KL}} (Q parallel P)}

которая симметрична и неотрицательна. Это количество иногда использовалось для выбор функции в классификация проблемы, где ${ displaystyle P}$ и ${ displaystyle Q}$ являются условными PDF-файлы объекта в двух разных классах. В банковской и финансовой отраслях эта величина называется индексом стабильности населения и используется для оценки распределительных сдвигов в характеристиках модели во времени.

Альтернатива дается через ${ displaystyle lambda}$ расхождение

{ displaystyle D _ { lambda} (P parallel Q) = lambda D _ { text {KL}} (P parallel lambda P + (1- lambda) Q) + (1- lambda) D _ { текст {KL}} (Q parallel lambda P + (1- lambda) Q),}

что можно интерпретировать как ожидаемое получение информации о ${ displaystyle X}$ от обнаружения того, какое распределение вероятностей ${ displaystyle X}$ взят из, ${ displaystyle P}$ или же ${ displaystyle Q}$ , если они в настоящее время имеют вероятности ${ displaystyle lambda}$ и ${ displaystyle 1- lambda}$ соответственно.^{[требуется разъяснение]}^{[нужна цитата]}

Значение ${ displaystyle lambda = 0,5}$ дает Расхождение Дженсена-Шеннона, определяется

{ displaystyle D _ { text {JS}} = { frac {1} {2}} D _ { text {KL}} (P parallel M) + { frac {1} {2}} D _ { текст {KL}} (Q parallel M)}

куда ${ displaystyle M}$ - среднее значение двух распределений,

{ displaystyle M = { frac {1} {2}} (P + Q).}

${ displaystyle D_ {JS}}$ может также интерпретироваться как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные распределения ${ displaystyle P}$ и ${ displaystyle Q}$ . Расхождение Дженсена – Шеннона, как и все ж-расхождения, есть локально пропорционально Информационная метрика Fisher. Это похоже на Метрика Хеллингера (в том смысле, что индуцирует такую же аффинную связность на статистическое многообразие).

Связь с другими вероятностно-дистанционными мерами

Есть много других важных мер вероятностное расстояние. Некоторые из них особенно связаны с относительной энтропией. Например:

В общее расстояние вариации, ${ displaystyle delta (p, q)}$ . Это связано с расхождением через Неравенство Пинскера: ${ displaystyle delta (P, Q) leq { sqrt {{ frac {1} {2}} D _ { text {KL}} (P parallel Q)}}}$
Семья Расхождения Реньи обобщить относительную энтропию. В зависимости от значения определенного параметра, ${ displaystyle alpha}$ можно вывести различные неравенства.

Другие известные меры расстояния включают Расстояние Хеллингера, пересечение гистограммы, Статистика хи-квадрат, расстояние квадратичной формы, расстояние совпадения, Расстояние Колмогорова – Смирнова, и расстояние землекопа.^[23]

Различие данных

Как только абсолютный энтропия служит теоретической основой для данные сжатие, относительный энтропия служит теоретической основой для данные различение - абсолютная энтропия набора данных в этом смысле является данными, необходимыми для его восстановления (минимальный сжатый размер), в то время как относительная энтропия целевого набора данных, заданного исходным набором данных, является данными, необходимыми для восстановления цель данный источник (минимальный размер пластырь).

Смотрите также

внешняя ссылка

[KullbackLeibler1951-1] Кульбак, С.; Лейблер, Р.А. (1951). «Об информации и достаточности». Анналы математической статистики. 22 (1): 79–86. Дои:10.1214 / aoms / 1177729694. JSTOR 2236703. МИСТЕР 0039968.

[Kullback1959-2] а ^б ^c ^d Кульбак, С. (1959), Теория информации и статистика, Джон Уайли и сыновья. Переиздано Dover Publications в 1968 г .; перепечатано в 1978 г .: ISBN 0-8446-5625-9.

[Kullback1987-3] Кульбак, С. (1987). «Письмо в редакцию. Расстояние Кульбака – Лейблера». Американский статистик. 41 (4): 340–341. Дои:10.1080/00031305.1987.10475510. JSTOR 2684769.

[MacKey2003-4] Маккей, Дэвид Дж. С. (2003). Теория информации, логический вывод и алгоритмы обучения (Первое изд.). Издательство Кембриджского университета. п. 34. ISBN 9780521642989.

[5] Епископ К. (2006). Распознавание образов и машинное обучение

[6] Burnham, K. P .; Андерсон, Д. Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Springer. п.51. ISBN 9780387953649.

[7] Хобсон, Артур (1971). Понятия статистической механики. Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.

[Sanov-8] Санов, И. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник. 42 (84): 11–44.

[Novak-9] Новак С.Ю. (2011), Экстремальные методы применения в финансах гл. 14,5 (Чепмен и Холл). ISBN 978-1-4398-3574-6.

[VerduLecture-10] См. Раздел «дифференциальная энтропия - 4» в Относительная энтропия видео-лекция Серхио Верду НИПС 2009

[11] Дучи Дж. "Выводы для линейной алгебры и оптимизации".

[CoverThomas-12] а ^б Обложка, Томас М .; Томас, Джой А. (1991), Элементы теории информации, Джон Уайли и сыновья

[13] Chaloner, K .; Вердинелли, И. (1995). «Байесовский экспериментальный план: обзор». Статистическая наука. 10 (3): 273–304. Дои:10.1214 / сс / 1177009939.

[14] Press, W.H .; Теукольский, С.А .; Vetterling, W.T .; Фланнери, Б. (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера». Числовые рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8.

[15] Майрон Трибус (1961), Термодинамика и термостатика (Д. Ван Ностранд, Нью-Йорк)

[16] Джейнс, Э. Т. (1957). «Теория информации и статистическая механика» (PDF). Физический обзор. 106 (4): 620–630. Bibcode:1957PhRv..106..620J. Дои:10.1103 / Physrev.106.620.

[17] Джейнс, Э. Т. (1957). «Теория информации и статистическая механика II» (PDF). Физический обзор. 108 (2): 171–190. Bibcode:1957PhRv..108..171J. Дои:10.1103 / Physrev.108.171.

[18] J.W. Гиббс (1873 г.), «Метод геометрического представления термодинамических свойств веществ с помощью поверхностей», перепечатанный в Собрание сочинений Дж. У. Гиббса, Том I Термодинамика, изд. В. Р. Лонгли и Р. Г. Ван Нейм (Нью-Йорк: Лонгманс, Грин, 1931 г.), сноска, стр. 52.

[19] Tribus, M .; Макирвайн, Э. К. (1971). «Энергия и информация». Scientific American. 224 (3): 179–186. Bibcode:1971SciAm.225c.179T. Дои:10.1038 / scientificamerican0971-179.

[20] Фраундорф, П. (2007). «Термические корни корреляционной сложности». Сложность. 13 (3): 18–26. arXiv:1103.2481. Bibcode:2008Cmplx..13c..18F. Дои:10.1002 / cplx.20195. S2CID 20794688. Архивировано из оригинал на 13.08.2011.

[21] Burnham, K.P .; Андерсон, Д. (2001). «Информация Кульбака – Лейблера как основа для убедительных выводов в экологических исследованиях». Исследования дикой природы. 28 (2): 111–119. Дои:10.1071 / WR99107.

[22] Бернем, К. П. и Андерсон Д. Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход, второе издание (Springer Science) ISBN 978-0-387-95364-9.

[earth-23] Rubner, Y .; Tomasi, C .; Гибас, Л. Дж. (2000). «Расстояние землекопа как показатель для поиска изображения». Международный журнал компьютерного зрения. 40 (2): 99–121. Дои:10.1023 / А: 1026543900054. S2CID 14106275.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Navigation