WikiDer > Иерархический процесс Дирихле

Hierarchical Dirichlet process

В статистика и машинное обучение, то иерархический процесс Дирихле (HDP) это непараметрический Байесовский подход к кластеризации сгруппированные данные.^[1]^[2] Он использует Процесс Дирихле для каждой группы данных с процессами Дирихле для всех групп, разделяющих базовое распределение, которое, в свою очередь, основано на процессе Дирихле. Этот метод позволяет группам обмениваться статистической силой посредством разделения кластеров между группами. Базовое распределение, полученное из процесса Дирихле, важно, потому что заимствования из процесса Дирихле представляют собой атомные вероятностные меры, и атомы будут присутствовать во всех процессах Дирихле на уровне группы. Поскольку каждый атом соответствует кластеру, кластеры являются общими для всех групп. Он был разработан Йи Уай Тех, Майкл И. Джордан, Мэтью Дж. Бил и Дэвид Блей и опубликованы в Журнал Американской статистической ассоциации в 2006 г.^[1] как формализация и обобщение бесконечная скрытая марковская модель опубликовано в 2002 г.^[3]

Модель

Это описание модели взято из.^[1] HDP - это модель сгруппированных данных. Это означает, что элементы данных входят в несколько отдельных групп. Например, в тематическая модель слова организованы в документы, при этом каждый документ состоит из пакета (группы) слов (элементов данных). Индексирование групп по ${ displaystyle j = 1, ... J}$ , предположим, что каждая группа состоит из элементов данных ${ displaystyle x_ {j1}, ... x_ {jn}}$ .

HDP параметризуется базовым распределением ${ displaystyle H}$ который управляет априорным распределением по элементам данных, а также рядом параметров концентрации, которые определяют априорное количество кластеров и степень совместного использования между группами. В ${ displaystyle j}$ -я группа связана со случайной вероятностной мерой ${ displaystyle G_ {j}}$ который имеет распределение, заданное процессом Дирихле:

{ displaystyle { begin {align} G_ {j} | G_ {0} & sim operatorname {DP} ( alpha _ {j}, G_ {0}) end {align}}}

где ${ displaystyle alpha _ {j}}$ - параметр концентрации, связанный с группой, и ${ displaystyle G_ {0}}$ - это базовое распределение, общее для всех групп. В свою очередь, общее базовое распределение - это распределенный процесс Дирихле:

{ displaystyle { begin {align} G_ {0} & sim operatorname {DP} ( alpha _ {0}, H) end {align}}}

с параметром концентрации ${ displaystyle alpha _ {0}}$ и базовое распределение ${ displaystyle H}$ . Наконец, чтобы связать процессы Дирихле с наблюдаемыми данными, каждый элемент данных ${ displaystyle x_ {ji}}$ связан со скрытым параметром ${ displaystyle theta _ {ji}}$ :

{ displaystyle { begin {align} theta _ {ji} | G_ {j} & sim G_ {j} x_ {ji} | theta _ {ji} & sim F ( theta _ {ji }) end {выровнены}}}

В первой строке указано, что каждый параметр имеет предварительное распределение, заданное следующим образом: ${ displaystyle G_ {j}}$ , а во второй строке указано, что каждый элемент данных имеет распределение ${ Displaystyle F ( theta _ {ji})}$ параметризованный соответствующим параметром. Результирующая модель выше называется моделью смеси HDP, где HDP относится к иерархически связанному набору процессов Дирихле, а модель смеси относится к тому, как процессы Дирихле связаны с элементами данных.

Чтобы понять, как HDP реализует модель кластеризации и как кластеры становятся общими для групп, вспомните, что заимствовано из Процесс Дирихле являются атомарными вероятностными мерами с вероятностью единица. Это означает, что общее базовое распределение ${ displaystyle G_ {0}}$ имеет форму, которую можно записать как:

{ displaystyle { begin {align} G_ {0} & = sum _ {k = 1} ^ { infty} pi _ {0k} delta _ { theta _ {k} ^ {*}} конец {выровнен}}}

где есть бесконечное количество атомов, ${ displaystyle theta _ {k} ^ {*}, k = 1,2, ...}$ , предполагая, что общее базовое распределение ${ displaystyle H}$ имеет бесконечную поддержку. Каждый атом связан с массой ${ displaystyle pi _ {0k}}$ . Массы должны суммироваться до одного, поскольку ${ displaystyle G_ {0}}$ - вероятностная мера. поскольку ${ displaystyle G_ {0}}$ сам является базовым распределением для групповых процессов Дирихле, каждый ${ displaystyle G_ {j}}$ будет иметь атомы, заданные атомами ${ displaystyle G_ {0}}$ , и само может быть записано в виде:

{ displaystyle { begin {align} G_ {j} & = sum _ {k = 1} ^ { infty} pi _ {jk} delta _ { theta _ {k} ^ {*}} конец {выровнен}}}

Таким образом, набор атомов является общим для всех групп, причем каждая группа имеет свои собственные групповые атомные массы. Связывая это представление с наблюдаемыми данными, мы видим, что каждый элемент данных описывается смешанной моделью:

{ displaystyle { begin {align} x_ {ji} | G_ {j} & sim sum _ {k = 1} ^ { infty} pi _ {jk} F ( theta _ {k} ^ { *}) конец {выровнено}}}

где атомы ${ displaystyle theta _ {k} ^ {*}}$ играют роль параметров компонентов смеси, а массы ${ displaystyle pi _ {jk}}$ играют роль пропорции смешивания. В заключение, каждая группа данных моделируется с использованием модели смеси, при этом компоненты смеси используются во всех группах, но пропорции смешивания зависят от группы. В терминах кластеризации мы можем интерпретировать каждый компонент смеси как моделирование кластера элементов данных с кластерами, общими для всех групп, и каждой группой, имеющей свои собственные пропорции смешивания, состоящей из различных комбинаций кластеров.

Приложения

Модель смеси HDP является естественным непараметрическим обобщением Скрытое размещение Дирихле, где количество тем может быть неограниченным и изучаться на основе данных.^[1] Здесь каждая группа - это документ, состоящий из набора слов, каждый кластер - это тема, а каждый документ - смесь тем. HDP также является основным компонентом бесконечная скрытая марковская модель,^[3] которое является непараметрическим обобщением скрытая марковская модель позволяя количеству состояний быть неограниченным и извлекаться из данных.^[1] ^[4]

Обобщения

HDP можно обобщить по нескольким направлениям. Процессы Дирихле можно заменить на Процессы Питмана-Йорка и Гамма-процессы, в результате чего Иерархический процесс Питмана-Йорка и процесс иерархической гаммы. Иерархия может быть более глубокой, с несколькими уровнями групп, организованными в иерархию. Такое расположение использовалось в мемоизатор последовательности, байесовская непараметрическая модель для последовательностей, которая имеет многоуровневую иерархию процессов Питмана-Йорка. Кроме того, модель байесовского многодоменного обучения (BMDL) выводит зависящие от домена скрытые представления сверхдисперсных данных подсчета на основе иерархической отрицательной биномиальной факторизации для точного выделения подтипов рака, даже если количество образцов для конкретного типа рака невелико.^[5]

Смотрите также

Китайский ресторанный процесс

использованная литература

Scholia имеет тема профиль для Иерархический процесс Дирихле.

^ ^а ^б ^c ^d ^е Teh, Y. W .; Jordan, M. I .; Бил, М. Дж .; Блей, Д. М. (2006). «Иерархические процессы Дирихле» (PDF). Журнал Американской статистической ассоциации. 101 (476): стр. 1566–1581. CiteSeerX 10.1.1.5.9094. Дои:10.1198/016214506000000302.
^ Teh, Y. W .; Джордан, М. И. (2010). Иерархические байесовские непараметрические модели с приложениями (PDF). Байесовские непараметрики. Издательство Кембриджского университета. С. 158–207. CiteSeerX 10.1.1.157.9451. Дои:10.1017 / CBO9780511802478.006. ISBN 9780511802478.
^ ^а ^б Бил М.Дж., Гахрамани З. и Расмуссен С.Е. (2002). «Бесконечная скрытая марковская модель» (PDF). Достижения в системах обработки нейронной информации 14: 577–585. Кембридж, Массачусетс: MIT Press.
^ Фокс, Эмили Б. и др. «Липкий HDP-HMM с приложением для записи в дневник оратора». Анналы прикладной статистики (2011): 1020-1056.
^ Хаджирамезанали, Э., Даданех, С. З., Кербалайгара, А., Чжоу, З., Цянь, X. «Байесовское мультидоменное обучение для обнаружения подтипа рака на основе данных секвенирования следующего поколения» (PDF). 32-я конференция по системам обработки нейронной информации (NIPS 2018), Монреаль, Канада.

[teh2006-1] а ^б ^c ^d ^е Teh, Y. W .; Jordan, M. I .; Бил, М. Дж .; Блей, Д. М. (2006). «Иерархические процессы Дирихле» (PDF). Журнал Американской статистической ассоциации. 101 (476): стр. 1566–1581. CiteSeerX 10.1.1.5.9094. Дои:10.1198/016214506000000302.

[tehjor2010-2] Teh, Y. W .; Джордан, М. И. (2010). Иерархические байесовские непараметрические модели с приложениями (PDF). Байесовские непараметрики. Издательство Кембриджского университета. С. 158–207. CiteSeerX 10.1.1.157.9451. Дои:10.1017 / CBO9780511802478.006. ISBN 9780511802478.

[beal2002-3] а ^б Бил М.Дж., Гахрамани З. и Расмуссен С.Е. (2002). «Бесконечная скрытая марковская модель» (PDF). Достижения в системах обработки нейронной информации 14: 577–585. Кембридж, Массачусетс: MIT Press.

[fox2011-4] Фокс, Эмили Б. и др. «Липкий HDP-HMM с приложением для записи в дневник оратора». Анналы прикладной статистики (2011): 1020-1056.

[:bmdl-5] Хаджирамезанали, Э., Даданех, С. З., Кербалайгара, А., Чжоу, З., Цянь, X. «Байесовское мультидоменное обучение для обнаружения подтипа рака на основе данных секвенирования следующего поколения» (PDF). 32-я конференция по системам обработки нейронной информации (NIPS 2018), Монреаль, Канада.

[1]

[2]

[3]

[4]

[5]

Navigation