WikiDer > SimRank
SimRank генерал мера сходства, основанный на простой и интуитивно понятной теоретико-графическая модель.SimRank применим в любом домен с объектом к объекту отношения, который измеряет сходство структурного контекста, в котором встречаются объекты, на основе их отношений с другими объектами. Фактически, SimRank - это мера, которая говорит: «два объекта считаются похожими, если на них ссылаются похожие объекты. "Хотя SimRank широко применяется, он может выдавать необоснованные оценки сходства, на которые влияют разные факторы, и может быть решен несколькими способами, такими как введение весового коэффициента доказательств,[1] вставка дополнительных условий, которые игнорируются SimRank[2] или используя альтернативы, основанные на PageRank.[3]
Вступление
Много Приложения требуют меры "сходства" между объектами. Очевидным примером является запрос "найти похожий документ" в традиционных текстовых корпусах или Всемирная паутина.В общем, мера сходства можно использовать для объекты кластера, например, для совместная фильтрация в рекомендательная система, в котором «похожие» пользователи и элементы сгруппированы на основе предпочтений пользователей.
Для определения сходства могут использоваться различные аспекты объектов, обычно в зависимости от домена и соответствующего определения подобия для этого домена. корпус документовможет использоваться соответствующий текст, а для совместной фильтрации похожие пользователи могут быть идентифицированы по общим предпочтениям. SimRank - это общий подход, который использует отношения объект-объект, обнаруженные во многих интересующих областях. Интернет, например, две страницы связаны, если есть гиперссылки Подобный подход может быть применен к научным статьям и их цитатам или к любому другому корпусу документов с Перекрестная ссылка В случае рекомендательных систем предпочтения пользователя в отношении элемента представляют собой отношения между пользователем и элементом. Такие домены естественно моделируются как графики, с узлы представляющие объекты и края представляющие отношения.
Интуиция, лежащая в основе алгоритма SimRank, заключается в том, что во многих областях на похожие объекты ссылаются похожие объекты.Точнее, объекты и считаются подобными, если на них указывают предметы и соответственно и и сами похожи. базовый вариант заключается в том, что предметы максимально похожи на самих себя.[4]
Важно отметить, что SimRank - это общий алгоритм, который определяет только сходство структурного контекста. SimRank применяется к любому домену, в котором существует достаточно релевантных отношений между объектами, чтобы основывать хотя бы некоторое представление о сходстве на отношениях. Очевидно, сходство другого домена. -также важны конкретные аспекты; они могут - и должны сочетаться с реляционным структурно-контекстным сходством для общей меры сходства. веб-страница SimRank можно комбинировать с традиционным текстовым подобием; та же идея применима к научным статьям или другим корпусам документов. Для рекомендательных систем могут быть встроены известные сходства между предметами (например, оба компьютера, одежда и т. д.), а также сходство между пользователями (например, одного пола , тот же уровень расходов). Опять же, эти сходства можно объединить с оценками сходства, которые вычисляются на основе моделей предпочтений, чтобы получить общую меру сходства.
Базовое уравнение SimRank
Для узла в ориентированном графе обозначим через и набор внутренних и внешних соседей , соответственно. Отдельные ближайшие соседи обозначаются как , за , а отдельные внешние соседи обозначаются как , за .
Обозначим сходство между объектами и к . Следуя предыдущей мотивации, рекурсивное уравнение записывается для .Если тогда определяется как .Иначе,
куда константа между и Небольшая техническая деталь заключается в том, что либо или же не может иметь никаких соседей, поскольку нет никакого способа сделать вывод о каком-либо сходстве между и в этом случае подобие установлено на , поэтому суммирование в приведенном выше уравнении определяется как когда или же .
Матричное представление SimRank
Позволять - матрица подобия, элемент которой обозначает оценку сходства , и - нормализованная по столбцам матрица смежности, запись которой если есть край от к , и 0 в противном случае. Тогда в матричных обозначениях SimRank можно сформулировать как
куда является единичной матрицей.
Вычисление SimRank
Решение уравнений SimRank для графа можно добраться по итерация к фиксированная точка.Позволять быть количеством узлов в .Для каждой итерации , мы можем оставить записи , куда ставит оценку между и на итерации .Мы последовательно вычисляем на основе . Начнем с где каждый это нижняя граница фактического балла SimRank :
Вычислить из , мы используем базовое уравнение SimRank, чтобы получить:
за , и за То есть на каждой итерации , обновляем подобие используя оценки сходства соседей из предыдущей итерации в соответствии с основным уравнением SimRank. находятся неубывающий в качестве увеличивается. [4] что ценности сходиться к пределы удовлетворяя основному уравнению SimRank, SimRank оценивает , т.е. для всех , .
Первоначальное предложение SimRank предлагало выбрать коэффициент распада и фиксированный номер итераций для выполнения. Однако недавние исследования [5] показали, что данные значения для и обычно подразумевают относительно низкие точность итеративно вычисленных оценок SimRank. Для обеспечения более точных результатов вычислений в последней статье предлагается либо использовать меньший коэффициент затухания (в частности, ) или сделать больше итераций.
CoSimRank
CoSimRank - это вариант SimRank с тем преимуществом, что он также имеет локальную формулировку, то есть CoSimRank может быть вычислен для одной пары узлов.[6] Позволять - матрица подобия, элемент которой обозначает оценку сходства , и - матрица смежности, нормализованная по столбцам. Тогда в матричных обозначениях CoSimRank можно сформулировать как:
куда является единичной матрицей. Чтобы вычислить оценку подобия только одной пары узлов, пусть , с вектор стандартного базиса, т. е. -я запись равна 1, а все остальные записи равны 0. Затем CoSimRank можно вычислить в два этапа:
На первом этапе можно увидеть упрощенную версию Personalized PageRank. Второй шаг суммирует векторное подобие каждой итерации. И матрица, и локальное представление вычисляют одинаковую оценку сходства. CoSimRank также можно использовать для вычисления сходства наборов узлов путем изменения .
Дальнейшие исследования SimRank
- Фогарас и Рач [7] предложил ускорить вычисление SimRank за счет вероятностный вычисление с использованием Метод Монте-Карло.
- Антонеллис и др.[8] расширенные уравнения SimRank, чтобы принять во внимание (i) фактор доказательства для узлы инцидентов и (ii) веса звеньев.
- Yu et al.[9] дальнейшее улучшенное вычисление SimRank с помощью мелкозернистой мемоизация метод разделения мелких общих частей на разные частичные суммы.
- Чен и Джайлз обсудили ограничения и правильные варианты использования SimRank.[3]
Запоминание частичных сумм
Лизоркин и др.[5] предложил три метода оптимизации для ускорения вычисления SimRank:
- Выбор основных узлов может исключить вычисление части пар узлов с априори нулевыми оценками.
- Запоминание частичных сумм может эффективно сократить повторные вычисления сходства между различными парами узлов путем кэширования части суммирования сходства для последующего повторного использования.
- Установка порогового значения подобия позволяет еще больше сократить количество пар узлов, которые необходимо вычислить.
В частности, второе наблюдение запоминания частичных сумм играет первостепенную роль в значительном ускорении вычисления SimRank из к , куда - количество итераций, - средняя степень графа, а количество узлов в графе. Центральная идея запоминания частичных сумм состоит из двух этапов:
Во-первых, частичные суммы свыше запоминаются как
а потом итеративно вычисляется из в качестве
Следовательно, результаты , , можно будет повторно использовать позже, когда мы вычислим сходства для данной вершины как первый аргумент.
Смотрите также
Цитаты
- ^ И. Антонеллис, Х. Гарсия-Молина и К.-К. Чанг. Simrank ++: перезапись запроса через анализ ссылок на графике кликов. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 408-421. [1]
- ^ W. Yu, X. Lin, W. Zhang, L. Chang и J. Pei. Еще проще: эффективная и действенная оценка сходства пар узлов на основе гиперссылок. В VLDB '13: Материалы 39-й Международной конференции по очень большим базам данных, страницы 13-24. [2]
- ^ а б Х. Чен и К. Л. Джайлз. «ASCOS ++: асимметричная мера подобия для взвешенных сетей для решения проблемы SimRank». Транзакции ACM при обнаружении знаний из данных (TKDD) 10.2 2015 г.[3]
- ^ а б Дж. Дже и Дж. Видом. SimRank: мера структурно-контекстного сходства. В KDD'02: Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, страницы 538-543. ACM Press, 2002. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2008-05-12. Получено 2008-10-02.CS1 maint: заархивированная копия как заголовок (связь)
- ^ а б Д. Лизоркин, П. Велихов, М. Гринев, Д. Турдаков. Оценка точности и методы оптимизации для вычисления SimRank. В VLDB '08: Материалы 34-й Международной конференции по очень большим базам данных, страницы 422-433. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2009-04-07. Получено 2008-10-25.CS1 maint: заархивированная копия как заголовок (связь)
- ^ С. Роте и Х. Шютце. CoSimRank: гибкая и эффективная мера подобия на основе теории графов. В ACL '14: Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 1392-1402. [4]
- ^ Д. Фогарас и Б. Рач. Масштабирование поиска сходства на основе ссылок. В WWW '05: Материалы 14-й международной конференции по World Wide Web, страницы 641-650, Нью-Йорк, Нью-Йорк, США, 2005. ACM. [5]
- ^ Антонеллис, Иоаннис, Гектор Гарсия Молина и Чи Чао Чанг. «Simrank ++: переписывание запросов посредством анализа ссылок на графике кликов». Труды VLDB Endowment 1.1 (2008): 408-421. arXiv:0712.0499
- ^ W. Yu, X. Lin, W. Zhang. На пути к эффективному вычислению SimRank в больших сетях. В ICDE '13: Материалы 29-й Международной конференции IEEE по инженерии данных, страницы 601-612. «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2014-05-12. Получено 2014-05-09.CS1 maint: заархивированная копия как заголовок (связь)
Источники
- Cai, Y .; Cong, G .; Цзя, X .; Liu, H .; He, J .; Lu, J .; Ду, X. (2009-12-01). «Эффективный алгоритм для вычисления сходства на основе каналов в реальных сетях». 2009 Девятая Международная конференция IEEE по интеллектуальному анализу данных: 734–739. Дои:10.1109 / ICDM.2009.136. ISBN 978-1-4244-5242-2.