WikiDer > SimHash

SimHash

В Информатика, SimHash это метод для быстрой оценки того, насколько похожий два комплекта есть. В алгоритм используется Google Гусеничный трактор найти рядом повторяющиеся страницы. Он был создан Моисей Чарикар.

Оценка и контрольные показатели

Крупномасштабная оценка была проведена Google в 2006 г.^[1] сравнивать производительность Минхаш и Симхаш^[2] алгоритмы. В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании веб-страниц.^[3] и используя Minhash и LSH за Новости Google персонализация.^[4]

Смотрите также

Рекомендации

^ Хенцингер, Моника (2006), "Поиск почти дублирующихся веб-страниц: широкомасштабная оценка алгоритмов", Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, п. 284, г. Дои:10.1145/1148170.1148222, ISBN 978-1595933690.
^ Чарикар, Моисей С. (2002), "Методы оценки подобия на основе алгоритмов округления", Материалы 34-го ежегодного симпозиума ACM по теории вычислений, п. 380, Дои:10.1145/509907.509965, ISBN 978-1581134957.
^ Гурмит Сингх, Манку; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов для сканирования Интернета», Материалы 16-й Международной конференции по всемирной паутине (PDF), п. 141, Дои:10.1145/1242572.1242592, ISBN 9781595936547.
^ Das, Abhinandan S .; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и другие. (2007), "Персонализация новостей Google: масштабируемая совместная фильтрация в Интернете", Материалы 16-й Международной конференции по всемирной паутине, п. 271, Дои:10.1145/1242572.1242610, ISBN 9781595936547.

внешняя ссылка

[1] Хенцингер, Моника (2006), "Поиск почти дублирующихся веб-страниц: широкомасштабная оценка алгоритмов", Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, п. 284, г. Дои:10.1145/1148170.1148222, ISBN 978-1595933690.

[2] Чарикар, Моисей С. (2002), "Методы оценки подобия на основе алгоритмов округления", Материалы 34-го ежегодного симпозиума ACM по теории вычислений, п. 380, Дои:10.1145/509907.509965, ISBN 978-1581134957.

[3] Гурмит Сингх, Манку; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов для сканирования Интернета», Материалы 16-й Международной конференции по всемирной паутине (PDF), п. 141, Дои:10.1145/1242572.1242592, ISBN 9781595936547.

[4] Das, Abhinandan S .; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и другие. (2007), "Персонализация новостей Google: масштабируемая совместная фильтрация в Интернете", Материалы 16-й Международной конференции по всемирной паутине, п. 271, Дои:10.1145/1242572.1242610, ISBN 9781595936547.

[1]

[2]

[3]

[4]

Navigation