WikiDer > Общая архитектура для текстовой инженерии

General Architecture for Text Engineering
ВОРОТА
Главное окно GATE Developer v5
Главное окно GATE Developer v5
Разработчики)Исследовательская группа GATE, Кафедра компьютерных наук, Шеффилдский университет
изначальный выпуск1995; 25 лет назад (1995)
Стабильный выпуск8.6 (10 июня 2019 г.; 17 месяцев назад (2019-06-10)) [±]
Предварительный выпуск8.5 (28 ноября 2020 г. (ночные сборки выпускаются каждый день)) [±]
Репозиторий Отредактируйте это в Викиданных
Написано вЯва
Операционная системаКроссплатформенность
Доступно ванглийский
ТипТекстовый анализ Извлечение информации
ЛицензияLGPL
Интернет сайтворота.ac.Великобритания

Общая архитектура для текстовой инженерии или же ВОРОТА это Ява набор инструментов, изначально разработанный в Университет Шеффилда начиная с 1995 года и сейчас используется во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих обработка естественного языка задачи, в том числе извлечение информации на многих языках.[1]

GATE сравнивают с НЛТК, р и RapidMiner.[2] Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM.[3]

Сообщество GATE и исследователи принимали участие в нескольких европейских исследовательских проектах, включая ТАО, SEKT, NeOn, Медиа-Кампания, Musing, Сервис-Finder, ЛИРИКИ и KnowledgeWeb, а также многие другие проекты.

По состоянию на 28 мая 2011 года 881 человек находится в списке рассылки геймеров на SourceForge.net и 111932 загрузок с SourceForge записываются с момента переезда проекта на SourceForge в 2005 году.[4] Статья «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП»[5] получил более 800 ссылок за семь лет с момента публикации (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE,[6] включают "Создание поисковых приложений: Lucene, LingPipe и Gate" Ману Кончади,[7] и «Введение в лингвистическую аннотацию и текстовую аналитику» Грэма Уилкока.[8]

Функции

GATE включает извлечение информации система называется ЭННИ (Почти новая система извлечения информации), который представляет собой набор модулей, состоящий из токенизатор, а географический справочник, а разделитель предложений, а часть речевого теггера, а названные объекты преобразователь и Coreference tagger. ANNIE можно использовать как есть для обеспечения основных извлечение информации функциональность, или предоставить отправную точку для более конкретных задач.

В настоящее время GATE поддерживает следующие языки: английский, Китайский, арабский, болгарский, Французский, Немецкий, хинди, Итальянский, Себуано, румынский, русский, Датский.

Плагины включены для машинное обучение с Weka, RASP, MAXENT, SVM Light, а также LIBSVM интеграция и собственный перцептрон реализация, для управления онтологии подобно WordNet, для запроса поисковые системы подобно Google или же Yahoo, за часть тегов речи с Brill или TreeTagger и многое другое. Также доступны многие внешние плагины для обработки, например твиты.[9]

GATE принимает ввод в различных форматах, таких как текст, HTML, XML, Док, PDF документы и Последовательный порт Java, PostgreSQL, Lucene, Oracle Базы данных с помощью СУБД хранение более JDBC.

JAPE преобразователи используются в GATE для управления аннотациями к тексту. Документация представлена ​​в Руководстве пользователя GATE.[10] Учебное пособие также было написано Press Association Images.[11]

GATE Разработчик

Главное окно GATE 5.

На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок из HTML файл. Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.

ВОРОТА Мимир

GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL.

Смотрите также

Рекомендации

  1. ^ Языки, упомянутые на http://gate.ac.uk/gate/plugins/ включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский языки.
  2. ^ «Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK». Получено 17 декабря 2016.
  3. ^ Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «KIM - семантическая платформа для извлечения и поиска информации». Инженерия естественного языка. 10 (3–4): 375–392. Дои:10.1017 / S135132490400347X. Получено 17 декабря 2016 - через Cambridge Core.
  4. ^ "ВОРОТА". Получено 17 декабря 2016.
  5. ^ «GATE: среда разработки и графическая среда для надежных инструментов и приложений НЛП», Каннингема Х., Мейнард Д., Бончева К., Таблан В. (Материалы 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002 г.)
  6. ^ "GATE.ac.uk - продажа / tao / split.html". Получено 17 декабря 2016.
  7. ^ Кончады, Ману. Создание приложений для поиска: Lucene, LingPipe и Gate. Издательство Мустру. 2008 г.
  8. ^ Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику. Издательство Morgan & Claypool. ISBN 9781598297386. Получено 17 декабря 2016 - через Google Книги.
  9. ^ "GATE.ac.uk - wiki / twitie.html". Получено 17 декабря 2016.
  10. ^ "GATE.ac.uk - продажа / tao / splitch8.html". Получено 17 декабря 2016.
  11. ^ Таккер, Дхавалкумар (17 июля 2009 г.). "Реализация семантической паутины: учебник по грамматике JAPE". Получено 17 декабря 2016.

внешняя ссылка