WikiDer > История обработки естественного языка
В история обработки естественного языка описывает достижения обработка естественного языка (Схема обработки естественного языка). Есть некоторое совпадение с история машинного перевода, то история распознавания речи, а история искусственного интеллекта.
Исследования и разработки
История машинного перевода восходит к семнадцатому веку, когда такие философы, как Лейбниц и Декарт выдвинули предложения по кодам, которые связывали бы слова между языками. Все эти предложения оставались теоретическими, и ни одно из них не привело к созданию реальной машины.
Первые патенты на «переводческие машины» были поданы в середине 1930-х годов. Одно предложение от Жорж Арцруни был просто автоматическим двуязычным словарем, использующим бумажная лента. Другое предложение Петр Троянский, а русский, поподробнее. Он включал в себя как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на эсперанто.
В 1950 г. Алан Тьюринг опубликовал свою знаменитую статью »Вычислительная техника и интеллект"который предложил то, что сейчас называется Тест Тьюринга как критерий интеллекта. Этот критерий зависит от способности компьютерной программы выдавать себя за человека в письменной беседе в реальном времени с судьей-человеком, достаточно хорошо, чтобы судья не мог надежно провести различие - на основе одного разговорного содержания - между программой и настоящий человек.
В 1957 г. Ноам ХомскийС Синтаксические структуры произвел революцию в лингвистике с 'универсальная грамматика', основанная на правилах система синтаксических структур.[1]
В Джорджтаунский эксперимент в 1954 г. задействован полностью автоматический перевод более шестидесяти русских предложений на английский язык. Авторы утверждали, что в течение трех-пяти лет машинный перевод станет решенной проблемой.[2] Однако реальный прогресс был гораздо медленнее, и после Отчет ALPAC в 1966 году, когда было обнаружено, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода резко сократилось. Небольшие дальнейшие исследования в области машинного перевода проводились до конца 1980-х годов, когда первые статистический машинный перевод системы были разработаны.
Некоторые особенно успешные системы НЛП, разработанные в 1960-х годах, были ШРДЛУ, система естественного языка, работающая в ограниченном "блокирует миры"с ограниченным словарным запасом.
В 1969 г. Роджер Шэнк представил концептуальная теория зависимости для понимания естественного языка.[3] На эту модель частично повлияла работа Сидней Лэмб, широко использовалась учениками Шенка в Йельский университет, таких как Роберт Виленски, Венди Ленерт и Джанет Колоднер.
В 1970 году Уильям А. Вудс представил расширенная переходная сеть (ATN) для представления ввода на естественном языке.[4] Вместо правила структуры фраз ATN использовали эквивалентный набор конечные автоматы которые были вызваны рекурсивно. ATN и их более общий формат, называемый «обобщенные ATN», продолжали использоваться в течение ряда лет. В 1970-х годах многие программисты начали писать «концептуальные онтологии», которые структурировали реальную информацию в понятные компьютеру данные. Примеры: MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). ). За это время многие болтуны были написаны в том числе ПАРИРОВАТЬ, Racter, и Jabberwacky.
Вплоть до 1980-х годов большинство систем НЛП были основаны на сложных наборах рукописных правил. Однако, начиная с конца 1980-х, в НЛП произошла революция с введением машинное обучение алгоритмы языковой обработки. Это было связано как с постоянным увеличением вычислительной мощности в результате Закон Мура и постепенное уменьшение доминирования Хомский теории лингвистики (например, трансформационная грамматика), теоретические обоснования которого не поощряли корпусная лингвистика это лежит в основе подхода машинного обучения к обработке языка.[5] Некоторые из наиболее ранних алгоритмов машинного обучения, например деревья решенийсоздал системы жестких правил «если-то», аналогичные существующим рукописным правилам. Однако все больше исследований уделяется статистические модели, которые делают мягкими, вероятностный решения, основанные на прикреплении ценный весов к характеристикам, составляющим входные данные. В модели языка кеширования на котором многие распознавание речи Системы, которые сейчас полагаются, являются примерами таких статистических моделей. Такие модели, как правило, более надежны при вводе незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень часто встречается в реальных данных), и дают более надежные результаты при интеграции в более крупную систему, состоящую из нескольких подзадач.
Многие из первых заметных успехов были достигнуты в области машинный перевод, особенно благодаря работе в IBM Research, где последовательно разрабатывались все более сложные статистические модели. Эти системы смогли использовать преимущества существующих многоязычных текстовые корпуса это было произведено Парламент Канады и Евросоюз в результате принятия законов, требующих перевода всех правительственных заседаний на все официальные языки соответствующих систем управления. Однако большинство других систем зависело от корпусов, специально разработанных для задач, реализуемых этими системами, что было (и часто остается) основным ограничением успеха этих систем. В результате большое количество исследований было посвящено методам более эффективного обучения на ограниченных объемах данных.
Недавние исследования все больше сосредотачиваются на без присмотра и полууправляемый алгоритмы обучения. Такие алгоритмы могут учиться на данных, которые не были аннотированы вручную с желаемыми ответами, или с использованием комбинации аннотированных и неаннотированных данных. В общем, эта задача намного сложнее, чем контролируемое обучение, и обычно дает менее точные результаты для заданного количества входных данных. Однако доступно огромное количество неаннотированных данных (включая, среди прочего, все содержание Всемирная паутина), что часто может компенсировать худшие результаты.
Программного обеспечения
Программного обеспечения | Год | Создатель | Описание | Ссылка |
---|---|---|---|---|
Джорджтаунский эксперимент | 1954 | Джорджтаунский университет и IBM | задействован полностью автоматический перевод более шестидесяти русских предложений на английский язык. | |
УЧЕНИК | 1964 | Дэниел Боброу | может решать школьные задачи по алгебре.[6] | |
ELIZA | 1964 | Йозеф Вайценбаум | симуляция Роджерианский психотерапевт, перефразируя свой ответ с помощью нескольких грамматических правил.[7] | |
ШРДЛУ | 1970 | Терри Виноград | система естественного языка, работающая в ограниченном "блокирует миры"с ограниченным словарным запасом, работал очень хорошо | |
ПАРИРОВАТЬ | 1972 | Кеннет Колби | А болтун | |
KL-ONE | 1974 | Sondheimer et al. | система представления знаний в традициях семантические сети и рамы; это язык фреймов. | |
МАРДЖИ | 1975 | Роджер Шэнк | ||
TaleSpin (программное обеспечение) | 1976 | Михан | ||
QUALM | Ленерт | |||
LIFER / LADDER | 1978 | Хендрикс | естественный язык интерфейса к базе данных о кораблях ВМС США. | |
SAM (программное обеспечение) | 1978 | Каллингфорд | ||
PAM (программное обеспечение) | 1978 | Роберт Виленски | ||
Политика (программное обеспечение) | 1979 | Карбонелл | ||
Блоки сюжета (программное обеспечение) | 1981 | Ленерт | ||
Jabberwacky | 1982 | Ролло Карпентер | болтун с заявленной целью «имитировать естественный человеческий чат в интересной, развлекательной и юмористической манере». | |
MUMBLE (программное обеспечение) | 1982 | Макдональдс | ||
Racter | 1983 | Уильям Чемберлен и Томас Эттер | болтун которые произвольно породили англоязычную прозу. | |
МОПТРАНС[8] | 1984 | Литинен | ||
КОДИАК (программное обеспечение) | 1986 | Виленский | ||
Absity (программное обеспечение) | 1987 | Hirst | ||
Д-р сбайтсо | 1991 | Creative Labs | ||
Watson (программное обеспечение искусственного интеллекта) | 2006 | IBM | Система ответов на вопросы, которая выиграла Опасность! Конкурс, победив лучших игроков-людей в феврале 2011 года. | |
Siri | 2011 | яблоко | Виртуальный помощник, разработанный Apple. | |
Amazon Alexa | 2014 | Amazon | Виртуальный помощник, разработанный Amazon. | |
Google Ассистент | 2016 | Виртуальный помощник, разработанный Google. |
Рекомендации
- ^ «SEM1A5 - Часть 1 - Краткая история НЛП». Получено 2010-06-25.
- ^ Хатчинс, Дж. (2005)
- ^ Роджер Шэнк, 1969, Парсер концептуальных зависимостей для естественного языка Труды конференции 1969 года по компьютерной лингвистике, Санг-Сэби, Швеция, страницы 1-3
- ^ Вудс, Уильям А. (1970). "Переходные сетевые грамматики для анализа естественного языка". Сообщения ACM 13 (10): 591–606 [1]
- ^ Хомскианское языкознание поощряет исследование "угловые случаи"которые подчеркивают пределы его теоретических моделей (сопоставимых с патологический явления в математике), обычно создаваемые с использованием мысленные эксперименты, а не систематическое исследование типичных явлений, которые происходят в реальных данных, как в случае корпусная лингвистика. Создание и использование таких корпус реальных данных является фундаментальной частью алгоритмов машинного обучения для НЛП. Кроме того, теоретические основы лингвистики Хомски, такие как так называемое "бедность стимула"аргумент влечет за собой, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными при обработке языка. В результате парадигма Хомского препятствовала применению таких моделей для обработки языка.
- ^ МакКордак 2004, п. 286, г. Crevier 1993, стр. 76−79 , Рассел и Норвиг, 2003 г., п. 19
- ^ МакКордак 2004, стр. 291–296, Crevier 1993, стр. 134−139
- ^ Джанет Л. Колоднер, Кристофер К. Рисбек; Опыт, память и рассуждение; Психология прессы; Переиздание 2014 г.
Библиография
- Кревье, Даниэль (1993), AI: бурные поиски искусственного интеллекта, Нью-Йорк, Нью-Йорк: BasicBooks, ISBN 0-465-02997-3
- МакКордак, Памела (2004), Машины, которые думают (2-е изд.), Натик, Массачусетс: A. K. Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
- Рассел, Стюарт Дж.; Норвиг, Питер (2003), Искусственный интеллект: современный подход (2-е изд.), Верхняя Сэдл-Ривер, Нью-Джерси: Prentice Hall, ISBN 0-13-790395-2.