WikiDer > Модель отступления Каца - Википедия
Кац отступление является генеративным п-грамма языковая модель это оценивает условная возможность слова, учитывая его историю в п-грамм. Он выполняет эту оценку отступление через все более короткие модели истории при определенных условиях.[1] Таким образом, модель с наиболее надежной информацией о данной истории используется для получения лучших результатов.
Модель была представлена в 1987 году Славой М. Кац. До этого языковые модели n-граммов были построены путем обучения отдельных моделей для различных порядков n-граммов с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.
Метод
Уравнение модели отката Каца: [2]
куда
- C(Икс) = количество раз Икс появляется на тренировках
- шя = яое слово в данном контексте
По сути, это означает, что если п-грамму было просмотрено более k раз в обучении условная вероятность слова с учетом его истории пропорциональна максимальная вероятность оценка этого п-грамм. В противном случае условная вероятность равна условной вероятности отсрочки (п - 1) -грамм.
Более сложная часть - это определение значений для k, d иα.
наименее важный из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.
обычно сумма дисконтирования, найденная Гуд – Тьюринг оценка. Другими словами, если оценки Гуда – Тьюринга в качестве , тогда
Вычислить , полезно сначала определить величину β, которая представляет собой остаточную вероятностную массу для (п - 1) -грамма:
Затем вес отката α вычисляется следующим образом:
Приведенная выше формула применима, только если есть данные для "(п - 1) -грамма ». Если нет, алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (И так далее, пока не будет найдена n-грамма с данными)
Обсуждение
Эта модель обычно хорошо работает на практике, но в некоторых случаях не работает. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «a b c» никогда не видна. Поскольку «a b» и «c» очень распространены, может иметь значение (то есть не случайно), что «a b c» никогда не встречается. Возможно, это не разрешено правилами грамматики. Вместо присвоения более подходящего значения 0 метод вернется к биграмме и оценит п(c | б), которое может быть слишком высоким.[3]
Рекомендации
- ^ «N-граммовые модели» (PDF). Корнелл.
- ^ Кац, С. М. (1987). Оценка вероятностей из разреженных данных для компонента языковой модели распознавателя речи. Транзакции IEEE по акустике, речи и обработке сигналов, 35 (3), 400–401.
- ^ Маннинг и Шютце, Основы статистической обработки естественного языка, MIT Press (1999), ISBN 978-0-262-13360-9.