WikiDer > Альтернативное дерево решений - Википедия
An чередующееся дерево решений (ADTree) - это машинное обучение метод классификации. Это обобщает деревья решений и имеет связи с повышение.
ADTree состоит из чередования узлов решения, которые определяют условие предиката, и узлов прогнозирования, которые содержат одно число. Экземпляр классифицируется с помощью ADTree, следуя всем путям, для которых все узлы решения истинны, и суммируя все пройденные узлы прогнозирования.
История
ADTrees были представлены Йоав Фройнд и Лью Мейсон.[1] Однако представленный алгоритм содержал несколько типографских ошибок. Разъяснения и оптимизации были позже представлены Бернхардом Пфарингером, Джеффри Холмсом и Ричардом Киркби.[2] Реализации доступны в Weka и JBoost.
Мотивация
Оригинал повышение алгоритмы обычно используются либо пни решения или деревья решений как слабые гипотезы. Например, повышение пни решения создает набор взвешенные точки принятия решения (где - количество итераций повышения), которые затем голосуют за окончательную классификацию в соответствии с их весами. Отдельные этапы принятия решения взвешиваются в зависимости от их способности классифицировать данные.
Повышение уровня простого ученика приводит к неструктурированному набору гипотезы, затрудняющие вывод корреляции между атрибутами. Чередующиеся деревья решений привносят структуру в набор гипотез, требуя, чтобы они основывались на гипотезе, выдвинутой на более ранней итерации. Результирующий набор гипотез можно визуализировать в виде дерева на основе взаимосвязи между гипотезой и ее «родителем».
Еще одна важная особенность алгоритмов с усилением состоит в том, что данные получают разные распределение на каждой итерации. Экземплярам, которые неправильно классифицированы, присваивается больший вес, а точно классифицированным экземплярам - уменьшенный вес.
Альтернативная древовидная структура решений
Чередующееся дерево решений состоит из узлов решений и узлов прогнозирования. Узлы принятия решений укажите условие предиката. Узлы прогнозирования содержат одно число. ADTrees всегда имеют узлы прогнозирования как корневые, так и конечные. Экземпляр классифицируется ADTree, следуя всем путям, для которых все узлы решения истинны, и суммируя все пройденные узлы прогнозирования. Это отличается от двоичных деревьев классификации, таких как CART (Дерево классификации и регрессии) или же C4.5 в котором экземпляр следует только по одному пути через дерево.
Пример
Следующее дерево было построено с использованием JBoost в наборе данных спамбаза.[3] (доступно в репозитории машинного обучения UCI).[4] В этом примере спам кодируется как 1 а обычная электронная почта кодируется как −1.
В следующей таблице содержится часть информации для одного экземпляра.
Особенность | Ценить |
---|---|
char_freq_bang | 0.08 |
word_freq_hp | 0.4 |
capital_run_length_longest | 4 |
char_freq_dollar | 0 |
word_freq_remove | 0.9 |
word_freq_george | 0 |
Другие свойства | ... |
Экземпляр оценивается путем суммирования всех узлов прогнозирования, через которые он проходит. В случае приведенного выше примера оценка рассчитывается как
Итерация | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|---|
Значения экземпляра | Нет данных | .08 < .052 = ж | .4 < .195 = ж | 0 < .01 = т | 0 < 0.005 = т | Нет данных | .9 < .225 = ж |
Прогноз | -0.093 | 0.74 | -1.446 | -0.38 | 0.176 | 0 | 1.66 |
Итоговая оценка 0.657 положительный, поэтому экземпляр классифицируется как спам. Величина значения является мерой уверенности в прогнозе. Первоначальные авторы перечисляют три возможных уровня интерпретации набора атрибутов, идентифицированных ADTree:
- Отдельные узлы могут быть оценены на предмет их предсказательной способности.
- Наборы узлов на одном пути могут интерпретироваться как имеющие совместный эффект
- Дерево можно трактовать как единое целое.
Следует проявлять осторожность при интерпретации отдельных узлов, поскольку оценки отражают повторное взвешивание данных на каждой итерации.
Описание алгоритма
Входными данными для алгоритма альтернативного дерева решений являются:
- Набор входов куда вектор атрибутов и равно -1 или 1. Входные данные также называются экземплярами.
- Набор весов соответствующий каждому экземпляру.
Основным элементом алгоритма ADTree является правило. Единое правило состоит из предусловия, условия и двух оценок. Условие - это предикат формы "значение атрибута <сравнение>". Предварительное условие - это просто логическое соединение Условий.В оценке правила используется пара вложенных операторов if:
1 если (предварительное условие) 2 если (состояние) 3 возвращаться score_one4 еще5 возвращаться score_two6 конец, если7 еще8 возвращаться 09 конец, если
Также алгоритму требуется несколько вспомогательных функций:
- возвращает сумму весов всех положительно помеченных примеров, удовлетворяющих предикату
- возвращает сумму весов всех отрицательно помеченных примеров, удовлетворяющих предикату
- возвращает сумму весов всех примеров, удовлетворяющих предикату
Алгоритм следующий:
1 функция ad_tree2 Вход Набор из м учебные экземпляры3 4 шя = 1/м для всех я5 6 р0 = правило с оценками а и 0, предусловие "верно" и условие "верно". 7 8 набор всех возможных условий9 за 10 получить значения это минимизирует 11 12 13 14 рj = новое правило с предусловием п, условие c, и веса а1 и а215 16 конец для17 возвращаться набор из рj
Набор увеличивается на два предварительных условия в каждой итерации, и можно вывести древовидную структуру набора правил, отметив предварительное условие, которое используется в каждом последующем правиле.
эмпирические результаты
Рисунок 6 в оригинальной статье[1] демонстрирует, что деревья ADTree обычно столь же устойчивы, как деревья решений с усилением и пни решения. Как правило, эквивалентной точности можно добиться с помощью гораздо более простой древовидной структуры, чем алгоритмы рекурсивного разделения.
Рекомендации
- ^ а б Йоав Фройнд и Лью Мейсон. Алгоритм чередующегося дерева решений. Труды 16-й Международной конференции по машинному обучению, страницы 124-133 (1999)
- ^ Бернхард Пфарингер, Джеффри Холмс и Ричард Киркби. Оптимизация индукции чередующихся деревьев решений. Труды Пятой Азиатско-Тихоокеанской конференции по достижениям в области обнаружения знаний и интеллектуального анализа данных. 2001, стр. 477-487.
- ^ "Репозиторий машинного обучения UCI". Ics.uci.edu. Получено 2012-03-16.
- ^ "Репозиторий машинного обучения UCI". Ics.uci.edu. Получено 2012-03-16.
внешняя ссылка
- Введение в Boosting и ADTrees (Имеет множество графических примеров чередования деревьев решений на практике).
- JBoost программное обеспечение, реализующее ADTrees.