WikiDer > Чередование условных ожиданий
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Чередование условных ожиданий (ТУЗ) является алгоритм найти оптимальные преобразования между переменная ответа и переменные-предикторы в регрессивный анализ.[1]
Вступление
В статистика, нелинейное преобразование переменных широко используется на практике в задачах регрессии. Чередование условных ожиданий (ACE) - один из методов поиска тех преобразований, которые обеспечивают наилучшее соответствие аддитивная модель. Знание таких преобразований помогает интерпретировать и понимать взаимосвязь между ответом и предикторами.
ACE преобразует переменную ответа и его предикторные переменные, свести к минимуму доля дисперсии не объяснена. Преобразование является нелинейным и получается из данных итеративным способом.
Математическое описание
Позволять быть случайные переменные. Мы используем предсказывать . Предполагать являются функциями с нулевым средним и с этими функции преобразования, доля дисперсии не объяснено
Как правило, оптимальные преобразования, минимизирующие необъяснимую часть, сложно вычислить напрямую. В качестве альтернативы ACE - это итерационный метод расчета оптимальных преобразований. Процедура ACE состоит из следующих этапов:
- Держать фиксированный, минимизирующий дает
- Нормализовать к единичной дисперсии.
- Для каждого , исправить другое и , минимизируя и решение:
- Повторяйте вышеуказанные три шага, пока находится в пределах допустимой погрешности.
Двумерный случай
Оптимальная трансформация за удовлетворяет
куда является Коэффициент корреляции Пирсона. известна как максимальная корреляция между и . Его можно использовать как общую меру зависимости.
В двумерном случае алгоритм ACE также можно рассматривать как метод оценки максимальной корреляции между двумя переменными.
Программная реализация
Алгоритм ACE был разработан в контексте известных распределений. На практике распределения данных редко известны, и условное ожидание следует оценивать на основе данных. R язык есть пакет acepack который реализует алгоритм ACE. В следующем примере показано его использование:
библиотека (acepack) TWOPI <- 8 * atan (1) x <- runif (200, 0, TWOPI) y <- exp (sin (x) + rnorm (200) / 2) a <- ace (x, y) par (mfrow = c (3,1)) plot (a $ y, a $ ty) # просмотреть график преобразования ответа (a $ x, a $ tx) # просмотреть график преобразования несущей (a $ tx, a $ ty) # исследовать линейность подобранной модели
Обсуждение
Алгоритм ACE обеспечивает полностью автоматизированный метод оценки оптимальных преобразований в множественная регрессия. Он также предоставляет метод оценки максимальной корреляции между случайными величинами. Поскольку процесс итерации обычно завершается ограниченным числом прогонов, временная сложность алгоритма составляет куда количество образцов. Алгоритм достаточно эффективен для компьютера.
Сильным преимуществом процедуры ACE является возможность включать переменные совершенно разного типа с точки зрения набора значений, которые они могут принимать. Функции преобразования принимают значения на реальной линии. Однако их аргументы могут принимать значения на любом множестве. Например, заказанные реальные и неупорядоченные категориальные переменные могут быть включены в то же уравнение регрессии. Допустимы переменные смешанного типа.
В качестве инструмента для анализа данных процедура ACE обеспечивает графический вывод, указывающий на необходимость преобразований, а также помогающий в их выборе. Если конкретный график предлагает знакомую функциональную форму для преобразования, то данные могут быть предварительно преобразованы с использованием этой функциональной формы, и алгоритм ACE может быть повторно запущен.
Как и в случае любой процедуры регрессии, высокая степень связи между переменными-предикторами может иногда приводить к тому, что отдельные оценки трансформации могут сильно варьироваться, даже если полная модель достаточно стабильна. Когда это подозревается, запуск алгоритма на случайно выбранных подмножествах данных или на образцы начальной загрузки может помочь в оценке изменчивости.
Рекомендации
- ^ Брейман, Л. и Фридман, Дж. Х. Оценка оптимальных преобразований для множественной регрессии и корреляции. Варенье. Стат. Assoc., 80 (391): 580–598, сентябрь 1985b. Эта статья включает текст из этого источника, который находится в всеобщее достояние.
- Этот черновик содержит цитаты из Оценка оптимальных преобразований для множественной регрессии и корреляции Лео Брейман и Джером Фрейдман. Технический отчет № 9 июля 1982 г., который находится в открытом доступе.