В (контролируемое) машинное обучениеособенно при обучении на данных, бывают ситуации, когда значения данных не могут быть смоделированы. Это может возникнуть, если есть случайные флуктуации или ошибки измерения в данных, которые не моделируются и могут быть соответствующим образом названы стохастический шум; или, когда моделируемое (или изучаемое) явление слишком сложно, и поэтому данные содержат эту дополнительную сложность, которая не моделируется. Эта дополнительная сложность данных была названа детерминированный шум.[1] Хотя эти два типа шума возникают по разным причинам, их неблагоприятное влияние на обучение одинаково. Переобучение происходит из-за того, что модель пытается подобрать (стохастический или детерминированный) шум (ту часть данных, которую она не может смоделировать) за счет подгонки той части данных, которую она может моделировать. Когда присутствует какой-либо тип шума, обычно рекомендуется упорядочить алгоритм обучения для предотвращения переоснащение модель к данным и получение худшей производительности. Регуляризация обычно приводит к модели с более низкой дисперсией за счет предвзятость.
Можно также попытаться уменьшить воздействие шума с помощью обнаружение и удаление зашумленных обучающих примеров перед обучением алгоритма обучения с учителем. Существует несколько алгоритмов, которые идентифицируют примеры обучения с шумом, и удаление предполагаемых примеров обучения с шумом перед обучением обычно улучшает производительность.[2][3]
Рекомендации
^Ясер С.Абу-Мостафа; Малик Магдон-Исмаил; Сюань-Тянь Линь (март 2012 г.). Изучение данных. amlbook.
^Мистер Смит; Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые должны быть неправильно классифицированы». Труды международной совместной конференции по нейронным сетям (IJCNN 2011). С. 2690–2697. Дои:10.1109 / IJCNN.2011.6033571.