Что такое коллинеарность и какова связь с переобучением?

Программирование+2

Анонимный вопрос · 31 янв 2022 · 2,0 K

Openstack DevOps and IBM/Informix Certified DBA... · 31 янв 2022

Чем отличаются корреляция и коллинеарность?

Коллинеарность — это линейная связь между двумя предикторами. Мультиколлинеарность — это ситуация, когда два или более предикторов сильно линейно связаны.

Как правило, абсолютный коэффициент корреляции >0,7 между двумя или более предикторами указывает на наличие мультиколлинеарности. «Предикторы» здесь в центре внимания. Корреляция между «предиктором и реакцией» является хорошим показателем лучшей предсказуемости. Но корреляция «между предикторами» — это проблема, которую необходимо решить, чтобы получить надежную модель.

===========================

Диагностика мультиколлинеарности

Заметные изменения в расчетных коэффициентах регрессии путем добавления или удаления предиктора.
Коэффициент инфляции дисперсии (VIF) помогает формальному обнаружению-допуску для мультиколлинеарности. VIF 5 или 10 и выше (в зависимости от бизнес-задачи) указывает на проблему мультиколлинеарности.

При отсутствии коллинеарности VIF должен быть:

VIF, равный 10, означает, что дисперсия коэффициента предиктора в 10 раз больше, чем должна быть при отсутствии коллинеарности.

VIF = 1/(1-R2), где R2 — коэффициент детерминации, указывающий, в какой степени предиктор может объяснить изменение переменной отклика.

Корреляционная матрица предикторов, как было сказано выше, может свидетельствовать о наличии мультиколлинеарности. Хотя корреляция говорит о двумерной линейной связи, тогда как мультиколлинеарность является многомерной, часто корреляционная матрица может быть хорошим индикатором мультиколлинеарности и указывать на необходимость дальнейшего исследования.
Если многомерная регрессия находит незначительный коэффициент определенного предиктора, но простая линейная регрессия переменной отклика с использованием этого предиктора показывает коэффициент, значительно отличный от нуля, это указывает на наличие мультиколлинеарности.

===========================

Проблемы из-за мультиколлинеарности

Избыточность: два предиктора могут предоставлять одинаковую информацию о переменной отклика, что приводит к ненадежным коэффициентам предикторов (особенно для линейных моделей).
Оценка предиктора по переменной отклика будет иметь тенденцию быть менее точной и менее надежной.
Важный предиктор может стать неважным, поскольку эта функция имеет коллинеарную связь с другими предикторами.
Стандартные ошибки коэффициентов затронутых предикторов, как правило, велики. В этом случае мы не можем отвергнуть нулевую гипотезу линейной регрессии о том, что коэффициент равен нулю. Это приводит к «ошибке типа II», поскольку мы вынуждены полагать, что предиктор не оказывает значительного влияния на переменную отклика, хотя по сути имеет значительное влияние.
Переобучение. Лучшие модели — это те, в которых каждая предикторная переменная оказывает уникальное влияние на переменную отклика. Когда в модели есть избыточные или коррелированные предикторы, объясняющие переменную отклика, модель имеет тенденцию к переобучению. Это означает, что модели хорошо работают с данными для обучения, но плохо справляются с тестовыми данными, тем самым сводя на нет всю цель построения модели.

============================

Что можно сделать?

Отбросить лишние переменные или переменную с высоким VIF — это опять может привести к потере информации
Придумайте условия взаимодействия или полиномиальные условия и отбросьте лишние функции.
Если коррелированные предикторы представляют собой разные значения с запаздыванием одного и того же лежащего в основе объяснителя, то можно использовать метод распределенного запаздывания, чтобы наложить общую структуру на относительные значения коэффициентов, подлежащих оценке³
Используйте анализ главных компонентов (также метод уменьшения размерности), который представляет собой статистическую процедуру для преобразования набора возможно коррелированных предикторов в набор линейно некоррелированных переменных.

Детально см. https://blog.clairvoyantsoft.com/correlation-and-collinearity-how-they-can-make-or-break-a-model-9135fbe6936a

1 эксперт согласен

Artyom

подтверждает

31 янв 2022

Довольно обстоятельный ответ. Поддерживаю.