Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Что такое коллинеарность и какова связь с переобучением?

Программирование+2
Анонимный вопрос
  ·   · 1,5 K
Openstack DevOps and IBM/Informix Certified DBA...  · 31 янв 2022
Чем отличаются корреляция и коллинеарность?
Коллинеарность — это линейная связь между двумя предикторами. Мультиколлинеарность — это ситуация, когда два или более предикторов сильно линейно связаны.
Как правило, абсолютный коэффициент корреляции >0,7 между двумя или более предикторами указывает на наличие мультиколлинеарности. «Предикторы» здесь в центре внимания. Корреляция между «предиктором и реакцией» является хорошим показателем лучшей предсказуемости. Но корреляция «между предикторами» — это проблема, которую необходимо решить, чтобы получить надежную модель.
===========================
Диагностика мультиколлинеарности
  1. Заметные изменения в расчетных коэффициентах регрессии путем добавления или удаления предиктора.
  2. Коэффициент инфляции дисперсии (VIF) помогает формальному обнаружению-допуску для мультиколлинеарности. VIF 5 или 10 и выше (в зависимости от бизнес-задачи) указывает на проблему мультиколлинеарности.
При отсутствии коллинеарности VIF должен быть:
VIF, равный 10, означает, что дисперсия коэффициента предиктора в 10 раз больше, чем должна быть при отсутствии коллинеарности.
VIF = 1/(1-R2), где R2 — коэффициент детерминации, указывающий, в какой степени предиктор может объяснить изменение переменной отклика.
  1. Корреляционная матрица предикторов, как было сказано выше, может свидетельствовать о наличии мультиколлинеарности. Хотя корреляция говорит о двумерной линейной связи, тогда как мультиколлинеарность является многомерной, часто корреляционная матрица может быть хорошим индикатором мультиколлинеарности и указывать на необходимость дальнейшего исследования.
  2. Если многомерная регрессия находит незначительный коэффициент определенного предиктора, но простая линейная регрессия переменной отклика с использованием этого предиктора показывает коэффициент, значительно отличный от нуля, это указывает на наличие мультиколлинеарности.
===========================
Проблемы из-за мультиколлинеарности
  1. Избыточность: два предиктора могут предоставлять одинаковую информацию о переменной отклика, что приводит к ненадежным коэффициентам предикторов (особенно для линейных моделей).
  2. Оценка предиктора по переменной отклика будет иметь тенденцию быть менее точной и менее надежной.
  3. Важный предиктор может стать неважным, поскольку эта функция имеет коллинеарную связь с другими предикторами.
  4. Стандартные ошибки коэффициентов затронутых предикторов, как правило, велики. В этом случае мы не можем отвергнуть нулевую гипотезу линейной регрессии о том, что коэффициент равен нулю. Это приводит к «ошибке типа II», поскольку мы вынуждены полагать, что предиктор не оказывает значительного влияния на переменную отклика, хотя по сути имеет значительное влияние.
  5. Переобучение. Лучшие модели — это те, в которых каждая предикторная переменная оказывает уникальное влияние на переменную отклика. Когда в модели есть избыточные или коррелированные предикторы, объясняющие переменную отклика, модель имеет тенденцию к переобучению. Это означает, что модели хорошо работают с данными для обучения, но плохо справляются с тестовыми данными, тем самым сводя на нет всю цель построения модели.
============================
Что можно сделать?
  1. Отбросить лишние переменные или переменную с высоким VIF — это опять может привести к потере информации
  2. Придумайте условия взаимодействия или полиномиальные условия и отбросьте лишние функции.
  3. Если коррелированные предикторы представляют собой разные значения с запаздыванием одного и того же лежащего в основе объяснителя, то можно использовать метод распределенного запаздывания, чтобы наложить общую структуру на относительные значения коэффициентов, подлежащих оценке³
  4. Используйте анализ главных компонентов (также метод уменьшения размерности), который представляет собой статистическую процедуру для преобразования набора возможно коррелированных предикторов в набор линейно некоррелированных переменных.
1 эксперт согласен
Артём Бойко
подтверждает
31 янв 2022
Довольно обстоятельный ответ. Поддерживаю.