Чем отличаются корреляция и коллинеарность?
Коллинеарность — это линейная связь между двумя предикторами. Мультиколлинеарность — это ситуация, когда два или более предикторов сильно линейно связаны.
Как правило, абсолютный коэффициент корреляции >0,7 между двумя или более предикторами указывает на наличие мультиколлинеарности. «Предикторы» здесь в центре внимания. Корреляция между «предиктором и реакцией» является хорошим показателем лучшей предсказуемости. Но корреляция «между предикторами» — это проблема, которую необходимо решить, чтобы получить надежную модель.
===========================
Диагностика мультиколлинеарности
- Заметные изменения в расчетных коэффициентах регрессии путем добавления или удаления предиктора.
- Коэффициент инфляции дисперсии (VIF) помогает формальному обнаружению-допуску для мультиколлинеарности. VIF 5 или 10 и выше (в зависимости от бизнес-задачи) указывает на проблему мультиколлинеарности.
При отсутствии коллинеарности VIF должен быть:
VIF, равный 10, означает, что дисперсия коэффициента предиктора в 10 раз больше, чем должна быть при отсутствии коллинеарности.
VIF = 1/(1-R2), где R2 — коэффициент детерминации, указывающий, в какой степени предиктор может объяснить изменение переменной отклика.
- Корреляционная матрица предикторов, как было сказано выше, может свидетельствовать о наличии мультиколлинеарности. Хотя корреляция говорит о двумерной линейной связи, тогда как мультиколлинеарность является многомерной, часто корреляционная матрица может быть хорошим индикатором мультиколлинеарности и указывать на необходимость дальнейшего исследования.
- Если многомерная регрессия находит незначительный коэффициент определенного предиктора, но простая линейная регрессия переменной отклика с использованием этого предиктора показывает коэффициент, значительно отличный от нуля, это указывает на наличие мультиколлинеарности.
===========================
Проблемы из-за мультиколлинеарности
- Избыточность: два предиктора могут предоставлять одинаковую информацию о переменной отклика, что приводит к ненадежным коэффициентам предикторов (особенно для линейных моделей).
- Оценка предиктора по переменной отклика будет иметь тенденцию быть менее точной и менее надежной.
- Важный предиктор может стать неважным, поскольку эта функция имеет коллинеарную связь с другими предикторами.
- Стандартные ошибки коэффициентов затронутых предикторов, как правило, велики. В этом случае мы не можем отвергнуть нулевую гипотезу линейной регрессии о том, что коэффициент равен нулю. Это приводит к «ошибке типа II», поскольку мы вынуждены полагать, что предиктор не оказывает значительного влияния на переменную отклика, хотя по сути имеет значительное влияние.
- Переобучение. Лучшие модели — это те, в которых каждая предикторная переменная оказывает уникальное влияние на переменную отклика. Когда в модели есть избыточные или коррелированные предикторы, объясняющие переменную отклика, модель имеет тенденцию к переобучению. Это означает, что модели хорошо работают с данными для обучения, но плохо справляются с тестовыми данными, тем самым сводя на нет всю цель построения модели.
============================
Что можно сделать?
- Отбросить лишние переменные или переменную с высоким VIF — это опять может привести к потере информации
- Придумайте условия взаимодействия или полиномиальные условия и отбросьте лишние функции.
- Если коррелированные предикторы представляют собой разные значения с запаздыванием одного и того же лежащего в основе объяснителя, то можно использовать метод распределенного запаздывания, чтобы наложить общую структуру на относительные значения коэффициентов, подлежащих оценке³
- Используйте анализ главных компонентов (также метод уменьшения размерности), который представляет собой статистическую процедуру для преобразования набора возможно коррелированных предикторов в набор линейно некоррелированных переменных.