Каковы недостатки наивного Байеса? Как его можно улучшить?

МатематикаМашинное обучение+3

Анонимный вопрос · 15 окт 2021 · 761

Старший разработчик компании Google. Основная спец... · 18 окт 2021

Модель наивного Байеса предполагает, что признаки, по которым мы определяем класс объекта независимы при условии, если известен сам класс этого объекта. Только в этих ограничениях она работает корректно.

Давайте на примере разберемся, что это значит.

Допустим, что мы пытаемся определить пол человека по двум признакам: рост (X1) и длина волос (X2). Если мы знаем пол человека, то эти признаки независимы, то есть скорее всего длина волос женщины не зависит от её роста, и то же самое для мужчин. Но при этом если мы встречаем человека невысокого роста и с длинным волосами, то это с большей вероятностью будет женщина, чем мужчина. Тут все хорошо, так как независимые признаки усиливают нашу уверенность, что мы видим женщину. А, пример, с человеком низкого роста, но короткими волосами может нас заставить усомниться, что перед нами женщина.

А теперь рассмотрим пример, когда модель наивного Байесса работать не будет. Допустим, что в нашем примере у нас появляются дополнительные признаки: размер обуви (X3), размер футболки (X4), длина джинсов (X5) и прочие признаки, которые зависят не только от пола но и от роста (X1). В этом случае если мы увидим низкого человека, то у него будут и небольшой размер обуви, и размер футболки, и длина джинсов. Все эти признаки будут нас убеждать, что перед нами женщина, и информация о длине волос уже совсем не сможет заставить нас усомниться в этом.

С теоретической точки зрения модель наивного Байеса соответствует графической модели, изображенной на рисунке (рисунок взял из работы [1]).

Стрелки показывают, что каждый Xi зависит только от Class, но не от других Xj. А в примере с размерами одежды в качестве признаков, возникают дополнительные связи между признаками X3 и X1, X4 и X1, X5 и X1. И это ломает всю модель.

Это концептуальная проблема модели наивного Байеса, и она неустранима в рамках этой модели. Если хотите использовать модель наивного Байеса, лучшее, что можно сделать, - оставить только те признаки, которые независимы, когда известен целевой класс.

[1] Madhusanka, B. G. D. A., and R. Sureswaran. "Recognition of Daily Living Activities Using Convolutional Neural Network Based Support Vector Machine." (2020).

1 эксперт согласени1 эксперт не согласен

Игорь Маленький Ph.D.

возражает

14 нояб 2021

Ответ неверный и вводит в заблуждение.

Александр Клянчин

Программирование. Машинное обучение. · 18 окт 2021

Как видно из определения: в чем заключается наивность? В том что признаки объекта наблюдений независимы, а это далеко не всегда. https://scikit-learn.org/stable/modules/naive_bayes.html > применение теоремы Байеса с «наивным»... Читать далее