Почему нормализация данных перед KNN не повышает точность?

KNN ведь метрический алгоритм? Если что, датасет вот этот: https://www.kaggle.com/kashnitsky/mlcourse?select=telecom_churn.csv

ОбразованиеМатематика+3

Анонимный вопрос · 26 июл 2021 · 2,3 K

Andrei Novikov

кандидат физико-математических наук, математик, ис... · 27 июл 2021 · novikovlabs.ru

Лучший вопрос - а почему kNN вообще должно здесь работать? KNN - какой-то непонятный выбор. Во-первых, потому что нет уверенности, что близость значений длины аккаунта или близость значений кода зоны как-то отражают реальную похожесть аккаунтов. Я говорю не про полное совпадение, а про то, почему код 436 должен быть ближе к 437,чем 438? В чем должна быть магия?

Во-вторых, number vmail messages - там очевидно сидит два распределения - один константный 0, а другое, скорее всего, нормальное. Если человек услугой не пользуется, и все остальные значения, если человек услугой пользуется. В этом смысле 0 "гораздо дальше" от всех остальных чисел. Метрика так должны быть такой, что, скажем, 10 ближе к 40, чем к 0.

А вопрос в действительности вообще в том, а что, собственно вы вообще пытаетесь предсказать и почему решили, что kNN вообще должен давать какой-то осмысленный результат, если большая часть параметров у вас качественные, а не количественные?

-------------------------------------------------------------------------------

Настаиваю и буду настаивать, что правильно говорить "нормировка" (norming), а не "нормализация" (normalization), хоть второй термин и гораздо более прижился, но он вызывает неправильные ассоциации, будто мы приводим распределение к нормальному, хотя с распределением мы качественно ничегошеньки не делаем. А нормировка вызываем правильные ассоциации, что мы приводим длины вектора к стандартному виду.

Анонимный комментарий

27 июл 2021

Да, я не уточнил. Я предсказываю последний параметр "Churn" и перед этим обрабатываю датасет, оставляя там только... Читать дальше

Иван Горбань

Data Science. Meditation. Surrealism. · 26 июл 2021

Мне кажется, вопрос не совсем корректный. kNN - действительно метрический алгоритм, а значит он чувствителен к размерности величин. Когда вы обучаете его на ненормализованных величинах - он, естественно, даёт больший вес... Читать далее