Специалист в области управления и информатики в... · 22 дек 2021
Мне известны следующие варианты:
1) Отбросить строки с недостающими данными (либо не использовать столбцы с большим кол-вом NaN в качестве параметра для модели). По возможности, разумеется
2) Если влияние параметра с большим... Читать далее
Увлекаюсь естественными науками и математикой... · 2 авг 2021
Если значение пропущенного элемента влияет на машинное обучение, содержащую этот элемент запись следует полностью игнорировать, причём на малой выборке это особенно важно, так как всякие неверные данные на малых выборках... Читать далее
Здравствуйте, есть много способов обработки пропущенных значений, предлагаю начать с самого простого - исключения строк с пропущенными элементами из датасета. Если у вас большой датасет, то процедуру можно запускать смело, но у... Читать далее
я попробую написать несколько решений навскидку:
1/ дропнуть те строки, в которых имеется Null / NA / что там у вас.
Хорошее решение, если датасет большой, плохое - если маленький (или дикий дисбаланс классов
2/ Заполнить... Читать далее
Кандидат физ.-мат. наук, делаю Яндекс, увлекаюсь... · 3 авг 2021
Это зависит от задачи и от применяемого метода.
Наиболее распространенные методы "табличного" ML -- Catboost и XGBoost -- умеют работать с пропущенными данными "из коробки", см. https://catboost.ai/docs/concepts/algorithm-miss... Читать далее