Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Если один столбец в датасете содержит более 80% NaN значений, как вы их заполните, или вообще избавитесь от этого признака?

Программирование+2
Dovahkiin
  ·   · 332
Руководитель направления моделирования банка.   · 14 окт 2021
Добрый день
на самом деле все зависит от контекста.
К примеру вы прогнозируете вероятность покупки какого-то продукта клиентом по историческим действиям клиента. Допустим, покупки телевизора. У вас очень много переменных и одна из них «кол-во покупок клиентом игр для приставки». И при расчете этой переменной вы считаете количество строк в таблице БД, где есть слово «PS» или «Xbox». В случае, если таких записей нет, у вас будет Nan, но логично заменить его нулем, так как клиент не покупал игр.
Это лишь один из примеров. Если же природа формирований данных вам неизвестна, то лучше удалить весь столбец. Ну а если у вас очень много миллионов наблюдений и данный признак имеет высокую разделяющую способность то может рассмотреть вариант дропа Nan построчно. Повторюсь, все зависит от контекста задачи
1 эксперт согласен
Разработчик программного обеспечения 5G ML/AI...  · 14 окт 2021
В наших задачах приходилось или а) отбраковывать весь датасет и собирать/запрашивать новый, или б) отбрасывать столбец и строить в итоге модель без этого параметра (применимо для некоторых задач: в процессе анализа оказывалось... Читать далее
IT + консалтинговые услуги по внедрению и...  · 10 окт 2021  · aso24.ru
Добрый день. Решение использовать эти данные или нет это магия аналитика. Данное решение зависит от набора данных. Какой тип данных в этом столбце. Какой общий объём. Можно ли найти корреляции между оставшимися 20% данных и... Читать далее
С уважением, Соколов Андрей, Компания "Бюро важных дел" - партнер Битрикс24 Перейти на aso.bitrix24.site