Добрый день
на самом деле все зависит от контекста.
К примеру вы прогнозируете вероятность покупки какого-то продукта клиентом по историческим действиям клиента. Допустим, покупки телевизора. У вас очень много переменных и одна из них «кол-во покупок клиентом игр для приставки». И при расчете этой переменной вы считаете количество строк в таблице БД, где есть слово «PS» или «Xbox». В случае, если таких записей нет, у вас будет Nan, но логично заменить его нулем, так как клиент не покупал игр.
Это лишь один из примеров. Если же природа формирований данных вам неизвестна, то лучше удалить весь столбец. Ну а если у вас очень много миллионов наблюдений и данный признак имеет высокую разделяющую способность то может рассмотреть вариант дропа Nan построчно. Повторюсь, все зависит от контекста задачи