Все зависит от данных. Но в общем случае можно выделить следующие шаги:
1) очистка данных ( проверка правильности интерпретации пустых значений, проверка корректности категориальных переменных, допустимости диапазонов числовых значений).
2) решение проблемы отсутствующих значений (либо отбросить строки с NaN, либо заполнить их определенными значениями).
Предварительно, этих шагов в большинстве случаев достаточно. Далее идёт обогащение данных (если это необходимо), затем можно заняться Feature Engineering (Инженерия параметров).