Сложно ответить однозначно, так как всё зависит от специфики конкретного набора данных. Для начала, поищите пропуски в данных. Если ваши данные содержат числовые параметры, посчитайте медиану и среднее арифметическое для каждого из таких параметров. Если в каком-то из параметров они будут сильно отличаться, то это будет явным маркером наличия аномалий в данных, которые стоит удалить. Сюда же относится вычисление стандартного отклонения, дисперсии и т.д. (всего, что характеризует равномерность распределения ваших данных). В каких-то из параметров можно поискать логические ошибки. Например, если в вашем датасете содержится информация о цене товаров, вам стоит проверить, не содержатся ли в этом параметре значения меньше 0 (так как цена не может быть отрицательной). Также можете посмотреть на значения корреляции между параметрами, т.е. поискать закономерности и аномалии в самих параметрах датасета, а не в его элементах.
В целом, я бы порекомендовал стараться не просто "отполировать" данные, а пробовать обучать одну и ту же архитектуру нейросети на разных адаптациях датасета, ведь в процессе тупой ликвидации аномалий можно вовсе лишить датасет всякого смысла, что может ухудшить качество работы сети в дальнейшем