Как можно обнаружить аномалии в данных?

ПрограммированиеData science+3

Анонимный вопрос · 14 апр 2022 · 2,9 K

Разработчик искусственного интеллекта... · 16 апр 2022

Сложно ответить однозначно, так как всё зависит от специфики конкретного набора данных. Для начала, поищите пропуски в данных. Если ваши данные содержат числовые параметры, посчитайте медиану и среднее арифметическое для каждого из таких параметров. Если в каком-то из параметров они будут сильно отличаться, то это будет явным маркером наличия аномалий в данных, которые стоит удалить. Сюда же относится вычисление стандартного отклонения, дисперсии и т.д. (всего, что характеризует равномерность распределения ваших данных). В каких-то из параметров можно поискать логические ошибки. Например, если в вашем датасете содержится информация о цене товаров, вам стоит проверить, не содержатся ли в этом параметре значения меньше 0 (так как цена не может быть отрицательной). Также можете посмотреть на значения корреляции между параметрами, т.е. поискать закономерности и аномалии в самих параметрах датасета, а не в его элементах.

В целом, я бы порекомендовал стараться не просто "отполировать" данные, а пробовать обучать одну и ту же архитектуру нейросети на разных адаптациях датасета, ведь в процессе тупой ликвидации аномалий можно вовсе лишить датасет всякого смысла, что может ухудшить качество работы сети в дальнейшем

Александр Исаев

21 апр 2022

Легче всего это сделать с помощью закона Бенфорда. См. главу IV параграф 59 в книге "Суперструны и параллельные... Читать дальше

Sergei Petrov

DIY, R, gis · 19 апр 2022

Это очень разнообразные способы и подходы. Можно взять какой то из пакетов агрегирующий эти методы и почитать его документацию (и ссылки на литературу в этой документации). Например https://cran.r-project.org/web/packages/anomal... Читать далее