Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Как можно обнаружить аномалии в данных?

ПрограммированиеData science+3
Анонимный вопрос
  ·   · 2,9 K
Разработчик искусственного интеллекта...  · 16 апр 2022
Сложно ответить однозначно, так как всё зависит от специфики конкретного набора данных. Для начала, поищите пропуски в данных. Если ваши данные содержат числовые параметры, посчитайте медиану и среднее арифметическое для каждого из таких параметров. Если в каком-то из параметров они будут сильно отличаться, то это будет явным маркером наличия аномалий в данных, которые стоит удалить. Сюда же относится вычисление стандартного отклонения, дисперсии и т.д. (всего, что характеризует равномерность распределения ваших данных). В каких-то из параметров можно поискать логические ошибки. Например, если в вашем датасете содержится информация о цене товаров, вам стоит проверить, не содержатся ли в этом параметре значения меньше 0 (так как цена не может быть отрицательной). Также можете посмотреть на значения корреляции между параметрами, т.е. поискать закономерности и аномалии в самих параметрах датасета, а не в его элементах.
В целом, я бы порекомендовал стараться не просто "отполировать" данные, а пробовать обучать одну и ту же архитектуру нейросети  на разных адаптациях датасета, ведь в процессе тупой ликвидации аномалий можно вовсе лишить датасет всякого смысла, что может ухудшить качество работы сети в дальнейшем 
Легче всего это сделать с помощью закона Бенфорда. См. главу IV параграф 59 в книге "Суперструны и параллельные... Читать дальше
DIY, R, gis  · 19 апр 2022
Это очень разнообразные способы и подходы. Можно взять какой то из пакетов агрегирующий эти методы и почитать его документацию (и ссылки на литературу в этой документации). Например https://cran.r-project.org/web/packages/anomal... Читать далее