Как происходит выбор модели в Data Science ?

ПрограммированиеData science+3

Juliette Gedugosheva · 22 янв 2022 · 6,8 K

Борис Державец

Openstack DevOps and IBM/Informix Certified DBA... · 27 янв 2022

Общие шаги для машинного обучения/глубокого обучения:

Собирать данные

Проверьте наличие аномалий, отсутствующих данных и очистите данные

Выполнить статистический анализ и первоначальную визуализацию

Построить модели

Проверьте точность

Представьте результаты

==================================

Задачи машинного обучения можно разделить на

Контролируемое обучение

Неконтролируемое обучение

Полуконтролируемое обучение

Обучение с подкреплением

В этом документе — мы не акцентируем внимание на двух последних

=================================

Ниже приведены некоторые подходы к выбору модели для машинного обучения/глубокого обучения.

=================================

ОБЩИЕ ПОДХОДЫ

Работа с несбалансированными данными: используйте стратегии передискретизации. Создание новых функций: анализ основных компонентов (PCA) для уменьшения размерности, автоэнкодеры для создания скрытого пространства и, возможно, кластеризация для создания новых функций.Чтобы предотвратить переобучение, выбросы и шум в линейной регрессии, используйте такие методы регуляризации, как lasso и ridge.

Преодоление проблемы искусственного интеллекта «черного ящика» — рассмотрите стратегии построения интерпретируемых моделей. Алгоритмы, не чувствительные к выбросам: рассмотрите выбор случайного леса для преодоления выбросов.

==============================

МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

==============================

Первый подход к прогнозированию непрерывных значений: линейная регрессия, как правило, является хорошим первым подходом к прогнозированию непрерывных значений (например, цен).

=============================

Бинарная классификация: логистическая регрессия является хорошей отправной точкой для бинарной классификации. Метод опорных векторов SVM также является хорошим выбором для двухклассовой классификации.

=============================

Многоклассовая классификация: Случайный лес — это выбор для многоклассовой классификации. См. Использование SVM и Random Forest

Есть ли самая простая или легкая категория моделей, с которой можно начать? Деревья решений часто кажутся простыми для понимания и использования. Деревья решений реализуются с помощью таких моделей, как случайный лес или повышение градиента (Random forest or Gradient boosting )

===============================

МОДЕЛИ ГЛУБОКОГО ОБУЧЕНИЯ

===============================

Сложные функции, которые не могут быть легко определены, но у вас есть большое количество помеченных примеров:

Многослойные персептроны

Машинное обучение на основе зрения: классификация изображений, обнаружение объектов, сегментация изображений — сверточные нейронные сети

Задачи моделирования последовательности: RNN (обычно LSTM) для задач моделирования последовательности, например, классификация текста или языковой перевод.

Источник https://www.datasciencecentral.com/how-to-choose-a-machine-learning-model-some-guidelines/

Евгений Миронов

Увлекаюсь физикой, астрономией и финансами. · 29 июл 2022 · forecast.nanoquant.ru

Все модели делятся на обучаемые с учителем и без учителя. Для первых моделей нужен такой датасет, который содержит разметку, то есть уже имеет правильные ответы. Модель обучают на таких примерах с известными ответами в надежде... Читать далее

Эксперт по оптимизации инвестиционного портфеля и прогнозированию биржевых цен.

Перейти на forecast.nanoquant.ru