Что такое ансамбли моделей машинного обучения?

Программирование+2

Анонимный вопрос · 11 мар 2022 · 4,8 K

Openstack DevOps and IBM/Informix Certified DBA... · 11 мар 2022

Ансамблевые методы, что это такое? Методы ансамбля — это метод машинного обучения, который объединяет несколько базовых моделей для создания одной оптимальной прогностической модели. Чтобы лучше понять это определение, давайте вернемся к конечной цели машинного обучения и построения моделей. Это станет более понятным, когда я углублюсь в конкретные примеры и расскажу, почему используются методы Ensemble. Я буду в основном использовать деревья решений, чтобы обрисовать определение и практичность ансамблевых методов (однако важно отметить, что ансамблевые методы относятся не только к деревьям решений).

Дерево решений определяет прогностическую ценность на основе ряда вопросов и условий. Например, это простое дерево решений определяет, должен ли человек играть на улице или нет. Дерево учитывает несколько погодных факторов, и с учетом каждого фактора либо принимает решение, либо задает другой вопрос. В этом примере каждый раз, когда будет пасмурно, мы будем играть на улице. Однако, если идет дождь, мы должны спросить, ветрено или нет? Если будет ветер, мы не будем играть. Но если нет ветра, туго завяжи шнурки, потому что собирались играть на улице.

Деревья решений также могут решать количественные задачи в том же формате. В дереве слева мы хотим знать, стоит ли инвестировать в коммерческую недвижимость. Это офисное здание? Склад? Жилой дом? Хорошие экономические условия? Плохие экономические условия? Как быстро вернутся инвестиции и какова возможная прибыль ?

Ответы на эти вопросы и решаются с помощью этого дерева решений.

При создании деревьев решений мы должны учитывать несколько факторов: На каких функциях мы принимаем решения? Каков порог классификации каждого вопроса как ответа «да» или «нет»? В первом Дереве решений, что, если мы захотим спросить себя, есть ли у нас друзья, с которыми можно поиграть, или нет? Если у нас есть друзья, мы будем играть каждый раз. Если нет, мы могли бы продолжать задавать себе вопросы о погоде. Добавляя дополнительный вопрос, мы надеемся лучше определить классы «Да» и «Нет».Вот где ансамблевые методы пригодятся! Вместо того, чтобы просто полагаться на одно дерево решений и надеяться, что мы приняли правильное решение при каждом разделении, ансамблевые методы позволяют нам принять во внимание выборку деревьев решений, рассчитать, какие функции использовать или вопросы, которые нужно задать при каждом разделении, и сделать окончательный вывод. предиктор на основе агрегированных результатов выборочных деревьев решений.

==========================

Типы ансамблевых методов

==========================

BAGGing или Bootstrap AGGregating. BAGGing получил свое название, потому что он сочетает в себе начальную загрузку и агрегацию, чтобы сформировать одну ансамблевую модель. При наличии выборки данных извлекается несколько подвыборок с начальной загрузкой. Дерево решений формируется для каждой из загруженных подвыборок. После формирования каждого дерева решений подвыборки алгоритм используется для агрегирования деревьев решений для формирования наиболее эффективного предиктора. Изображение ниже поможет объяснить:

Модели случайного леса. Случайные модели леса можно рассматривать как BAGGing с небольшой настройкой. При принятии решения о том, где разделить и как принимать решения, BAGGed Decision Trees имеет полный набор функций на выбор. Таким образом, несмотря на то, что выборки с начальной загрузкой могут немного отличаться, данные в основном будут разбиваться на одних и тех же функциях для каждой модели. Напротив, модели случайного леса решают, где разделить, на основе случайного выбора признаков. Вместо разбиения на одинаковые функции в каждом узле модели случайного леса реализуют уровень дифференциации, поскольку каждое дерево будет разбиваться на основе разных функций. Этот уровень дифференциации обеспечивает больший ансамбль для агрегирования, следовательно, дает более точный предиктор. Обратитесь к изображению для лучшего понимания.

В итоге

Цель любой задачи машинного обучения — найти единую модель, которая лучше всего предскажет желаемый результат. Вместо того, чтобы создавать одну модель и надеяться, что эта модель является лучшим/самым точным предсказателем, который мы можем сделать, ансамблевые методы учитывают множество моделей и усредняют эти модели для получения одной окончательной модели. Важно отметить, что деревья решений — не единственная форма ансамблевых методов, а просто самая популярная и актуальная на сегодняшний день в DataScience.

Источник https://towardsdatascience.com/ensemble-methods-in-machine-learning-what-are-they-and-why-use-them-68ec3f9fef5f

Горюнов Владимир

Начальник информационного отдела НЧОУ ВО... · 19 мар 2022

Под такой дефиницией, как ансамбль, принято понимать алгоритм, который в своей совокупности состоит из нескольких алгоритмов машинного обучения. Иными словами можно сказать, что ансамблевый алгоритм это связующее звено между... Читать далее

1 ответ скрыт(Почему?)