Качество проекта машинного обучения напрямую зависит от того, как вы подходите к решению 3-х основных задач: сбор данных, их предобработка и разметка.
Разметка обычно представляет собой сложный и трудоемкий процесс. Например, системы распознавания изображений часто предполагают рисование ограничивающих рамок вокруг объектов, в то время как системы рекомендаций по продуктам и системы анализа настроений могут потребовать знания культурного контекста. Не забывайте также, что массив данных может содержать десятки и более тысяч образцов, нуждающихся в разметке.
===========================
Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, масштаба проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели аргументы за и против каждого из них.
Различные способы разметки данных для машинного обучения делятся на следующие категории:
===========================
Аутсорсинг: это хороший способ в тех случаях, когда команда на разметку данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих социальных сетях, вы сможете сформировать базу потенциальных исполнителей. Далее в ходе собеседования и тестирования будут определены те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но это требует четкого планирования и организации; новые сотрудники должны быть обучены, чтобы участвовать и выполнять работу по мере необходимости. Кроме того, если у вас еще нет инструмента разметки данных, вам необходимо его приобрести.
============================
Краудсорсинг: краудсорсинговые платформы — это способ решения конкретной задачи с помощью большого количества исполнителей. Так как в краудсорсинге участвуют исполнители из самых разных стран и можно фильтровать по уровню, получается быстрый и достаточно бюджетный метод. При этом краудсорсинговые платформы сильно различаются по квалификации исполнителей, контролю качества и инструментам управления проектами. Поэтому при выборе краудсорсинговой площадки нужно учитывать все эти параметры.
=============================
Синтетический метод: синтетическая разметка означает создание или генерацию новых данных, содержащих атрибуты, необходимые для вашего конкретного проекта. Одним из способов создания синтетической разметки является использование генеративно-состязательной сети (GAN). GAN использует две нейронные сети (генератор и дискриминатор), которые конкурируют друг с другом, создавая ложные данные и различая настоящие данные от ложных. В результате получаются очень реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать совершенно новые данные из существующих массивов. Этот метод очень экономичен по времени и отлично подходит для получения высококачественных данных. Однако в настоящее время синтетические методы разбиения требуют больших вычислительных мощностей, что делает их очень дорогими.
===============================
«Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, в том числе разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. Кроме того, компьютерная программа не будет делать перерывов на отдых, а значит, вы сможете получить результаты гораздо быстрее. Однако этот метод все еще далек от совершенства, а при программной разметке часто требуется группа контроля качества, которая попутно следит за правильностью разметки данных.