Нужно понимать фундаментальные отличия этих двух подходов. Например, в случае краудсорсинга размечать могут люди без опыта, что может привести к множеству ошибок. Как итог - валидация будет занимать много времени, а проблемные файлы придется отправлять на доразметку или переразметку.
Что касается самостоятельной разметки - важно понимать, будете ли вы делать это один или задействуете свою команду. Это нужно учитывать, потому что для создания хорошего обучающего датасета нужны большие объемы данных. И поэтому в соло один человек потратит на это очень много времени. Если у вас есть своя команда, можете рассмотреть open source инструменты. Например,
CVAT или
Label Studio. Их функционал позволяет равномерно распределить данные между разметчиками.
При отсутствии команды, лучше поискать полноценных подрядчиков.
Например, в LabelMe (
https://labelme.ru/) мы предоставляем своих обученных разметчиков для выполнения задач клиента. Наш штат делится на исполнителей разного уровня в зависимости от скиллов и опыта.
Например, для сложных видов аннотации есть разметчики B-класса, но если нужно просто классифицировать изображения или транскрибировать речь достаточно разметчиков C-класса.
Также мы предоставляем бесплатный тестовый датасет по ТЗ клиента. Таким образом мы лучше знакомимся с задачей и оцениваем сложность проекта, а клиент может оценить качество до заключения договора.