Конкретного ответа на этот вопрос быть не может. Во всяком случае пока что. Объем датасета зависит от множества факторов:
— Сложность задачи, стоящей перед моделью
— Количество классов
— Метод обучения
И это лишь основные факторы. Например, если вам нужно обучить классификатор изображений по двум классам: автомобили и мотоциклы, - то объемы обучающих данных будут одними. Но если вам потребуется дополнительно классифицировать их по маркам производителей, то должны быть представлены примеры под все классы.
Некоторые используют для этого статистические эвристические методы расчета. Вот некоторые из них:
- Коэффициент количества классов: Для каждого класса должно быть x независимых примеров, где x может быть десятками, сотнями или тысячами (например, 5, 50, 500, 5000).
- Коэффициент количества входных функций: Должно быть на x% больше примеров, чем входных объектов, где x может быть десятками (например, 10).
- Коэффициент количества параметров модели: Для каждого параметра в модели должно быть x независимых примеров, где x может быть десятками (например, 10).
Но есть и очень полезные трюки, которые могут упростить работу и сократить необходимый набор данных. Например, предобучение модели на стадии разметки. Мы в LabelMe обычно используем этот метод при классификации изображений, так как каждая метка, поставленная живым разметчиком, позволяет в реальном времени обучать алгоритм.