Если перевести дословно, то датасет — это набор данных. Как правило, термин используется в контектсе анализа данных и обозначает размеченный набор данных, пригодный для использования в алгоритмах машинного обучения.
В качестве примеров, несколько самых известных среди аналитиков набор данных:
«Титаник» содержит сведения о пассажирах печально известного корабля и используется для обучения работе с предсказательными моделями.
«Ирисы Фишера» содержит сведения о физических характеристиках отдельных цветков, собранных британским исследователем Рональдом Фишером. Используется при работе с алгоритмами классификации и кластеризации (разделения на группы).
ImageNet — набор из сотен тысяч размеченных изображений, который используется при изучении и создании алгоритмов распознавания образов.