Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

МЛ + паттерны = успех? На каких моделях МЛ лучше всего обучать бота, чтобы получить максимальную эффективность в понимании запросов?

Машинное обучениеЧат-боты+2
Аскер
  ·   · 601
Специалист по машинному обучению и ГИС, кандидат...  · 5 авг 2021

Попробую ответить на второе. Если я правильно понял, под запросами вы имеете ввиду интенты пользователей чат-бота!? Если так, то вам лучше ознакомиться с конвейерами (пайплайнами) наиболее успешных проектов, например Rasa.

Они, в частности, используют для предсказания интентов DIET, почему бы не взять его. Не менее важной является модель для подготовки векторов для классификатора интентов. Здесь все зависит от языка, конкретной доменной области для которой вы делаете бота и количества обучающих примеров для ваших интентов.

Если у вас большая обучающая выборка, то можно обойтись без предобученных моделей и использовать стандартный CountVectorizer из sklearn.

Если выборка не очень большая, можно взять что-то готовое. Для английского языка подойдет стандартный BERT. Для русского LABSE c huggingface, RuBert или "ru_core_news_lg" от Spacy. Все работают +- не плохо. Понять что из этого лучше можно только протестировав на вашем датасете.

Мой телеграммПерейти на t.me/pavel_kikin