Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Кто-нибудь сталкивался с проблемой подсчета TF-IDF?

всем добрый день! хочу посчитать TF-IDF, но через собственную функцию считает очень долго, а метод fit_transform класса TfidfVectorizer в sklearn не принимает на вход список списков токенов в качестве корпуса. Может кто-то сталкивался с такой проблемой?
ТехнологииПрограммирование+2
Катерина С
  ·   · 346
Программист. ML, DataSience, Python  · 12 апр 2022
TfidfVectorizer из sklearn состоит из двух штук:
  1. который преобразует данные в токены
CountVectorizer
  1. , который подсчитывает TF-IDF матрицу
TfidfTransformer
Собственно, у вас 2 пути.
Либо использовать  для подсчета матрицы.
TfidfTransformer
Либо (рекомендую) указать функцию, которой вы делали токенизацию, в качестве токенизатора при инициализации TfidfVectorizer. Например:
TfidfVectorizer(sublinear_tf=True, 
                ngram_range=(1, 1), 
                analyzer='word', 
                norm='l2', 
                tokenizer=tokenize_function) 
И после этого, методу fit_transform уже подсовывать сырые данные.