Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Кто-нибудь сталкивался с проблемой подсчета TF-IDF?

всем добрый день! хочу посчитать TF-IDF, но через собственную функцию считает очень долго, а метод fit_transform класса TfidfVectorizer в sklearn не принимает на вход список списков токенов в качестве корпуса. Может кто-то сталкивался с такой проблемой?

ТехнологииПрограммирование+2

Катерина С · 11 апр 2022 · 346

Никита Уткин

Программист. ML, DataSience, Python · 12 апр 2022

TfidfVectorizer из sklearn состоит из двух штук:

который преобразует данные в токены

CountVectorizer

, который подсчитывает TF-IDF матрицу

TfidfTransformer

Собственно, у вас 2 пути.

Либо использовать для подсчета матрицы.

TfidfTransformer

Либо (рекомендую) указать функцию, которой вы делали токенизацию, в качестве токенизатора при инициализации TfidfVectorizer. Например:

TfidfVectorizer(sublinear_tf=True, 
                ngram_range=(1, 1), 
                analyzer='word', 
                norm='l2', 
                tokenizer=tokenize_function)

И после этого, методу fit_transform уже подсовывать сырые данные.