TfidfVectorizer из sklearn состоит из двух штук:
- который преобразует данные в токены
CountVectorizer
- , который подсчитывает TF-IDF матрицу
TfidfTransformer
Собственно, у вас 2 пути.
Либо использовать для подсчета матрицы.
TfidfTransformer
Либо (рекомендую) указать функцию, которой вы делали токенизацию, в качестве токенизатора при инициализации TfidfVectorizer. Например:
TfidfVectorizer(sublinear_tf=True,
ngram_range=(1, 1),
analyzer='word',
norm='l2',
tokenizer=tokenize_function)
И после этого, методу fit_transform уже подсовывать сырые данные.