Есть ли сервис, который позволит мне извлечь все слова из текста в порядке частоты встречаемости и получить «частотный словарь одной книги»?

ОбразованиеЛитература+3

Александр Филатов · 3 окт 2016 · 3,3 K

Летний литературный лагерь

21 мая 2019

Отвечает

Валера Генералова

Частотный словарь одной книги называется конкорданс.

Сделать простейший конкорданс очень просто. Для этого можно воспользоваться как онлайн сервисами, так и устанавливаемыми программами, благо есть множество бесплатных разработок.

На этой странице перечислено довольно много оффлайн и онлайн предложений для создания конкордансов. На этой странице также кратко обозреваются некоторые наиболее популярные программы, а ещё даётся пример кода на языке Python, который можно адаптировать под свои нужды. Я сама пользуюсь программой AntConc (есть в обоих списках) или самодельными скриптами, но никому своего мнения не навязываю.

Важно отдавать себе отчёт в том, что большинство программ работает со словами просто как с последовательностями символов. Если Вы не хотите, чтобы знаки препинания считались частями слова (то есть, чтобы в Вашем конкордансе не было слов вроде "Привет!"), необходимо сначала отделить их пробелами (или найти инструмент, который сделает это за Вас). Также следует обращать внимание на регистр слов в Вашем тексте. Процесс подготовки слов к автоматической обработке называется токенизацией, и для него тоже есть немало наработок.

Если Вы собираетесь работать с русским языком (или другим языком с развитой морфологией) и хотите, чтобы все формы одного слова считались вместе (например, все падежи или все времена глагола), простой сервис для создания конкордансов с этим не справится. Вам нужно будет сначала провести процедуру лемматизации.

Приезжайте в ЛЛЛ в августе — будем читать, задумываться, обсуждать ;)

Перейти на vk.com/@lit_lager-lll-2020-vse-chto-nuzhno-znat

Spieler

8 сент 2022

Здравствуйте! Очень интересная тема, но, к сожалению, вторая ссылка (с мануалами и питоновским кодом) уже не... Читать дальше