Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Какую технологию использовать для структуризации большой массив данных в виде PDF и html файлов?

Имеется архив с данными в виде PDF рисунков и html описания. Размер: минимум 17 гб.
Нужно организовать поиск среди файлов, чтобы по запросу выдавался документ и его краткое описание. Как это реализовать?
Технологии
Павел Тихонов
  ·   · 188
старший разработчик в pseven.io  · 10 сент 2021
У Яндекса раньше была система поиска документов Yandex Desktop, которая индексировала документы в разных форматах и находила по текстовому запросу нужный. Аналогичная система была и у Гугла.
К сожалению, поддержка обоих прекратилась. Сейчас везде переходят к облачному хранению — например, вы может загрузить документы на Яндекс.Диск и производить поиск онлайн.
Из всё ещё поддерживаемых десктопных аналогов есть, например, Everything. к тому же в Windows есть своя встроенная система индексации и поиска в документах. Вот обзор десктопных поисковиков под Windows (в том числе встроенного).
Что-то осталось непонятно? Спроси в нашей группе в Телеграме!Перейти на t.me/jstsmentor
Способов реализации этой задачи масса. Вопрос, какие средства реализации ближе Вам, а так же на сколько приложение... Читать дальше
Разработчик в Яндекс  · 12 сент 2021  · asmoth.me
При условии что условный архив не меняется то можно попробовать загрузить пути к файлам и их описания в Elasticsearh (или любой другой подобный инструмент) и делать полнотекстовые запросы через консольную утилиту, написанную... Читать далее
Разработчик в ЯндексПерейти на asmoth.me