Индексирование офисных документов и Flash
Яндекс индексирует HTML-документы и файлы следующих типов: PDF, DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office); ODS, ODP, ODT, ODG (Open Office); RTF, TXT и SWF (если на файл ведет прямая ссылка или файл встроен в HTML-код с помощью элемента object
или embed
). Если SWF-файл содержит полезный контент, исходный HTML-документ может быть найден по контенту, проиндексированному в SWF-файле.
После выхода новых версий программ реализация поддержки новых форматов может занять некоторое время.
Существуют некоторые ограничения на типы индексируемых данных:
-
Документы больше 10 МБ не индексируются.
-
Если PDF-документ содержит только изображения, то индексируются первые три страницы. PDF-документ, содержащий также текст, индексируется полностью.
-
Во Flash-документе индексируется текст, который размещен в блоках:
-
DefineText
; -
DefineText2
; -
DefineEditText
; -
Metadata
.
-
-
Ссылки индексируются, если они размещены в блоках:
-
DoAction
; -
DefineButton
; -
DefineButton2
.
-