Индексирование офисных документов и Flash
Яндекс индексирует HTML-документы и файлы следующих типов: PDF, DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office); ODS, ODP, ODT, ODG (Open Office); RTF, TXT и SWF (если на файл ведет прямая ссылка или файл встроен в HTML-код с помощью элемента object или embed. Если SWF-файл содержит полезный контент, исходный HTML-документ может быть найден по контенту, проиндексированному в SWF-файле.
После выхода новых версий программ реализация поддержки новых форматов может занять некоторое время.
Существуют некоторые ограничения на типы индексируемых данных:
- Документы больше 10 МБ не индексируются.
Если PDF-документ содержит только изображения, то индексируются первые три страницы. PDF-документ, содержащий также текст, индексируется полностью.
Во Flash-документе индексируется текст, который размещен в блоках:
DefineText;
DefineText2;
DefineEditText;
Metadata.
Ссылки индексируются, если они размещены в блоках:
DoAction;
DefineButton;
DefineButton2.