Индексирование офисных документов и Flash

Яндекс индексирует HTML-документы и документы следующих типов: PDF, DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office); ODS, ODP, ODT, ODG (Open Office); RTF, TXT и SWF (если на файл ведет прямая ссылка или файл встроен в HTML-код с помощью элемента object или embed. Если SWF-файл содержит полезный контент, исходный HTML-документ может быть найден по контенту, проиндексированному в SWF-файле.

После выхода новых версий программ реализация поддержки новых форматов может занять некоторое время.

Существуют некоторые ограничения на типы индексируемых данных:

  • Документы больше 10 МБ не индексируются.
  • Если PDF-документ содержит только изображения, то индексируются первые три страницы. PDF-документ, содержащий также текст, индексируется полностью.

  • Во Flash-документе индексируется текст, который размещен в блоках:

    • DefineText;

    • DefineText2;

    • DefineEditText;

    • Metadata.

  • Ссылки индексируются, если они размещены в блоках:

    • DoAction;

    • DefineButton;

    • DefineButton2.