Структура сайта
Основой интернета являются ссылки, по которым можно переходить со страницы на другую страницу, с сайта на другой сайт. Работа поискового робота Яндекса основана на переходах по ссылкам и анализе этих ссылок. Если на вашем сайте есть документы, на которые не ссылаются другие страницы, робот Яндекса никогда не узнает про их существование, и они не будут учитываться при поиске. Поэтому важно следить за тем, как страницы вашего сайта связаны друг с другом. Вот несколько советов по организации структуры сайта:
Поддерживайте четкую ссылочную структуру на сайте. Каждый документ должен относиться к своему разделу. Следите, чтобы на каждый документ можно было попасть по обычной ссылке, обозначающейся в HTML-коде страницы тегом <A>: <a href=...>...</a>. Вообще говоря, время, которое необходимо роботу Яндекса, чтобы проиндексировать какую-либо внутреннюю страницу сайта, зависит, в том числе, от глубины вложенности этой страницы. Поэтому чем глубже страница, тем больше времени может пройти до включения ее в индекс.
При создании ссылок между документами сайта нужно учитывать еще один момент. Часто входной точкой на ваш сайт является именно главная страница. Ведь людям гораздо проще запомнить название (имя домена) сайта, но не конкретную внутреннюю страницу, URL которой может быть довольно замысловатым. Организация навигации по сайту должна позволять пользователю быстро сориентироваться в его структуре и легко находить нужные документы, чтобы не возникало ситуации, когда, не найдя нужной информации, разочарованный посетитель покидает сайт.
Используйте карту сайта. Для крупных проектов, содержащих множество страниц, рекомендуется использовать Sitemap (карту сайта). Это поможет поисковому роботу проиндексировать и проанализировать документы вашего сайта.
Ограничивайте индексирование служебной информации. Многочисленные страницы-дубликаты, результаты поиска по сайту, статистика посещений и тому подобные страницы могут тратить ресурсы робота и мешать индексированию основного содержимого сайта. Такие страницы не имеют ценности для поисковой системы, так как пользователям в выдаче они не предоставляют какой-то уникальной информации. Рекомендуем запрещать индексирование таких страниц в файле robots.txt. Если их не исключить из индексирования, то может получиться так, что регулярно добавляющиеся или обновляющиеся технические страницы будут хорошо индексироваться, а факт обновления важной информации на основных страницах сайта для робота останется незамеченным.
Каждая страница должна иметь уникальный адрес (URL). Желательно, чтобы вид URL давал представление о том, что содержится на соответствующей странице. Использование транслитерации в адресах страниц также позволит роботу понять, о чем может быть страница. Например, один только URL http://download.yandex.ru/company/experience/Baitin_Korrekciya%20gramotnosti.pdf дает поисковому роботу множество информации о документе: его можно скачать; формат, скорее всего, PDF; документ, вероятно, релевантен запросу «коррекция грамотности» и так далее.
Делайте ссылки на другие разделы сайта текстовыми, чтобы предоставить роботу больше информации о материалах, которые в них размещены.
Проверяйте корректность symlink-ов, чтобы при движении по сайту у страниц не получался бесконечно растущий URL. Страницы, у которых в пути содержится много повторений одного и того же токена, например, example.com/vasya/vasya/vasya/vasya/ могут не индексироваться.
- Запрещайте индексирование не предназначенных для пользователей страниц в файле robots.txt.
- Используйте одинаковую кодировку для страниц сайта и кириллических адресов в его структуре, так как встретив ссылку href="/корзина" на странице с кодировкой, например, UTF-8 робот сохранит ее именно в этой кодировке, а значит она должна быть доступна по адресу "/%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0".