post Категории: SEO статьи,Структура сайтаpost Comments (10)

Недавно на нашем блоге был опубликован пост об ограничении действий поисковых ботов для лучшей оптимизации сайта. В нем очень неоднозначно рассматривалось использование robots.txt. Рассмотрим сегодня вопрос "как правильно создать robots.txt" более детально.

Многие важные страницы популярных доменов часто бывают заблокированы с помощью robots.txt. Эта статья поможет Вам узнать, как на самом деле поисковые системы обращаются со страницами, заблокированными robots.txt, и, с помощью некоторых примеров, понять, как избежать этих ошибок.
Протокол исключений robots.txt был создан в 1994, для того, чтобы ограничить доступ ботов к страницам, указанным веб-мастером. Сейчас многие поисковые боты учитывают содержимое файла robots.txt, но только до некоторой степени.

Ваши страницы могут быть все еще доступны в результатах поисковой выдачи

Боты следуют инструкциям robots.txt, и не индексируют содержимое страницы, но сами страницы попадают в результаты поисковой выдачи.
Страница входа на сайт Cisco

Ниже пример страницы входа на сайт Cisco, заблокированной для индексации с помощью robots.txt, и в то же время находящейся на второй странице поисковой выдачи по запросу "login". Обратите внимание, что в результатах поиска есть заголовок сниппета и URL, отсутствует только описание страницы.

Страница входа Cisco в выдаче ПС

Как видите, использование robots.txt не самый лучший способ исключить страницу из результатов поиска.

Использование Robots.txt блокирует передачу ссылочного веса

Использование robots.txt для запрета индексирования не только не эффективно, но и способствует потере ссылочной массы. Когда Вы блокируете страницу с помощью robots.txt, поисковые системы не индексируют не только содержимое страницы, но и ссылки, которые на ней содержатся.
Несмотря на то, что внешние ссылки на блокированную страницу все-таки приносят некоторую пользу сайту, теряется возможность передачи ссылочного веса между заблокированной страницей и другими страницами сайта.

3 крупных сайта, некорректно использующих возможности Robots.txt

Первый пример неудачного эксперимента с robots.txt:

#1 - Digg.com
Digg.com поставил себя в не очень выгодное положение, использовав robots.txt для блокировки страницы подписки ("Submit to Digg") с более чем 425,000 ссылками на внутренние страницы сайта.

digg-submit

Хорошие новости для Digg в том, что с тех пор они немного подкорректировали файл robots.txt. На примере снизу последний кэш robots.txt этого сайта и сниппет со страницей подписки:

digg.com robots.txt

Как видите, Google все так же не индексирует содержимое страницы, блокированной в robots.txt.

site:digg.com/submit

Digg мог бы использовать мета-тег 'noindex', чтобы исключить эти страницы из индекса, и не терять при этом ссылочный вес.
Все, что Вам нужно сделать, это поместить следующий мета-тег внутри тега страницы

<meta name="robots" content="noindex, follow">

Добавляя 'follow' в тег, вы получаете гарантию того, что бот не проиндексирует страницу, но сможет следовать по ссылкам на ней. Например, при использовании тегов noindex, follow, робот не будет индексировать содержимое страниц результатов поиска по сайту, но будет переходить по ссылкам на страницы продукции и индексировать их.

#2 - Blogger.com & Blogspot.com
Blogger и Blogspot, домены, объединенные в один сайт, - хорошая иллюстрация того, как некорректные инструкции в robots.txt блокируют передачу ссылочного веса.

blogger.com

Blogger.com - это блоггерская платформа, с поддоменами, расположенными на 'yourblog.blogspot.com'. Ссылочная масса www.blogspot.com полностью блокируется robots.txt. Пользователь, попытавшийся зайти на главную страницу Blogspot, перенаправляется на Blogger.com с помощью редиректа 302.
Замечание: Все поддомены, за исключением 'www', доступны для поисковых ботов.
Лучшим решением был бы 301 редирект с главной страницы Blogspot.com на целевую страницу Blogger.com. Это небольшое изменение позволит проиндексировать более чем 4,600 внутренних ссылок.

#3 - IBM
На сайте IBM есть страница, на которой находится более 1000 внутренних ссылок. Страница запрещена для индексации с помощью robots.txt, плюс для переадресации используется 302 редирект.

ibm.com

Если популярная страница удалена или меняет адрес, лучше воспользоваться 301 редиректом.

Лучшие решения для Robots.txt

Выше описаны примеры неудачного использования robots.txt. ниже список эффективных решений, позволяющих предотвратить индексирование страницы, но не блокирующих передачу ссылочного веса.

Noindex

Во многих случаях, лучшая замена robots.txt это мета-тег robots. Добавьте 'noindex', и убедитесь, что не добавили 'nofollow', и Ваши страницы не появятся в результатах поиска, но будут передавать ссылочный вес

301 редирект

robots.txt - это не мусорное ведро. Если страница удалена, переехала и т.д., не блокируйте ее. Сделайте 301 редирект на более подходящую страницу.

Тег Canonical

Не блокируйте страницы с дублированным контентом. Используйте тег canonical, чтобы удалить дублированные страницы из индекса и объединить ссылочный вес.

Используйте пароль.

Robots.txt - не лучшее место для хранения конфиденциальной коммерческой информации. Если Вы храните такого рода данные на сайте, используйте пароль, чтобы защитить их. На странице входа используйте мета-тег "noindex". Если предполагается, что на эту страницу ведет большое количество внешних ссылок, расположите на ней ссылки на другие страницы сайта (для увеличения ссылочного веса).

Эффективное использование Robots.txt

Лучший способ использования robots.txt - это не использовать его... почти. Используйте для указания на то, что у ботов есть полный доступ ко всем страницам Вашего сайта и чтобы направить роботов к карте сайта.
Ваш robots.txt файл должен выглядеть так:
-----------------
User-agent: *
Disallow:
Sitemap: http://www.yoursite.com/sitemap.xml
-----------------

Существуют боты, которые вообще не учитывают при работе инструкции файла robots.txt. Фильтрация ботов с помощью robots.txt не рекомендуется по трем причинам:

  1. Поисковые системы часто меняют имена ботов.
  2. Поисковые системы используют различные типы ботов для разного типа контента (графика, видео...)
  3. При изменениях в стандарте протокола учитываются только юзер-агенты, ранее использовавшие robots.txt.

Конкуренты

Допустим, Вы работаете над новой линией продукции, и используете robots.txt, чтобы закрыть ботам доступ к новой директории. Если конкурент решит заглянуть в Ваш robots.txt файл, и увидит директорию с названием "/newproducttest", он сорвет джекпот. Лучше держите эти данные на вспомогательном сервере, или используйте пароль.

Управление не-HTML контентом

• Не обязательно блокировать .js и .css файлы в robots.txt. Поисковые системы не индексируют их, но в некоторых случаях анализируют, так что лучше оставить доступ открытым.
• Чтобы ограничить доступ документам типа PDF лучше использовать тег x-robots в HTTP-заголовке.
• Изображения! На каждом веб-сайте есть фоновые изображения или другая графика, которую нет смысла индексировать. Лучше вставлять изображения с помощью CSS, а не использовать тег. Это более логичный способ избежать индексации, чем запрещать "/style/images" директорию в robots.txt.
• Лучший способ узнать, пытались ли поисковые боты получить доступ к не-HTML файлам, это проверить логи.

Руководство к действию

  1. Исправьте Ваш robots.txt файл. Если доступ к каким-либо страницам запрещен, прочитайте статью еще раз.
  2. Проверьте наличие блокированных страниц в Open Site Explorer.
  3. Добавьте мета- тег noindex к страницам, которые вы хотите исключить из индекса.
  4. Используйте 301 редирект для удаленных или перемещенных страниц, доступ к которым ранее блокировался из robots.txt
  5. Примените тег canonical к страницам с дублированным контентом.
  6. Наслаждайтесь увеличением трафика
#1

Очень ценные советы, давно искала что то подобное. Спасибо.

Яна, 12/04/2011 - 11:41
#2

Пытался убрать дубли страниц с помощью robots.txt, а пропали целые разделы. Сайт был на joomla. Теперь нашел CMS без дублей, и не парюсь.

Ilnar10, 12/04/2011 - 14:47
#3

Подправил свой. Статья в точку!

APB Reloaded, 12/04/2011 - 16:17
#4

Noindex может лучше?

#5

Мы это все знаем, тема не пропалена.

Artur, 13/04/2011 - 08:13
#6

как раз искал что то подобное, теперь узнал кое что, спасибо поиду исправлять роботс свои

ХАМ ТРАМВАЙНЫЙ, 13/04/2011 - 09:13
#7

Даже подправлять свой не пришлось. Вроде всё правильно. :)

Neo, 14/04/2011 - 19:35
#8

Так если по дефолту все разрешено даже без файла, то зачем он?

Алексей, 21/04/2011 - 21:09
#9

Спасибо за статью. Учту ошибки этих сайтов, надеюсь у меня таких не будет.

Владимир, 23/04/2011 - 16:51
#10

Да друзья! Все конечно замечательно. Но!
1. Мы с Вами делаем сайты с полезной инфой, которую хотим показывать, а не наоборот. Сделать сайт и думать как потом попрятать большое количество страниц – странно.
2. Дубли из нашей любимой Джумлы ноиндексом не уберешь.

Guest, 21/06/2011 - 20:43