post Категории: SEO статьиpost Comments (11)

robots.txt

Устанавливая магазин или аптеку от какой-то популярной партнерской программы, опытный web-мастер первым делом займется уникализацией магазина. Вопрос уникализации картинок и текстов в этой статье затронут не будет. Но если вы устанавливая аптеку поищите рекомендации по оптимизации шопов, то скорее всего наткнетесь на посты LuckyMax'a и wlad2.ru в которых обязательными пунктами идет работа с robots.txt. Но не хлебом единым, как говорится... Читаем в деталях:Предоставленные самим себе, роботы поисковых систем часто воспринимают важные страницы как мусор, и индексируют контент не имеющий ценности для пользователя. Удостоверьтесь, что Вы сделали все возможное, чтобы каждый визит ботов на Ваш сайт приносил пользу.

Это как защита для детей в доме. Вы блокируете доступ к некоторым комнатам с помощью замков, используете заглушки для электрических розеток и убираете опасные предметы подальше. В то же время Вы оставляете полезные, развивающие и безопасные игрушки там, где до них легко дотянуться.

Считайте Googlebot таким ребенком. Если Вы позволите ему бродить где угодно, Вы можете упустить некоторые выгодные моменты. Ограничьте доступ к проблемным участкам сайта, и боты сосредоточатся на других страницах, более полезных с точки зрения оптимизации.

К счастью, существует возможность ограничить активность бота на отдельных участках Вашего сайта. Рассмотрим 4 основных способа: тег Meta Robots, файл Robots.txt, тег X-Robots и тег Canonical. Кратко расскажем о каждом из них:

Тег Canonical

Тег Canonical – это метатег, размещаемый в HTML заголовке веб-страницы на страницах с дублированным контентом. Он сообщает поисковой системе адрес канонической (оригинальной) страницы. Это сделано для того, чтобы избежать повторной индексации одного и того же контента.

Код выглядит примерно так:

<link rel="canonical" href="http://example.com/quality-wrenches.htm"/>

Наличие этого тега легко определить, просмотрев исходный код страницы.

Достоинства

• Легкий в использовании инструмент.

• Можно применять тег для страниц на разных доменах.

Недостатки

• Легко допустить ошибку при использовании этого тега

• Поддержка поисковой системы нестабильна. Тег - скорее указание, чем команда.

• Не всегда решает основную проблему

Примеры использования

• Использование тега canonical – часто наилучшее решение, хотя есть и другие способы.

• Рекомендуется использовать тег canonical в случае, если, например, побочная версия Вашего сайта более высоко ранжируется чем основная.

• Если Вы не хотите отслеживать данные рефералов с помощью кукис, тег canonical хорошая альтернатива.

ROBOTS.TXT

Robots.txt дает некоторый контроль над ботами поисковых систем. Хотя и не гарантирует, что страница не будет проиндексирована. Рекомендуется использовать мета тег <noindex>.

Достоинства

• Настолько легкий способ, что можно научить этому даже обезьяну.

• Удобно в этом файле указывать на XML карты сайта.

Недостатки

• Настолько легкий способ, что можно научить этому даже обезьяну.

• Служит препятствием для наращивания ссылочной массы, так как поисковым системам запрещается доступ к страницам, на которых содержатся ссылки.

Советы по использованию

• Рекомендуется использовать robots.txt просто, чтобы продемонстрировать его наличие. Он не должен ничего запрещать, а только указывать на XML карты сайта.

Мета-тег ROBOTS

Мета-тег robots указывается в заголовке каждой конкретной страницы, доступ к которой требуется ограничить. Например:

<html>

<head>

<title>...</title>

<meta name="robots" content="noindex, nofollow"></head>

Атрибут content может содержать следующие значения:

• Noindex - не индексировать данный документ

• Nofollow - не идти по ссылкам с данной страницы

• Noarchive - запретить всем поисковым системам выводить ссылку на кэшированную версию страницы

• Nosnippet - запретить выводить фрагменты с Вашей страницы в результатах поиска

• Noodp - запретить в результатах поиска использовать сниппет, сгенерированный в Open Directory Project

• Nodir – запретить выводить в результатах поиска заголовки и описания для страницы из каталога Yahoo! Directory

Мета-тег robots – наилучшая альтернатива. Используя тег <noindex>, можно запретить индексировать страницу, но при этом поисковые боты будут переходить по ссылкам со страницы.

Достоинства

• Использование <noindex> в мета-теге robots с большей вероятностью исключит страницу из поиска, чем запись в robots.txt

• Пока Вы не используете тег nofollow, нет никаких причин для падения ссылочной массы

• Удобная настройка содержимого сниппетов в выдаче с помощью NOSNIPPET, NOODP и NODIR

Недостатки

• Многие применяют 'noindex, nofollow' одновременно и теряют ссылочную массу

Советы по использованию

• Представьте, что главная страница Вашего сайта содержит большое количество ссылок. Вы не хотите, чтобы она индексировалась, но при этом не хотите терять ссылочный вес, как в случае, если добавите ее в robots.txt

X-ROBOTS-TAG

Начиная с 2007 Google и другие поисковики поддерживают мета-тег X-Robots в HTTP заголовке. С помощью X-Robots можно контролировать не только индексацию отдельных HTML -страниц, но и доступ к другим типам документов, таким как PDF файлы

Достоинства

• Позволяет контролировать индексацию необычного контента, такого как Excel файлы, PDF, PPT и т.п.

Недостатки

• Такие типы контента очень проблематичны. Проще сделать HTML-версию для индексации, а файл прикрепить для загрузки отдельно.

Советы по использованию

• Ваш сайт на HTML, но маркетинговый отдел хочет сделать доступной и PDF-версию информации. Используйте X-Robots, чтобы контролировать доступ поисковиков к PDF

• У Вас есть неплохая коллекция excel-шаблонов, на которые много ссылаются. Если Вас беспокоит, что они могут ранжироваться более высоко, чем HTML-страницы, можете добавить <noindex> в тег x-robots

Можете использовать любой из способов, на Ваше усмотрение. Главное, чтобы результат соответствовал ожиданиям, и поисковые боты при индексации сосредоточились на запланированных Вами страницах.

#1

Спасибо большое за подробную инструкцию, а то все никак руки не доходили вплотную заняться robots.txt.

Юрий, 01/04/2011 - 15:24
#2

Случается, что не всегда робот выплняет то, что ему указывают…

Профит, 01/04/2011 - 15:30
#3

Если есть опыт в программировании, то правильнее закрывать мета тегами от индексирования.

wlad2, 01/04/2011 - 18:33
#4

Недостатки

• Настолько легкий способ, что можно научить этому даже обезьяну.

• Служит препятствием для наращивания ссылочной массы, так как поисковым системам запрещается доступ к страницам, на которых содержатся ссылки.

Поясните пожалуйста вот эту часть, это недостатки роботы.тхт Во первых, почему про простуту это недостаток, по моему это чистый плюс. Во-вторых, дайте пожалуйста более развернутое объяснение, просто раньше не слышал что роботс.тхт препятствует наращиванию ссылочной массы…

madsteam, 02/04/2011 - 20:04
#5

madsteam, простота в данном случае является как преимуществом, так и недостатком. И во втором случае нужно делать акцент на слово “обезьяна”.
Для robots.txt готовится целый пост, там будут ответы на ваши вопросы.

Zuzlan, 02/04/2011 - 20:47
#6

Спасибо за статью! В закладки, еще пригодится…
Автору респект!

Roman, 03/04/2011 - 07:42
#7

Большое спасибо, жду с нетирпением этот пост, а то занялся раскруткой своего сайта а про влияние роботса не слышал.

madsteam, 03/04/2011 - 11:48
#8

про Canonical не знал :) ушел ставить)

Itan, 04/04/2011 - 11:24
#9

Можно кое что взять на заметку.
p.s. уже взял)

Inftim, 07/04/2011 - 19:17
#10

[...] странице. Будьте очень внимательны при использовании атрибутов noindex и nofollow, если Вы хотите, чтобы целевые страницы Вашего сайта [...]

#11

Так есть куча способов автоматически создать robots.txt

Тем более чуть ли не для каждого движка на форуме прям со слюной у рта орут, вот он самый лучший robots.txt для этого движка!

Любопытный, 05/05/2011 - 09:05