Robots.txt – это файл предназначенный для роботов поисковых систем, содержащий инструкции по обходу и индексации сайта. В этом файле вебмастер может указать параметры индексации своего сайта как для всех поисковых ботов сразу, так и для роботов каждой отдельной поисковой системы, указав «никнейм» системы рядом с соответствующей инструкцией. Важно составить правильный robots txt для правильной индексации сайта.

При индексации вашего сайта поисковые системы в перво наперво обращают свое внимание именно на этот файл — Robots.txt, который лежит в корневой директории вашего сайта на хостинге. Если такого файла у вас нет на хостинге, то обязательно создайте его. Например, несколько стотонных файлов или папок, которые никак не влияют на продвижение вашего сайта, можно спрятать при помощи Robots.txt.

Robots.txt будет полезным, если на вашем сайте есть страницы с ссылками на другие сайты. Такие ссылки понижают рейтинг вашего сайта, поэтому их лучше скрыть от индексации. У некоторых SMS системах этот файл создается автоматически, но его тоже нужно подправлять. Пример файла Robots.txt с сайта, сделанного на Joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/

Грамотное использование файла Robots.txt поможет даже ноутбук купить только на доходы с сайтов. Ведь исключение из индекса дублей делает остальные страницы более ценными.

Как видно с примера, в правиле User-agent: стоит *, это означает, что нижеследующие правила относятся ко всем поисковым системам.  Disallow — это запрет индексировать указанную папку папку. А ниже пример Robots.txt, предназначенный для запрета индексации дублирующего контента Яндексом для блога на WordPress без использования ЧПУ:

User-agent: Yandex
Disallow: /?m=
Disallow: /?cat=
Disallow: /wp-trackback.php

Robots.txt для зеркал:

User-Agent: *
Allow: /
Host: main-domain.ru

Обратите внимание, что директива Host следует не сразу после строки User-Agent. Для совместимости со всеми ботами Host следует ставить после директив Allow / Disallow. В данном случае директива Allow разрешает индексирование всего сайта.

Как бы вы не составили свой Robots.txt, помните: идеально правильного варианта нет! О дополнительных функциях Robots.txt читайте на Яндексе — help.yandex.ru/webmaster/?id=996567

Запись опубликована 16 ноября 2010 года. В рубрике «Тема дня» есть ещё несколько интересных постов:

Подписка на RSS канал блога RSS подписка (как это?) поможет вам не пропустить ничего интересного на этом блоге.