Зачем файл Robots.txt?

22 ноября 2016 г.
Зачем файл Robots.txt?

Robots.txt на все сто процентов оправдывает свое название. Это инструкция, которой пользуются поисковые боты. Robots.txt помещают в корневую папку ресурса, после чего он начинает управлять поведением поисковых роботов, запрещая индексировать определенные страницы. В середине 90-х годов выяснилось, что поисковые машины затрудняют работу посетителей на сайтах, тогда и возникла необходимость создать эффективный инструмент, который бы указывал поисковому роботу, какие страницы следует игнорировать, а на какие обращать внимание. Уже в 1994 году администраторы поисковых систем, производители и заинтересованные структуры договорились о начале разработки единого программного средства, которое могло бы управлять поисковыми роботами на сайте. В результате свет увидел стандарт написания файлов Robots.txt. Несмотря на то, что это не программа, а текстовый файл, это достаточно работоспособный инструмент.

Войдя на сайт, поисковый робот обращается к Robots.txt и анализирует структуру. Файл Robots.txt выглядит следующим образом: User-agent: *; Disallow: /tmp/; Disallow: /cgi-bin/. В данном случае продемонстрирован запрет на индексацию двух папок. Звездочка, которая расположена после фразы User-agent, указывает на то, что все указания Robots.txt предназначаются абсолютно для всех поисковиков. На месте звездочки может быть указано имя конкретной поисковой системы. В таком случае этой поисковой системе нельзя проводить индексацию. Disallow обозначает запрет на проведение индексации. Немаловажное значение несет и косая черта, то есть слэш. Вот пример: User-agent: *Disallow: /. Это запрет на индексацию всего сайта всеми существующими поисковыми системами. Но если после слова Disallow не будет косой черты, значит, доступ к индексации открыт абсолютно для всех поисковых роботов. Очень важно обращать внимание на наличие косой черты слэш при создании Robots.txt.

Существует еще несколько способов запрета индексации. Это Noindex и Nofollow. Однако хочется заметить, что ведущие поисковые системы мира Яндекс и Google лояльнее относятся к содержимому Robots.txt.

Чтобы комментировать, зарегистрируйтесь или авторизуйтесь