Открыть меню

Как оформить robots txt

В процессе индексации, поисковый сервер вначале ищет файл robots.txt в корневой папке. Он сообщает автоматической индексирующей программе, какие файлы ей индексировать, а какие пропустить.

Файл robots.txt имеет определённый формат. Он состоит записей, каждая из которых является строкой, описывающей имя параметра, его значение:[параметр] “:” [значение]

Этот файл должен в UNIX — формате, в котором каждая строка оканчивается специальным символом “n”. А в Windows признаком окончания строки является последовательность “rn”. Поэтому важно, чтобы программа для редактирования имела режим текстового отображения всех символов, включая служебные.

Параметры robots.txt

Параметр User-agent

С его помощью указывается название робота, которому позволено проводить индексацию. Например:

User-agent: googlebot

Вместо имени робота можно поставить маску «*», тогда индексировать сайт сможет любая поисковый сервер:

User-agent: *

Имена роботов можно определить из логов обращения к файлу “robots.txt”, хранимых на сервере.

 

 

 

Параметр Disallow

Определяет, какие файлы и каталоги запрещено индексировать. Например эта директива запрещает индексацию файла my.html:

Disallow: my.html

Директива может включать и название каталога:

Disallow: /catalog_name/

Там можно указать роботу, чтобы он пропустил папку catalog_name. В Disallow могут применяться и специальные символы подстановки. Например, значение /my запретит паукам читать из /my и также как и из /my/my.html.

Если эта директива останется пустой, то сайт будет проиндексирован целиком.

Ошибка 404, перенаправление на другую страницу

Часто при ошибке 404 (не найден файл) веб-сервер выдаёт некоторую страницу, например 404.html. Сервер, при этом, не выдаёт признак ошибки и не осуществляет перенаправления на главную страницу. Получается робот не будет проинформирован относительно того, что файла с правилами индексации не существует. Вместо этого ему будет выдана HTML – страница. Возможно, ничего страшного при этом не произойдёт. Но что, если страница будет воспринята как файл robots.txt? Дабы этого избежать, нужно обязательно создать robots.txt, пусть даже и с пустым содержимым.

Многие CMS создают при установке огромного количества служебных файлов. Индексация их может отнимать много времени и совершенно бесполезна. Поэтому использование специального файла, где будут указаны все страницы, нуждающиеся в индексации, можно считать обязательным.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

© 2018 Энциклопедия успешного бизнеса · Копирование материалов сайта без разрешения запрещено
- Архив сайта
По всем вопросам пишите по адресу: support@delen.ru