Robots-.txt (Для веб-мастеров)
November 30th, 2005
robots.txt и его аналоги
robots.txt - файл, с помощью которого можно управлять индексированием страниц на сайте. Находиться он должен в корневом каталоге (то есть, например, www.domen.ru/robots.txt). Любой робот (есть и исключения, естественно), прежде чем начнёт индексацию ваших страниц, проверит, есть ли в корневом каталоге файл robots.txt. При обнаружение этого файла, робот будет руководствоваться им, при отсутствие примет значение “по-умолчанию”, то есть будет индексировать все ваши файлы, включая даже скрипты! Однако, если вам это значение подходит (хотя кому нужно индексация скриптов и картинок?), то желательно всё равно создать файл robots.txt. В robots.txt (заметьте, файл должен состоять из маленьких букв!) нужно прописывать какой каталог/файл/окончание не требует индексации. Рассмотрим данный пример:
User-agent: *
Disallow: /cgi-bin/
«User-agent: *» означает, что «Disallow», который находиться внизу (до следующего User-agent, если таковой будет) относиться для всех роботов, а если же вы хотите, чтобы не индексация каталога «/cgi-bin/» была, например, только для робота Рамблера, то следует вместо «*» поставить имя данного робота, т.е. StackRambler. И, как вы уже поняли, в «Disallow» (количество их может быть неограниченно) надо вписать именно тот каталог, файл или даже окончание названия файла (подробнее об этом ниже), который не требует индексации.
В «Disallow» можно вписать не только каталог, но и сам URL (полный) файла или его окончание, то есть, например, если у вас в каталоге лежит ещё один каталог (предположим в «/img/»), то можно вписать в «Disallow: /img», тем самым вы запретите индексирования всего каталога img и его подкаталогов, лежащих в «img». Если вы поставите «/img/», то запрет на индексирование получит только сам каталог «img».
А как мне сделать так, чтобы весь сайт не индексировался?
Для этого достаточно поставить следующее: «Disallow: /».
А как мне разрешить индексирование всего сайта (при этом создав, естественно, robots.txt)?
Для этого достаточно поставить следующее: «Disallow: *».
Что ещё можно вписать в robots.txt?
Ещё можно вписать главный URL вашего сайта, тем самым вы отсеете свои алиасы (документ, который полностью идентичен). Для это достаточно вписать:
«Host: www.glavniyurl.ru»
Если вы хотите, чтобы главным URL`ом был адрес без www, то следует написать следующее:
«Host: glavniyurl.ru»
Также заметьте, что никакие «http://» не нужны в данном случае, «Host:» следует писать после всех «Disallow» и «User Agent» для соблюдения стандарта.
А есть аналоги?
Да, есть: можно в head поставить “meta name=robots content=X”. Где «X» будет:
ALL - индексировать документ и идти дальше по ссылкам.
NONE - не индексировать документ и не идти дальше по ссылкам.
INDEX - индексировать документ.
FOLLOW - идти по ссылкам.
NOINDEX - не индексировать документ.
NOFOLLOW - не идти по ссылкам.
Стоит заметить, что нынче поисковые боты “по умолчанию” пройдут по всем ссылкам, если это не запрещено, например, тем же robots.txt.
А как мне запретить индексирование отдельной части документа?
Для этого следует эту часть пометить следующими тегами: “noindex” фрагмент документа, который не требует индексации “/noindex”. Однако мало того, что такой фрагмент не будет проиндексирован, так из этого фрагмента ещё и не будут выделены ссылки для дальнейшего перехода по ним робота, поэтому будьте осторожны.
P.S. “” замените на <>.



