В наши дни интернет распространился по всему миру. Мы практически немыслим наш день без доступа к интернету, где можно просмотреть список новостей, найти необходимую информацию. Появляются новые сайты, вместе с ними появляется и новые
протоколы выполнения тех или иных операций. Вебмастер должен быть знаком как со старыми методиками написания протоколов, так и уметь мгновенно, и своевременно освоить новейшие программы и протоколы.
Роботы систем поиска в момент входа на портал первоначально обращаются к фалу robots.txt. Именно этот файл содержит в себе протокол, от которого зависят дальнейшие действия робота поисковика, а также какие файлы и области не подлежат индексированию роботами.
Каждый программист и верстальщик должен уметь грамотно писать такой текстовый файл и правильно создавать robots.txt, так как допущенные нарушения влекут за собой большое количество нежелательных последствий. Основной задачей robots.txt вляется запрет к индексации. Стоит отметить, что данный документ не является обязательным к использованию при поисковых работах, он скорее выступает в роли рекомендательного письма, ссылаясь на которое необходимо производить поисковые работы.
Данный файл имеет расширение txt. Его создают при помощи стандартной офисной программы «Блокнот», и в последствии его располагают в корневой папке сайта, в которой заключают информацию по индексации в процессе поисковых работ. Стоит отметить, что
рекомендации по индексации могут предназначаться как для всех поисковиков, так и для определённых видов роботов.
Программист должен руководствоваться следующими правилами при написании такого файла:
Прежде всего название должно оставаться неизменным, «robots.txt» не должно видоизменяться, например, на «robot.txt». Если название будет другим, робот просто проигнорирует инструкции.
Название должно писаться с маленькой буквы, этот пункт также является обязательным к исполнению, то есть «robots.txt», а не «ROBOTS.TXT».
Самое главное это месторасположение файла. Только установка в корневую папку сайта предупредит от нежелательных ошибок и последствий.
Одним из немаловажных пунктов является то, что грамотность написания файла также должна соблюдаться. Так как если будут допущены ошибки часть ресурсного портала, а в некоторых случаях и всё содержимое сайта подвергнется процессу индексирования.
Три компонента входящие в состав данного текстового файла:
директива User-agent: *
протокол Disallow: /adminka/
инструкция Disallow: /image/
Рассмотрим каждый из компонентов поподробнее.
Компонент User-agent: *. Наличие звёздочки говорит о том, что руководство, находящееся в файле имеет отношение и применяется к абсолютному большинству роботов, входящих на портал. Если же правила относятся к определённому виду роботизированных
поисковиков, то возникает необходимость указать в тексте его конкретное имя.
Протокол Disallow: /adminka/ и Disallow: /image/ запрещают к индексации отмеченное содержимое ресурса. Немаловажным является тот факт, что каждая область которая не подлежит индексированию, прописывается в новой строчке. Объединять области или совмещать их в одной строчке категорически запрещено, это нарушает основные правила написания. Что касается переноса строк в приделах одного протокола - данное действие также ошибочно.
Ниже приведены примеры оформления и создания такого текстового файла:
Ставится цель запретить индексирование всего содержимого информационного ресурса всеми видами роботов поисковиков:
User-agent: *
Disallow: /
Поставлена цель разрешить к индексированию все содержимое портала любыми видами роботизированных поисковиков:
User-agent: *
Disallow:
Стоит задача о создании запрета к индексированию содержимого портала и всего ресурса в целом от определённого робота-поисковика (в качестве примера, yandexbot):
User-agent: yandexbot
Disallow: /
Поставлена задача разрешить процесс индексирования одному из роботов (в качестве примера, yandexbot) и в тоже время запретить индексирование оставшимся роботизированным поисковикам:
User-agent: yandexbot
Disallow:
User-agent: *
Disallow: /
Необходимо запретить процесс индексирования нескольких областей информационного ресурса:
User-agent: *
Disallow: /directoria-1/
Disallow: /directoria-2/
Disallow: /hidedirectoria/
Стоит задача запретить к индексированию несколько областей портала всеми поисковыми автоматизированными системами:
User-agent: *
Disallow: /hide.php
Disallow: /secret.html
В конце всего можно подвести итог и составить свод правил, которыми необходимо пользоваться при создании данного текстового документа:
Весь текст, содержащийся в файле необходимо писать с маленькой буквы за исключением первой буквы в начале каждой строки;
Протокол Disallow предназначен только для одного раздела портала или одного файла;
Категорически запрещается изменять порядок написания инструкций Disallow и User-agent.
Область User-agent обязательна к заполнению. Если руководство предназначается для всех роботов поисковиков, то пишется *, если же только для определённого вида робота, то указывается его имя.
Протокол Host должен заполняться соответствующим образом. Адрес указывается без вводного http://, а также опускается замыкающий символ в конце адресной строки (/).
В протоколе Disallow запрещено использование символов подстановки.
Объяснения к протоколам желательно писать отдельно, а не совмещать их в одну строку.
Инструкцию Disallow пропускать категорически запрещено. Если вы решили не запрещать индексацию ни одной из областей или всего сайта в целом, то просто необходимо оставить протокол пустым.
В том случае если было принято решение запрещать к индексированию определённые области и файлы сайта, то при их написании обязательно использование слешов (/).
В довершении всего, перед тем как установить данный файл в корневую папку сайта, необходимо тщательно проверить содержимое файла robots.txt. Дополнительная проверка позволит избежать нежелательных результатов в последствии.
При соблюдении основных правил написания файла вы сможете ограничить индексирование на своём сайте от роботов поисковиков, сможете защитить уникальный контент сайта полностью или частично.