Четверг, Август 17, 2017
Kwork.ru - услуги фрилансеров по 500 руб.

Как правильно создать robots.txt

Рейтинг:   / 2
ПлохоОтлично 

В наши дни интернет распространился по всему миру. Мы практически немыслим наш день без доступа к интернету, где можно просмотреть список новостей, найти необходимую информацию. Появляются новые сайты, вместе с ними появляется и новые
протоколы выполнения тех или иных операций. Вебмастер должен быть знаком как со старыми методиками написания протоколов, так и уметь мгновенно, и своевременно освоить новейшие программы и протоколы.
Роботы систем поиска в момент входа на портал первоначально обращаются к фалу robots.txt. Именно этот файл содержит в себе протокол, от которого зависят дальнейшие действия робота поисковика, а также какие файлы и области не подлежат индексированию роботами.

Каждый программист и верстальщик должен уметь грамотно писать такой текстовый файл и правильно создавать robots.txt, так как допущенные нарушения влекут за собой большое количество нежелательных последствий. Основной задачей robots.txt вляется запрет к индексации. Стоит отметить, что данный документ не является обязательным к использованию при поисковых работах, он скорее выступает в роли рекомендательного письма, ссылаясь на которое необходимо производить поисковые работы.

Данный файл имеет расширение txt. Его создают при помощи стандартной офисной программы «Блокнот», и в последствии его располагают в корневой папке сайта, в которой заключают информацию по индексации в процессе поисковых работ. Стоит отметить, что
рекомендации по индексации могут предназначаться как для всех поисковиков, так и для определённых видов роботов.

Программист должен руководствоваться следующими правилами при написании такого файла:

Прежде всего название должно оставаться неизменным, «robots.txt» не должно видоизменяться, например, на «robot.txt». Если название будет другим, робот просто проигнорирует инструкции.

Название должно писаться с маленькой буквы, этот пункт также является обязательным к исполнению, то есть «robots.txt», а не «ROBOTS.TXT».

Самое главное это месторасположение файла. Только установка в корневую папку сайта предупредит от нежелательных ошибок и последствий.

Одним из немаловажных пунктов является то, что грамотность написания файла также должна соблюдаться. Так как если будут допущены ошибки часть ресурсного портала, а в некоторых случаях и всё содержимое сайта подвергнется процессу индексирования.

Три компонента входящие в состав данного текстового файла:

директива User-agent: *

протокол Disallow: /adminka/

инструкция Disallow: /image/

Рассмотрим каждый из компонентов поподробнее.
Компонент User-agent: *. Наличие звёздочки говорит о том, что руководство, находящееся в файле имеет отношение и применяется к абсолютному большинству роботов, входящих на портал. Если же правила относятся к определённому виду роботизированных
поисковиков, то возникает необходимость указать в тексте его конкретное имя.

Протокол Disallow: /adminka/ и Disallow: /image/ запрещают к индексации отмеченное содержимое ресурса. Немаловажным является тот факт, что каждая область которая не подлежит индексированию, прописывается в новой строчке. Объединять области или совмещать их в одной строчке категорически запрещено, это нарушает основные правила написания. Что касается переноса строк в приделах одного протокола - данное действие также ошибочно.
Ниже приведены примеры оформления и создания такого текстового файла:

Ставится цель запретить индексирование всего содержимого информационного ресурса всеми видами роботов поисковиков:
User-agent: *
Disallow: /

Поставлена цель разрешить к индексированию все содержимое портала любыми видами роботизированных поисковиков:
User-agent: *
Disallow:

Стоит задача о создании запрета к индексированию содержимого портала и всего ресурса в целом от определённого робота-поисковика (в качестве примера, yandexbot):
User-agent: yandexbot
Disallow: /

Поставлена задача разрешить процесс индексирования одному из роботов (в качестве примера, yandexbot) и в тоже время запретить индексирование оставшимся роботизированным поисковикам:
User-agent: yandexbot
Disallow:

User-agent: *
Disallow: /

Необходимо запретить процесс индексирования нескольких областей информационного ресурса:
User-agent: *
Disallow: /directoria-1/
Disallow: /directoria-2/
Disallow: /hidedirectoria/

Стоит задача запретить к индексированию несколько областей портала всеми поисковыми автоматизированными системами:
User-agent: *
Disallow: /hide.php
Disallow: /secret.html

В конце всего можно подвести итог и составить свод правил, которыми необходимо пользоваться при создании данного текстового документа:

Весь текст, содержащийся в файле необходимо писать с маленькой буквы за исключением первой буквы в начале каждой строки;

Протокол Disallow предназначен только для одного раздела портала или одного файла;

Категорически запрещается изменять порядок написания инструкций Disallow и User-agent.

Область User-agent обязательна к заполнению. Если руководство предназначается для всех роботов поисковиков, то пишется *, если же только для определённого вида робота, то указывается его имя.

Протокол Host должен заполняться соответствующим образом. Адрес указывается без вводного http://, а также опускается замыкающий символ в конце адресной строки (/).

В протоколе Disallow запрещено использование символов подстановки.

Объяснения к протоколам желательно писать отдельно, а не совмещать их в одну строку.

Инструкцию Disallow пропускать категорически запрещено. Если вы решили не запрещать индексацию ни одной из областей или всего сайта в целом, то просто необходимо оставить протокол пустым.

В том случае если было принято решение запрещать к индексированию определённые области и файлы сайта, то при их написании обязательно использование слешов (/).

В довершении всего, перед тем как установить данный файл в корневую папку сайта, необходимо тщательно проверить содержимое файла robots.txt. Дополнительная проверка позволит избежать нежелательных результатов в последствии.

При соблюдении основных правил написания файла вы сможете ограничить индексирование на своём сайте от роботов поисковиков, сможете защитить уникальный контент сайта полностью или частично.

Поделитесь статьёй в соцсетях:


Добавить комментарий


Яндекс.Метрика