- Развлечение

Для успешного ведения бизнеса в сети одним из основных факторов является защита информации, которая размещена на сайте. Особенно это касается персональных данных пользователей, утечка которых всегда негативно сказывается на репутации компании. В связи с этим, занимаясь поисковым продвижением сайта, в первую очередь следует уделять внимание не тому, какие страницы должны быть проиндексированы, чтобы занять ведущие позиции в ТОПе поисковиков, а тому, какие из них не должны индексироваться ни в коем случае. Файл robots.txt является основным инструментом ограничения поисковым роботам доступа к информации на сайте.

Наиболее часто файл robots.txt как раз и используется для запрета поисковым роботам индексирования страниц:

- содержащих конфиденциальную информацию (к ним можно отнести любые сайты, на которых хранятся - персональные данные пользователей, а также интернет-магазины);
- дублей контента (интернет-магазины, блоги, сайты, в которых используется пейджинг и т.д.).
- удаленных или перемещенных, что наиболее часто случается, когда изменяется структура сайта или появляется новое зеркало, для максимально скорого обновления кэша поисковой системы;

Следует отметить, что современные CMS на сегодняшний день обладают встроенными возможностями запрещения индексирования страниц-повторов по виду URL. Так что robots.txt для этих целей вам вряд ли придется использовать.

С помощью файла robots.txt поисковому роботу можно задать также и время, необходимое для того, чтобы страница загрузилась, и другие технические показатели вашего сайта. Однако следует знать, что применение таких директив не является приоритетной целью robots.txt и в каждой поисковой системе имеет свои отличительные особенности.

Robots.txt? Что же он собой представляет?

Текстовый файл robots.txt находится «в корне» сайта и является всегда открытым для чтения, и в первую очередь, поисковыми роботами – это общепринятый стандарт. Однако каждый желающий может свободно открыть robots.txt любого заинтересовавшего сайта используя свой браузер. Для этого достаточно на главной странице в адресной строке после слэша дописать «robots.txt» и нажать Enter.
В странице, которая откроется, мы увидим настройки индексирования сайта, заданные для поисковых роботов. Синтаксис и назначение директив более подробно будут рассмотрены нами далее. Заметим, что некорректное использование в robots.txt директив в отдельных случаях сразу помогает при диагностике проблем с индексированием.

Обращаем внимание на тот факт, что крупные сайты в robots.txt практически не используют никаких директив кроме Disallow, которая поисковыми машинами любой популярной системы всегда воспринимается однозначно.

Историческая справка robots.txt

Впервые использовать robots.txt начали в 1994 году, и сейчас его стандарт не принадлежит никому. На сегодняшний день этот файл используют в своей работе все наиболее популярные поисковые системы. Файл robots.txt является файлом исключений для поисковых роботов (The Robots Exclusion Protocol) и по своему смыслу является полной противоположностью файлу sitemap.xml, который указывает файлы для индексирования. Robots.txt является первичным. Он наоборот ограничивает поисковым машинам обход сайта, которые прежде чем начать индексирование и загружать какие-либо страницы обращаются именно к текстовому файлу robots.txt. И основной директивой для этого файла является Disallow – директива запрета индексирования.

Наиболее полными источниками информации по использованию robots.txt являются англоязычный www.robotstxt.org, а также robotstxt.org.ru.

Кто виновен?

В структуре сайта наличие файла robots.txt не является обязательным. Если отсутствует явный запрет, который задан через robots.txt, то поисковый робот воспринимает этот факт, как разрешение на загрузку всего доступного содержимого сайта. В случае, если на сайте ведется работа с конфиденциальной информацией, доступ к которой возможен без авторизации (что крайне недопустимо), вебмастерам SEO-специалистам следует заранее продумать вопрос ограничения попадания такой информации в открытый доступ. Для этого необходимо составить перечень страниц сайта, которые ни при каких обстоятельствах не должны быть проиндексированы поисковыми роботами и в файле robots.txt их индексирование запретить.
И то, что в открытый доступ попадают адресные и паспортные данные, номера телефонов и другая конфиденциальная информация, размещенная на сайтах, говорит как раз о качественной работе поисковых машин. Поэтому обвинения, которые имели место в скандалах с интернет-магазинами, госучреждениями и операторами сотовой связи, по меньшей мере, бессмысленны.

Следует помнить, что если на страницу, содержащую конфиденциальную информацию, нельзя попасть с помощью одного или нескольких переходов с главной страницы сайта, то это вовсе не означает, что эта страница «невидима» для поискового робота. Ссылку на такую страницу может кто-нибудь разместить на другом ресурсе, и тогда вероятнее всего она очень скоро будет проиндексирована поисковым роботом. Также довольно часто страницы попадают в индекс без вмешательства человека, то есть автоматически. Причинами могут быть агрегаторы контента, RSS-каналы и др. именно поэтому первоочередная задача SEO-специалиста – прямое запрещение поисковому роботу обхода страниц сайта с «закрытой» информацией, если эта задача не была выполнена еще в процессе проектирования вашего ресурса.

Синтаксис в robots.txt

Теперь давайте рассмотрим порядок оформления файла robots.txt. Отличительной особенностью robots.txt от XML-карт и HTML-документов является непосредственное содержание директив для поисковых роботов без какой-либо дополнительной информации, которая описывает назначение самого файла – оно понятно из названия.

Выше уже было указано, что основная директива, которая используется в robots.txt – это Disallow. Так как в интернете работает множество поисковых систем, то используя общепринятый синтаксис, вебмастер может запретить индексирование всем поисковым роботам. Для этого после User-agent в строке достаточно указать символ ‘*’. И самый простой запрет – запрещение индексирования сайта любыми поисковыми машинами будет выглядеть так:

User-agent: * Disallow: /

Начиная со слеша для запрещения индексирования можно прописывать конкретные папки или файлы, при этом часть из них может быть открыта, и в этом случае выглядеть это будет следующим образом:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /

и запрещает скачивание всех страниц, кроме начинающихся с '/cgi-bin'.

Заметим, что если для конкретной страницы сайта являются подходящими несколько директив, то выбрана будет первая, которая появится в выбранном User-agent блоке. Так, запись –

User-agent: Yandex
Disallow: /
Allow: /cgi-bin

– запретит скачивание всего сайта

Специальные символы в robots.txt

Указывая пути таких директив, как Allow-Disallw часто используют специальные символы ‘*’ и ‘$’, чтобы задавать регулярные определённые выражения. Такой символ, как «#» используется для отделения комментариев к коду в файлах robots.txt.

Символ ‘*’ обозначает некоторую последовательность необходимых символов.
Например,

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

Принято по умолчанию, что к концу правила, которое описано в robots.txtобязательно приписывается ‘*’.
Пример:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам, начинающимся с '/cgi-bin' Disallow: /cgi-bin # то же самое

Для отмены ‘*’ в конце правила используют такой символ, как ‘$’, например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'

User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'

User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example

Из приведённых примеров видно, что директивы можно совмещать одну с другой. Обычно, такого небольшого функционала вполне хватает, чтобы решить большее количество вопросов с индексированием сайта. А вот остальные директивы должны уточняться в рамках требований отдельных поисковых систем. Такие известные поисковики, как «Яндекс» и «Google», дают мастерам необходимую информацию об особенностях работы поисковых роботов данной системы.

Безопасность сайта и robots.txt

Следует знать, что поисковые роботы не могут попасть на страницы, которые доступны пользователям только после авторизации (при помощи ввода пароля). Причём это страницы профилей не только пользователей, но и личные аккаунты администраторов сайтов. Так что нет смысла такие страницы включать в robots.txt.

Верным шагом будет дать установку поисковым роботам не включать для индексирования такие страницы сайтов, в которых есть форма авторизации для пользователей. Если администраторы сайтов имеют отдельную личную страницу авторизации с нестандартным видом URL , на которую невозможно перейти с различных страниц сайта (главной или внутренних), то целесообразно не включать её под директивой Disallow в robots.txt. Хороший вебмастер с опытом сможет найти стандартную страницу авторизации, которая предназначена для востребованных CMS. А в индекс поисковой системы имеют возможность попасть страницы, на которых ведут ссылки с проиндексированных страниц совершенно других сайтов.

На страницах помощи Google есть такая информация о поисковом роботе Googlebot:

Несмотря на то, что Google не индексирует и не сканирует содержание страницы сайтов, которые заблокированы в файле robots.txt, URL-адреса, найденные на других интернет страницах могут дальше добавляться в индекс. В итоге URL страницы и другие доступные и известные данные, такие, как заголовки в каталоге Open Directory Project или текст различных ссылок, могут найтись во время поиска Google. Из сказанного выше видно, что содержимое страниц не будет индексироваться поисковыми роботами, но в индекс могут их URL, что в свою очередь, может привести к попаданию «закрытых» данных в руки злоумышленников.

На сайте robotstxt.org прямо говорится, что файл robots.txt является открытым для всех и не следует с его помощью пытаться «спрятать» информацию. Ведь мошенникам даже не нужно будет искать страницы с конфиденциальной информацией, если они будут перечислены самим SEO-специалистом в файле robots.txt. Однако иметь список таких страниц просто необходимо.

Кроме того, если вы заботитесь о безопасности информации на своем сайте, следует помнить, что не все роботы работают в соответствии со стандартами, общепринятыми для robots.txt. Также этот файл может быть использован для поиска уязвимости вашего веб-сервера специально написанными программами.

Мошенники также могут использовать robots.txt

Для нанесения вреда вашему ресурсу файл robots.txt также может быть использован. Ведь используя robots.txt можно понизить позиции сайта до полного выведения его из индекса. Поэтому, крайне необходимо знать, кто имеет доступ к сайту. Вот несколько примеров таких действий.

Для запрещения индексирования страниц и разделов используется директива Disallow. Однако следует контролировать, чтобы запрет не коснулся кроме страниц с конфиденциальной информацией, еще и разделов с контентом.

За временной промежуток в секундах между последовательной загрузкой страниц ресурса отвечает директива Crawl-delay. Она используется во время большой нагрузки на вебсервер. Если временной промежуток будет слишком увеличен, то это приведет к тому, что поисковый робот будет очень долго индексировать сайт. Как было уже сказано выше, такие действия легко определяются простым открытием файла robots.txt в браузере и не требуют вникать в структуру сайта.

Noindex, nofollow

В теме, посвященной файлу robots.txt нельзя обойти вниманием и такие микроформаты как noindex и nofollow.

На данный момент в спецификацию HTML входит значение nofollow атрибута rel <а>. Оно означает запрет передачи веса по ссылке и на данное время его соблюдают все популярные поисковые системы.
Компанией «Яндекс» был предложен парный тег noindex, который предназначается для запрещения индексирования части информации, которую содержит страница, например, таким образом:
.
Код или текст, который требуется исключить из индекса Яндекс
.
Сейчас только Яндекс использует тег noindex. И так как он не входит в официальную спецификацию HTML языка, то подавляющее большинство HTML-валидаторов воспринимают его как ошибку. А чтобы сделать код с тегом noindex валидным, часто рекомендуют использовать то обстоятельство, что noindex не является чувствительным к вложенности. Соответственно, можно применять следующую конструкцию:

Код или текст, который требуется исключить из индекса Яндекс
Можно также использовать noindex как мета-тег на определенной странице, к примеру, /page.html):

<html>
<head>
<meta name="robots" content="noindex" />
<title>Эта страница не будет проиндексирована</title>
</head>

Запись, что приведена выше, является аналогом такой конструкции в robots.txt:

User-agent: Yandex
Disallow: /page.html

Что предпринимать, если в открытый доступ попала конфиденциальная информация с вашего сайта
К огромному сожалению, случаи, когда не все конфиденциальные данные сайтов были запрещены для индексирования. Попадание таких страниц в интернет и их распространение по сети – лишь дело времени. И, как следствие – скандалы, шумиха, и достаточно часто – судебные иски. В таких ситуациях вебмастеру следует действовать таким образом:

1. Определить перечень страниц, которые требуется закрыть от индексирования. Выяснить, каким образом информация попала в открытый доступ. Если требуется, чтобы доступ к этим страницам был открыт только посредством авторизации – принять меры в модулях вашей CMS.

2. В файл robots.txt, используя директиву Disallow добавить список этих страниц для всех поисковых систем. Ведь если такие данные появились в индексе одной поисковой системы, то очень скоро она будет проиндексирована всеми популярными поисковыми системами, а также может быть сохранена пользователями интернета.

3. Для максимально быстрого удаления страниц из индекса обратитесь непосредственно в поисковые системы. «Google» и «Яндекс» имеют соответствующие формы.

4. Определите, происходило ли копирование вашей «закрытой» информации, а также её изложение на сторонних ресурсах. Если да, то следует обратиться к модераторам или владельцам сайтов с просьбой о скорейшем удалении такого контента. Также за помощью можно обратиться в техническую поддержку поисковых систем.

Как это ни прискорбно, но за распространение конфиденциальной информации вся ответственность ложится на плечи владельца сайта, с которого произошла утечка.

Подведем итоги

Сделаем некоторые выводы о порядке использования файла robots.txt.

Не следует использовать robots.txt для сокрытия какой-либо информации, ведь сообщая роботу, какие страницы следует обходить, вы тем самым, сообщаете, где на вашем сайте находится конфиденциальная информация.

Общепринятые стандарты соблюдают не все поисковые роботы, уже не говоря о программах злоумышленников. Некоторые роботы обладают своими особенностями. Оптимизируя сайт, SEO-специалист, в первую очередь, должен ориентироваться на максимальные по количеству пришедшего трафика, поисковые системы.

О безопасности использования «закрытой» информации следует думать еще в самом начале процесса создания сайта, чтобы потом не заниматься устранением «неполадок». Также следует стремиться к минимальному использованию robots.txt, и особенно – директивы Disallow.

Если конфиденциальные данные с сайта всё-таки попали в открытый доступ – немедленно запретите всем поисковым системам индексацию «закрытых» страниц ресурса, и для максимально быстрого исключения страниц из поиска обратитесь в поисковую систему.

Не перегружайте страницы сайта излишней информацией, чтобы не приходилось давать поисковым роботам технические указания о параметрам обхода станиц.

Не может остаться неотмеченным, что механизмы поисковых систем стремятся к тому, чтобы создать сайт было максимально просто, а для вебмастеров не было необходимым изучение работы поисковых роботов.
Однако сегодня крайне необходимо знать основы использования такого файла как robots.txt при работе по продвижению интернет-магазинов, других сайтов, на страницах которых содержатся конфиденциальные данные, а также в случаях переезда сайтов на другой домен или изменения их структуры.

По материалам рассылки сеопульт

Всего комментариев: 0