#2 — Создаём идеальный Robots.txt для WordPress. Идеальный robots txt для wordpress


Идеальный Robots.txt для WordPress

Здравствуйте! После того как мы разобрались с правильной структурой сайта настало время поговорить о robots.txt, что это такое и с чем его едят. Кроме того, из данной статьи вы узнаете, каков он,  идеально правильный robots.txt для WordPress, как с его помощью запретить индексацию сайта или разрешить всё.

Robots.txt – что это такое?

robots.txt - что это такое?

 

Файл robots.txt  — это файл, с помощью которого можно выставить запрет на индексацию каких-либо частей сайта или блога поисковым роботом.

Создается единый стандартный robots txt для Яндекса и для Google, просто вначале прописываются запреты для одной поисковой сети, а затем для другой. В принципе в нём можно прописать параметры для всех поисковых систем, однако, зачастую не имеет смысла это делать, т.к. конкретно для России основными считают Яндекс и Гугл, с остальных поисковых систем трафик настолько мал, что ради них нет необходимости прописывать отдельные запреты и разрешения.

Зачем он нужен?

Если вы сомневаетесь нужен ли robots txt вообще, то ответ однозначный – ДА. Данный файл показывает поисковым системам куда им ходить нужно, а куда нет. Таким образом, с помощью «Роботса» можно манипулировать поисковыми системами и не давать индексировать те документы, которые вы бы хотели оставить в тайне.

Важно! К файлу robots txt Яндекс относится, так сказать, с уважением, он всегда учитывает все нововведения и поступает так, как указано в файле. С Google ситуация сложнее, чаще всего поисковый гигант игнорирует запреты от «Роботса», но тем не менее лично я рекомендую всё равно прописывать все необходимые данные в этот файлик.

Зачем не пускать поисковики к каким-то файлам или директориям?

  1. Во-первых, некоторые директории (например теги в WordPress или страницы пагинации) оставляют много «мусора» в выдаче, что негативно сказывается на самом сайте.
  2. Во-вторых, быть может вы разместили неуникальный контент, но очень нужно, чтобы он был на сайте, с помощью robots.txt можно не дать поисковому роботу добраться до такого документа.

Где находится?

Файл robots.txt располагается в корне сайта, т.е. он всегда доступен по адресу site.ru/robots.txt.  Так что если вы раньше не знали, как найти robots txt на сайте, то теперь вы с лёгкостью сможете посмотреть и возможно отредактировать его.

Зная, где находится данный файл, вы теперь без труда сможете заменить старый и добавить новый robots.txt на сайт, если в этом есть необходимость.

Robots txt для WordPress

robots.txt для wordpress

 

Правильный robots.txt для WordPress вы можете скачать с моего блога, он располагается по адресу http://vysokoff.ru/robots.txt . Это идеальный и правильно оформленный «Роботс», вы можете добавить его к себе на сайт.

После того как вы скачали мой robots.txt для WordPress, в нём необходимо будет исправить домен на свой, после этого смело заливайте файлик к себе на сервер и радуйтесь тому, как из поисковой выдачи выпадают ненужные «хвосты».

Кстати, не пугайтесь, если после 1-2 АПов Яндекса у вас вдруг резко сократится количество страниц в поисковой выдаче. Это нормально, даже наоборот – это отлично, значит ваш robots.txt начал работать и в скором времени вы избавитесь от не нужного хлама, который раньше висел в SERP’e.

Так что если вы не знаете, как создать robots txt для WordPress самостоятельно, то рекомендую просто скачать готовый вариант с моего блога, лучше вы вряд ли составите.

Теперь давайте поговорим о том, как полностью закрыть от индексации весь сайт с помощью данного чудо-файлика или наоборот, как разрешить всё, используя  robots.txt.

Пример Robots.txt: disallow и allow, host и sitemap

пример robots.txt

 

Как было сказано выше, с помощью robots txt  можно как запретить индексацию сайта, так и разрешить всё.

Disallow

Данной командой вы закроете весь сайт от индексации поисковых систем. Выглядеть это будет так:

User-agent: *Disallow: /

Таким образом, вы полностью закроете сайт от индексации. Для чего это делать? Ну, например, как я рассказывал ранее, в статье про стратегию наполнения нового сайта. Изначально вы добавляете файл robots.txt  в корень сайта и прописываете код, который указан выше.

Добавляете необходимое количество статей, а затем, скачав мой идеальный robots txt, открываете от индексации только необходимые разделы на сайте или блоге.

Чтобы в robots txt разрешить всё, вам необходимо написать в файле следующее:

User-agent: *Disallow:

Т.е. убрав слэш, мы показываем поисковым системам, что можно индексировать абсолютно всё.

Кроме того, если вам необходимо закрыть какую-то конкретную директорию или статью от индексации, необходимо просто дописывать после слэша путь до них:

Disallow: /page.htm

Disallow: /dir/page2.htm

Allow

Данный параметр наоборот открывает для индексации какую-то конкретную страницу из закрытой Disallow директории. Пример:

Disallow: /dir/

Allow: /dir/ page2.htm

Прописываем Host  и карту сайта

В конце файла robots txt вам необходимо прописать два параметра host и sitemap, делается это так:

Host: www.site.ru

Sitenap: www.site.ru/sitemap.xml

Host указывается для определения правильного зеркала сайта, а второе помогает роботу узнать, где находится карта сайта.

Проверка Robots.txt Яндексом и Google

После того как вы сделали правильный robots.txt  и разместили его на сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Гугла, кстати, о том, как добавить сайт в вебмастеры этих поисковых систем я уже писал.

Чтобы проверить Robots.txt Яндексом необходимо зайти в https://webmaster.yandex.ru/ —> Настройка индексирования —> Анализ robots.txt.

В Google заходим http://google.ru/webmasters —> Сканирование —> Инструмент проверки файла robots.txt

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые коррективы, если они есть.

Резюме

Ну вот, думаю, мне удалось объяснить вам, что такое robots.txt, для чего он нужен. Кроме того, напоминаю, скачать файл robots txt вы можете здесь.

В следующий раз я расскажу вам о супер-плагине WordPress SEO by Yoast, без которого, я считаю, нельзя начинать успешное продвижение сайта.

С уважением, Артём Высоков, автор блога vysokoff.ru.

Автору публикации огромное спасибо за познавательную статью. С уважением

wordpresslandija.ru

Файл robots.txt для WordPress - БЛОКНОТ ПАРТНЕРА

Файл robots.txt

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример robots.txt:

User-agent: * Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt размещается в корне сайта и для этого обычно необходим доступ через FTP. Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

ваш_сайт.ru/robots.txt

Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое robots.txt в браузере.

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно User-agent: * # Указывает директивы для всех роботов Яндекса User-agent: Yandex # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot # Указывает директивы для всех роботов Google User-agent: Googlebot

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_ # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_ # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Пример правильного перевода строки в robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

User-agent: * Disallow: /blog Allow: /blog/page

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

User-agent: * Allow: / Disallow: /blog Allow: /blog/page

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:

  1. Каждая директива начинается с новой строки;
  2. Не указывайте больше одной директивы в одной строке;
  3. Не ставьте пробел в начало строки;
  4. Параметр директивы должен быть в одну строку;
  5. Не нужно обрамлять параметры директив в кавычки;
  6. Параметры директив не требуют закрывающих точки с запятой;
  7. Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
  8. Допускаются комментарии в robots.txt после знака решетки #;
  9. Пустой перевод строки может трактоваться как окончание директивы User-agent;
  10. Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
  11. В директивах «Allow», «Disallow» указывается не более одного параметра;
  12. Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
  13. Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
  14. Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
  15. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
  16. Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
  17. Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
  18. В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
  19. Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Страница 1

intercominfo.ru

Универсальный Robots.txt для Wordpress | Web-Profy.com

Файл Robots.txt – это простой текстовый файл, располагающийся в корневом каталоге вашего блога, основанного на WordPress, который отвечает за поведение поисковых роботов на ваш сайте. Хорошо, если у вас есть такой файл, потому что если он отсутствует, то поисковые роботы будут индексировать абсолютно весь контент, размещенный на сервере, включая даже те файлы и ту информацию, которую вы не желали бы распространять.

Знали ли вы о том, что файл Robots.txt также играют важную роль в оптимизации сайта под поисковые системы? Если да, то вы вероятно уже обзавелись таким файликом. Но было ли вам когда-нибудь интересно то, каким образом можно заставить этот файл работать в полную силу, Существуют некоторые общие настройки, которые на всех сайтах примерно одинаковы.

Итак, давайте попробуем создать почти идеальный файл Robots.txt для блога на WordPress:

Sitemap: http://web-profy.com/sitemap.xml Sitemap: http://web-profy.com/sitemap.xml.gz

Если у вас есть файл карты сайта,  то в самой первой строке вам стоит указать путь до него. Сделать карту xml-карту сайта для вордпресс можно с помощью плагина  Google XML Sitemaps.

Вам следует предотвратить возможность паукам анализировать файлы и папки, идущие в стандартной комплектации WordPress. Почему? Потому что вам вряд ли захочется обнаружить в результатах поиска ссылки на ваши страницы регистрации, авторизации или на админ-панель.

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /index.php Disallow: /wp-activate.php Disallow: /wp-app.php Disallow: /wp-blog-header.php Disallow: /wp-comments-post.php Disallow: /wp-config.php Disallow: /wp-cron.php Disallow: /wp-links-opml.php Disallow: /wp-load.php Disallow: /wp-login.php Disallow: /wp-mail.php Disallow: /wp-pass.php Disallow: /wp-register.php Disallow: /wp-settings.php Disallow: /wp-signup.php Disallow: /wp-trackback.php Disallow: /xmlrpc.php

Вам также следует предотвратить просмотр и индексацию вашей новостной ленты, так как это может привести к нежелательной индексации дублированного контента.  Я бы рекомендовал вам заблокировать индексацию ленты-rss. То же самое и со страницами категорий. Они просто представляют собой сборники записей в блоге, они не повышают их ценность и не делает ничего полезного для блога в целом, лишь дублируют контент.

Прямые ссылки до комментариев и трэкбэки также следует заблокировать, так как к ним есть доступ с самой страницы записи в блоге. Их блокировка так же уменьшает количество исходящих ссылок и положительно влияет на SEO-оптимизацию. То же самое относится и к динамически генерируемому контенту типа результатов поиска или ссылок ответа на комментарии, так как все это приводит к дублированию контента. Мы сделаем это следующим образом:

Disallow: /feed # блокировка ленты новостей Disallow: */feed #блокировка рассылки отдельных записей в блоге Disallow: /category/*/* #блокировка страницы категорий Disallow: /comments #блокировка URL на комментарии Disallow: */comment-* #блокировка страницы комментариев Disallow: */trackback #блокировка URL трэкбэка на запись Disallow: /*? #блокировка динамически генерируемого контента

Разрешая паукам доступ к папке загрузок позволяет вам быть уверенными в том, что загруженные файлы (изображения, видеофайлы и другие медиа-данные) будут проиндексированы.

Allow: /wp-content/uploads/

Предлагаю вам итоговую версию файла robots.txt для вашего блога на WordPress. Копируйте и вставляйте этот текст в ваш файл, но не забудьте изменить путь до карты сайта.

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /index.php Disallow: /wp-activate.php Disallow: /wp-app.php Disallow: /wp-blog-header.php Disallow: /wp-comments-post.php Disallow: /wp-config.php Disallow: /wp-cron.php Disallow: /wp-links-opml.php Disallow: /wp-load.php Disallow: /wp-login.php Disallow: /wp-mail.php Disallow: /wp-pass.php Disallow: /wp-register.php Disallow: /wp-settings.php Disallow: /wp-signup.php Disallow: /wp-trackback.php Disallow: /xmlrpc.php Disallow: /feed # блокировка ленты новостей Disallow: */feed #блокировка рассылки отдельных записей в блоге Disallow: /category/*/* #блокировка страницы категорий Disallow: /comments #блокировка URL на комментарии Disallow: */comment-* #блокировка страницы комментариев Disallow: */trackback #блокировка URL трэкбэка на запись Disallow: /*? #блокировка динамически генерируемого контента Allow: /wp-content/uploads/ Sitemap: http://www.ваш-домен/sitemap.xml Sitemap: http://www.ваш-домен/sitemap.xml.gz

Возможно, вам нужно будет добавить регулярные выражения перед некоторыми из этих строк, в зависимости от структуры прямых ссылок, которую вы используете на сайте.

Что пишут про роботс:

  1. на Яндексе
  2. на Гугле

Парочка видюшек по этой теме:

Вопросы по роботс файлу для wordpress задавайте в комментариях!

 

Алексей Повловский

web-profy.com

Актуальный для 2017 года robots.txt на WordPress

Базовые настройки robots. txt для WordPress. Поддерживаю в актуальном состоянии. Пригодятся для быстрой первичной настройки на небольших сайтах. Естественно, «идеально правильного» готового варианта выдать нельзя — всегда желательна индивидуальная корректировка.

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /*?*

Disallow: /search

Disallow: *?s=

Disallow: *&s=

Disallow: /author/

Disallow: */?author=*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */feed

Disallow: */*/feed/*/

Disallow: /tag/

Disallow: */embed

Disallow: /wp-json/

Disallow: /*_openstat

Disallow: /*printable

Disallow: /print

Disallow: /logs/

Disallow: *utm_source (нужно не всем)

User-agent: Yandex (можно отдельно для Яндекса не дублировать и прописать директиву Host выше. Мы оставляем для дальнейшей персонализации)

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /*?*

Disallow: /search

Disallow: *?s=

Disallow: *&s=

Disallow: /author/

Disallow: */?author=*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */feed

Disallow: */*/feed/*/

Disallow: /tag/

Disallow: */embed

Disallow: /xmlrpc.php

Disallow: /*.php

Disallow: /wp-json/

Disallow: /*_openstat

Disallow: /*printable

Disallow: /print

Disallow: /logs/

Disallow: *utm_source (нужно не всем)

Host: ваш сайт (обычно главным зеркалом делаю адрес без www)

User-agent: Googlebot-Image

Allow: /wp-content/uploads/ (закрывать, если большинство изображений с других сайтов)

User-agent: YandexImages

Allow: /wp-content/uploads/ (закрывать, если большинство изображений с других сайтов)

Sitemap: ваш сайт/sitemap.xml

nekotler.ru

Правильный файл Robots.txt для Wordpress (Яндекс, Google)

Содержание статьи:

Здравствуйте! После того как мы разобрались с правильной структурой сайта настало время поговорить о robots.txt, что это такое и с чем его едят. Кроме того, из данной статьи вы узнаете, каков он,  идеально правильный robots.txt для WordPress, как с его помощью запретить индексацию сайта или разрешить всё.

Robots.txt – что это такое?

Robots.txt – что это такое?

Файл robots.txt  — это файл, с помощью которого можно выставить запрет на индексацию каких-либо частей сайта или блога поисковым роботом.

Создается единый стандартный robots txt для Яндекса и для Google, просто вначале прописываются запреты для одной поисковой сети, а затем для другой. В принципе в нём можно прописать параметры для всех поисковых систем, однако, зачастую не имеет смысла это делать, т.к. конкретно для России основными считают Яндекс и Гугл, с остальных поисковых систем трафик настолько мал, что ради них нет необходимости прописывать отдельные запреты и разрешения.

Зачем он нужен?

Если вы сомневаетесь нужен ли robots txt вообще, то ответ однозначный – ДА. Данный файл показывает поисковым системам куда им ходить нужно, а куда нет. Таким образом, с помощью «Роботса» можно манипулировать поисковыми системами и не давать индексировать те документы, которые вы бы хотели оставить в тайне.

Важно! К файлу robots txt Яндекс относится, так сказать, с уважением, он всегда учитывает все нововведения и поступает так, как указано в файле. С Google ситуация сложнее, чаще всего поисковый гигант игнорирует запреты от «Роботса», но тем не менее лично я рекомендую всё равно прописывать все необходимые данные в этот файлик.

Зачем не пускать поисковики к каким-то файлам или директориям?

  1. Во-первых, некоторые директории (например теги в WordPress или страницы пагинации) оставляют много «мусора» в выдаче, что негативно сказывается на самом сайте.
  2. Во-вторых, быть может вы разместили неуникальный контент, но очень нужно, чтобы он был на сайте, с помощью robots.txt можно не дать поисковому роботу добраться до такого документа.

Где находится?

Файл robots.txt располагается в корне сайта, т.е. он всегда доступен по адресу site.ru/robots.txt.  Так что если вы раньше не знали, как найти robots txt на сайте, то теперь вы с лёгкостью сможете посмотреть и возможно отредактировать его.

Зная, где находится данный файл, вы теперь без труда сможете заменить старый и добавить новый robots.txt на сайт, если в этом есть необходимость.

Robots txt для WordPress

Robots.txt для WordPress

Правильный robots.txt для WordPress вы можете скачать с моего блога, он располагается по адресу http://vysokoff.ru/robots.txt . Это идеальный и правильно оформленный «Роботс», вы можете добавить его к себе на сайт.

После того как вы скачали мой robots.txt для WordPress, в нём необходимо будет исправить домен на свой, после этого смело заливайте файлик к себе на сервер и радуйтесь тому, как из поисковой выдачи выпадают ненужные «хвосты».

Кстати, не пугайтесь, если после 1-2 АПов Яндекса у вас вдруг резко сократится количество страниц в поисковой выдаче. Это нормально, даже наоборот – это отлично, значит ваш robots.txt начал работать и в скором времени вы избавитесь от не нужного хлама, который раньше висел в SERP’e.

Так что если вы не знаете, как создать robots txt для WordPress самостоятельно, то рекомендую просто скачать готовый вариант с моего блога, лучше вы вряд ли составите.

Теперь давайте поговорим о том, как полностью закрыть от индексации весь сайт с помощью данного чудо-файлика или наоборот, как разрешить всё, используя  robots.txt.

Пример Robots.txt: disallow и allow, host и sitemap

Пример Robots.txt

Как было сказано выше, с помощью robots txt  можно как запретить индексацию сайта, так и разрешить всё.

Disallow

Данной командой вы закроете весь сайт от индексации поисковых систем. Выглядеть это будет так:

User-agent: *Disallow: /

Таким образом, вы полностью закроете сайт от индексации. Для чего это делать? Ну, например, как я рассказывал ранее, в статье про стратегию наполнения нового сайта. Изначально вы добавляете файл robots.txt  в корень сайта и прописываете код, который указан выше.

Добавляете необходимое количество статей, а затем, скачав мой идеальный robots txt, открываете от индексации только необходимые разделы на сайте или блоге.

Чтобы в robots txt разрешить всё, вам необходимо написать в файле следующее:

User-agent: *Disallow:

Т.е. убрав слэш, мы показываем поисковым системам, что можно индексировать абсолютно всё.

Кроме того, если вам необходимо закрыть какую-то конкретную директорию или статью от индексации, необходимо просто дописывать после слэша путь до них:

Disallow: /page.htm

Disallow: /dir/page2.htm

Allow

Данный параметр наоборот открывает для индексации какую-то конкретную страницу из закрытой Disallow директории. Пример:

Disallow: /dir/

Allow: /dir/ page2.htm

Прописываем Host  и карту сайта

В конце файла robots txt вам необходимо прописать два параметра host и sitemap, делается это так:

Host: www.site.ru

Sitemap: www.site.ru/sitemap.xml

Host указывается для определения правильного зеркала сайта, а второе помогает роботу узнать, где находится карта сайта.

Проверка Robots.txt Яндексом и Google

После того как вы сделали правильный robots.txt  и разместили его на сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Гугла, кстати, о том, как добавить сайт в вебмастеры этих поисковых систем я уже писал.

Чтобы проверить Robots.txt Яндексом необходимо зайти в https://webmaster.yandex.ru/ —> Настройка индексирования —> Анализ robots.txt.

В Google заходим http://google.ru/webmasters —> Сканирование —> Инструмент проверки файла robots.txt

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые коррективы, если они есть.

Резюме

Ну вот, думаю, мне удалось объяснить вам, что такое robots.txt, для чего он нужен. Кроме того, напоминаю, скачать файл robots txt вы можете здесь.

В следующий раз я расскажу вам о супер-плагине WordPress SEO by Yoast, без которого, я считаю, нельзя начинать успешное продвижение сайта.

С уважением, Артём Высоков, автор блога vysokoff.ru.

vysokoff.ru


Смотрите также

Prostoy-Site | Все права защищены © 2018 | Карта сайта