Настройка robots.txt для сайта wordpress. Wordpress настройка robots txt
Настройка robots.txt для wordpress как запретить индексацию файлов
Настройка robots.txt для сайта wordpress один из главных моментов настройки индексации. Ранее мы говорили об ускорении и улучшении процесса индексации статей. Причем рассматривали этот вопрос так, как будто поисковый робот ничего не знает и не умеет, а мы ему должны подсказать. Наверное вы еще не догадывается, что делает робот когда попадает на ваш сайт? По умолчанию индексировать разрешено всё. И робот-паук, получив сигнал о том, что есть сайт, который надо посетить, тут же ставит его в очередь на индексацию. Поэтому индексация происходит не мгновенно по нашему требованию, а через какое-то время. Как только очередь доходит до вашего сайта этот робот-паук тут как тут. Он не стучится и не спрашивает разрешения, так как ему по умолчанию всё разрешено. А сразу вламывается на сайт, как полноправный хозяин и начинает шарить по всем закоулкам, по всем папкам и файлам, выискивая тексты и всевозможные ссылки.
Естественно делает он это в пределах какого-то ограниченного промежутка времени. Именно поэтому, если вы создали сайт на несколько тысяч страниц и выложили его целиком, то робот просто не успеет обойти все страницы за один заход. И в индекс попадут только те, которые он успел просмотреть. А ходит робот по всему сайту и тратит на это свое время. И не факт что в первую очередь он будет просматривать именно ваши странички, которые вы так ждете в результатах поиска.
Сделав полную копию всего, что ему удалось найти, он покидает ваш сайт, до следующего раза. Как вы понимаете после такого обшаривания в базу индекса поисковика попало всё, что надо и всё, что не надо. То что надо вы знаете - это ваши статьи и страницы. А вот чего индексировать не надо? Оказывается это вся служебная информация и в первую очередь все файлы нашей любимой WordPress. Копии статей и страниц в архивах создают впечатление, что у вас очень много статей с одинаковыми текстами. Картинки оформленные в отдельные статьи (они в таком виде без текста и описания выглядят абсолютно некорректно).
Почему не надо их индексировать? Во первых это создаёт лишнюю нагрузку на ваш сервер. Во вторых отнимает драгоценное время самого робота. В третьих и это пожалуй самое главное, некорректная информация может быть неправильно интерпретирована поисковыми системами. Это приведет к неправильному ранжированию статей и страниц, а в последствии и к некорректной выдаче в результатах поиска.
В четвертых папки с шаблонами и плагинами содержат огромное количество ссылок на сайты создателей и рекламодателей, а это очень плохо для вашего сайта, особенно в начале, когда на ваш сайт ссылок из вне еще не имеет или очень мало. В пятых индексируя все копии ваших статей, например в архивах, у поисковика складывается плохое мнение о вашем сайте и он будет плохо ваш сайт показывать в результатах поиска. А картинки, оформленные в виде отдельной статьи с названием и без текста, приводят робота просто в ужас. Если их очень много, то сайт может загреметь под фильтр АГС.
Теперь после всего сказанного возникает резонный вопрос: "А можно ли как то запретить индексировать то что не надо?". Оказывается можно. Хотя бы не в приказном порядке, а в рекомендательном. Ну то-есть избавиться от полной индексации мы вряд ли сможем, а вот рекомендовать не выводить в поисковых запросах некоторые папки и файлы нашего сайта мы вполне можем.
Настройка robots.txt 2Для этого существует файл Robots.txt. Файл robots.txt для сайта wordpress по умолчанию динамический и Реально в WordPress он не существует. А генерируется только в тот момент, когда его кто то запрашивает, будь это робот или просто посетитель. То есть если через FTP соединение вы зайдете на сайт, то в корневой папке файла robots.txt для сайта wordpress вы там просто не найдете. А если в браузере укажите его конкретный адрес http://название_вашего_сайта/robots.txt, то на экране получите его содержимое, как будто файл существует. Содержимое этого сгенерированного файла robots.txt для сайта wordpress примерно такое:
User-agent: *
В правилах составления файла robots.txt по умолчанию индексировать разрешено всё. Директива User-agent: * указывает на то, что все последующие команды относятся ко всем поисковым агентам ( * ). Но далее ничего не ограничивается. И как вы понимаете этого не достаточно. Во первых как мы уже с вами обсудили, папок, имеющих ограниченный доступ, достаточно много. А во вторых команды в данном файле робот от Яндекса воспринимает немного по другому чем все остальные поисковики. Для Яндекса нужен специальный блок, хотя многие обходятся и без него.
Содержание статьи:
Как создать robots.txt
Чтобы решить эти проблемы необходимо в любом текстовом редакторе (только ни в коем случае не используйте MS Word и ему подобные с элементами автоматического форматирования текста) создать текстовый файл с примерным содержимым приведенным ниже и забросить его в корневую папку вашего блога. Изменения можно делать в зависимости от необходимости.
Только надо учитывать особенности составления файла:
В начале строк цифр, как здесь в статье, быть не должно (цифры здесь у
testiruemvse.ru
Файл robots txt для сайта на WordPress — его создание и настройка
Доброго времени суток, ребята! На связи Максим, с материалом о невероятно важном файле robots txt, который должен присутствовать практически на каждом блоге и сайте, так как без него, продвижение практически невозможно. В этот раз, мы без лишних прелюдий начнём разбирать основные вопросы поста. Даже не стану рассказывать о своих событиях в жизни, к сожалению, ничего интересного со мной сейчас не происходит и, вообще, меня засосала рутина.
Зачем нужен файл robots txt на сайте вордпресс
Начнём с назначения этого, казалось бы, невзрачного текстового файлика, чья значимость далеко не преувеличена. Итак, файл robots txt для сайта на wordpress – это обычный текстовый файл (создаётся с помощью блокнота), расположенный в корневой директории сайта, в котором прописываются специальные инструкции для роботов поисковых систем. Эти записи способны запрещать или, наоборот, позволять поисковикам индексировать отдельные страницы и разделы сайта (блога).
Представьте, будто ваш сайт – это уютная квартирка, в которой есть несколько комнат. Хотя нет, квартиры будет мало, так что представим дом, где полно самых разных помещений приватного характера (только для хозяев): спальня, кладовки, чердак со складом всякой утвари, комната с сейфом и так далее. И все эти помещения в доме, должны быть доступны только хозяевам, но не гостям.
Я полагаю, вы поняли, о чём я говорю?! Дело в том что, на вашем блоге имеются такие пространства, которые не должны видеть роботы (гости), то есть, мы прячем всё не подходящее для их глаз и открываем только нужные блоки, разделы. Именно это является нашей задачей, вернее файла robots.txt – открыть доступ к одним разделам и закрыть к другим.
Ещё одна функция — устранение в поисковой выдаче яндекс и гугл дублированного контента. Если принять во внимание, что анонсы постов в архивах и рубриках будут одинаковы, то роботы могут проиндексировать то и другое, или иногда путаться, не зная какой материал нужно проиндексировать. В общем, если мы закроем одни страницы и разделы и откроем другие, то роботы со стопроцентной гарантией будут знать, что необходимо показывать в поисковых системах.
Создание и настройка файла robots txt для wordpress
Создание файла robots txt и настройка для wordpress, производится в обычном текстовом документе формата txt. Затем, в него заносятся различные данные, которые мы сейчас и рассмотрим на примере моего файла. Кстати, рекомендую использовать его, так как считаю, что он является наиболее правильным.
- User-agent: * — с помощью этой директивы прописываются имена роботов, для которых станут действовать следующие за ней правила. В данном случае, звёздочка разрешает всем роботам действовать по правилам, которые располагаются чуть ниже.
- Disallow: /wp-admin – директива disallow запрещает индексацию каких-либо разделов, где прописываются элементы сайта, которые не должны попасть к поисковым роботам. В нашем случае, мы запрещаем к индексации папку с административными файлами блога.
- Disallow: /wp-includes — запрет на индексацию папки со служебными библиотеками.
- Disallow: /wp-content/plugins – запрет для папки с плагинами.
- Disallow: /feed/
- Disallow: */feed
- Disallow: */trackback
- Disallow: */comments
- Disallow: /*?
- Disallow: /*?* — с пятого по десятый пункт, мы запрещаем индексацию различных url адресов, которые могут привести к образованию дублей страниц.
- Disallow: /tag – запрещает индексировать метки на сайте.
- Host: ваш блог.ru – здесь необходимо прописать адрес вашего сайта без www и http.
- Sitemap: http://ваш блог.ru/sitemap.xml – данный пункт даёт ответ на вопрос о том, как прописать sitemap в robotstxt. Не забывайте, что здесь необходимо добавить http, но без использования www.
В целом «роботс» для моего блога выглядит так:
- User-agent: *
- Disallow: /wp-admin
- Disallow: /wp-includes
- Disallow: /wp-content/plugins
- Disallow: /feed/
- Disallow: */feed
- Disallow: */trackback
- Disallow: */comments
- Disallow: /*?
- Disallow: /*?*
- Disallow: /tag
- Host: pay-day.ru
- Sitemap: http://pay-day.ru/sitemap.xml
WordPress robots txt — где лежит или куда загружать
После создания правильного файла, его необходимо загрузить на ваш хостинг в корневую директорию сайта. На своём примере покажу его местонахождение:
Кстати, в случае надобности, вы всегда можете редактировать его прям в менеджере файлов, на своём хостинге.После правильной настройки и загрузки файла на хостинг, нам потребуется проверить доступность robots.txt. На примере моего блога, проверяется она следующим образом – я ввожу в строку своего браузера следующий адрес: http://pay-day.ru/robots.txt
Доступ к файлу работает, значит всё хорошо, теперь можем приступать к работе с блогом и публикациям своих постов.
На всякий случай я решил записать видео на тему поста, для более ясного понимания всех моих действий. А сейчас, мне нужно откланяться и пройтись в магазин – очень уж кушать хочется. Наверное, приготовлю картошку с сыром, луком и майонезом в режиме тушения, в мультиварке. Всего доброго, друзья!
С Уважением, Максим Бойко.
pay-day.ru
Robots.txt - Как создать правильный robots.txt
Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.
Как влияет robots.txt на индексацию сайта
Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).
Подробнее об исключениях:Исключения ЯндексаСтандарт исключений для роботов (Википедия)
Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.
К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.
Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).
Директивы robots.txt
Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.
Давайте рассмотрим по порядку.
User-agent
Это самая главная директива, определяющая для каких роботов далее следуют правила.
Для всех роботов:User-agent: *
Для конкретного бота:User-agent: GoogleBot
Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:user-agent: googlebot
Ниже приведена таблица основных юзер-агентов различных поисковых систем.
Googlebot | основной индексирующий робот Google |
Googlebot-News | Google Новости |
Googlebot-Image | Google Картинки |
Googlebot-Video | видео |
Mediapartners-Google | Google AdSense, Google Mobile AdSense |
Mediapartners | Google AdSense, Google Mobile AdSense |
AdsBot-Google | проверка качества целевой страницы |
AdsBot-Google-Mobile-Apps | Робот Google для приложений |
YandexBot | основной индексирующий робот Яндекса |
YandexImages | Яндекс.Картинки |
YandexVideo | Яндекс.Видео |
YandexMedia | мультимедийные данные |
YandexBlogs | робот поиска по блогам |
YandexAddurl | робот, обращающийся к странице при добавлении ее через форму «Добавить URL» |
YandexFavicons | робот, индексирующий пиктограммы сайтов (favicons) |
YandexDirect | Яндекс.Директ |
YandexMetrika | Яндекс.Метрика |
YandexCatalog | Яндекс.Каталог |
YandexNews | Яндекс.Новости |
YandexImageResizer | робот мобильных сервисов |
Bingbot | основной индексирующий робот Bing |
Slurp | основной индексирующий робот Yahoo! |
Mail.Ru | основной индексирующий робот Mail.Ru |
StackRambler | Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально. |
Disallow и Allow
Disallow закрывает от индексирования страницы и разделы сайта.Allow принудительно открывает для индексирования страницы и разделы сайта.
Но здесь не все так просто.
Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.
* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.$ — показывает, что символ перед ним должен быть последним.# — комментарий, все что после этого символа в строке роботом не учитывается.
Примеры использования:
Disallow: *?s=Disallow: /category/$
Следующие ссылки будут закрыты от индексации:http://site.ru/?s=http://site.ru/?s=keywordhttp://site.ru/page/?s=keywordhttp://site.ru/category/
Следующие ссылки будут открыты для индексации:http://site.ru/category/cat1/http://site.ru/category-folder/
Во-вторых, нужно понимать, каким образом выполняются вложенные правила.Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.
Allow: *.cssDisallow: /template/
http://site.ru/template/ — закрыто от индексированияhttp://site.ru/template/style.css — закрыто от индексированияhttp://site.ru/style.css — открыто для индексированияhttp://site.ru/theme/style.css — открыто для индексирования
Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:
Allow: *.cssAllow: /template/*.cssDisallow: /template/
Повторюсь, порядок директив не важен.
Sitemap
Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.
Например,
Sitemap: http://site.ru/sitemap.xml
Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.
Host
Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!
Пример 1:Host: site.ru
Пример 2:Host: https://site.ru
Crawl-delay
Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.
Пример 1:Crawl-delay: 3
Пример 2:Crawl-delay: 0.5
Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.
Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.
Clean-param
Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.
Пример 1:
Clean-param: author_id http://site.ru/articles/
http://site.ru/articles/?author_id=267539 — индексироваться не будет
Пример 2:
Clean-param: author_id&sid http://site.ru/articles/
http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет
Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:
Clean-Param: utm_source&utm_medium&utm_campaign
Другие параметры
В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.
Смысл директив:Request-rate: 1/5 — загружать не более одной страницы за пять секундVisit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
Закрывающий robots.txt
Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:
User-agent: *Disallow: /
Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.
Правильная настройка robots.txt
Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.
Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:
- Закройте от индексирования админку сайта
- Закройте от индексирования личный кабинет, авторизацию, регистрацию
- Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
- Закройте от индексирования ajax, json-скрипты
- Закройте от индексирования папку cgi
- Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
- Закройте от индексирования функционал поиска
- Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
- Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
- Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
- Закройте от индексирования страницы с параметрами UTM-меток и сессий
- Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
- Укажите Sitemap и Host
- По необходимости пропишите Crawl-Delay и Clean-Param
- Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
- Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.
Пример robots.txt
# Пример файла robots.txt для настройки гипотетического сайта https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl-Delay: 0.5 Sitemap: https://site.ru/sitemap.xml Host: https://site.ruКак добавить и где находится robots.txt
После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt
Как проверить robots.txt
Проверка robots.txt осуществляется по следующим ссылкам:
Типичные ошибки в robots.txt
В конце статьи приведу несколько типичных ошибок файла robots.txt
- robots.txt отсутствует
- в robots.txt сайт закрыт от индексирования (Disallow: /)
- в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
- в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
- в файле указаны только директивыAllow: *.cssAllow: *.jsAllow: *.pngAllow: *.jpgAllow: *.gifпри этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
- директива Host прописана несколько раз
- в Host не указан протокол https
- путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта
P.S.
Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».
P.S.2
Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).
seogio.ru
Как создать правильный robots.txt для Wordpress
Правильно настроенный robots.txt обеспечивает грамотную индексацию нашему сайту, неправильный же может совсем убрать его из обзора поисковиков) Поэтому обязательно нужно уделить этому вопросу должное внимание.
Если вы заметили, что в индексе поисковиков откуда-то обнаруживаются дубликаты ваших постов, или какие-то непонятные страницы, то проблема наверняка именно в robots.txt.
Нередко замечал даже у довольно крупных и раскрученных сайтов и блогов ошибки в данном файлике.
Но прежде чем создавать robots.txt некоторые из вас(новички) могут задаться вопросом – а что собственно это за зверь такой?
Что такое robots.txt и зачем он нужен?
Это обычный txt-файлик, который расположен в корневом каталоге ваше сайта. Главным образом robots.txt нужен для того, что бы ограничивать доступ поисковиков к некоторым страницам вашего сайта, т.е. что бы они не индексировались.
Вы скажите, зачем же мне что-то прятать от поисковых роботов, я хочу, что бы мой сайт был в поиске! Однако уверяю вас, практически на любом сайте есть что укрыть от всевидящего ока, особенно сайты на CMS WordPress 🙂
В первую очередь это служебные разделы вашего сайта и дубликаты страниц (которых Worpress плодит очень много)
Ну согласитесь, зачем поисковику нужно копаться в админской зоне, или скажем в папке с установленными плагинами. Так же нужно обязательно прятать повторяющиеся страницы.Откуда берутся дубликаты страниц в Worpress? Да отовсюду 🙂
Это архивы страниц по меткам, это архивы по дате, архивы по авторам, по категориям (рубрикам) В результате, если не закрыть их от индексации поисковиков, то в поисковой выдаче могут появиться много вариантов одних и тех же страниц.
Чем это может мне навредить, спросите вы? Ну, во-первых, проиндексировать 50 страниц, или 300 страниц , есть разница. Вы значительно ускорите индексацию своего сайта, убрав все лишнее и оставив только самое нужное.
Кроме того, робот может проиндексировать ненужные страницы, а до нужных так и не добраться, или же добраться но очень нескоро.
Так же у вас могут быть личные страницы, которые вы не хотите выставлять на всеобщее обозрение.
Стоит задуматься и о том, что бы скрывать и комментарии от индексации, если их очень много и они не особо модерируются.
Помимо прочего в robots.txt указывается главное зеркало вашего сайта. URL сайта может выглядеть как www.sait.ru или просто sait.ru и для поисковиков это два разных сайта.
Что бы узнать какое у вашего сайта главное зеркало наберите его в браузере с www, и если URL измениться и www исчезнет в адресной строке, то ваше главное зеркало sait.ru Если же останется www.sait.ru то это и есть главное зеркало. Разумеется вместо sait.ru подставляем адрес своего сайта.
Еще в нем указывается местоположение карты сайта для поисковиков sitemap.xml. Что это такое и как ее создавать я писал в предыдущем уроке , если вы не делали sitemap, то обязательно сделайте!
Как создать правильный robots.txt для WordPress.
Вот так выглядит мой robots.txt на данный момент:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */comments Disallow: /page Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /category Disallow: /wp-login.php Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */comments Disallow: /page Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /category Disallow: /wp-login.php Disallow: /tag Host: ruskweb.ru Sitemap: http://ruskweb.ru/sitemap.xml Sitemap: http://ruskweb.ru/sitemap.xml.gzМожете скопировать в свой файл robots.txt, практически все настройки стандартные, убирают дубликаты страниц и закрывают админскую зону, в которую не нужно совать нос) Единственное что вы можете открыть комментарии если хотите, удалив строчки 8 и 26 Disallow: */comments.
Если же у вас вообще нет robots.txt то создайте его в блокноте и поместите в корень вашего сайта.
Тут читаем что такое корень сайта и как копировать файлы на ваш сайт.
Важно! Не забудьте изменить адрес сайта в последних трех строчках на ваш собственный.
Перед созданием такого robots.txt обязательно включите ЧПУ, иначе будут проблемы с индексацией сайта!И немного о том что мы там прописали.
User-agent: определяет к какому поисковику относятся правила.
В строке Disallow: мы закрываем доступ поисковикам к разделам сайта.
В строке Host: указываем главное зеркало своего сайта.
В строке Sitemap: мы указываем местоположение карты сайта sitemap.xml
Проверить работу файла можно в инструментах для Вебмастера Яндекс или Google.В Яндексе нужный нам раздел находится в Настройка индексирования — Анализ robots.txt
Загружаем robots.txt с сайта, и можем проверять работу.
Возле списка URL жмем кнопку добавить и вписываем все адреса с сайта, доступ к которым хотим проверить. К примеру проверим доступны ли записи(а они должны быть доступны) и проверим закрыты ли метки. Добавляем адреса, и жмем кнопку Проверить.
Как видите в результатах проверки, все работает как нужно, посты индексируются как и положено, а доступ к архивам запрещен. Причем там же указывается каким правилом.
По аналогии, если вы пользуетесь Гугловскими инструментами, там все тоже самое делаем.
Ну вот собственно и все, мы сделали большое дело для нашего нового блога таким маленьким тестовым файликом 🙂
Если есть какие-то вопросы, не стесняйтесь, задавайте в комментариях, постраюсь вам помочь)
ruskweb.ru
Настройка файла robots.txt для блога на Wordpress
Очередные выходные, а значит, рассматривается очередная рекомендация по оптимизации Вашего блога. Сегодня это SEO-рекомендация – грамотная настройка файла robots.txt.
Но сначала хочу напомнить, что, помимо рекомендаций, каждую неделю Я еще провожу бесплатный аудит одного из блогов своих читателей. Что удивительно, заявку на проведение бесплатного аудита на этой неделе не прислал никто, поэтому и аудита бесплатного тоже нет.
А теперь перейдем, собственно, к теме сегодняшней рекомендации – грамотная настройка файла robots.txt.
Что такое файл robots.txt и зачем он нужен?
Как Вы, наверное, знаете, чтобы Ваш сайт попал в индексацию поисковых систем, его должны проиндексировать поисковые роботы этих самых поисковых систем. Так вот, первое к чему обращаются поисковые роботы, зайдя на Ваш сайт – это файл robots.txt.
Там они смотрят первоначальную информацию о Вашем сайте. Поэтому, пренебрегать данным файлом не стоит. Наоборот, следует со всей серьезностью подойти к настройке данного файла, тем более что сделать это нужно всего один раз.
С рекомендациями, как использовать файл robots.txt, от самих поисковых систем Вы можете ознакомиться, перейдя по соответствующим ссылкам: Яндекс Google
Как создать файл robots.txt и куда его девать?
Данный файл представляет собой обычный текстовый файл, который Вы сможете создать в любом текстовом редакторе (Я для этого использую программу Notepad++).
После создания файла robots.txt, его необходимо разместить в корневую папку Вашего сайта. Т.е., чтобы данный файл был доступен по адресу: http://ВАШСАЙТ.ru/robots.txt
Что можно настраивать в robots.txt?
Самое главное, на что стоит обратить внимание, при настройке файла robots.txt – это дать указания поисковым роботам, какие страницы стоит индексировать, чтобы в индекс поисковиков попали только действительно целевые страницы.
а) Какие страницы индексировать на Вашем сайте?
Движок WordPress устроен так, что он создает довольно много дублей одинакового контента на Вашем сайте, что негативно сказывается при продвижении сайта. Помимо основной страницы с записью, тот же самый контент можно, к примеру, увидеть и на странице тегов, и на странице категорий, причем не по одному разу.
К тому же роботы могут не понять, какая их этих многочисленных страниц главная, и выберет за основную совсем не ту страницу, которая нужна Вам.
Поэтому, Ваша задача дать указания поисковикам, не индексировать страницы, которые создают дублированный контент.
б) Какие папки и файлы индексировать на Вашем сервере?
Не секрет, что движок WordPress, имеет довольно много технических папок и файлов. И если поисковый робот будет все это индексировать, то есть будет просматривать каждый файл на Вашем сервере, то это создаст довольно большую нагрузку на сервер, что Вам абсолютно не к чему.
Тут есть и еще один минус, если робот будет знать, что на индексацию Вашего сайта необходимо, к примеру, 10 минут, а на индексацию соседнего сайта, к примеру, 10 секунд, то и посещать Ваш сайт он будет намного реже, нежели соседний ресурс. А это значит, что Ваши новые записи будут попадать в индекс поисковиков с большой задержкой.
в) Как индексировать Ваш сайт, с WWW или без?
Думаю, Вы знаете, что для поисковых систем следующие два сайта, это два совершено разных сайта: ВАШСАЙТ.ru и www.ВАШСАЙТ.ru. Более того, поисковик воспринимает эти сайты, как копии друг друга, т.е. как дублированный контент.
Конечно, через какое-то время, поисковик сам, на свое усмотрение выберет, какой из этих двух сайтов является главным. Но этот выбор может быть не таким, какой сделали Вы.
Например, Вы продвигаете свой сайт без www, т.е. просто ВАШСАЙТ.ru, а поисковик при этом выбрал за основной Ваш сайт по адресу www.ВАШСАЙТ.ru. Вы, например, разместили где-то ссылки на Ваш ресурс без www, и надеетесь, что эти ссылки будут продвигать Ваш сайт. Но для поисковика эти ссылки указывают совсем на другой сайт.
А теперь представьте, что Яндекс выбрал за основной Ваш сайт без www, а Google выбрал с www. Поэтому следует самим указывать поисковикам, как индексировать Ваш сайт.
г) Где находится карта сайта для поисковых роботов?
Когда на Вашем сайте становится страниц более 50, то необходимо составлять карту сайта для поисковых роботов. Как правило, данная карта сайта доступна по адресу sitemap.xml (как корректно настраивать данный файл, мы разберем в следующих статьях).
В файле robots.txt Вам как раз и необходимо прописать, где находится Ваша карта сайта.
Настройка файла robots.txt для движка WordPress
Ниже на изображении представлен готовый код файла robots.txt для движка WordPress. В нем учтены все рекомендации, которые были рассмотрены выше. Скачать сам файл Вы сможете по ссылке под изображением.
Скачать настроенный файл robots.txt для WordPress:
Чтобы бесплатно скачать грамотно настроенный файл robots.txt для WordPress, нажмите на одну из кнопок Like:
__________ Автор: Сергей Абрамов Понравилась публикация? Подпишись на обновления по RSS или e-mail И обязательно расскажи друзьям в соцсетях об интересной статье:Популярные записи:
sergeyabramov.ru