Как сделать правильный Robots.txt. Robots txt битрикс


Highload-блог о программировании и интернет-бизнесе

Сдача готового сайта на «Битриксе» – полбеды. Как правило, всё самое интересное начинается после его первой индексации поисковыми роботами Google и Яндекс, когда в поисковую выдачу может попасть много ненужной для пользователей информации: от «технического мусора» до той фотографии с новогоднего корпоратива.

Держись неизвестный SEO-шник, держись горе-программист, а ведь нужно-то было всего лишь составить правильный robots.txt для Битрикса.

Для справки: robots.txt – это файл, расположенный в корне сайта и ограничивающий поисковых роботов в доступе к его определённым разделам и страницам.

Robots.txt для корпоративных сайтов и сайтов-визиток

Любимая фраза начинающих копирайтеров «каждый проект индивидуален» лучше всего подходит для нашей ситуации. Исключение составляют лишь стандартные директивы для robots.txt: User-agent; Disallow, Host и Sitemap. Если хотите – это обязательный минимум.

Всё остальное в вопросах закрытия и перекрытия – на Ваше усмотрение. Несмотря на то, что «Битрикс» - это коробочное решение, директивы сделанных на нём проектов могут сильно отличаться друг от друга. Вопрос в структуре и функционале отдельно взятого сайта. 

Представим, что у вас есть корпоративный сайт на «Битриксе» со стандартным набором разделов: «О компании», «Услуги», «Проекты», «Контакты», «Новости». Если контент на таком сайте уникальный, то нужно работать над закрытием технической части проекта.

Robots

 

1. Закрыть от индексации папку /bitrix и /cgi-bin. Чисто техническая информация (CSS, шаблоны, капчи), которая никому не нужна, кроме ругающегося в панели веб-мастеров GoogleBot’a. Можете смело закрывать её. Алгоритм действий следующий: Disallow: /example/ 

2. Папка /search также не интересна ни поисковикам, ни пользователям. Закрыв её, вы обезопасите себя в выдаче от дублей страниц, повторяющихся тегов и тайтлов.

3. При составлении robots.txt на «Битриксе» иногда забывают о закрытии форм авторизации и PHP-аутентификации на сайте. Речь идёт о 

/auth/ /auth.php

4. Если на вашем сайте есть возможность распечатки каких-либо материалов: будь то карты местности или счёта на оплату, не забудьте закрыть в файле robots.txt следующие директории:

/*?print= /*&print=

5. «Битрикс» бережно хранит всю историю Вашего сайта: успешные регистрации пользователей, записи об успешной смене и восстановлении паролей. Правда, сомневаемся, что это будет интересно поисковым роботам.

/*register=yes /*forgot_password=yes /*change_password=yes /*login=yes /*logout=yes /*auth=yes

6. Представьте, вы просматриваете на сайте фотоальбом, открываете одну, вторую, третью фотографии, но на четвёртой решаете вернуться на шаг назад. В адресной строке появится вот что-то типа такого ругательства: ?back_url_ =%2Fbitrix%2F%2F.  Убирается оно опять же изменением файла robots.txt в корне CMS «1С-Bitrix». 

/*BACKURL=* /*back_url=* /*BACK_URL=* /*back_url_admin=*

Таким образом, мы страхуем открытую часть (видна пользователям) и закрытую (видна администраторам CMS Битрикс). 

7. Папка /upload. В ней «Битрикс» хранит картинки и видео с сайта. Если контент уникальный, то закрывать папку не нужно. Ведь проиндексированные картинки и видео – дополнительный источник трафика. Другое дело, когда в /upload хранится конфиденциальная информация или неуникальный контент. 

Скачать robots.txt для сайта на Bitrix

Robots.txt на Битрикс для интернет-магазинов

Основа та же, что и для корпоративных сайтов, но с несколькими поправками. 

1. В отличие от небольшого сайта компании, в интернет-магазине, как правило, не менее ста страниц. Страницы паджинации, отвечающие за переход пользователя с одной карточки товара на другую, засоряют поисковые системы. Чем больше страниц, тем больше «мусора».

/*?PAGEN

2. Запрет индексации действий пользователей и администраторов сайта. Следы фильтрации, сравнения товаров, добавления товаров в корзину также должны быть скрыты от глаз поискового робота.

/*?count /*?action /*?set_filter=*

3. Наконец, UTM-метки. Закрыть к ним доступ можно следующим образом:

/*openstat= /*utm_source=

Скачать robots.txt для интернет-магазина на Bitrix

web.ritg.ru

Правильный robots.txt для 1С-Битрикс

Необходимые правила в файле robots.txt для CMS 1С-Битрикс

  1. Скопировать содержимое в файл robots.txt,
  2. example.com переименовать на название вашего домена,
  3. Загрузить полученный файл в корневой каталог вашего сайта.
User-agent: Yandex Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: */*search Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*print Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*back_url* Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*PAGEN_* Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: example.com User-agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: */*search Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*print Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*back_url* Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*PAGEN_* Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Sitemap: http://example.com/sitemap.xml

lockki.ru

Как сделать правильный Robots.txt для Битрикс, Wordpress, Joomla, ModX и других систсем управления

Файл Robots.txt – это текстовый документ в формате .txt, служащий вспомогательным элементом для поисковых роботов и указывающий им какие команды нужно сделать по сайту. Как правило – это: закрытие от индексации не нужных страниц, закрытие от индексации дублей страниц, указание главного зеркала сайта, указания пути адреса к карте сайта.

Так же при первичной разработке сайта, если мы не хотим, что его видели поисковые машины, в файле Robots.txt можно закрыть весь сайт от индексации.

Пример части файла Robots.txt

User-agent: *

Disallow: /nenugnaya-stranica

Host: vashsait.ru

Sitemap: http:// vashsait /sitemap.xml

В данном случае робот разрешает индексацию сайта, но запрещает к индексации одну из страниц «Disallow: /nenugnaya-stranica».

По мимо этого указано главное зеркало сайта «Host: vashsait.ru» и указан путь к карте сайте «Sitemap: http:// vashsait /sitemap.xml».

Основные команды в robots.txt:

Disallow: / — запрещает индексацию всего сайта

Disallow: /nenugnii-razdel — запрещает индексацию к страницам начинающимся с /nenugnii-razdel и все что после

Allow: / — разрешает индексацию всего сайта

Allow: /nenugnii-razdel — разрешает индексацию к страницам начинающимся с /nenugnii-razdel

Host: Директива указывающая поисковым системам, какое зеркало у Вашего сайта считается главным.

Sitemap: Директива указывает путь к карте sitemap.xml сайта

Правильный Robots.txt для системы управления сайтом Битрикс

Ниже представлен стандартный файл для сайтов на движке Битрикса:

User-agent: *

Disallow: /bitrix/

Disallow: /upload/

Disallow: /search/

Allow: /search/map.php

Disallow: /club/search/

Disallow: /club/group/search/

Disallow: /club/forum/search/

Disallow: /communication/forum/search/

Disallow: /communication/blog/search.php

Disallow: /club/gallery/tags/

Disallow: /examples/my-components/

Disallow: /examples/download/download_private/

Disallow: /auth/

Disallow: /auth.php

Disallow: /personal/

Disallow: /communication/forum/user/

Disallow: /e-store/paid/detail.php

Disallow: /e-store/affiliates/

Disallow: /club/$

Disallow: /club/messages/

Disallow: /club/log/

Disallow: /content/board/my/

Disallow: /content/links/my/

Disallow: /*/search/

Disallow: /*PAGE_NAME=search

Disallow: /*PAGE_NAME=user_post

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?print=

Disallow: /*&print=

Disallow: /*register=yes

Disallow: /*forgot_password=yes

Disallow: /*change_password=yes

Disallow: /*login=yes

Disallow: /*logout=yes

Disallow: /*auth=yes

Disallow: /*action=ADD_TO_COMPARE_LIST

Disallow: /*action=DELETE_FROM_COMPARE_LIST

Disallow: /*action=ADD2BASKET

Disallow: /*action=BUY

Disallow: /*print_course=Y

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*index.php$

Правильный Robots.txt для wordpress

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Правильный Robots txt для Joomla

Вот так выглядит стандартный robots.txt сайтов на движке Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/*

Disallow: /component/search/

Disallow: /component/content/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Правильный Robots txt для ModX

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Disallow: /?

Disallow: /*?

Disallow: /index.php

Host: seoshpargalka.ru

Sitemap: http://seoshpargalka.ru/sitemap.xml

Правильный Robots txt для Drupal

User-agent: *

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: /user/login/

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*&

Disallow: /*%

Disallow: /*?page=0

Allow: /*?page=

Disallow: /*?

Host: sait.ru

Sitemap: http://sait.ru/sitemap.xml

smediagroup.ru

robots.txt для Битрикс - Статиевский Данила

С недавних пор CMS «1С-Битрикс» стала при установке создавать robots.txt с отличным от прежней редакции содержимым.

Теперь в файле robots.txt можно увидеть такие директивы:

User-agent: *Disallow: /bitrix/Disallow: /search/Allow: /search/map.phpDisallow: /club/search/Disallow: /club/group/search/Disallow: /club/forum/search/Disallow: /communication/forum/search/Disallow: /communication/blog/search.phpDisallow: /club/gallery/tags/Disallow: /examples/my-components/Disallow: /examples/download/download_private/Disallow: /auth/Disallow: /auth.phpDisallow: /personal/Disallow: /communication/forum/user/Disallow: /e-store/paid/detail.phpDisallow: /e-store/affiliates/Disallow: /club/$Disallow: /club/messages/Disallow: /club/log/Disallow: /content/board/my/Disallow: /content/links/my/Disallow: /*/search/Disallow: /*PAGE_NAME=searchDisallow: /*PAGE_NAME=user_postDisallow: /*PAGE_NAME=detail_slide_showDisallow: /*/slide_show/Disallow: /*/gallery/*order=*Disallow: /*?print=Disallow: /*&print=Disallow: /*register=yesDisallow: /*forgot_password=yesDisallow: /*change_password=yesDisallow: /*login=yesDisallow: /*logout=yesDisallow: /*auth=yesDisallow: /*action=ADD_TO_COMPARE_LISTDisallow: /*action=DELETE_FROM_COMPARE_LISTDisallow: /*action=ADD2BASKETDisallow: /*action=BUYDisallow: /*print_course=YDisallow: /*bitrix_*=Disallow: /*backurl=*Disallow: /*BACKURL=*Disallow: /*back_url=*Disallow: /*BACK_URL=*Disallow: /*back_url_admin=*Disallow: /*index.php$Host: www.HOST.ru

Видно, что закрыли все служебные страницы Битрикса и дублирующийся контент. В целом, хорошо. Но, естественно, нужно внимательно просмотреть всё и адаптировать под конкретный проект. Например, предпоследняя строка запрещает индексацию всех index.php на сайте чтобы /dir/index.php не дублировала /dir/. Проверьте что у вас с адресацией и какие ссылки стоят. Понятно, что если в меню ссылаетесь на индекс, то запрещать его в роботсе не надо.

Ну, и по остальным директивам стоит пройтись взглядом перед запуском сайта.

Однако, в целом для сайтов на «1С-Битрикс» — хороший вариант чтобы не засорять выдачу мусорными страницами и немного снизить нагрузку на сайт от ботов. Единственное, я бы ещё добавил в самый конец файла директиву Sitemap со ссылкой на соответствующий файл карты сайта.

statievsky.ru

Разный robots.txt на разных поддоменах

Есть два варианта: первый - если просто нужно избежать склейки поддоменов, второй - если нужны разные правила для разных регионов.

Внимание

Если у вас не работает php в txt, то просто создавайте не .txt, а .php файл, для этого просто отметьте нужную галочку. Это и есть обходной путь.

Robots.txt с одинаковыми правилами на разных поддоменах

Идём в Сервисы -> Регионы продаж, на вкладку "Robots.txt (простой путь)". Выглядит она так:

Robots.txt (простой путь)

Теперь, допустим, изначально robots.txt выглядит так (это, кстати, стандартный набор правил для Битрикса):

User-Agent: * Disallow: */index.php Disallow: /bitrix/ Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas= Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*PAGEN Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Disallow: /*?utm_source= Allow: /bitrix/components/ Allow: /bitrix/cache/ Allow: /bitrix/js/ Allow: /bitrix/templates/ Allow: /bitrix/panel/ Host: av-promo.ru

Видим, что адрес сайта - "av-promo.ru", значит в форму подставляем "av-promo.ru". Нажимаем кнопку "Сделать динамическим", проверяем результат на поддоменах. Всё, кроме адреса сайта в "Host" будет одинаковым для всех регионов, но мы уберегаем себя от склейки за счёт того, что адрес сайта получается разный.

Robots.txt с разными правилами на разных поддоменах

Смысл этого способа в том, что можно прописывать абсолютно разные robots.txt, с разными правилами для отдельных поддоменов. Например, запретить на определённом регионе индексацию страницы доставки.

Для этого в инфоблоке регионов создаём свойство региона "robots.txt" типа HTML/текст (код, например, "ROBOTS_TXT") и заполняем его у разных регионов тем содержимым, которое вам нужно.

Свойство для robots.txt

Затем идём на вкладку - "Robots.txt (сложный путь)". Указываем там созданное свойство.

Robots.txt (сложный путь)

Нажимаем на кнопку "Сделать динамическим" и проверяем работу файла /robots.txt на поддоменах.

Кстати, для быстрого старта всем регионам можно быстро заполнить это свойство с помощью формы на той же вкладке.

Пакетное задание значение robots.txt регионам

Важно! Редиректы

Если вы создали php-файл, то его расширение будет .php, а значит адрес - /robots.php. А адрес robots.txt всегда должен быть robots.txt. Следовательно, нужно прописать редирект. Ниже правило для такого редиректа в .htaccess:

RewriteRule ^robots\.txt$ /robots.php [L]

Что-то осталось непонятным или вы нашли неточность? Напишите, пожалуйста об этом в комментариях.

av-promo.ru


Prostoy-Site | Все права защищены © 2018 | Карта сайта