Как сделать правильный Robots.txt. Robots txt битрикс
Highload-блог о программировании и интернет-бизнесе
Сдача готового сайта на «Битриксе» – полбеды. Как правило, всё самое интересное начинается после его первой индексации поисковыми роботами Google и Яндекс, когда в поисковую выдачу может попасть много ненужной для пользователей информации: от «технического мусора» до той фотографии с новогоднего корпоратива.
Держись неизвестный SEO-шник, держись горе-программист, а ведь нужно-то было всего лишь составить правильный robots.txt для Битрикса.
Для справки: robots.txt – это файл, расположенный в корне сайта и ограничивающий поисковых роботов в доступе к его определённым разделам и страницам.
Robots.txt для корпоративных сайтов и сайтов-визиток
Любимая фраза начинающих копирайтеров «каждый проект индивидуален» лучше всего подходит для нашей ситуации. Исключение составляют лишь стандартные директивы для robots.txt: User-agent; Disallow, Host и Sitemap. Если хотите – это обязательный минимум.
Всё остальное в вопросах закрытия и перекрытия – на Ваше усмотрение. Несмотря на то, что «Битрикс» - это коробочное решение, директивы сделанных на нём проектов могут сильно отличаться друг от друга. Вопрос в структуре и функционале отдельно взятого сайта.
Представим, что у вас есть корпоративный сайт на «Битриксе» со стандартным набором разделов: «О компании», «Услуги», «Проекты», «Контакты», «Новости». Если контент на таком сайте уникальный, то нужно работать над закрытием технической части проекта.
1. Закрыть от индексации папку /bitrix и /cgi-bin. Чисто техническая информация (CSS, шаблоны, капчи), которая никому не нужна, кроме ругающегося в панели веб-мастеров GoogleBot’a. Можете смело закрывать её. Алгоритм действий следующий: Disallow: /example/
2. Папка /search также не интересна ни поисковикам, ни пользователям. Закрыв её, вы обезопасите себя в выдаче от дублей страниц, повторяющихся тегов и тайтлов.
3. При составлении robots.txt на «Битриксе» иногда забывают о закрытии форм авторизации и PHP-аутентификации на сайте. Речь идёт о
/auth/ /auth.php
4. Если на вашем сайте есть возможность распечатки каких-либо материалов: будь то карты местности или счёта на оплату, не забудьте закрыть в файле robots.txt следующие директории:
/*?print= /*&print=
5. «Битрикс» бережно хранит всю историю Вашего сайта: успешные регистрации пользователей, записи об успешной смене и восстановлении паролей. Правда, сомневаемся, что это будет интересно поисковым роботам.
/*register=yes /*forgot_password=yes /*change_password=yes /*login=yes /*logout=yes /*auth=yes
6. Представьте, вы просматриваете на сайте фотоальбом, открываете одну, вторую, третью фотографии, но на четвёртой решаете вернуться на шаг назад. В адресной строке появится вот что-то типа такого ругательства: ?back_url_ =%2Fbitrix%2F%2F. Убирается оно опять же изменением файла robots.txt в корне CMS «1С-Bitrix».
/*BACKURL=* /*back_url=* /*BACK_URL=* /*back_url_admin=*
Таким образом, мы страхуем открытую часть (видна пользователям) и закрытую (видна администраторам CMS Битрикс).
7. Папка /upload. В ней «Битрикс» хранит картинки и видео с сайта. Если контент уникальный, то закрывать папку не нужно. Ведь проиндексированные картинки и видео – дополнительный источник трафика. Другое дело, когда в /upload хранится конфиденциальная информация или неуникальный контент.
Скачать robots.txt для сайта на Bitrix
Robots.txt на Битрикс для интернет-магазинов
Основа та же, что и для корпоративных сайтов, но с несколькими поправками.
1. В отличие от небольшого сайта компании, в интернет-магазине, как правило, не менее ста страниц. Страницы паджинации, отвечающие за переход пользователя с одной карточки товара на другую, засоряют поисковые системы. Чем больше страниц, тем больше «мусора».
/*?PAGEN
2. Запрет индексации действий пользователей и администраторов сайта. Следы фильтрации, сравнения товаров, добавления товаров в корзину также должны быть скрыты от глаз поискового робота.
/*?count /*?action /*?set_filter=*
3. Наконец, UTM-метки. Закрыть к ним доступ можно следующим образом:
/*openstat= /*utm_source=
Скачать robots.txt для интернет-магазина на Bitrix
web.ritg.ru
Правильный robots.txt для 1С-Битрикс
Необходимые правила в файле robots.txt для CMS 1С-Битрикс
- Скопировать содержимое в файл robots.txt,
- example.com переименовать на название вашего домена,
- Загрузить полученный файл в корневой каталог вашего сайта.
Как сделать правильный Robots.txt для Битрикс, Wordpress, Joomla, ModX и других систсем управления
Файл Robots.txt – это текстовый документ в формате .txt, служащий вспомогательным элементом для поисковых роботов и указывающий им какие команды нужно сделать по сайту. Как правило – это: закрытие от индексации не нужных страниц, закрытие от индексации дублей страниц, указание главного зеркала сайта, указания пути адреса к карте сайта.
Так же при первичной разработке сайта, если мы не хотим, что его видели поисковые машины, в файле Robots.txt можно закрыть весь сайт от индексации.
Пример части файла Robots.txt
User-agent: *
Disallow: /nenugnaya-stranica
Sitemap: http:// vashsait /sitemap.xml
В данном случае робот разрешает индексацию сайта, но запрещает к индексации одну из страниц «Disallow: /nenugnaya-stranica».
По мимо этого указано главное зеркало сайта «Host: vashsait.ru» и указан путь к карте сайте «Sitemap: http:// vashsait /sitemap.xml».
Основные команды в robots.txt:
Disallow: / — запрещает индексацию всего сайта
Disallow: /nenugnii-razdel — запрещает индексацию к страницам начинающимся с /nenugnii-razdel и все что после
Allow: / — разрешает индексацию всего сайта
Allow: /nenugnii-razdel — разрешает индексацию к страницам начинающимся с /nenugnii-razdel
Host: Директива указывающая поисковым системам, какое зеркало у Вашего сайта считается главным.
Sitemap: Директива указывает путь к карте sitemap.xml сайта
Правильный Robots.txt для системы управления сайтом Битрикс
Ниже представлен стандартный файл для сайтов на движке Битрикса:
User-agent: *
Disallow: /bitrix/
Disallow: /upload/
Disallow: /search/
Allow: /search/map.php
Disallow: /club/search/
Disallow: /club/group/search/
Disallow: /club/forum/search/
Disallow: /communication/forum/search/
Disallow: /communication/blog/search.php
Disallow: /club/gallery/tags/
Disallow: /examples/my-components/
Disallow: /examples/download/download_private/
Disallow: /auth/
Disallow: /auth.php
Disallow: /personal/
Disallow: /communication/forum/user/
Disallow: /e-store/paid/detail.php
Disallow: /e-store/affiliates/
Disallow: /club/$
Disallow: /club/messages/
Disallow: /club/log/
Disallow: /content/board/my/
Disallow: /content/links/my/
Disallow: /*/search/
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*print_course=Y
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*index.php$
Правильный Robots.txt для wordpress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Правильный Robots txt для Joomla
Вот так выглядит стандартный robots.txt сайтов на движке Joomla
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/*
Disallow: /component/search/
Disallow: /component/content/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Правильный Robots txt для ModX
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Disallow: /index.php
Host: seoshpargalka.ru
Sitemap: http://seoshpargalka.ru/sitemap.xml
Правильный Robots txt для Drupal
User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?
Host: sait.ru
Sitemap: http://sait.ru/sitemap.xml
smediagroup.ru
robots.txt для Битрикс - Статиевский Данила
С недавних пор CMS «1С-Битрикс» стала при установке создавать robots.txt с отличным от прежней редакции содержимым.
Теперь в файле robots.txt можно увидеть такие директивы:
User-agent: *Disallow: /bitrix/Disallow: /search/Allow: /search/map.phpDisallow: /club/search/Disallow: /club/group/search/Disallow: /club/forum/search/Disallow: /communication/forum/search/Disallow: /communication/blog/search.phpDisallow: /club/gallery/tags/Disallow: /examples/my-components/Disallow: /examples/download/download_private/Disallow: /auth/Disallow: /auth.phpDisallow: /personal/Disallow: /communication/forum/user/Disallow: /e-store/paid/detail.phpDisallow: /e-store/affiliates/Disallow: /club/$Disallow: /club/messages/Disallow: /club/log/Disallow: /content/board/my/Disallow: /content/links/my/Disallow: /*/search/Disallow: /*PAGE_NAME=searchDisallow: /*PAGE_NAME=user_postDisallow: /*PAGE_NAME=detail_slide_showDisallow: /*/slide_show/Disallow: /*/gallery/*order=*Disallow: /*?print=Disallow: /*&print=Disallow: /*register=yesDisallow: /*forgot_password=yesDisallow: /*change_password=yesDisallow: /*login=yesDisallow: /*logout=yesDisallow: /*auth=yesDisallow: /*action=ADD_TO_COMPARE_LISTDisallow: /*action=DELETE_FROM_COMPARE_LISTDisallow: /*action=ADD2BASKETDisallow: /*action=BUYDisallow: /*print_course=YDisallow: /*bitrix_*=Disallow: /*backurl=*Disallow: /*BACKURL=*Disallow: /*back_url=*Disallow: /*BACK_URL=*Disallow: /*back_url_admin=*Disallow: /*index.php$Host: www.HOST.ru
Видно, что закрыли все служебные страницы Битрикса и дублирующийся контент. В целом, хорошо. Но, естественно, нужно внимательно просмотреть всё и адаптировать под конкретный проект. Например, предпоследняя строка запрещает индексацию всех index.php на сайте чтобы /dir/index.php не дублировала /dir/. Проверьте что у вас с адресацией и какие ссылки стоят. Понятно, что если в меню ссылаетесь на индекс, то запрещать его в роботсе не надо.
Ну, и по остальным директивам стоит пройтись взглядом перед запуском сайта.
Однако, в целом для сайтов на «1С-Битрикс» — хороший вариант чтобы не засорять выдачу мусорными страницами и немного снизить нагрузку на сайт от ботов. Единственное, я бы ещё добавил в самый конец файла директиву Sitemap со ссылкой на соответствующий файл карты сайта.
statievsky.ru
Разный robots.txt на разных поддоменах
Есть два варианта: первый - если просто нужно избежать склейки поддоменов, второй - если нужны разные правила для разных регионов.
Внимание
Если у вас не работает php в txt, то просто создавайте не .txt, а .php файл, для этого просто отметьте нужную галочку. Это и есть обходной путь.
Robots.txt с одинаковыми правилами на разных поддоменах
Идём в Сервисы -> Регионы продаж, на вкладку "Robots.txt (простой путь)". Выглядит она так:
Теперь, допустим, изначально robots.txt выглядит так (это, кстати, стандартный набор правил для Битрикса):
User-Agent: * Disallow: */index.php Disallow: /bitrix/ Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas= Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*PAGEN Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow: /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Disallow: /*?utm_source= Allow: /bitrix/components/ Allow: /bitrix/cache/ Allow: /bitrix/js/ Allow: /bitrix/templates/ Allow: /bitrix/panel/ Host: av-promo.ruВидим, что адрес сайта - "av-promo.ru", значит в форму подставляем "av-promo.ru". Нажимаем кнопку "Сделать динамическим", проверяем результат на поддоменах. Всё, кроме адреса сайта в "Host" будет одинаковым для всех регионов, но мы уберегаем себя от склейки за счёт того, что адрес сайта получается разный.
Robots.txt с разными правилами на разных поддоменах
Смысл этого способа в том, что можно прописывать абсолютно разные robots.txt, с разными правилами для отдельных поддоменов. Например, запретить на определённом регионе индексацию страницы доставки.
Для этого в инфоблоке регионов создаём свойство региона "robots.txt" типа HTML/текст (код, например, "ROBOTS_TXT") и заполняем его у разных регионов тем содержимым, которое вам нужно.
Затем идём на вкладку - "Robots.txt (сложный путь)". Указываем там созданное свойство.
Нажимаем на кнопку "Сделать динамическим" и проверяем работу файла /robots.txt на поддоменах.
Кстати, для быстрого старта всем регионам можно быстро заполнить это свойство с помощью формы на той же вкладке.
Важно! Редиректы
Если вы создали php-файл, то его расширение будет .php, а значит адрес - /robots.php. А адрес robots.txt всегда должен быть robots.txt. Следовательно, нужно прописать редирект. Ниже правило для такого редиректа в .htaccess:
RewriteRule ^robots\.txt$ /robots.php [L]Что-то осталось непонятным или вы нашли неточность? Напишите, пожалуйста об этом в комментариях.
av-promo.ru