Как создать правильный robots txt для CMS MODx. Правильный robots txt для modx
Правильный robots.txt для WordPress, Opencart, Bitrix и Joomla!
Мы подготовили для Вас правильные robots.txt для самых популярных CMS Рунета. Но нужно понимать, что мы исключили лишь общие файлы и страницы. Если на сайте появится Ваш собственный «мусор», его придется убирать самостоятельно.
Ниже все инструкции прописаны для User-agent: Yandex. По желанию Вы можете добавить эти же инструкции и для User-agent: *
Не забывайте вписывать свое главной зеркало и актуальный путь к Вашей sitemap.xmlДля корректной работы на всех сайтах должно быть включено ЧПУ. Поисковые системы любят небольшие читаемые URL, особенно, если они отражают суть страницы.Выберите свою CMS:
Robots.txt для WordPress
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Joomla!
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /layouts/
Disallow: /cli/
Disallow: /bin/
Disallow: /logs/
Disallow: /components/
Disallow: /component/
Disallow: /component/tags*
Disallow: /*mailto/
Disallow: /*%
Disallow: /index.php
Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА
Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для MODx EVO
User-agent: Yandex Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*? Disallow: /index.php Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Bitrix
User-agent: Yandex
Disallow: /bitrix/admin/
Disallow: /admin/
Disallow: /bitrix/
Disallow: /about/pics/
Disallow: /blog/user/
Disallow: /blog/friends/
Disallow: /sitemanager/projects/
Disallow: /partners/list/
Disallow: /support/forum/topic/new/
Disallow: /support/forum/users/
Disallow: /support/forum/user/
Disallow: /support/forum/search/
Disallow: /support/forum/rules/
Disallow: /support/forum/help/
Disallow: /support/forum/pm/
Disallow: /support/forum/subscribe/
Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА
Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Opencart
User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для DLE
User-agent: Yandex
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /print/
Disallow: /tags/
Disallow: /admin.php?mod=main
Disallow: /backup/
Disallow: /engine/
Disallow: /index.php?do=search
Disallow: /page/
Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА
Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Правильный Robots.txt для Modx - Бери и внедряй!
Robots.txt для Modx
Создайте текстовый файл с названием robots.txt и скопируйте в него следующее содержание, после загрузите этот файл в корень сайта.
User-agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/cache/ Disallow: /assets/plagins/ Disallow: /assets/modules/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: /search Disallow: /profile/ Disallow: *? Host: site.ru Sitemap: http://site.ru/sitemap.xmlНаш блог
-
SEO ПРОДВИЖЕНИЕ - что это такое?
18:19 23/06/2017Хотите узнать, что такое СЕО продвижение? Прочитав эту статью, вы за 15 минут разберетесь в азах поисковой оптимизации и поймете, зачем необходимо развивать свой сайт!
-
Продвижение интернет-магазина цветов
18:34 25/04/2017Как продвигать интернет магазин или лендинг по доставке цветов? Кейс нашего клиента из Челябинска с результатами и подробным описанием.
-
Сколько стоит продвижение сайта?
14:17 16/03/2017Стоимость продвижения и оптимизации сайта - самый важный вопрос клиентов. В этой статье мы постараемся рассказать из чего складывается цена на SEO.
-
Создание сайта для cтоматологии
21:42 11/03/2017Стоматология - один из самых популярных бизнесов, но чтобы сделать его прибыльным необходимо заняться привлечением клиентов и создание сайта - это первый шаг!
pgdv.ru
Как создать правильный robots txt для CMS MODx
Всем привет друзья! Продолжаю вместе с вами осваивать премудрости системы управления сайтом под названием MODx и сегодняшний урок я вместе с вами решил посвятить созданию файла robots txt для нее.
Скажу честно, эта CMS немного непонятная…была, как мне показалось, но как только стал в ней «ковыряться», крутить болтики и гаечки, то все вроде как стало на свои места.
Ничего сложного никогда не бывает, только в самом начале пути, а потом все нормально.
Итак, будем вместе составлять правильный robots txt для поисковых роботов яндекса и гугла, чтобы наш сайт на MODx быстрее проиндексировался и в него попали только страницы с информативным содержанием.
У меня есть клиентский сайт интернет магазин автомагнитол у него имеется вот такая структура файлов и папок.
Для этого сайта мой правильный robots для modx был вот таким:
User-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Host: ms-autotech.ru Sitemap: http://ms-autotech.ru/sitemap.xmlДалее все просто. Сохраняете выше приведенную инструкцию в файлик с расширением robots.txt и заливаете его в корень вашего сайта, как это показано у меня вот здесь:
И с последующей переиндексацией служебные и ненужные страницы не будут ранжироваться и показываться во всех поисковых системах, поскольку вы указали следующее правило
User-agent: *, эта запись говорит, что содержимое должны сканировать все без исключения роботы.
Важно! Если вы не используете на своем сайте файл robots.txt, то вы сильно рискуете в продвижении своего проекта в интернете. В индекс будет попадать весь «мусор» и поисковые системы просто будут понижать вас в выдаче и не давать вашему сайту пробиться в ТОП. Внимательно отнеситесь к этому.
На этом урок завершен. Записал небольшое короткое видео для любителей посмотреть все в живую. Всем спасибо и до встречи в следующих выпусках!
a666.ru
Как сделать правильный файл robots.txt
Иногда, веб-мастеру, может потребоваться закрыть от индексации часть сайта. Эта задача легко решается при помощи файла robots.txt. Вы наверное спросите: «А для чего веб-мастера закрываю часть своего портала от индексации роботами?» Некоторые страницы закрываются чтобы избежать плохой индексации роботами поисковиков, или чтобы не попасть под фильтры поисковиков (да да, и такое бывает) из-за не уникального контента…, а чаще всего, чтобы закрыть от индексации различный мусор в CMS такой к примеру как дубли страниц, админку, тему офорления.
Файл robots.txt – это текстовый файл, находящийся в корневой директории на хостинге, в котором записываются специальные действия для страниц, записей, картинок и.т.д.
Поисковые роботы при заходе на сайт сразу ищут файл robots.txt и рассматривают инструкции этого файла оставленные вебмастером для поисковых роботов.
Инструкции файла robots.txt могут
- запрещать к просмотру страницы (каталоги) для всех поисковых роботов
- запрещать к просмотру страницы (каталоги) для выделенных поисковых роботов
- производить редирект на другую страницу при ошибке 404
- указывать на местонахождение карты сайта
- указывать время загрузки страниц для индексации
Файл robots.txt включает в себя две основные инструкции: «User-agent» и «Disallow» при помощи которых и описывается, что поисковым роботам индексировать, а что пропустить. Некоторые поисковые системы поддерживают еще и дополнительные инструкции. Так, например, поисковая система «Yandex» использует еще инструкцию «Host».
Давайте, подробно рассмотрим каждую инструкцию и записи, которые делают вебмастера после них в файле robots.txt
Инструкция файла robots.txt «User-agent»
Эта инструкция определяет для каких поисковых роботов производить запрет или разрешать индексировать страницы (каталога). Если мы хотим производить запрет или разрешать индексацию для всех роботов, то в файле robots.txt делается следующая запись:
User-agent: *
По сути, «*» означает разрешение для просмотра всеми поисковиками (Yandex, Google, Bing…). Если мы хотим, чтобы запрет производился только для google, то нужно сделать запись:
User-agent: googlebot
Инструкция файла robots.txt «Disallow»
Эта запись определяет, какие страницы (каталоги) нужно запретить к просмотру поисковиков в файле robots.txt.
Disallow: /
Если поставить просто » / «, то будет происходить запрет на все каталоги и страницы ресурса.
Disallow: /image/
Если сделать так, то происходит запрет на индексацию всего каталога «/image/«, то-есть всех вложенных папок.
Disallow: /page1-small.htm
Если, сделать такую запись произойдет запрет на индексацию отдельной страницы «/page1-small.htm«
Если, Вы не хотите вообще, делать запрет на какие-либо страницы и каталоги оставьте место для записи пустым:
Disallow:
Одно из важнейших правил правильной записи правил файла robots.txt — каждая новая инструкция пишется с новой строки.
Yandex инструкция файла robots.txt «Host»
Эта инструкция указывает yandexbot основное зеркало вашего сайта. В этой директиве файла robots.txt прописывается адрес с www или без www:
Host: www.goldserfer.ru
Не пишите http://ваш сайт.ru инструкция работать не будет.
Yandex инструкция файла robors.txt «Crawl-delay»
Эта инструкция robots.txt указывает минимальный интервал в секундах, между запросами на загрузку страниц сайта для индексации роботами (применяется для уменьшения нагрузки на сервер).
Crawl-delay: 5
Инструкция файла robots.txt «Visit-time»
Эта инструкция robots.txt указывает поисковым роботам время загрузки страниц сайта для индексации (с 1 утра до 3:45 по Гринвичу).
Visit—time: 0100-0345
По-моему, очень удобная штука! К примеру мы производим какие-то изменения, а тут притопал один из ботов — «не званный гость», и все слопал с нужными (не нужными) изменениями…. Сами понимаете, не есть хорошо. Поэтому, обязательно прописываем это правило для ботов с нужными временными рамками посещений.
Примеры файлов robots.txt.
User-agent: *
Disallow:
Для всех поисковых роботов сайт полностью доступен к индексации.
User-agent: *
Disallow: /images/
Disallow: /buttons/
Disallow: /themes/
Для все поисковых роботов на сайте запрещены к индексации каталоги » /images/, /buttons/, /themes/ «
Файл robots.txt для WordPress блога:
User-agent: *Disallow: /cgi-bin/Disallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /wp-includes/Disallow: /search/Disallow: /xmlrpc.phpDisallow: /wp-admin/Disallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /tag/Disallow: /feed/Disallow: /trackback/Disallow: */trackback/Disallow: */?s*Disallow: */?p*Disallow: */*.js*Sitemap: http://ваш сайт/sitemap.xmlCrawl-delay: 5Visit- time: 0200-0545Host: ваш сайт.ru
Файл robots.txt для Joomla:
User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Disallow: /index2.php?option=com_contentDisallow: /index.php?option=com_content Crawl-delay: 10Request-rate: 1/10 Visit-time: 0200-0545 Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml
Файл robots.txt для Drupal:
User-agent: * Disallow: /database/ Disallow: /includes/ Disallow: /misc/ Disallow: /modules/ Disallow: /sites/ Disallow: /themes/ Disallow: /scripts/ Disallow: /updates/ Disallow: /profiles/ Disallow: /xmlrpc.php Disallow: /cron.php Disallow: /update.php Disallow: /install.php Disallow: /index.php Disallow: /admin/ Disallow: /comment/reply/ Disallow: /contact/ Disallow: /logout/ Disallow: /search/ Disallow: /user/register/ Disallow: /user/password/ Disallow: /user/login/ Disallow: /top-rated- Disallow: /messages/ Disallow: /book/export/ Disallow: /user2userpoints/ Disallow: /myuserpoints/ Disallow: /tagadelic/ Disallow: /referral/ Disallow: /aggregator/ Disallow: /files/pin/ Disallow: /your-votes Disallow: /comments/recent Disallow: /*/edit/ Disallow: /*/delete/ Disallow: /*/export/html/ Disallow: /taxonomy/term/*/0$ Disallow: /*/edit$ Disallow: /*/outline$ Disallow: /*/revisions$ Disallow: /*/contact$ Disallow: /*downloadpipe Disallow: /node$ Disallow: /node/*/track$ Disallow: /*& Disallow: /*% Disallow: /*?page=0 Allow: /*?page= Disallow: /*?Visit-time: 0200-0545 Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml
Файл robots.txt для MODx Evo.
User-agent: *Disallow: /assets/cache/Disallow: /assets/docs/Disallow: /assets/export/Disallow: /assets/import/Disallow: /assets/modules/Disallow: /assets/plugins/Disallow: /assets/snippets/Disallow: /install/Disallow: /manager/ Visit-time: 0200-0545 Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml
Файл robot.txt для MODx Revo.
User-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*?id=Visit-time: 0200-0545 Host: ваш сайт.ru Sitemap: http://ваш сайт/sitemap.xml
Спонсор показа статьи Seo-Sem. Сегодня поисковое продвижение сайта является одним из самых эффективных и выгодных способов рекламы ресурса. Вы не знаете с чего начать продвижение? Не беда! Компания Seo-Sem организует комплексное продвижение сайтов по доступным ценам и на высоком уровне.
goldserfer.ru
Правильные Robots.txt для CMS
LiveStreetUser-agent: * Disallow: /search/ Disallow: /rss/ Disallow: /yarss/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
SimplaUser-agent: * Disallow: /sections/404 Disallow: /simpla/ Disallow: /order/ Disallow: /user/ Disallow: /js/ Disallow: /captcha/ Disallow: /Smarty/ Disallow: /design/ Disallow: /api/ Disallow: /compiled/ Disallow: /cart/ Disallow: /resize/ Disallow: /password.php Sitemap: http://site.ru/sitemap.xml Host: site.ru
InstantCMSUser-agent: * Disallow: /admin/ Disallow: /backups/ Disallow: /backup/ Disallow: /core/ Disallow: /components/ Disallow: /wysiwyg/ Disallow: /includes/ Disallow: /modules/ Disallow: /filters/ Disallow: /languages/ Disallow: /install/ Disallow: /users/ Disallow: /core/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
Typo3User-Agent: * Disallow: /fileadmin/website/notimportant/ Disallow: /flow/drafts/ Disallow: /neos/drafts/ Disallow: /t3lib/ Disallow: /typo3/ Disallow: /typo3conf/ Disallow: /typo3temp/ Disallow: /typo3cms/drafts/ Disallow: /*?id=* Sitemap: http://site.ru/sitemap.xml Host: site.ru
UCOZUser-agent: * Disallow: /a/ Disallow: /stat/ Disallow: /index/1 Disallow: /index/2 Disallow: /index/3 Disallow: /index/5 Disallow: /index/7 Disallow: /index/9 Disallow: /panel/ Disallow: /admin/ Disallow: /secure/ Disallow: /informer/ Disallow: /mchat Disallow: /search Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap-forum.xml Host: site.ru
WebAsyst Shop-ScriptUser-agent: * Disallow: /auth/ Disallow: /cart/ Disallow: /checkout/ Disallow: /feedback/ Disallow: /installer/ Disallow: /published/ Disallow: /installer/ Disallow: /published/wbsadmin/ Disallow: /login/ Disallow: /logout/ Disallow: /myaccount/ Disallow: /order_status/ Disallow: /published/SC/html/scripts/ Disallow: /register/ Disallow: /remind_password/ Disallow: /*view=* Disallow: /*/reviews/ Disallow: /order_status/ Disallow: /order_history/ Disallow: /*ukey=order_history Disallow: /*print_form* Disallow: /*save_voting_results=yes Disallow: /category/*/offset Disallow: /en/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
PHPShopUser-Agent: * Disallow: /java/ Disallow: /opros/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
NetCatUser-Agent: * Disallow: /? Disallow: /install/ Disallow: /links/ Disallow: /js/ Disallow: /netcat/ Disallow: /netcat_files/ Disallow: /*.swf Disallow: /eng/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
MagentoUser-agent: * Disallow: /CVS Disallow: /*.svn$ Disallow: /*.idea$ Disallow: /*.sql$ Disallow: /*.tgz$ Disallow: /admin/ Disallow: /app/ Disallow: /downloader/ Disallow: /errors/ Disallow: /includes/ Disallow: /lib/ Disallow: /pkginfo/ Disallow: /shell/ Disallow: /var/ Disallow: /api.php Disallow: /cron.php Disallow: /cron.sh Disallow: /error_log Disallow: /get.php Disallow: /install.php Disallow: /LICENSE.html Disallow: /LICENSE.txt Disallow: /LICENSE_AFL.txt Disallow: /README.txt Disallow: /RELEASE_NOTES.txt Disallow: /*?dir* Disallow: /*?dir=desc Disallow: /*?dir=asc Disallow: /*?limit=all Disallow: /*?mode* Disallow: /*?SID= Disallow: /checkout/ Disallow: /onestepcheckout/ Disallow: /customer/ Disallow: /customer/account/ Disallow: /customer/account/login/ Disallow: /catalogsearch/ Disallow: /catalog/product_compare/ Disallow: /catalog/category/view/ Disallow: /catalog/product/view/ Disallow: /cgi-bin/ Disallow: /cleanup.php Disallow: /apc.php Disallow: /memcache.php Disallow: /phpinfo.php Sitemap: http://site.ru/sitemap.xml Host: site.ru
ImageCMSUser-agent: * Disallow: /applications/modules/admin Disallow: /rss Disallow: /captcha Disallow: /js Sitemap: http://site.ru/sitemap.xml Host: site.ru
DLE (Data life Engine)User-agent: * Disallow: /*print Disallow: /user/ Disallow: /backup/ Disallow: /engine/ Disallow: /language/ Disallow: /templates/ Disallow: /upgrade/ Disallow: /uploads/ Disallow: /autobackup.php Disallow: /admin.php Disallow: /index.php?do=addnews Disallow: /index.php?do=feedback Disallow: /index.php?do=lostpassword Disallow: /index.php?do=pm Disallow: /index.php?do=register Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?subaction=newposts Disallow: /?do=lastcomments Disallow: /statistics.html Sitemap: http://site.ru/sitemap.xml Host: site.ru
UMI CMSUser-Agent: * Disallow: /? Disallow: /emarket/addToCompare Disallow: /emarket/basket Disallow: /go_out.php Disallow: /images Disallow: /images/lizing Disallow: /images/ntc Disallow: /files Disallow: /users Disallow: /admin Disallow: /search Disallow: /install-temp Disallow: /install-static Disallow: /install-libs Sitemap: http://site.ru/sitemap.xml Host: site.ru
HostCMSUser-agent: * Disallow: /404/ Disallow: /403/ Disallow: captcha.php Disallow: download_file.php Sitemap: http://site.ru/sitemap.xml Host: site.ru
Amiro CMSUser-agent: * Disallow: /admin Disallow: /_admin/ Disallow: /members Disallow: /search Disallow: /subscribe Disallow: /users Disallow: /*offset=0 Disallow: /*forum_ext= Disallow: /*_print_version= Disallow: /*action=export_rss Disallow: /*action=search Disallow: /*action=view_posts Disallow: /*display_form= Sitemap: http://site.ru/sitemap.xml Host: site.ru
JoomlaUser-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Sitemap: http://site.ru/sitemap.xml Host: site.ru
WordpressUser-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Sitemap: http://site.ru/sitemap.xml Host: site.ru
BitrixUser-agent: * Disallow: /bitrix/ Disallow: /search/ Disallow: /auth/ Disallow: /service-pages/ Disallow: /include/ Disallow: /cgi-bin/ Disallow: /personal/ Disallow: /auth.php Disallow: /*?print= Disallow: /*&print= Disallow: /*register=yes Disallow: /*forgot_password=yes Disallow: /*change_password=yes Disallow: /*login=yes Disallow: /*logout=yes Disallow: /*auth=yes Disallow: /*backurl=* Disallow: /*back_url=* Disallow: /*back_url_admin=* Disallow: /*index.php?set_filter=* Disallow: /*index.php?sort=* Disallow: /*index.php?arrFilter* Disallow: /*?PAGEN Disallow: /*?count Disallow: /*?action Disallow: /access.log Disallow: /*?set_filter=* Disallow: /*?q=* Sitemap: http://site.ru/sitemap.xml Host: site.ru
MODxUser-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*? Disallow: /index.php Sitemap: http://site.ru/sitemap.xml Host: site.ru
DrupalUser-agent: * Disallow: /database/ Disallow: /includes/ Disallow: /misc/ Disallow: /modules/ Disallow: /themes/ Disallow: /scripts/ Disallow: /updates/ Disallow: /profiles/ Disallow: /xmlrpc.php Disallow: /cron.php Disallow: /update.php Disallow: /install.php Disallow: /index.php Disallow: /admin/ Disallow: /comment/reply/ Disallow: /comment/ Disallow: /contact/ Disallow: /logout/ Disallow: /search/ Disallow: /user/register/ Disallow: /user/password/ Disallow: /user/login/ Disallow: /top-rated- Disallow: /messages/ Disallow: /book/export/ Disallow: /user2userpoints/ Disallow: /myuserpoints/ Disallow: /tagadelic/ Disallow: /referral/ Disallow: /aggregator/ Disallow: /files/pin/ Disallow: /your-votes Disallow: /comments/recent Disallow: /?q=comment/ Disallow: /*/edit/ Disallow: /*/delete/ Disallow: /*/export/html/ Disallow: /taxonomy/term/*/0$ Disallow: /*/edit$ Disallow: /*/outline$ Disallow: /*/revisions$ Disallow: /*/contact$ Disallow: /*downloadpipe Disallow: /node$ Disallow: /node/ Disallow: /*& Disallow: /*?page=0 Allow: /*?page= Disallow: /*? Sitemap: http://site.ru/sitemap.xml Host: site.ru
OpencartUser-agent: * Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /wishlist Disallow: /login Sitemap: http://site.ru/sitemap.xml Host: site.ru
i-leon.ru
Правильная настройка robots.txt для различных CMS
Поисковые роботы, индексируют сайт независимо от наличия robots.txt и sitemap.xml, с помощью фаила robots.txt можно указать поисковым машинам, что исключить из индекса, и настроить другие важные параметры.
Стоит учесть, что краулеры поисковых машин игнорируют определенные правила, например:
Директивы
Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года.
Основные - часто используемые директивы
User-agent: директива с которой начинается Robots.txt.
Пример:
User-agent: * # указания для всех поисковых роботов. User-agent: Yandex # указания для робота Яндекса. User-agent: GoogleBot # указания для робота Google. Disallow: # запрещающая деректива,запрет индексции того, что указанно после /. Allow: # разрешающая деректива, для указание на индексацию URL. Disallow: # не работает без спецсимвола /. Allow: / # игнорируются, если после / не указан URL.Спецсимволы которые используются в robots.txt /, * , $.
Обратите внимание на символ /, можно допустить крупную ошибку прописав например:
User-agent:* Disallow: / # таким образом можно закрыть весь сайт от индексацииСпецсимвол * означает любую, в том числе и пустую последовательность символов, например:
Disallow: /cart/* # закрывает от индексации все страницы после URL: site.ru/cart/Спецсимвол $ ограничивает действие символа *, дает строгое ограничение:
User-agent:* Disallow: /catalog$ # при таком символе не будет индексироваться catalog, но в индексе будет catalog.htmlДиректива sitemap - указывает путь к карте сайта и выглядит так:
User-agent:* Allow: / Sitemap: http://www.site.ru/sitemap.xml # ее необходимо указывать с http:// или https://, https:// - указывается если подключён SSL сертефикатДиректива Host - указывает главное зеркало сайта с "WWW" или без "WWW"
User-agent:* Allow: / Sitemap: http://www.site.ru/sitemap.xml Host: www.site.ru # следует писать путь к домену без http и без слешей, убедитесь, что домен склеен. Без правильной склейки домена одна и та же страница может попасть в индекс поисковых систем более одного раза, что может повлечь пессимизацию.Директива Crow-Delay - ограничивает нагрузку на сервер, задает таймаут для поисковых машин:
User-agent: * Crawl-delay: 2 # задает таймаут в 2 секунды User-agent: * Disallow: /search Crawl-delay: 4.5 # задает таймаут в 4.5 секундыДиректива Clean-Param необходима если адреса страниц сайта содержат динамические параметры, которые не влияют на содержимое, например: идентификаторы сессий, пользователей, рефереров и т.п..
Робот Яндекса, используя значения дерективы Clean-Param, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, страницы с таким адресом:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:
User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.plробот Яндекса сведет все адреса страницы к одному:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,Также стоит отметить, что для этой директивы есть несколько вариантов настройки
Кириллические символы в robots.txt
Использование символов русского алфавита запрещено в robots.txt, для этого необходимо использовать Punycode (стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности)
#Неверно: User-agent: * Disallow: /корзина Host: интернет-магазин.рф #Верно: User-agent: * Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1aiРекомендации по тому, что нужно закрывать в фаиле robots.txt
- Административную панель - но при этом учтите что путь к вашей административной панели будет известен, убедитесь в надежности пароля в панели управлением сайтом.
- Корзину, форму заказа, и данные по доставке и заказам.
- Страницы с параметрами фильтров, сортировки, сравнения.
Ошибки, которые могут быть в robots.txt
- Пустая строка — недопустимо делать пустую строку в директиве user-agent. которая по правилам robots.txt считается "разделительной" (относительно блоков описаний). Это значит, что спрогнозировать применимость следующих за пустой строкой директив - нельзя.
- При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.
- Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует первую.
- Директива Clean-Param является меж секционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.
- Шесть роботов Яндекса не следуют правилам Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Чтобы запретить им индексацию на сайте, следует сделать отдельные параметры user-agent для каждого из них.
- Директива User-agent, всегда должна писаться выше запрещающей директивы.
- Одна строка, для одной директории. Нельзя писать множество директорий на одной строке.
- Имя файла должно быть только таким: robots.txt. Никаких Robots.txt, ROBOTS.txt, и так далее. Только маленькие буквы в названии.
- В директиве host следует писать путь к домену без http и без слешей. Неправильно: Host: http://www.site.ru/, Правильно: Host: www.site.ru (или site.ru)
- При использовании сайтом защищенного протокола https в директиве host (для робота Яндекса) нужно обязательно указывать именно с протоколом, так Host: https://www.site.ru
Проверка ошибок в robots.txt c помощью Лабрики
labrika→в левом меню Технический аудит→в выпадающем меню→Ошибки robots.txt→перепроверить robots.txt
Необходимо учесть, что фаил размером больше 32кб считывается как полностью разрешающий вне зависимости от того, что написано.
Избыточное наполнение robots.txt. Начинающие вебмастера впечатляются статьями, где сказано, что все ненужное необходимо закрыть в robots.txt и начинают закрывать вообще все, кроме текста на строго определенных страницах. Это, мягко говоря, неверно. Во-первых, существует рекомендация Google не закрывать скрипты, CSS и прочее, что может помешать боту увидеть сайт так же, как видит его пользователь. Во-вторых, очень большое количество ошибок связано с тем, что закрывая одно, пользователь закрывает другое тоже. Безусловно, можно и нужно проверять доступность страницы и ее элементов . Как вариант ошибки - путаница с последовательностью Allow и Disallow. Лучше всего закрывать в robots.txt только очевидно ненужные боту вещи, вроде формы регистрации, страницы перенаправления ссылок и т.п., а от дубликатов избавляться с помощью canonical. Обратите внимание, что то, что Вы поправили robots.txt совсем не обозначает, что Yandex- bot и Google-bot его сразу перечитают. Для ускорения этого процесса достаточно посмотреть на robots.txt, соответствующем разделе вебмастера.
Примеры правильно настроенного robots.txt для разных CMS:
WordPress
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.ru Sitemap: http://site.ru/sitemap.xmlModX
User-agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: example.ru Sitemap: http://example.ru/sitemap.xmlOpenCart
User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/categoryJoomla
User-agent:* Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=ru* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /index.php? Disallow: /index.html Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*print=1 Disallow: /trackback Host: Ваш сайтBitrix
User-agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.ru Sitemap: http://www.sitename.ru/sitemap.xmlВ данных примерах, в указании User-Agent указан параметр * разрешающий доступ всем поисковым роботам, для настройки robots.txt под отдельные поисковые системы вместо спецсимвола указывается название робота Yandex, GoogleBot, StackRambler, Aport, Slurp, MSNBot, ia_archiver.
labrika.ru