Правильный ROBOTS.TXT для Joomla 3.x / 2.5 (Яндекс + Гугл). Robots txt для joomla
Robots txt для Joomla: правильная настройка и ошибки
Приветствую Вас, дорогие друзья, на блоге firelinks.ru. В сегодняшнем посте речь пойдет о правильной настройке файла robots.txt для того, чтобы наш сайт правильно и быстро проходил индексацию в поисковых системах. Любой админ или вебмастер знаком с этим файлом и не раз сталкивался с проблемами при его правильной настройке. Вкратце, давайте представим, что Ваш сайт - это Ваша квартира, а поисковый робот Яндекса и Гугла это гости, которые решили зайти к Вам на новоселье посмотреть как Вы живете. Так вот, файл роботс это своего рода хозяин квартиры, который должен четко знать куда нужно вести дорогих гостей, а куда им заходить вовсе не положена, так сказать соваться в ваше личное пространство . Для того, чтобы все шло по маслу и требуется настроить данный файл с указанием конкретных команд.
Зачем нужен robots txt
Сам robots.txt является системным файлом и расположен в корневой директории нашего сайта на Joomla или Wordpress. Если Сайт создается на любой другой CMS, то он обязательно будет там. Если же у Вас нет данного файла, то в срочном порядке необходимо его создать с помощью стандартного блокнота и залить на хостинг.
Файл robots на прямую отвечает за индексирование любого сайта и его настройка является архиважной, иначе, Вы получите головную боль и Ваш проект просто будет топтаться на одном месте, а то и вообще улетит далеко назад.
Теперь рассмотрим какие вообще бывают типы поисковых роботов и их назначение. Основной упор конечно делаем под Яндекс и Гугл, так как именно оттуда нам нужен качественный трафик для нашего сайта. У Яндекса, помимо основного робота, существует также и вспомогательные боты в количестве около 10 штук, которые также участвуют в формирование общего анализа сайтов и порядка их выдачи.
Вот какие бывают роботы у Яндекса:
- "Яндексбот" - Основной поисковый робот индексирующий все ресурсы сети;
- "Яндекс Медиа" - Робот, занимающийся поиском и анализом медийных элементов;
- "Яндек Каталог" - Предназначен для снятия заброшенных, или не рабочих ресурсов из каталога Яндекса;
- "Яндекс Имейджес" - предназначен для индексирования картинок;
- "Яндекс Ньюс" - индексирует новостные разделы сайтов;
- "Яндекс Блогс" - предназначен для индекса новых постов и комментарий на блогах, производит поиск по блогам.
Если в самом файле robots.txt прописаны основные директивы к конкретному роботу, то общие правила работы на него уже не действуют. Но, указание команд конкретно к каждому роботу, требует достаточных знаний в этой области и поэтому советую оставить эту затею и прописать в файле робота только общие директивы на индексирование Вашего сайта.
Таким образом Вы можете настроить под свои нужды любого робота и манипулировать этим.
Правильный robots txt для сайта
Мы рассмотрим настройку данного файла на примере движка Джумла 3.3. После установки дистрибутива Джумла (как установить оболочку Денвер для движка Джумла читаем здесь), содержание файла роботс выглядит следующим образом:
Теперь нам нужно разобраться, что вообще значат все эти данные и как их применить к своему сайту. Для каждого сайта я рекомендую приписать отдельно следующие директивы:
User-agent: Yandex - эта запись будет сообщать о том, что данные команды относятся именно к поисковому роботу Яндекса. После этой записи будут идти основные каталоги вашего сайта, которые требуется проиндексировать.
User-agent: Googlebot - основная запись для поискового робота Гугла.
User-agent: * - данная запись будет означать, что правила индексирования каталогов и файлов Вашего сайта будут одни для всех поисковых роботов. Поэтому можно использовать все три записи одновременно, если у Вас особые требования к индексации ресурса. Пробуйте и смотрите как те или иные настройки влияют на скорость индексации и ее качество.
Далее мы рассмотрим основные команды, разрешающие и запрещающие индексацию определенных разделов сайта. Данные команды нам необходимы для того, чтобы избавиться от всевозможного мусора, и дублей страниц, которые может генерировать наша CMS. Первая и очень важная команда для поискового робота это "Disallow:". Данная директива говорит роботу, что тот или иной раздел сайта индексировать не требуется или же определенную страницу. далее приведу примеры с пояснениями, чтобы разложить все по полочкам. Не стоит новичкам пугаться, все достаточно просто и совсем не трудно, главное уловить суть всего этого. Итак, вот основные на мой взгляд директивы робота которые помогут решить ряд проблем с индексацией и поможет бороться с дублями.
Disallow: - использовать в таком виде не стоит, так как никакого толку от пустой директивы не будет и ее обязательно требуется внимательно заполнять , так как если вы к примеру чистили файл robots.txt и оставили просто слеш "/", то это будет означать следующее:
Disallow: / - Ваш сайт полностью закрыт от индексации поисковыми роботами. Если Вы поставили такую запись, то в панели вебмастера Яндекса Вы увидите сообщение о том, что робот не может проиндексировать страницы сайта, закрытые находятся в данном файле.
Disallow: /templates/ - так закрывается любая папка (каталог) в CMS Joomla и любой другой CMS. К примеру, данная папка содержит шаблон сайта и все файлы которые к нему относятся, но нам не нужно загружать робота бесполезной информацией технического характера и отвлекать от индексации нужного контента. Запрет индексации robots txt поможет видеть нужный и полезный контент быстрее и выдавать его в поиск.
Таким образом мы можем закрыть любой раздел нашего проекта. А теперь, давайте рассмотрим второй, очень важный элемент в настройке нашего робота, и это будет "Allow:". Данная команда дает нам возможность открыть определенный раздел или просто нужную страницу сайта. Допустим, мне нужно, чтобы индексировалась страница с нужным мне постом, а остальные были закрыты, тогда вносим такую запись в наш файл:
Allow: /zarabotok-v-seti/145-kak-zarabotat-v-internete-novichku.html
Теперь ставим перед собой задачу. Нам нужно закрыть весь сайт от индексации в Яндексе и оставить открытой только одну нужную страницу для индекса. Вот пример записи такой команды:
User-agent: Yandex
Disallow: /
Allow: /zarabotok-v-seti/145-kak-zarabotat-v-internete-novichku.html
Вроде бы ничего сложного, но стоит намудрить с командами и прописать их с ошибкой, то можно наплодить не только кучу дублей страниц, но и отправить в индекс огромное количество мусора, который роботы будут индексировать неделями. А если Вы публикуете на своем сайте или блоге новые посты, то скорее всего пока они будут индексироваться роботами неделями, их могут копировать на другие ресурсы, а также потеряете ту аудиторию, которая могла увидеть вашу новость, будь она в выдаче поисковых систем.
Еще один не маловажный момент, при запрете индексации robots txt ненужных страниц, является следующая запись:
Disallow: /flash - это будет означать, что все, что находится и начинается с "/flash" будет запрещено для индексации.
Также стоит закрыть от индекса и служебные элементы, такие как печать, лента новостей, авторизация и т.д. Я это сделал следующим образом:
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Для ускорения индексации новых страниц, а также для оказания помощи поисковому роботу при брожении по сайту необходимо ставить карту сайта. Данная карта не представляет никакой пользы для пользователей, пришедших на сайт и имеет расширение типа .xml. У меня на блоге путь к карте выглядит так:
http://firelinks.ru/sitemap.xml
И если данная карта уже готова и лежит в корне сайта, ее в обязательном порядке необходимо указать для индексации следующим образом, используя команду " Sitemap ":
Sitemap: http://firelinks.ru/sitemap.xml - данную строчку прописываем в самом низу, после пробела от последней записи.
Для установления основного зеркала сайта, нам необходимо не только установить его в панели яндекс-вебмастер как на скрине:
Но, также в файле robots необходимо его прописать, используя директиву "Host". У меня это выглядит так:
Пример кода файла robots txt для Джумла
Ну вот и вроде мы рассмотрели основные директивы и научились закрывать не нужные нам разделы сайтов. В качестве примера, даю Вам свой файл robots.txt для CMS Joomla для поисковой системы Яндекс. Не забудьте поменять данные на свои.
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: *&template=*
Disallow: /xmlrpc/
Disallow: /index.php
Disallow: /index.html
Disallow: /*?
Disallow: /*mailto*Disallow: /*start*
Disallow: /*print*Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: firelinks.ru
Sitemap: http://firelinks.ru/sitemap.xml
Отлично. Теперь просто копируйте данный файл и ставьте в свой. Но перед установкой обязательно все проверьте, так как папки на разных CMS везде разные и могут отличаться.
Как проверить файл robots.txt на сайте?
Так, Вы уже создали свой файл робота и положили в корень сайта на хостинге. Теперь нам необходимо проверить открывается ли он вообще. Для этого в адресной строке браузера допишем к своему домену такую строчку: /robots.txt. Если открывается страница с директивами, к примеру как у меня:
http://firelinks.ru/robots.txt, значит все сделано правильно.
Следующим шагом, нам необходимо добавить наш файл в панель яндекс-вебмастер. Делается это следующим способом. Для начала заходим в вебмастер, далее переходим в раздел "Проверить robots.txt"
Теперь копируем из адресной строки путь к нашему файлу и вставляем его в первую строку панели и нажимаем "Загрузить" и "Проверить". Яндекс проверит только директивы, которые будет воспринимать именно он, остальные он отсеет.
Отлично. Все основные моменты мы рассмотрели и научились составлять правильный файл robots.txt при создании своих сайтов. Советую попрактиковаться и проверить отдачу от новых настроек и качество индексации сайта. Скрывайте весь мусор и следите за индексацией страниц. Данные настройки мне очень помогают и процесс индекса занимается всего несколько дней в Яндексе. Про Гугл и не говорю, там все как всегда супер, скорость попадания страниц в индекс всего несколько часов.
Надеюсь, материал будет полезен моим дорогим читателям. Подписывайтесь на обновления блога. Буду благодарен за нажатии кнопочек и репост данного материала. Увидимся в следующих статьях. Всем удачи.
С уважением, Галиулин Руслан.
Полезные материалы:
firelinks.ru
Robots txt для joomla
От автора: приветствую Вас дорогой друг. Индексация поисковыми системами — очень важный этап в развитии сайта так как правильные действия на данном шаге обеспечат быстрое попадание страниц в поиск и значительное увеличение посещаемости. Конечно в данной статье мы не сможем рассмотреть абсолютно все нюансы, связанные с индексацией. Но мы поговорим о наиболее важном инструменте robots txt для joomla, который определяет необходимые инструкции для поисковых систем.
Конечно, поисковая система, будь то Yandex или Google — это сложнейший программный продукт и она, я бы сказал достаточно “умная”, в плане индексации сайтов и поиска необходимой информации. Но как Вы знаете, любое программное обеспечение, или же определенный механизм, по сути самостоятельно не работает, всегда требуется участие человека, либо для настройки, либо для управления, либо для задания неких начальных параметров. И как Вы понимаете, поисковик не исключение, а значит для лучших результатов индексирования и самое главное для обеспечения правильного индексирования, был придуман robots.txt — файл в котором владельцы сайтов могут определить инструкции для индексирования страниц.
Таким образом, robots.txt — это специальный текстовый файл в котором определены инструкции для различных поисковых систем по индексированию страниц сайт. Если сказать проще, в данном файле указано, что нужно индексировать, а что нет. Как правило, вышеуказанный файл располагается в корне интересующего сайта для быстрого доступа роботу поисковика.
При этом обратите внимание, что имя файла регистрозависимое. Содержимое данного файла состоит из так называемых директив, и достаточно простое для понимания. Директива – это инструкция, указание для поисковой системы.
Теперь давайте определимся, что же мы можем “указывать” поисковым системам. В robots.txt определяются страницы, и даже целые каталоги, которые запрещены к индексированию, указывается основное зеркало сайта, интервал времени загрузки данных, путь к файлу SiteMap (карта сайта) и т.д.
Хотите узнать, как создать собственный шаблон на CMS Joomla с нуля
Получите бесплатную пошаговую авторскую систему, которая научит Вас с полного нуля создавать уникальные шаблоны на движке Joomla – с неповторимым дизайном
Узнать подробнееОбычно, в комплекте с наиболее популярными CMS поставляется и оговариваемый нами, файл robots.txt, в котором разработчики в качестве примера, определили корректные инструкции, благодаря которым, сайт будет нормально работать. Joomla не исключение и в корне исходников Вы найдете интересующий файл:
# If the Joomla site is installed within a folder # eg www.example.com/joomla/ then the robots.txt file # MUST be moved to the site root # eg www.example.com/robots.txt # AND the joomla folder name MUST be prefixed to all of the # paths. # eg the Disallow rule for the /administrator/ folder MUST # be changed to read # Disallow: /joomla/administrator/ # # For more information about the robots.txt standard, see: # http://www.robotstxt.org/orig.html # # For syntax checking, see: # http://tool.motoricerca.info/robots-checker.phtml User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/Соответственно давайте поговорим о синтаксисе и используемых директивах. Все текстовое содержимое, следующее после знака # и до конца текущей строки, считается комментарием и восприниматься поисковой системой не будет, таким образом можно указать некоторое пояснение к определенным правилам индексации. Далее первая директива, которая определена в файле robots для joomla — это User-agent. Данный параметр указывает имя робота поисковой системы, для которой будут применены правила индексации, описанные ниже.
User-agent: *В данном примере мы указываем, что следующие правила будут справедливы для абсолютно всех роботов поисковых систем. Если же необходимо задать несколько правил для робота Yandex, в качестве значения директивы User-agent, нужно указать следующее:
User-agent: YandexДля Google соответственно:
User-agent: GooglebotДалее в файле определена директива Disallow, которая указывает, какая папка или страница, по определенному URL, запрещена к индексации. Соответственно запрещать индексировать Вы можете следующие страницы: одинаковые по содержанию (дубли), страницы содержащие личную или конфиденциальную информацию, управляющие или страницы панели администратора, доступ к которым разрешен только определенным пользователям и, наконец абсолютно любые страницы которые в зависимости от логики работы конкретного сайта, не должны быть доступны поисковикам.
К примеру, запрет индексирования каталога administrator выглядит следующим образом:
Disallow: /administrator/Или же запрет индексации всего сайта в целом:
Disallow: /В противоположность директиве Disallow, придумана директива Allow, которая указывает какие страницы или каталоги разрешены к индексации.
Allow: /mediaПо сути, мы с Вами только что рассмотрели все директивы, которые использованы в стандартном файле robots txt для джумлы. Но давайте рассмотрим еще несколько.
Директива Crawl-delay – используется для определения интервала времени для закачки данных определенной страницы, то есть задается пауза между скачиванием, при этом она актуальна только для Yandex. Таким образом, указав необходимый тайм-аут, Вы значительно разгрузите используемый сервер, так как скачав определенный ресурс поисковый робот, будет ждать столько секунд, то есть сколько указано в текущей директиве.
Crawl-delay: 3Для ускорения индексации так же рекомендуется сгенерировать карту сайта (Site Map), в которой будет приведен список страниц, в виде ссылок. При этом данная карта располагается так же в корне исходников CMS и путь к ней можно определить в файле robots.txt, используя директиву Sitemap, тем самым Вы как бы укажите роботу список доступных страниц сайта, которые подлежат индексации.
Sitemap: путь к карте сайтаНу и наконец. последняя важная директива которая очень часто используется в файлах robots.txt – это Host, которая используется для поисковой системы Yandex и определяет главное зеркало сайта.
Как Вы уже увидели, значение каждой директивы – это определенный текст и в основном это определенный путь, соответственно для формирования данного значения предусмотрены два управляющих символа, которые я хотел бы рассмотреть.
Символ “*” – указывает абсолютно любую последовательность символов и бывает очень полезным, если необходимо задать некоторое произвольное значение, идущее перед заданным.
Disallow: /*adminВ данном примере запрещены к индексации все страницы в адресе которых содержится параметр admin. Символ “$”- используется для отмены добавления к каждому правилу, по умолчанию, выше рассмотренного символа.
Disallow: /page$В данном примере мы запрещаем к индексации вашсайт./ru/page, но не запрещаем вашсайт./ru/page/one.
На этом данная статья завершена. Всего Вам доброго и удачного кодирования!!!
Хотите узнать, как создать собственный шаблон на CMS Joomla с нуля
Получите бесплатную пошаговую авторскую систему, которая научит Вас с полного нуля создавать уникальные шаблоны на движке Joomla – с неповторимым дизайном
Узнать подробнееJoomla-Профессионал: создание расширений для Joomla
Научись с полного нуля создавать компоненты, модули и плагины Joomla!
Научитьсяwebformyself.com
Правильный ROBOTS.TXT для Joomla 3.x / 2.5 (Яндекс + Гугл)
Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.
Что же такое robots.txt?
Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!
Правила и термины robots.txt
В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.
Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.
Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.
Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.
Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.
Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Host: vash_sait.ru (или www.vash_sait.ru) Sitemap: http://путь к вашей карте XML формата User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://путь к вашей карте XML форматаcmsheaven.org
Сервер - файл robots.txt для Joomla.
Прежде всего, файл этот нужен для того, чтобы указать поисковым системам, какие страницы сайта нужно (или не нужно) индексировать. Попав на сайт, поисковый робот прежде всего проверяет файла robots.txt и, в зависимости от прописанных в нем правил, осуществляются дальнейшие действия.
С общим описанием директив можно ознакомиться в статье - Файл robots.txt.
А в данном случае речь пойдет о Joomla 2.5
# If the Joomla site is installed within a folder such as at# e.g. www.example.com/joomla/ the robots.txt file MUST be# moved to the site root at e.g. www.example.com/robots.txt# AND the joomla folder name MUST be prefixed to the disallowed# path, e.g. the Disallow rule for the /administrator/ folder# MUST be changed to read Disallow: /joomla/administrator/## For more information about the robots.txt standard, see:# http://www.robotstxt.org/orig.html## For syntax checking, see:# http://www.sxw.org.uk/computing/robots/check.html User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /images/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /logs/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/ |
User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /logs/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /*mailto*Disallow: /*start*Disallow: /*print*Disallow: /*feed*Disallow: /*search*Disallow: /*users* User-agent: YandexDisallow: /administrator/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /logs/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /*mailto*Disallow: /*start*Disallow: /*print*Disallow: /*feed*Disallow: /*search*Disallow: /*users*Host: ваш сайтSitemap: http://ваш сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1 |
Почему и в чем разница?
Во-первых, стоит прописать отдельно правила индексации для поисковика Яндекса и остальных (Google, MSN, Yahoo), поскольку первый нарушает множество директив и требует дополнительных указаний.
Во-вторых, и это касается всех поисковых систем, следует открыть для индексации папку с изображениями - в этом случае они будут участвовать поиске по картинкам Google и Яндекса. (В этом случае необходимо будет прописывать атрибуты Alt и Title в изображениях, так как эти атрибуты являются ключевыми словами для поиска по картинкам Яндекса и Google)
В-третьих, не все советы хороши - как-то, сделав файл robots.txt согласно доработанному, заметил, что Yandex вообще перестал индексировать сайт. Не знаю, то ли я где ошибся, то ли алгоритм робота поменялся, но, в результате, от этой схемы раздельного индексирования отказался. Единственное, что ссылку на карту сайта оставил.
*
Частичка файла robots.txt от А. Куртеева (alex-kurteev.ru - настройки указаны для сайта, на котором включен SEF, и версия Джумлы 3.хх): | |
User-agent: *
Disallow: *?* Disallow: /index.php Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /index.php?* Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ |
А посмотреть файл robots.txt сайта можно, набрав в командной строке браузера адрес: http://ваш сайт/robots.txt
Полезные ссылки по теме:
*
my-rubbish.com
Файл robots.txt для joomla 2.5 Описание и назначение правил файла.
Важным моментом при самостоятельном продвижении и раскрутке сайта является повышение показателя индексации сайта. Поскольку доминируют в рунете поисковые системы Яндекс и Google, поэтому стоит уделить особое внимание индексации сайта в Яндексе и Google. Так как от этого будет зависеть успешное продвижение сайта в целом комплексе этапа раскрутки.
При обходе поисковыми роботами сайтов с целью индексации, вначале происходит проверка файла robots.txt, и в зависимости от прописанных в нем правил, осуществляются дальнейшие действия поискового робота.
При отсутствии файла robots.txt для joomla, действия поискового робота к сайту могут быть самые разные: проиндексировать, частично проиндексировать или вообще проигнорировать. При наличии файла robots.txt, причем грамотно составленного, поисковый робот будет осуществлять целенаправленную индексацию сайта.
Вот так выглядит стандартный файл robots.txt в дистрибутиве Joomla 2.5, после установки сайта на сервер.
Данный файл robots.txt для joomla работоспособен, но в нем необходимо произвести изменения, которые существенно повысят эффективность индексации сайта поисковыми роботами.
Вот какие нужно произвести поправки для файла.
Правило Disallow: /images/ создает запрет на индексацию к папке для картинок на сайте. Закрытие папки images от индексирования означает отказ от участия в поиске по картинкам Яндекса и Google. Эту директиву необходимо удалить из файла robots.txt.
Для участия изображений в поиске по картинкам Яндекса и Google необходимо прописывать атрибуты Alt и Title. Так как эти атрибуты будут являться ключевыми словами для поиска по картинкам Яндекса и Google.
При работе в панели Яндекс – Вебмастер раздел “Исключенные страницы” выдается сообщение: HTTP-статус: Ресурс не найден (404) и показаны страницы намеренно запрещены к индексированию. Одной из причин такого сообщения является отсутствие правила указывающего путь к файлу Sitemap. Этот недочет должен быть восстановлен.Как сделать карту сайта и файл Sitemap смотрите в статье: Карта сайта для Joomla 2.5
Так же обязательно следует добавить в файл robots.txt отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало сайта для Яндекса (зеркало сайта – это URL сайта с www или без).
Для того, чтоб закрыть директорию категории, нужно создать следующее правило:Пример: Disallow: */10-kategoriya.html ‘*’ – звездочка означает любые символы, то есть все то, что стоит до слэша (позиция звездочки до слэша */ или после /* - это имеет большое значение)‘10’ – это id категории‘kategoriya’ – это алиас категории (принадлежащей id 10)
Каким правилом можно закрыть:
- страницы для печати
- индексацию новостных каналов
- PDF файлы
- динамические ссылки
- страницы поиска и другие страницы
пояснено в статье robots.txt Как устранить дубли для сайта Joomla 2.5
Для предпочтения поисковика Яндекс, необходимо User-agent: Yandex ставить в начале файла. В итоге файл robots.txt должен выглядеть так:
Данный пример не является эталоном, но его можно принять за основу.
После корректировки файла (вы также можете добавлять свои правила в robots.txt), проверка файла robots.txt для joomla обязательна. Так как в случае ошибки, истинные страницы могут быть закрыты для робота, и исчезнут из поиска.
Для удобства проверки страниц сайта на работоспособность, нужно создать текстовый документ и в него скопировать со своей страницы “Карта сайта” все существующие url-адреса, в удобочитаемом виде (каждый url-адрес с новой стрки).
Другой вариант составления списка url-адресов:В Панели управления: открыть Компоненты ->Xmap -> нажать на ссылку XML Sitemap. Откроется окно карта сайта со всеми ссылками, которые нужно скопировать в текстовый документ.
Далее:
В Google Вебмастер: (переход по ссылкам) “Заблокированные URL” -> “Укажите URL-адреса и роботов User Agent для проверки”.
В Яндекс Вебмастер: (переход по ссылкам) “Проверить robots.txt”-> “Список URL”
нужно добавить приготовленный список и нажать кнопку “Проверить”И вы получите результат проведенной работы.
Кстати, если вы хотите просмотреть свой файл robots.txt, то достаточно дописать в командной строке браузера к url слово: robots.txt
например: http://usersite/robots.txt.
По данной теме читайте следующие статьи: Что такое redirect-301Дубли страниц Joomla 2.5 robots.txt Удаление дублей в Joomla 2.5robots.txt Ошибки и рекомендации Источники дублей Joomla
sitedelkin.ru
Правильный robots.txt для Joomla
Категория: SEO Опубликовано: 18.07.2016Индексация сайта и ее зависимость от файла robots.txt
После того как сайт на CMS Joomla будет перенесен на хостинг следует задуматься о его оптимизации. Хорошее индексирование страниц поспособствует ускоренному появлению web-ресурса в поиске. Именно от файла robots.txt зависит, какие разделы будут проиндексированы в конечном результате. Тот файл, который идет в комплекте с движком Джумла довольно неплохой, но слегка подкорректировав его, можно добиться лучшей индексации сайта.
Что это такое robots.txt и его местонахождение
Robots.txt для Joomla находится в корневой директории сайта. Этот текстовый файл очень важен, поскольку отвечает за индексирование интернет-ресурса, которое осуществляется с помощью поисковых роботов. Грамотно составленный робот, в скором будущем может поспособствовать высокоэффективному продвижению сайта.
Файл robots.txt можно создать самому, все что для этого нужно это текстовый редактор, к примеру Notepad ++ или Sublime Text 3. В написании скриптов нет ничего пугающего и заумного, следуя данному посту, вам удастся собственноручно собрать или подправить свой первый текстовый файл для Joomla.
После того как robots.txt будет создан, следует проверить его на наличие ошибок, воспользовавшись одним из сервисов – Яндекс.Вебмастер или Search Console (Гугл Вебмастер). Одобрительный результат говорит о том, что файл не содержит в себе ошибок и пригоден для дальнейшей эксплуатации на сайте.
Некоторые вебмастера не заморачиваются на эту тему, оставляя файл robots.txt пустым или еще хуже - этот важный текстовый документ вообще отсутствует на интернет-ресурсе. Такая халатность может обернуться неудовлетворительным результатом в поисковой выдачи, так как с помощью этого файла можно запретить индексацию дублирующих страниц, которые плохо влияют на продвижение. В процессе посещения сайта необнаруженный поисковиками robots.txt сообщает роботам о том, что разрешено осуществлять полную проверку документов.
Для того чтобы ознакомиться какой robots.txt находится на том или ином ресурсе, достаточно в адресной строке к главному домену добавить приставку в виде /robots.txt.
Ключевые директивы в файле robots.txt и их предназначение
Директива – общее указание, специальная команда для поисковых роботов.
User-agent: * - основная директива, стоящая в начале текстового файла. Она указывает поисковым роботам, какие пути дозволено индексировать. Звездочка говорит о том, что приведенные команды распространяются абсолютно на всех поисковых роботов в независимости от браузера.
Поисковые роботы Яндекса более требовательны и капризны, поэтому рекомендуется помимо ключевой директивы User-agent: * прописывать дополнительные строчки для этого браузера, а именно - User-agent: Yandex. Роботы, увидевшие эту строку, автоматически игнорируют User-agent: *.
Disallow – указывает о запрете индексирования конкретного раздела.
Allow – допускает роботов к проверке сайта или указанных разделов.
Sitemap – не менее важная директива на сайте Joomla, сообщающая поисковым ботам о месте нахождении карты сайта и указывает корректные адреса на свежий материал. Структурированные данные указываются в формате XML.
Host – исключает возможность возникновения зеркал сайта. С помощью этой директивы можно задать основное имя сайта, с www или без. Следует учесть, что не стоит перегружать файл лишними строками, добавляя одну и ту же директиву Host, так как роботы будут учитывать только первую. Вот вам наглядный пример директивы - Host: mysite.com.ua.
Crawl-delay – сообщает поисковым роботам время сессии, то есть возникшее «окно» между концом закачки страницы и началом следующей загрузки.
Файл robots.txt моего сайта на движке Джумла выглядит следующим образом.
User-agent: *Disallow: /administrator/Disallow: /bin/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /layouts/Disallow: /libraries/Disallow: /logs/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /404Disallow: /?limit*Disallow: /?format*Disallow: /?start*Allow: /images/Allow: /templates/*.cssAllow: /templates/*.jsAllow: /templates/*.pngAllow: /templates/*.gifAllow: /templates/*.ttfAllow: /templates/*.svgAllow: /templates/*.woffAllow: /components/*.cssAllow: /components/*.jsAllow: /components/*.gifAllow: /media/*.jsAllow: /media/*.cssAllow: /plugins/*.cssAllow: /plugins/*.jsAllow: /plugins/*.pngAllow: /plugins/*.gifAllow: /modules/*.cssAllow: /modules/*.jsAllow: /modules/*.pngAllow: /cache/*.jpg
User-agent: YandexDisallow: /administrator/Disallow: /bin/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /layouts/Disallow: /libraries/Disallow: /logs/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /404Disallow: /?limit*Disallow: /?format*Disallow: /?start*Allow: /images/Allow: /templates/*.cssAllow: /templates/*.jsAllow: /templates/*.pngAllow: /templates/*.gifAllow: /templates/*.ttfAllow: /templates/*.svgAllow: /templates/*.woffAllow: /components/*.cssAllow: /components/*.jsAllow: /components/*.gifAllow: /media/*.jsAllow: /media/*.cssAllow: /plugins/*.cssAllow: /plugins/*.jsAllow: /plugins/*.pngAllow: /plugins/*.gifAllow: /modules/*.cssAllow: /modules/*.jsAllow: /modules/*.pngAllow: /cache/*.jpgHost: stimylrosta.com.uaSitemap: http://stimylrosta.com.ua/index.php?option=com_osmap&view=xml&tmpl=component&id=1
Внесенные директивы в отличии от стандартных установок robots.txt Joomla позволяют поисковикам осуществлять индексацию изображений и css, js стилей. Указано основное доменное имя и карта сайта. А также установлен запрет проверки несуществующей страницы - Disalow: /404.
Кроме того мне удалось избавиться от страниц с запрещенными ресурсами об которых так яростно сообщалось в панели Гугл вебмастера.
В моем роботсе разрешена индексация всех статических файлов. Это сделано намеренно, и теперь в мобильной версии сайта корректно отображается структура, стили и другие важные элементы.
Если есть какие-то соображения по поводу усовершенствования файла, выкладывайте в комментариях.
Спасибо за внимание и до скорых встреч на страницах Stimylrosta.
Не ленитесь, поделитесь!
Оставить комментарий
Просмотров: 2177Добавить комментарий
stimylrosta.com.ua
Правильный robots.txt для сайта
Перед тем как внести изменения в файл robot.txt, думаю, будет не лишним рассказать, что это за файл и для чего он нужен. Те, кто уже знаком с данным файлом первую часть текста могут пропустить.
Robots.txt что это за файл и для чего он нужен
Это обычный текстовый файл, который нужен исключительно для поисковых систем, именно он служит для указания (или если хотите рекомендации) поисковым роботам, что и как индексировать. От правильно составленного файла robot.txt зависит многое, с его помощью можно закрыть сайт от поисковых роботов или наоборот, разрешить обход только определенных разделов сайта. Поэтому грамотное его составление является одной из приоритетных задач в SEO оптимизации сайта.
Для того чтобы правильно отредактировать файл robots.txt сначала необходимо определиться с его расположением. Для любого сайта, в том числе, созданном в CMS Joomla 3, данный файл находится в корневой директории (папке) сайта. После установки Joomla 3 этот файл уже присутствует, но его содержание далеко от идеала.
Синтаксис файла robots.txt
В Joomla 3 файл robots.txt в базовом варианте содержит только самое основное, его содержимое примерно такое:
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/В самом начале файла может содержаться еще текст, но он, скажем так, закомментирован символом «#». Проще говоря, строка, вначале которой содержится символ «#» не учитывается поисковыми роботами и для уменьшения размера файла их можно смело удалять. Таким образом, базовый файл robot.txt будет иметь именно указанное выше содержание. Давайте разберем каждую строку.
Первая строка содержит директиву User-agent, в качестве параметров которой выступает имя робота, который будет индексировать сайт. Таким образом, следующие за ней директивы будут обрабатываться только указанным роботом. Параметров может быть множество, но давайте рассмотрит только те, которые нужны именно нам:
- User-agent: * #Данный параметр со значением "*" говорит, что следующий за данной строкой текст будет содержать информацию для всех роботов без исключения.
У данного параметра существуют и другие значения, самые распространенные из них это робот Яндекса и Гугла:
- User-agent: Yandex #как понятно из названия параметр предназначен для роботов Яндекса, причем для всех роботов, которых у Яндекса больше 10 штук, рассматривать каждый по отдельности не вижу смысла.
- User-agent: Googlebot #а это основной индексирующий робот Гугла.
Стоит отметить, если вы не указали директиву User-agent, то роботы будут думать, что им разрешен обход всего сайта, то есть доступ не ограничен. Так что не стоит ею пренебрегать.
Следующая директива Disallow, она необходима, для запрета поисковым роботам индексировать определенные разделы, она играет очень важную роль, поскольку Joomla славится созданием дублей страниц.
На этом директивы в базовом файле robots.txt закончились, но их гораздо больше чем две. Все описывать не буду, напишу только то, что действительно нужно для правильной индексации сайтов на Joomla.
Составляем правильный файл robots.txt для Joomla 3
Избавлю Вас от лишнего текста и сразу приведу пример моего файла robots.txt, а к строчкам допишу комментарии:
User-agent: * # указываем что следующие директивы предназначены для всех роботов без исключения Host: joom4all.ru #Директива указывает на главное зеркало сайта, по рекомендациям Яндекса её желательно размещать после директив Allow и Disallow Disallow: /administrator Disallow: /component/slogin/* #запрет обхода левых страниц создаваемых компонентом авторизации Slogin (если такого компонента нет, то директиву убираем) Disallow: /component/jcomments/ #Запрещаем роботам скачивать страницы создаваемые компонентом JComments (убираем если не используется) Disallow: /component/users #Таким же образом запрещаем обход других левых страниц Disallow: /bin/ #Запрет обхода системных папок Disallow: /cache Disallow: /cli Disallow: /includes Disallow: /installation Disallow: /language Disallow: /layouts Disallow: /libraries Disallow: /logs Disallow: /tmp Disallow: /components Disallow: /modules Disallow: /plugins Disallow: /component/content Disallow: /component/contact Disallow: /404 #закрываем 404 ошибку от глаз робота Disallow: /index.php? #урлы с параметрами, таких страниц Joomla может создать великое множество, они не должны попасть в индекс Disallow: /*? #урлы с вопросами Disallow: /*% #урлы с процентами Disallow: /*& #урлы со знаком & Disallow: /index.php #убираем дубли, их так же быть не должно Disallow: /index2.php #снова дубли Allow: /*.js* #Данная директива разрешает роботам индексировать файлы с указанными расширениями. Allow: /*.css* Allow: /*.png* Allow: /*.jpg* Allow: /*.gif* Allow: /index.php?option=com_jmap&view=sitemap&format=xml #Разрешаем обход карты сайта, в противном случае она будет под запретом. #Включаем карту сайта Sitemap: http://joom4all.ru/index.php?option=com_jmap&view=sitemap&format=xml #Данная директива предназначена для указания работу места хранения карты сайта в xml форматеВот примерно такой файл robot.txt используется на данном сайте, в нем указаны как разрешающие, так и запрещающие директивы, указано главное зеркало сайта, а также путь до карты сайта. Разумеется, для каждого сайта все индивидуально и директив может быть гораздо больше. Но на данном примере можно понять основные принципы работы с файлом «робот тхт» и в дальнейшем раздавать запреты либо разрешения на определенные страницы уже конкретно под ваш сайт.
Хочу добавить, что вопреки рекомендациям Яндекса о том, что директиву Host лучше располагать после директив Disallow и Allow я все же разместил её почти в самом верху. А сделал я это после того как после очередного обхода сайта роботом Яндекс сообщил мне о том, что не может найти данную директиву. Был ли это временный сбой, или что-то еще я проверять не стал и вернул данную директиву в самый верх.
Обратите внимание на последнюю директиву, имя которой Sitemap, она необходима для указания поисковому роботу на место расположения карты сайта, это очень важный момент. Что такое файл Sitemap и какова его роль в продвижение сайта можно почитать в этой статье.
После того как файл отредактирован самое время проверить его в действии. Для этого можно воспользоваться следующими сервисами:
Яндекс.Вебмастер
Google Search Console
joom4all.ru