Настройка файла robots.txt для Joomla 3. Joomla 3 robots txt
для чего нужен, как составить
Вступление
Какими бы ни были причины создания своего сайта, самим фактом размещения его в Интернет, вы включаетесь в соревнование по продвижению сайта, где основными арбитрами становятся поисковые системы со своими вездесущими поисковыми роботами (ботами). Даже если вы специально не занимаетесь продвижением сайта, поисковики, рано или поздно начнут посещать ваш сайт, сканируя его страницы, файлы и каталоги.
Что такое файл robots.txt
Процесс сканирования поисковиками сайта практически неконтролируемый, но управляемый. Поисковые боты это всего лишь программы, в алгоритмы которых (правда, не всех) были включены обязательный поиск файла robots.txt в каталоге сайта, а при его нахождении его «чтение».
Сразу замечу, что не все поисковые системы обращают внимание на файл robots.txt. Многие боты его игнорируют, но основные поисковики его видят очень хорошо.
Правила написания файла robots.txt
Итак, при начале обхода сайта, поисковик ищет файл robots.txtи просматривает его для получения правил (директив) сканирования.
Примечание: Не путаем директивы сканирования в файле robots.txtи директивы индексирования (показа содержания) задающимися мета тегами robots.
Файл robots.txt это специальный инструмент, который создан для управления поведением поисковых роботов при сканировании сайта. Синтаксис robots.txt нарочито простой. По расширению это простой текстовой файл, создать его можно в любом текстовом редакторе. Директив, команд которые понимают поисковики, несколько и основные из них две:
- Disallow– Запрещено;
- Allow– Разрешено.
Предусмотрено в файле «личное» обращение к поисковикам, при помощи директивы: [User-agent:], а именно:
- [User-agent:*] – обращение ко всем поисковым ботам;
- [User-agent:] – обращение к поисковикам Яндекс;
- [User-agent:] – обращение к поисковикам Google.
Не буду переписывать, давно написанные правила составления файла robots.txt, дам три ссылки:
- https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
- https://support.google.com/webmasters/answer/6062596?hl=ru
- http://www.robotstxt.org/orig.html
, здесь лишь отмечу: Не существует правильного или неправильного файла robots.txt, то есть, нет единого универсального файла, который может использоваться поголовно всеми. Каждый сайт уникален и вы сами должны решать, что показывать поисковикам, а что закрывать от них. Хотя у Joomla есть рекомендации на этот счет.
Рекомендованный файл robots.txt для Joomla 3
Повторюсь, нет единого файла robots.txt работающего для всех сайтов Joomla. Однако есть файл robots.txt рекомендуемый системой Joomla, который назовем файлом по умолчанию. Он лежит в системе под именем: robots.txt.dist и чтобы им воспользоваться достаточно его переименовать в файл robots.txt. В нем 14 директив disallow и общее обращение ко всем ботам.
Не обязательно самому составлять файл robots.txt. можно воспользоваться генераторами файлов robots.txt. например, тут: http://pr-cy.ru/robots/.
class="eliadunit">Как проверить свой файл robots.txt
Если вы самостоятельно оставили файл robots.txtего нужно и можно проверить в своем личном кабинете на сервисах веб-мастеров Яндекс (https://webmaster.yandex.ru/robots.xml) и Google (https://www.google.com/webmasters/tools/robots-testing-tool)
Альтернатива файла robots.txt на Joomla 3
В этой статье я уже упоминал, о метатегах robots. У них следующий синтаксис: <meta name="robots" content="noindex, nofollow">. Именно так выглядят метатеги robots задающиеся в Joomla.
Эти мета теги также обращаются к поисковым ботам, но уже не запрещают сканировать файлы сайта, а запрещают их индексирование. То есть, поисковик может поместить страницу сайта в свою базу данных, но не может поместить её в страницы выдачи (индекс).
О метатегах и управления ими, планирую написать в следующей статье, здесь отмечу: Директивы файла robots.txt имеют преимущество перед директивами указанными в метатегах robots. То есть, запрет сканирования, более важен, чем запрет индексирования.
©Joomla3-x.ru.
Другие статьи сайта по теме
class="eliadunit">
joomla3-x.ru
Настройка файла robots.txt для Joomla 3
Продолжаем тему посещаемости нашего сайта и поговорим о SEO. В предыдущем посте все комментарии были с одним вопросом «Когда же уже выйдет курс по SEO?». Отвечаю уже вот вот, очень скоро. Это будет полномасштабный тренинг со множеством приятных сюрпризов. Но об этом чуть позже.
Сегодня мы поговорим о грамотной подготовке сайта к тому, чтобы начать получать тысячи посетителей от поисковых систем.
Одной из важных задач в SEO является открытие своего сайта для поисковых систем.
Представьте вы решили продать квартиру, но всеми силами не пускаете туда покупателей, а только позволяете подсмотреть в замочную скважину. Что они там увидят? Как смогут оценить подходит им ваша квартира или нет?
Поэтому в первую очередь для того, чтобы поисковые роботы видели наш сайт так же как видят его пользователи нужно обеспечить доступ к сканированию.
К сожалению, по умолчанию, если мы ничего не делаем, то мы разрешаем поисковым роботам именно подглядывать в щелку и как следствие получаем посредственный результат.
Работы на 1 минуту, но многие терпят годами и ругаются.
#1. Первая фишка SEO-оптимизации — грамотная настройка Robots.txt
Мало кто знает, что используя стандартный файл robots.txt поисковый робот не будет видеть ваших изображений, не будет понимать оформления сайта и не будет видеть части контента, а иногда и вовсе не сможет переходить по ссылкам из вашего меню.
Начиная с Joomla 3.3 разработчики изменили файл robots.txt и это похвально, но
- при обновлении джумла с предыдущей версии данный файл не перезаписывается автоматически,
- все-равно требуется его небольшая доработка.
Посмотрите видео и откройте свой сайт для посетителей из поисковых систем
Это была первая фишка по работе с robots.txt и SEO оптимизации Джумла. С помощью файла robots.txt также можно успешно удалять дубли страниц, которые не любят поисковые системы, но это отдельная тема, требующая погружения, поэтому подробно рассмотрим на тренинге. Всего, фишек по оптимизации Joomla у нас 9. Например, мало кто использует такой инструмент как микро-разметка, позволяющий структурировать данные в поисковой выдаче и влиять на некоторые факторы ранжирования. Микроразметка якобы внедрена в стандартные материалы Joomla 3, но на 90% сайтов ее нет, т.к. используются коммерческие шаблоны, в которых стандартные шаблоны материалов переписаны. Поэтому нужно внедрять вручную.
Вся процедура SEO-оптимизации Joomla рассмотрена в нашем курсе "Реактивное SEO на Joomla"
alex-kurteev.ru
Правильный ROBOTS.TXT для Joomla 2.5 / 3.x
Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта.
Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.
Что же такое robots.txt?
Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!
Правила и термины robots.txt:
В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.
Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.
Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.
Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.
Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.
Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:
User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Sitemap: http://путь к вашей карте XML формата User-agent: YandexDisallow: /administrator/Disallow: /cache/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Host: vash_sait.ru (или www.vash_sait.ru)Sitemap: http://путь к вашей карте XML формата