Opencart robots txt: Правильный файл robots.txt для сайта на Opencart в 2022

Правильный файл robots.txt для сайта на Opencart в 2022

Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.

  • Пример;
  • Где найти;
  • Как создать;
  • Инструкция по работе;
  • Синтаксис;
  • Директивы;
  • Как проверить.

Пример правильного файла robots.txt для сайта на Opencart

  • User-agent: *
  • Disallow: /*route=account/
  • Disallow: /*route=affiliate/
  • Disallow: /*route=checkout/
  • Disallow: /*route=product/search
  • Disallow: /index.php?route=product/product*&manufacturer_id=
  • Disallow: /admin
  • Disallow: /catalog
  • Disallow: /system
  • Disallow: /*?sort=
  • Disallow: /*&sort=
  • Disallow: /*?order=
  • Disallow: /*&order=
  • Disallow: /*?limit=
  • Disallow: /*&limit=
  • Disallow: /*?filter=
  • Disallow: /*&filter=
  • Disallow: /*?filter_name=
  • Disallow: /*&filter_name=
  • Disallow: /*?filter_sub_category=
  • Disallow: /*&filter_sub_category=
  • Disallow: /*?filter_description=
  • Disallow: /*&filter_description=
  • Disallow: /*?tracking=
  • Disallow: /*&tracking=
  • Disallow: *page=*
  • Disallow: *search=*
  • Disallow: /cart/
  • Disallow: /forgot-password/
  • Disallow: /login/
  • Disallow: /compare-products/
  • Disallow: /add-return/
  • Disallow: /vouchers/
  • Host: https://seopulses. ru
  • Sitemap: https://seopulses.ru/sitemap_index.xml

Где можно найти файл robots.txt и как его создать или редактировать

Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:

https://seopulses.ru/robots.txt

https://serpstat.com/robots.txt

https://netpeak.net/robots.txt

Как создать и редактировать robots.txt

Вручную

Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):

Далее открываем сам файл и можно его редактировать.

Если его нет, то достаточно создать новый файл.

После вводим название документа и сохраняем.

Через модули/дополнения/плагины

Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:

  • Для 1С-Битрикс;

https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814

  • WordPress;

https://ru. wordpress.org/plugins/pc-robotstxt/

  • Для Opencart;

https://opencartforum.com/files/file/5141-edit-robotstxt/

  • Webasyst.

https://support.webasyst.ru/shop-script/149/shop-script-robots-txt/

Инструкция по работе с robots.txt

В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:

  • User-agent: Yandex — для обращения к поисковому роботу Яндекса;
  • User-agent: Googlebot — в случае с краулером Google;
  • User-agent: YandexImages — при работе с ботом Яндекс.Картинок.

Полный список роботов Яндекс:

https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.html#check-yandex-robots

И Google:

https://support.google.com/webmasters/answer/1061943?hl=ru

Синтаксис в robots.txt

  • # — отвечает за комментирование;
  • * — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
  • $ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.

Директивы в Robots.txt

Disallow

Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.

Пример #1

# Полностью закрывает весь сайт от индексации

User-agent: *

Disallow: /

Пример #2

# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/

Disallow: /category1/

Пример #3

# Блокирует для скачивания страницу раздела /category2/

User-agent: *

Disallow: /category1/$

Пример #4

# Дает возможность сканировать весь сайт просто оставив поле пустым

User-agent: *

Disallow:

Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.

Allow

Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.

Пример #1

# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.

Disallow: */feed/*

Allow: /feed/turbo/

Пример #2

# разрешает скачивание файла doc.xml

# разрешает скачивание файла doc.xml

Allow: /doc.xml

Sitemap

Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.

Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:

  • Следует указывать полный URL, когда относительный адрес использовать запрещено;
  • На нее не распространяются остальные правила в файле robots.txt;
  • XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример

# Указывает карту сайта

Sitemap: https://serpstat.com/sitemap.xml

Clean-param

Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site. ru?param1=2&param2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.

Пример #1

#для адресов вида:

www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243

www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: s /forum/showthread.php

Пример #2

#для адресов вида:

www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df

www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: sid /index.php

Подробнее о данной директиве можно прочитать здесь:

https://serpstat.com/ru/blog/obrabotka-get-parametrov-v-robotstxt-s-pomoshhju-direktivy-clean-param/

Crawl-delay

Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.

Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.

Пример

# Допускает скачивание страницы лишь раз в 3 секунды

Crawl-delay: 3

Как проверить работу файла robots.txt

В Яндекс.Вебмастер

В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.

Также можно скачать другие версии файла или просто ознакомиться с ними.

Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.

В нашем случае мы проверяем эти правила.

Как видим из примера все работает нормально.

Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.

В Google Search Console

В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.

Важно! Ресурсы-домены в этом случае выбирать нельзя.

Теперь мы видим:

  • Сам файл;
  • Кнопку, открывающую его;
  • Симулятор для проверки сканирования.

Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».

Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.

Идеальный robots.txt для OpenCart 2.3\3.x (ocStore)

Для самых нетерпеливых готовый robots.txt для вашего магазина на Opencart лежит в конце статьи. Не забудьте поменять site.ru на ваш домен!

Зачем нужен robots.txt?

Robots.txt это текстовый файл который содержит инструкции роботам для индексации сайта. Другими словами, мы говорим Google и Яндексу какие страницы мы хотим видеть в поисковой выдаче, а какие нет. Вот так выглядит сайт типографии с «кривым» файлом robots, в выдачу попадают макеты, технические страницы и прочий мусор. Эти некачественные страницы конкурируют с целевыми, сделанными под коммерческие запросы:

Неправильный robots.txt

В случае с Opencart, нам нужно закрыть все страницы относящиеся к личному кабинету, оформлению заказа, регистрации и т.д.

Зачем еще его можно использовать

Для закрытия всего сайта при его разработке и наполнении товарами.

На этом этапе обычно url часто меняются и пересоздаються. Чтобы ваш сайт НЕ индексировался поисковиками, создаем файл следующего содержания:

User-agent: *
Disallow: /

Распространённая ошибка — купить красивый домен и поставить на него голый движок с тестовыми товарами(посмотреть как все выглядит). Сайт в таком виде индексируют поисковики и сразу же пессимизируют за не уникальный контент. Обязательно нужно закрывать от индексации!

Для закрытия сайта от ненужных краулеров и spy-сервисов.

Если вы не хотите, чтобы ваш сайт проверяли конкуренты, например, через Ahrefs, Majestic и подобные сервисы, закрывайте им доступ. Еще робот Yahoo любит приходить на сайт по 5 раз в день и грузить сервер, но толку от Yahoo для РФ-магазина никакого.

Как создать файл robots.txt

  • В Блокноте или Sublime Text создайте файл с именем robots.txt и скопируйте туда код, который лежит в конце статьи.
  • Проверьте файл в Яндекс.Вебмастер и Google Search Console.
  • Загрузите файл на хостинг в корневую директорию .

Как проверить, что индексируют поисковики?

Проверить, что проиндексировано Яндексом и Google можно с помощью параметра «site:» — в поисковой строке наберите «site:ваш.cайт» (для обоих поисковиков команда одинаковая). Вручную просмотрите списки страниц и добавьте ненужные в robots.txt. Если количество страниц слишком большое — воспользуйтесь Netpeak Spider или Seo Frog.

Правила написания

Директивы Disallow и Allow

Между директивами не должно быть пустых строк, пустые строки только между блоками User-agent. Порядок любой — можно сначала разрешать, а потом запрещать или наоборот, или вообще вперемешку.

Sitemap и Host

Две директивы Яндекса. Для Host указываем главное зеркало сайта, обратите внимание, что оно указывается без http://, но, если у вас протокол https, то пишем — https://. Для Sitemap — путь к карте сайта, по умолчанию он выглядит вот так:

Sitemap: https://site.ru/index.php?route=feed/google_sitemap

Clean-Param и Crawl-delay

Еще две директивы, придуманные Яндексом, Google их не воспринимает и будет выводить ошибку в Search Console, не обращайте на это внимания.

Clean-Param обязательно используем, если на сайт ведется реклама через Яндекс.Директ, Google Adwords, таргет через соц.сети или реферальные ссылки. Иначе в индексацию будут залетать страницы с «хвостом» из параметров utm-меток и создавать дубли, а это повлечет песcимизацию в Яндексе.

Пример синтаксиса:

Clean-Param: utm_source&utm_medium&utm_campaign

Crawl-delay используют для уменьшения нагрузки на сервер. Для новых магазинов не прописываем.

Что делать если у вас кириллический домен?

Использование кириллицу в robots.txt запрещено. Для того чтобы замаскировать кириллицу под понятные поисковым роботам символы используйте Punycode. Адреса страниц пишите в той же кодировке, что и весь сайт. Я пользуюсь вот этим конвертором (он же пригодится и для составления правильного файла sitemap.xml)

Например:

#Неправильно:
User-agent: Yandex
Disallow: /регистрация

#Правильно:
User-agent: Yandex
Disallow: /xn--80affnb7bdhj6b9f

Правильный robots.txt для магазина на Opencart

Вместо site.ru подставьте ваш домен. Обратите внимание, что после установки некоторых модулей, могут меняться url страниц. Периодически проверяйте сайт на предмет попадания ненужных страниц в индекс. Сразу исключены из индекса страницы генерируемые модулем Simple.


User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Disallow: /*?filter_tag=
Disallow: /*brands
Disallow: /*specials
Disallow: /*simpleregister
Disallow: /*simplecheckout
Disallow: *utm=
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index. php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Disallow: /*?filter_tag=
Disallow: /*brands
Disallow: /*specials
Disallow: /*simpleregister
Disallow: /*simplecheckout
Disallow: *utm=
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
Clean-Param: utm_source&utm_medium&utm_campaign site. ru
Host: https://site.ru
Sitemap: https://site.ru/index.php?route=feed/google_sitemap

Оптимизация файла Robots.txt в Opencart Marketplace

Что такое файл Robots.txt?

Robots.txt — это стандартный файл, который веб-сайты используют для инструктирования поисковых роботов или поисковых роботов, таких как Googlebot, когда они посещают ваши веб-сайты или торговые площадки.

Таким образом, вы сообщаете Google, Bing, MSN или другим основным поисковым системам, что они могут и что не могут видеть на ваших веб-сайтах. Что еще более важно, что им разрешено видеть и где им разрешено находиться на ваших веб-сайтах или торговых площадках.

Зачем нужен файл robot.txt?

Если вы не используете файл robot.txt, то многие вещи могут пойти не так с вашей торговой площадкой или веб-сайтом, например —

  • Склонен к ошибкам.
  • Ваши веб-сайты не будут оптимизированы для сканирования.
  • Конфиденциальные данные могут быть просканированы ботами и проиндексированы в результатах поиска, а также могут стать видимыми для искателей.
  • Это помогает предотвратить проблемы с дублированием контента, что важно для успеха SEO.
  • Это помогает скрыть технические детали вашего сайта, т. е. журналы ошибок, файлы SVN, нежелательные страницы, страницу корзины, страницу входа в систему, страницу оформления заказа и т. д. Поскольку это предотвращено, у вас остаются чистые URL-адреса для индексации поисковые системы.
  • Вы можете использовать нестандартные директивы сканирования, чтобы замедлить работу поисковых систем, например, директиву задержки сканирования, которая может замедлить поисковые системы, требующие сканирования.
    У каждого сайта есть определенное количество страниц, которое будет сканировать поисковый робот, обычно называемое краулинговым бюджетом. Блокировка разделов вашего сайта от поисковых роботов позволяет вам использовать это выделение для других разделов вашего сайта.

Как создать файл robots.txt?

Во-первых, вам нужно проверить, есть ли на вашем сайте файл robots.txt, вы можете проверить это, перейдя по URL вашего сайта и добавив в конце текст robots.txt – www.example.com/robots.txt. Если у вас есть этот файл, вы его увидите, а если нет, то вы можете легко его создать.

Вы можете создать файл robots.txt , используя множество текстовых редакторов, доступных на рынке. Откройте блокнот, чтобы начать писать файл robots.txt.

После того, как вы создали этот файл с тем, что вы хотите разрешить и запретить, вы должны загрузить его в корневую папку вашего веб-сайта.

Ниже представлен снимок экрана, на котором показано, как выглядит файл Opencart robots.txt.

  • Начните писать файл robots.txt, объявив что-то и указав, какой поисковый робот заходит на сайт.

Например –

Агент пользователя: *
Разрешить: / 

Это говорит о том, что любые поисковые роботы, заходящие на сайт, могут сканировать все. Если вы хотите заблокировать свой веб-сайт от всех сканеров, просто замените Разрешить: / на Запретить: / в приведенном выше примере.

Некоторые люди указывают определенные пользовательские агенты, такие как Googlebot или другие случайные агенты, на которых люди обычно действительно сосредоточены, и запускают robots.txt с User-agent: Googlebot, а затем они запрещают определенные части своих веб-сайтов.

  • Допустим, на вашем веб-сайте есть папка с промежуточным номером , и в ней есть некоторые тестовые данные и другое дублированное содержимое, которое вы не хотите отображать в результатах поиска. Просто напишите —

Агент пользователя: *
Запретить: /staging/   

Это всего лишь предложение любому сканеру, заходящему на сайт, не сканировать эту папку. Но если появится какой-либо вредоносный сканер, он может проигнорировать файл robots.txt и, следовательно, не является хорошим механизмом безопасности.

В этом есть свои преимущества и недостатки. Это не способ скрыть ваши конфиденциальные данные, это просто инструкция, сканировать или нет.

  • Если вы хотите скрыть данные своего веб-сайта, вы можете использовать метатег . Перейдите на реальную страницу, которую нужно скрыть, и вставьте метатег в заголовок веб-страницы. Это будет что-то вроде –
  • .



Мой сайт
noindex ,   nofollow »

Этот код будет указывать « Не индексировать этот контент », поэтому сканеры не смогут индексировать эту страницу веб-сайта и обеспечивают хороший механизм сокрытия конфиденциальных данных на вашем веб-сайте или торговых площадках от сканеров.

Таким образом, наилучшим или наиболее эффективным образом используя файл robots. txt, вы сможете создать набор правил для поисковых роботов. Правила будут указывать им, что им разрешено видеть и где им разрешено находиться на ваших веб-сайтах. Для получения дополнительной информации щелкните здесь спецификации robots.txt.

Надеюсь, это было чем-то полезно. Оставайся на месте! для следующей статьи, которая находится на URL-адресах, удобных для поисковых систем .

Это все для оптимизации файла Robots.txt В Opencart Marketplace все еще есть какие-либо проблемы, не стесняйтесь добавлять билеты и сообщать нам свое мнение, чтобы сделать модуль лучше, свяжитесь с нами.

 

Opencart Marketplace SEO оптимизация оптимизация Оптимизация файла robots.txt robots.txt Оптимизация

Robots.txt для Opencart · GitHub

Агент пользователя: *
Запретить: /*route=account/
Запретить: /*route=affiliate/
Запретить: /*route=checkout/
Запретить: /*route=product/search
Запретить: /index. php?route=product/product*&manufacturer_id=
Запретить: /admin
Запретить: /каталог
Запретить: /скачать
Запретить: /экспорт
Запретить: /система
Запретить: /*?sort=
Запретить: /*&sort=
Запретить: /*?order=
Запретить: /*&order=
Запретить: /*?limit=
Запретить: /*&limit=
Запретить: /*?filter_name=
Запретить: /*&filter_name=
Запретить: /*?filter_sub_category=
Запретить: /*&filter_sub_category=
Запретить: /*?filter_description=
Запретить: /*&filter_description=
Запретить: /*?tracking=
Запретить: /*&tracking=
Запретить: /*?page=
Запретить: /*&page=
Запретить: /список желаний
Запретить: /логин
Запретить: /index. php?route=product/manufacturer
Запретить: /index.php?route=product/compare
Запретить: /index.php?route=product/category
Карта сайта: http://royalgraff.com//index.php?route=feed/google_sitemap
User-agent: Яндекс
Запретить: /*route=account/
Запретить: /*route=affiliate/
Запретить: /*route=checkout/
Запретить: /*route=product/search
Запретить: /index. php?route=product/product*&manufacturer_id=
Запретить: /admin
Запретить: /каталог
Запретить: /скачать
Запретить: /экспорт
Запретить: /система
Запретить: /*?sort=
Запретить: /*&sort=
Запретить: /*?order=
Запретить: /*&order=
Запретить: /*?limit=
Запретить: /*&limit=
Запретить: /*?tracking=
Запретить: /*&tracking=
Запретить: /*route=product/search
Запретить: /*?page=
Запретить: /*&page=
Запретить: /список желаний
Запретить: /логин
Запретить: /index.