Что на сайте нужно закрывать к индексации, зачем и как это делать. Wordpress закрыть сайт от индексации
Как закрыть сайт от индексации в Robots.txt на время разработки?
Прячем в роботс.тхт всё, кроме главной
Нередко возникает необходимость скрыть в файле Robots.txt разделы или отдельные страницы сайта от «глаз» поисковых роботов. Это дело известное и причины для него могут быть разные: удаление дублей контента из индекса, выкидывание «застрявших» в индексе несуществующих страниц и т.д.
Однако при создании нового сайта бывает полезным закрыть от индексации всё, кроме главной страницы.
Например, вы создаёте интернет-магазин и дальше главной роботу лучше не ходить — чтобы не индексировать пока ещё «кривые» страницы (иначе в дальнейшем могут быть торможения при продвижении..).
Почему лучше оставить главную? В этом случае ПС узнает о существовании нового сайта и начнётся т.н. увеличение траста вашего ресурса (а иначе бы поисковик узнал о вашем проекте только при его полном запуске).
Так что если вам нужно оставить сайт открытым для пользователей, но закрыть всё «нутро» от поисковых систем и в то же время — заявить о себе поисковикам, то можно применить файл Robots.txt для этих целей. Как это делается — написано дальше.
Как закрыть сайт от индексации в Robots.txt, оставив поисковикам главную страницу?
Недавно у меня возникла такая задача, пришлось немного подумать. Как оказалось, всё очень просто — составляем такой Robots.txt:
User-agent: * Disallow: / Allow: /$
Вот и всё. Эффект от этого можно проверить инструментом Яндекса для анализа robots.txt.
Как закрыть сайт от индексации с помощью Robots.txt полностью:
Если вообще весь ресурс нужно спрятать от поисковиков, то это совсем просто:
User-agent: *Disallow: /
Таким образом, если на период разработки сайта вы не желаете «отдавать» ПС внутренние недоделанные страницы, но хотите уже пустить туда пользователей — закрывайте в robots.txt от индексации всё, кроме главной. И не забудьте отредактировать данный файл, когда решите пустить и роботов
web-ru.net
Как закрыть от индексации страницу, сайт, ссылки, текст. Что нужно запрещать индексировать в robots.txt
Наш аналитик Александр Явтушенко недавно поделился со мной наблюдением, что у многих сайтов, которые приходят к нам на аудит, часто встречаются одни и те же ошибки. Причем эти ошибки не всегда можно назвать тривиальными – их допускают даже продвинутые веб-мастера. Так возникла идея написать серию статей с инструкциями по отслеживанию и исправлению подобных ошибок. Первый в очереди – гайд по настройке индексации сайта. Передаю слово автору.
Для хорошей индексации сайта и лучшего ранжирования страниц нужно, чтобы поисковик обходил ключевые продвигаемые страницы сайта, а на самих страницах мог точно выделить основной контент, не запутавшись в обилие служебной и вспомогательной информации.У сайтов, приходящих к нам на анализ, встречаются ошибки двух типов:
1. При продвижении сайта их владельцы не задумываются о том, что видит и добавляет в индекс поисковый бот. В этом случае может возникнуть ситуация, когда в индексе больше мусорных страниц, чем продвигаемых, а сами страницы перегружены.
2. Наоборот, владельцы чересчур рьяно взялись за чистку сайта. Вместе с ненужной информацией могут прятаться и важные для продвижения и оценки страниц данные.
Сегодня мы хотим рассмотреть, что же действительно стоит прятать от поисковых роботов и как это лучше делать. Начнём с контента страниц.
Контент
Проблемы, связанные с закрытием контента на сайте:
Страница оценивается поисковыми роботами комплексно, а не только по текстовым показателям. Увлекаясь закрытием различных блоков, часто удаляется и важная для оценки полезности и ранжирования информация.
Приведём пример наиболее частых ошибок:– прячется шапка сайта. В ней обычно размещается контактная информация, ссылки. Если шапка сайта закрыта, поисковики могут не узнать, что вы позаботились о посетителях и поместили важную информацию на видном месте;
– скрываются от индексации фильтры, форма поиска, сортировка. Наличие таких возможностей у интернет-магазина – важный коммерческий показатель, который лучше показать, а не прятать.– прячется информация об оплате и доставке. Это делают, чтобы повысить уникальность на товарных карточках. А ведь это тоже информация, которая должна быть на качественной товарной карточке.– со страниц «вырезается» меню, ухудшая оценку удобства навигации по сайту.
Зачем на сайте закрывают часть контента? Обычно есть несколько целей:– сделать на странице акцент на основной контент, убрав из индекса вспомогательную информацию, служебные блоки, меню;– сделать страницу более уникальной, полезной, убрав дублирующиеся на сайте блоки;– убрать «лишний» текст, повысить текстовую релевантность страницы.
Всего этого можно достичь без того, чтобы прятать часть контента!У вас очень большое меню?Выводите на страницах только те пункты, которые непосредственно относятся к разделу.
Много возможностей выбора в фильтрах?Выводите в основном коде только популярные. Подгружайте остальные варианты, только если пользователь нажмёт кнопку «показать всё». Да, здесь используются скрипты, но никакого обмана нет – скрипт срабатывает по требованию пользователя. Найти все пункты поисковик сможет, но при оценке они не получат такое же значение, как основной контент страницы.
На странице большой блок с новостями?Сократите их количество, выводите только заголовки или просто уберите блок новостей, если пользователи редко переходят по ссылкам в нём или на странице мало основного контента.
Поисковые роботы хоть и далеки от идеала, но постоянно совершенствуются. Уже сейчас Google показывает скрытие скриптов от индексирования как ошибку в панели Google Search Console (вкладка «Заблокированные ресурсы»). Не показывать часть контента роботам действительно может быть полезным, но это не метод оптимизации, а, скорее, временные «костыли», которые стоит использовать только при крайней необходимости.
Мы рекомендуем:– относиться к скрытию контента, как к «костылю», и прибегать к нему только в крайних ситуациях, стремясь доработать саму страницу;– удаляя со страницы часть контента, ориентироваться не только на текстовые показатели, но и оценивать удобство и информацию, влияющую на коммерческие факторы ранжирования;– перед тем как прятать контент, проводить эксперимент на нескольких тестовых страницах. Поисковые боты умеют разбирать страницы и ваши опасения о снижение релевантности могут оказаться напрасными.
Давайте рассмотрим, какие методы используются, чтобы спрятать контент:
Тег noindex
У этого метода есть несколько недостатков. Прежде всего этот тег учитывает только Яндекс, поэтому для скрытия текста от Google он бесполезен. Помимо этого, важно понимать, что тег запрещает индексировать и показывать в поисковой выдаче только текст. На остальной контент, например, ссылки, он не распространяется.
Это видно из самого описания тега в справке Яндекса.
Поддержка Яндекса не особо распространяется о том, как работает noindex. Чуть больше информации есть в одном из обсуждений в официальном блоге.
Вопрос пользователя:
«Не до конца понятна механика действия и влияние на ранжирование тега <noindex>текст</noindex>. Далее поясню, почему так озадачены. А сейчас — есть 2 гипотезы, хотелось бы найти истину.
№1 Noindex не влияет на ранжирование / релевантность страницы вообще
При этом предположении: единственное, что он делает — закрывает часть контента от появления в поисковой выдаче. При этом вся страница рассматривается целиком, включая закрытые блоки, релевантность и сопряженные параметры (уникальность; соответствие и т. п.) для нее вычисляется согласно всему имеющему в коде контенту, даже закрытому.
№2 Noindex влияет на ранжирование и релевантность, так как закрытый в тег контент не оценивается вообще. Соответственно, все наоборот. Страница будет ранжироваться в соответствии с открытым для роботов контентом.»
Ответ:
В каких случаях может быть полезен тег:– если есть подозрения, что страница понижена в выдаче Яндекса из-за переоптимизации, но при этом занимает ТОПовые позиции по важным фразам в Google. Нужно понимать, что это быстрое и временное решение. Если весь сайт попал под «Баден-Баден», noindex, как неоднократно подтверждали представители Яндекса, не поможет;– чтобы скрыть общую служебную информацию, которую вы из-за корпоративных ли юридических нормативов должны указывать на странице;– для корректировки сниппетов в Яндексе, если в них попадает нежелательный контент.
Скрытие контента с помощью AJAX
Это универсальный метод. Он позволяет спрятать контент и от Яндекса, и от Google. Если хотите почистить страницу от размывающего релевантность контента, лучше использовать именно его. Представители ПС такой метод, конечно, не приветствую и рекомендуют, чтобы поисковые роботы видели тот же контент, что и пользователи.Технология использования AJAX широко распространена и если не заниматься явным клоакингом, санкции за её использование не грозят. Недостаток метода – вам всё-таки придётся закрывать доступ к скриптам, хотя и Яндекс и Google этого не рекомендуют делать.
Страницы сайта
Для успешного продвижения важно не только избавиться от лишней информации на страницах, но и очистить поисковый индекс сайта от малополезных мусорных страниц.Во-первых, это ускорит индексацию основных продвигаемых страниц сайта. Во-вторых, наличие в индексе большого числа мусорных страниц будет негативно влиять на оценку сайта и его продвижение.
Сразу перечислим страницы, которые целесообразно прятать:
– страницы оформления заявок, корзины пользователей;– результаты поиска по сайту;– личная информация пользователей;– страницы результатов сравнения товаров и подобных вспомогательных модулей;– страницы, генерируемые фильтрами поиска и сортировкой;– страницы административной части сайта;– версии для печати.
Рассмотрим способы, которыми можно закрыть страницы от индексации.
Закрыть в robots.txt
Это не самый лучший метод.
Во-первых, файл robots не предназначен для борьбы с дублями и чистки сайтов от мусорных страниц. Для этих целей лучше использовать другие методы.
Во-вторых, запрет в файле robots не является гарантией того, что страница не попадёт в индекс.
Вот что Google пишет об этом в своей справке:
Работе с файлом robots.txt посвящена статья в блоге Siteclinic «Гайд по robots.txt: создаём, настраиваем, проверяем».
Метатег noindex
Чтобы гарантированно исключить страницы из индекса, лучше использовать этот метатег.
Рекомендации по синтаксису у Яндекса и Google отличаются.
Ниже приведём вариант метатега, который понимают оба поисковика:
<meta name="robots" content="noindex, nofollow">Важный момент!
Чтобы Googlebot увидел метатег noindex, нужно открыть доступ к страницам, закрытым в файле robots.txt. Если этого не сделать, робот может просто не зайти на эти страницы.
Выдержка из рекомендаций Google:
Рекомендации Google.
Рекомендации Яндекса.
Заголовки X-Robots-Tag
Существенное преимущество такого метода в том, что запрет можно размещать не только в коде страницы, но и через корневой файл .htaccess.
Этот метод не очень распространён в Рунете. Полагаем, основная причина такой ситуации в том, что Яндекс этот метод долгое время не поддерживал.В этом году сотрудники Яндекса написали, что метод теперь поддерживается.
Ответ поддержки подробным не назовёшь))). Прежде чем переходить на запрет индексации, используя X-Robots-Tag, лучше убедиться в работе этого способа под Яндекс. Свои эксперименты на эту тему мы пока не ставили, но, возможно, сделаем в ближайшее время.
Подробные рекомендации по использованию заголовков X-Robots-Tag от Google.
Защита с помощью пароля
Этот способ Google рекомендует, как наиболее надёжный метод спрятать конфиденциальную информацию на сайте.
Если нужно скрыть весь сайт, например, тестовую версию, также рекомендуем использовать именно этот метод. Пожалуй, единственный недостаток – могут возникнуть сложности в случае необходимости просканировать домен, скрытый под паролем.
Исключить появление мусорных страниц c помощью AJAX
Речь о том, чтобы не просто запретить индексацию страниц, генерируемых фильтрами, сортировкой и т. д., а вообще не создавать подобные страницы на сайте.
Например, если пользователь выбрал в фильтре поиска набор параметров, под которые вы не создавали отдельную страницу, изменения в товарах, отображаемых на странице, происходит без изменения самого URL.
Сложность этого метода в том, что обычно его нельзя применить сразу для всех случаев. Часть формируемых страниц используется для продвижения.
Например, страницы фильтров. Для «холодильник + Samsung + белый» нам нужна страница, а для «холодильник + Samsung + белый + двухкамерный + no frost» – уже нет.
Поэтому нужно делать инструмент, предполагающий создание исключений. Это усложняет задачу программистов.
Использовать методы запрета индексации от поисковых алгоритмов
«Параметры URL» в Google Search Console
Этот инструмент позволяет указать, как идентифицировать появление в URL страниц новых параметров.
Директива Clean-param в robots.txt
В Яндексе аналогичный запрет для параметров URL можно прописать, используя директиву Clean-param.Почитать об этом можно в блоге Siteclinic.
Канонические адреса, как профилактика появления мусорных страниц на сайтеЭтот метатег был создан специально для борьбы с дублями и мусорными страницами на сайте. Мы рекомендуем прописывать его на всём сайте, как профилактику появления в индексе дубле и мусорных страниц.
Рекомендации Яндекса.
Рекомендации Google.
Инструменты точечного удаления страниц из индекса Яндекса и Google
Если возникла ситуация, когда нужно срочно удалить информацию из индекса, не дожидаясь, пока ваш запрет увидят поисковые работы, можно использовать инструменты из панели Яндекс.Вебмастера и Google Search Console.
В Яндексе это «Удалить URL»:
В Google Search Console «Удалить URL-адрес»:
Внутренние ссылки
Внутренние ссылки закрываются от индексации для перераспределения внутренних весов на основные продвигаемые страницы. Но дело в том, что:– такое перераспределение может плохо отразиться на общих связях между страницами;– ссылки из шаблонных сквозных блоков обычно имеют меньший вес или могут вообще не учитываться.
Рассмотрим варианты, которые используются для скрытия ссылок:
Тег noindex
Для скрытия ссылок этот тег бесполезен. Он распространяется только на текст.
Атрибут rel=”nofollow”
Сейчас атрибут не позволяет сохранять вес на странице. При использовании rel=”nofollow” вес просто теряется. Само по себе использование тега для внутренних ссылок выглядит не особо логично.
Представители Google рекомендуют отказаться от такой практики.
Рекомендацию Рэнда Фишкина:
Скрытие ссылок с помощью скриптов
Это фактически единственный рабочий метод, с помощью которого можно спрятать ссылки от поисковых систем. Можно использовать Аjax и подгружать блоки ссылок уже после загрузки страницы или добавлять ссылки, подменяя скриптом тег <span> на <a>. При этом важно учитывать, что поисковые алгоритмы умеют распознавать скрипты.
Как и в случае с контентом – это «костыль», который иногда может решить проблему. Если вы не уверены, что получите положительный эффект от спрятанного блока ссылок, лучше такие методы не использовать.
Заключение
Удаление со страницы объёмных сквозных блоков действительно может давать положительный эффект для ранжирования. Делать это лучше, сокращая страницу, и выводя на ней только нужный посетителям контент. Прятать контент от поисковика – костыль, который стоит использовать только в тех случаях, когда сократить другими способами сквозные блоки нельзя.
Убирая со страницы часть контента, не забывайте, что для ранжирования важны не только текстовые критерии, но и полнота информации, коммерческие факторы.
Примерно аналогичная ситуация и с внутренними ссылками. Да, иногда это может быть полезно, но искусственное перераспределение ссылочной массы на сайте – метод спорный. Гораздо безопаснее и надёжнее будет просто отказаться от ссылок, в которых вы не уверены.
Со страницами сайта всё более однозначно. Важно следить за тем, чтобы мусорные, малополезные страницы не попадали в индекс. Для этого есть много методов, которые мы собрали и описали в этой статье.
Вы всегда можете взять у нас консультацию по техническим аспектам оптимизации, или заказать продвижение под ключ, куда входит ежемесячный seo-аудит.
ОТПРАВИТЬ ЗАЯВКУ
Автор: Александр, SEO аналитик SiteClinic.ru
optimizatorsha.ru
Как гарантированно закрыть весь сайт от индексации
Использование метатега robots для блокирования доступа к сайту
Часто по разным причинам веб разработчику требуется закрывать сайт от индексации поисковыми системами. Вы меняете дизайн сайта и не хотите, чтобы ваши эксперименты попали в индекс поисковых систем, либо вы создаёте новый сайт или меняете платформу и вам также не нужны не завершенные страницы в индексе, в общем, причин много. Большинство уверены, что с помощью файла Robots.txt содержащего следующую запись они гарантированно закрывают свой сайт от индексации
User-agent: *Disallow: /
Будьте уверены, это не так! Если вы используете Robots.txt для скрытия от индекса не удивляйтесь, если вопреки всему он там появится. Причин этому не мало. Гугл индексирует все, что ему вздумается, не смотря на запреты в robots.txt
Выдержка из справки для веб-мастеров от Google:
Хотя Гугл не сканирует и не индексирует контент страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (dmoz.org), могут появиться в результатах основного поиска Google.
У Яндекса принцип несколько другой и конечно отличается от гугловского, все страницы закрытые через Robots.txt, не попадают в основной индекс Яндекса, но роботом просматриваются и загружаются.
Из руководства для веб-мастеров от Яндекса:
В разделе «Исключённые страницы» отображаются страницы, к которым обращался робот, но по тем или иным причинам принял решение не индексировать их. В том числе, это могут быть уже несуществующие страницы, если ранее они были известны роботу. Информация об причинах исключения из индекса хранится в течение некоторого времени, пока робот продолжает их проверять. После этого, если страницы по-прежнему недоступны для индексирования и на них не ведут ссылки с других страниц, информация о них автоматически удаляется из раздела «Исключённые страницы».
Обобщая всё вышеперечисленное: закрытые в текстовом файле роботс страницы не попадают в основной индекс но загружаются и просматриваются поисковиками, в Гугле они доступны при изучении дополнительной выдачи (supplemental). Поисковики не будут напрямую индексировать содержимое, указанное в файле robots.txt, однако могут найти эти страницы по ссылкам с других сайтов. Из-за чего в результатах поиска появятся URL и другие общедоступные сведения – например, текст ссылок на сайт.
Какой выход спросите Вы? А выход очень простой:
Закрыть весь сайт от индексации
Данный метод позволит гарантированно исключить вероятность появления контента страницы в индексе Гугл, даже если на нее ссылаются другие сайты.
Выдержка из руководства от Гугл:
Чтобы полностью исключить вероятность появления содержимого страницы в индексе Гугл, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot станет сканировать страницу, то обнаружит метатег noindex и не будет отображать ее в индексе.
Для чего необходимо на всех страницах, которые необходимо закрыть от индексации, поместить метатег
<meta name="robots" content="noindex,nofollow">
внутри тега <head> </head>. Важно, эти самые страницы не должны быть закрыты через robots.txt!
Во время разраборки сайта веб-мастеру зачастую необходимо закрыть от индексации весь сайт за исключением главной, для того чтобы уже во время разработки и наполнения поисковые системы могли узнать о существовании сайта. В этом случае вам достаточно разместить метатег "роботс" на всех страницах за исключением главной.
Если Вам понадобится закрыть сайт от индекса только одной поисковой системы, например Google, то вам следует внутри тега <head> </head> разместить следующий код:
<meta name="googlebot" content="noindex">
Если после добавления в код тега "robots" страница всеже находится в индексе поиска, то это значит, что поисковый робот еще не просканировал её и не нашел метатег "noindex"
maxweb.by
Закрыть сайт или часть кода от индексации htaccess robots.txt
Иногда, по тем или иным причинам нужно скрыть от поисковых систем часть кода, блок или целый сайт (к примеру, старый).
Файл robots.txt - специальный файл, содержащий инструкции для поисковых систем. Обычно, файл robots.txt уже присутствует в корневой папке сайта на хостинге. Однако, если его нет, нужно создать обычный текстовый документ с именем robots.txt, внести в него необходимые инструкции и загрузить в корневую папку сайта.
Файл .htaccess - специальный файл конфигурации веб-сервера Apache, управляет настройками сайта и работой веб-сервера. Файл .htaccess также должен присутствовать в корневой папке сайта по умолчанию.
Как закрыть от индексации с помощью файла robots.txt
Полностью запретить индексацию всего сайта:User-agent: *Disallow: /
Запретить индексацию всего сайта только Гуглу:User-agent: GooglebotDisallow: /
Запретить индексацию всего сайта только Яндексу:User-agent: YandexDisallow: /
Запретить индексацию всего раздела:User-agent: *Disallow: /administratorDisallow: /plugins
*В этом варианте запрет коснется всех файлов и папок в разделе.
Запретить индексацию отдельной папки:User-agent: *Disallow: /administrator/Disallow: /images/
*В этом варианте запрет коснется только файлов и документов, но не будет распространяться на имеющиеся папки.
Запретить индексацию отдельным страницам:User-agent: *Disallow: /reklama.htmlDisallow: /sis-pisi.html
Как закрыть от индексации с помощью файла .htaccess
Полностью запретить индексацию всего сайта:SetEnvIfNoCase User-Agent "^Googlebot" search_botSetEnvIfNoCase User-Agent "^Yandex" search_botSetEnvIfNoCase User-Agent "^Yahoo" search_botSetEnvIfNoCase User-Agent "^Aport" search_botSetEnvIfNoCase User-Agent "^msnbot" search_botSetEnvIfNoCase User-Agent "^spider" search_botSetEnvIfNoCase User-Agent "^Robot" search_botSetEnvIfNoCase User-Agent "^php" search_botSetEnvIfNoCase User-Agent "^Mail" search_botSetEnvIfNoCase User-Agent "^bot" search_botSetEnvIfNoCase User-Agent "^igdeSpyder" search_botSetEnvIfNoCase User-Agent "^Snapbot" search_botSetEnvIfNoCase User-Agent "^WordPress" search_botSetEnvIfNoCase User-Agent "^BlogPulseLive" search_botSetEnvIfNoCase User-Agent "^Parser" search_bot
*Для каждой поисковой системы отдельная строчка кода.
Как закрыть от индексации страницу сайта с помощью Meta тегов
Между тегами <head> </head> страницы вставить код:<meta name="robots" content="noindex">или лучше даже этот:<meta name="robots" content="noindex, nofollow" />
Как закрыть от индексации ссылку
К ссылке нужно добавить rel="nofollow" и получится:
<a href="https://epicblog.net/write.html" rel="nofollow">Тоже писать на Epic Blog</a>
Запрещают индексацию ссылки обычно для того, чтобы не передавать вес своего сайта
Всем удачи и добра!
epicblog.net