Дублирование страниц в Joomla: причины, частые ошибки и их решение. Joomla дубли страниц
Дубли страниц Joomla. Скрытая угроза
Самая большая проблема при продвижении - это дубли страниц. Дубль страницы - это когда одна и та же страница может открываться по двум или более адресам.
Пример распространенных дублей на Joomla:
- http://site.ru/blog.html
- http://site.ru/blog
- http://site.ru/blog/
- http://site.ru/blog.html/
По всем четырем ссылкам будет открываться одна и та же страница. А теперь смотрите.
Пункт меню ведет на открытие страницы "а" (http://site.ru/blog.html), вы начинаете продвигать данную страницу (делаете перелинковку, продвигаете в социальных сетях, заказываете посты и прочее) с ссылкой на данную страницу.
А вот поисковая система в индекс вязала страницу "b" (http://site.ru/blog) и все остальные, в том числе и страницу "а" из индекса удалила.
Как бы вы не продвигали запросы на первой странице, результата не будет.
А теперь представьте, на всем вашем сайте происходит "хаотичный выбор" из дублей страниц для включения в индекс.
В этом случае скорость продвижения сайта сравнима с ездой на автомобиле с ручником. Отвлекусь от темы, недавно, как раз вытаскивал одну дамочку на машине из сугроба, оказалась проблема в ручнике :-).
Дубли есть почти на всех сайтах, работающих на популярных CMS. Если вы считаете, что у вас их нет, то читайте дальше.
Давайте рассмотрим виды дублей.
1. Расклейка зеркал с www и без www
При создании сайта важно решить как ваш сайт будет фигурировать в поиске и как его будут набирать пользователи с www или без www. Т.е. http://www.site.ru или http://site.ru.
По умолчанию, если вы ничего не делаете, то вы можете открыть сайт как с www, так и без его указания. В результате у вас дубль сайта. Что получается. Продвигаете домен с www, а поисковая система индексирует страницы без www. Краткий вывод: печалька :-).
На мой взгляд, с www - это устаревший вариант я рекомендую использовать без www. Но вы должны сами решить и решение зависит от того, как поисковые системы проиндексировали ваш сайт.
2. Структурные дубли ( / в конце url)
Следующий вид дублей - структурные. Это когда ваша страница может открываться как со слэшем на конце, так и без слэша.
Пример: http://site.ru/blog и http://site.ru/blog/
3. Страница с html и без html
Следующий вид дублей страница с html и без html.
Выше как раз рассматривали данный пример.
- http://site.ru/blog.html
- http://site.ru/blog
Дубли с html образуются всегда если вы используете sef ссылки. Можете проверить на своем сайте.
4. Дубли, образующиеся от get запросов - ?
Get-запрос - это передача данных через дописывание хвоста к урл через знак ?, например ?itemid=120.
Дубли с гет-запросами в джумла могут быть, но больше как исключения от некорректно написанных роутеров с сторонних компонентах. А вот переход на ваш сайт по utm меткам может включить в индекс страницы с данной меткой, а основная страница (без метки) будет исключена из индекса.
Поэтому с этими дублями тоже надо работать.
5. Альтернативная главная страница - index.php
Дубль, который есть практически везде - это открытие главной страницы по дописыванию index.php после слэша, т.е. http://site.ru и http://site.ru/index.php - страница открывается одна и та же.
А еще главная страница может открываться по адресу: http://site.ru//// (множество слэшей в конце).
6. Rss, pdf, print
Следующий вид дублей - это проиндексированные страницы rss ленты, страницы печати и pdf версии страницы.
Вы наверняка переходили по таким страницам из выдачи. Заходите на сайт, а там версия сайта для pda устройства или для печати. Как следствие больше одной страницы вы посмотреть не можете.
С этими дублями бороться проще всего. Отключаем в настройках материала генерацию данных страниц и все.
7. Дубли в материалах джумла
В Джумла есть и свои особенности в структуре. Например, в стандартном компоненте контента одна страница может открываться по следующим адресам:
- http://site.ru/category/256-article.html
- http://site.ru/category/256
- http://site.ru/256-article.html
8. Дубли из-за смены алиаса или категории
Вы написали материал, сохранили его. Но вам не понравился урл, который получился и вы решили изменить алиас в материале или сменить категорию.
В результате материал переехал на новый адрес, точнее открывается по новому адресу. Но и по старому адресу он так же продолжает существовать. Если старый материал в индексе поисковой системе, то без редиректа вы далеко не уедете.
Что же делать?
- Настроить 301 редиректы с регулярных дублей Настраиваем либо через htaccess, либо устанавливаем и публикуем плагин от joomline под названием no doubles. Данный плагин автоматически склеит большинство вышеперечисленных дублей автоматически. Важно! Работает только со стандартным SEF, со стандартными расширениями + k2, joomshopping и прочие. Для всех остальных компонентов и частных случаев нужно настраивать редиректы через htaccess.
- Ручной редирект.Если у вас дубли образовались по причине манипуляций с материалом, то настраиваем редирект через стандартный менеджер перенаправлений (плохо) или через компонент ReDj (хорошо). В дальнейшем сразу думаем об алиасе и категории.
- Исключить дубли из индекса.Если не можете удалить все дубли, то можно исключить их из индекса поисковой системы с помощью настройки файла robots.txt. В идеале, как и мы делаем в нашем курсе - это склейка всех дублей + исключение из индекса. Кроме дублей из индекса полезно будет исключить еще и страницы с авторизацией, восстановления пароля, корзиной, личным кабинетом и поиском.
Если хотите избавиться от дублей навсегда и ускорить продвижение сайта, то рекомендую обратить внимание на курс "Joomla! Реактивное продвижение сайта".
alex-kurteev.ru
Дубли страниц Joomla – как избавиться от дублирования
Создание и раскрутка сайтов на статичном html всё менее популярна, и большинство веб-мастеров переходит на современные CMS, в частности на Joomla, которая в нагрузку к своим плюсам может и огорчить пользователя, прежде всего, дублированием страниц. Дубли страниц в Joomla это своеобразный бич веб-мастера, хотя, положа руку на сердце, грешат этим многие системы автоматизации сайтов.
Поиск дублей
Во-первых, давайте посмотрим, как определить дубли страниц и почему они негативно сказываются на процессе продвижения сайта. Самый простой способ определения дублирования – это воспользоваться расширенным поиском на Яндексе, где в строчку «сайт» забиваем свой проект, а в поисковую строку тот или иной запрос. В результате можно видеть страницы сайта по мере их релевантности, тут же водятся и дублирующие друг друга страницы. Ещё проще воспользоваться пауком Netpeak Spider, который выгрузит страницы и найдёт в них дубли в один клик.
Второй немаловажный вопрос, почему поисковые системы относятся к этому негативно, ведь это не умышленная попытка обмана поисковиков, а технические проблемы CMS, о который, в принципе роботы должны знать. В том то и дело, что именно роботы могут определить такие страницы, как умышленный спам, ведь фактически по двум разным адресам предоставляется один и тот же материал. Попытки переписки со службой поддержки Яндекса ни к чему не приводят, поэтому надо стараться избегать дублей страниц Joomla.
Удаление дубли
Если сайт небольшой, то можно закрыть дублирующиеся материалы через robots.txt, но это всё равно не выход, а лишь лишний геморрой в копилке оптимизатора. Говорить об этом могу с уверенностью, так как сам прошёл через это, хотя и использовал десятки вариантов для борьбы с дублированием. Сегодня могу поделиться, как можно побороть то, что негативно отражается на раскрутке. Полный бан за такие дубли Joomla получить маловероятно, но добиться пессимизации сайта вполне возможно, поэтому для начала я закрыл в robots.txt все технические и второстепенные страницы массово –
Disallow: ?*
Disallow: /search/
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*type=atom
Disallow: /*type=rss
Disallow: /*task=rss
Disallow: /*?sl*
Disallow: /*?sl*
Disallow: /*?*
Disallow: /%*
Disallow: /*?*
Disallow: /*--
Disallow: /*---
Disallow: /*/$
Таким образом, отсекается основная складская база, куда Joomla может запихивать дубли. Если кому очень надо открыть некоторые страницы, например, для компонента xmap, то есть для того, чтобы добавить в панель вебмастера карту сайта, то нужные страницы легко открываются с помощью директивы Allow: , которая ставиться перед Disallow:.
Однако лично мне не давали жизни дубли страниц Joomla типа
Сайт.ру/раздел/категория/160.html
Сайт.ру/раздел/категория/материал-160.html
И долгие поиски ни к чему положительному не приводили, кроме как закрывать сотни левых ссылок вручную в robots.txt. Однако однажды ответ пришёл, как озарение и открыл глаза на простейшие вещи, с которыми, знаю точно, сталкивался не я один. Многие сегодня практикуют (и правильно делают) продвижение сайта в социальных сетях, посредством установки кнопок для интеграции. При этом не все обращают внимание, что некоторые плагины при интеграции в Twitter просто обрезают ссылку и для решения проблемы надо настроить или заменить плагин, так как роботы идут по ссылки «твиттнуть» и попадают на её обрезанный вид, который и заносят по своему электронному незнанию в индекс.
Проблема оказалась проста, как медный таз, жаль, что таким образом убирается только часть дублей, правда эта-то часть меня больше всего и волновала. Оказывается, часть ошибок оптимизации всё-таки происходит по совокупности недосмотра веб-мастера и недоработок CMS, так что с этим можно и нужно бороться. Удачи.
Если же Вас не радуют дубли типа /sobstven-sate/eksperiment-seo/383.html, то есть сокращённые адреса страниц, используйте плагин для Joomla Shnodoubles, найти который можно погуглив или отписавшись мне в комментариях, с ним я полностью решил проблему на считанные минуты. Подумав и устав отписываться я предлагаю скачать nodoubles для Joomla прямо с сайта.
Также предлагаю видео по удалению дублей в Joomla посредством 301-го редиректа -
Вопросы-ответы
Можно ли избавить от дублей на автомате?
Отсутствие дублей на 90% гарантируется в автоматическом режиме. Для Joomla достаточно настроить robots и htaccess, а также разобраться со склейкой страниц на основную навигационную. Однако в процессе расширения сайта дубли могут появляться, поэтому отслеживайте их через паука Netpeak Spider.
Неужели пауки ПС не понимают, что дубли на Joomla – это ошибка разработчиков?
А почему эта ошибка не исправляется владельцем? Если вы купите машину с дефектом, то не станете же вы жаловаться, что ваc штрафует ГИБДД за, то что не горят фары или не соответствуют нормам выхлопные газы? В поддержку обращаться смысла нет, так как CMS не платная.
Сейчас сильно жёстко штрафуют за дубли редко, но… Если по запросу, например, дублирование страниц у вас присутствуют в поиске 3-4 документа с одинаковым контентом, но разными урлами, то, как вы думаете статический вес будет на каждой из них максимальный, или размажется? В конце концов это вам решать, нужен ли вам декоративный мусорный сайт или вы хотите делиться с пользователями информацией и получать за это профит при правильной настройке CMS.
www.zegeberg.ru
Дубли страниц в Joomla - Юрий Ключевский
У CMS Joomla есть один недостаток, это дубли адресов страниц. Дубли — это когда одна статья доступна по двум адресам.
Например:
http://rightblog.ru/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html
index.php?option=com_content&view=article&id=99:vkontakteicons&catid=5:design&Itemid=5
Как появляются дубли страниц? Очень просто, на примере выше мы видим две ссылки на один материал. Первая ссылка — красивая и человекопонятная (ЧПУ ссылка), создана компонентом JoomSEF который преобразует все ссылки на сайте в такой красивый, удобочитаемый вид. Вторая ссылка — внутренная системная ссылка Джумлы, и если бы компонент Artio JoomSef не был установлен, то все ссылки на сайте были бы как вторая — непонятные и некрасивые. Теперь от том насколько это страшно и как бороться с дублями.
Насколько дубли вредны для сайта. Я бы не называл его очень большим недостатком, так как по моему мнению, поисковые машины не должны сильно банить и пессимизировать сайт за такие дубли, так как дубли эти делаются не специально, а являются частью CMS системы. Причем, замечу, очень популярной системы, на которой сделаны миллионы сайтов, а значит поисковики научились понимать такую «особенность». Но все таки, если есть возможность и желание, то лучше такие дубли позакрывать от глаз большого брата.
Подробнее и как убрать из индексации дубли страниц в Joomla читаем под катом.
У CMS Joomla есть один недостаток, это дубли адресов страниц. Дубли — это когда одна статья доступна по двум адресам. Например:
http://rightblog.ru/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html
index.php?option=com_content&view=article&id=99:vkontakteicons&catid=5:design&Itemid=5
Как появляются дубли страниц? Очень просто, на примере выше мы видим две ссылки на один материал. Первая ссылка — красивая и человекопонятная (ЧПУ ссылка), создана компонентом JoomSEF который преобразует все ссылки на сайте в такой красивый, удобочитаемый вид. Вторая ссылка — внутренная системная ссылка Джумлы, и если бы компонент Artio JoomSef не был установлен, то все ссылки на сайте были бы как вторая — непонятные и некрасивые. Теперь от том насколько это страшно и как бороться с дублями.
Насколько дубли вредны для сайта. Я бы не называл его очень большим недостатком, так как по моему мнению, поисковые машины не должны сильно банить и пессимизировать сайт за такие дубли, так как дубли эти делаются не специально, а являются частью CMS системы. Причем, замечу, очень популярной системы, на которой сделаны миллионы сайтов, а значит поисковики научились понимать такую «особенность». Но все таки, если есть возможность и желание, то лучше такие дубли позакрывать от глаз большого брата.
Как бороться с дублями в Joomla и других cms
1) Два дубля одной страницы, запрет в robots.txt
К примеру, в индекс поисковика попадают следующие два адреса одной страницы:
http://site.ru/страница.html?replytocom=371http://site.ru/страница.html?iframe=true&width=900&height=450
Для закрытия таких дублей в robots.txt нужно добавить:
Disallow: /*?*Disallow: /*?
Этим действием мы закрыли от индексации все ссылки сайта со знаком «?». Такой вариант подходит для сайтов где включена работа ЧПУ, и нормальные ссылки не имеют в себе знаков вопроса — «?».
2. Использовать тег rel=”canonical”
Допустим на одну страницу идет две ссылки с разными адресами. Поисковикам Google и Yahoo моджно указать на то какой адрес на страницу является главным. Для этого в теге <a> надо прописать тег rel=”canonical”. Яндекс эту опцию не поддерживает.
Для Joomla для постановки тега rel=”canonical” я нашел два расширения, под названием 1)plg_canonical_v1.2; и 2) 098_mod_canonical_1.1.0. Можете их потестировать. Но я бы поступил другим образом и просто запретил к индексации все ссылки имеющие в себе знак вопроса, как показал в примере выше.
3. Запретить индексирование в robots.txt Joomla дублей (страницы с окончанием index.php) и других не нужных страниц.
Так как все дубли страниц в Joomla начинаются с index.php, то можно запретить их все к индексации одной строкой в robots.txt — Disallow: /index.php. Также этим самым мы запретим дубль главной страницы, когда она доступна по адресу «http://site.ru/» и «http://site.ru/index.php».
Disallow: /index.php
4. Cклейка домена с www и без при помощи 301 редиректа (переадресаци).
Для склейки домена с www и без нужно сделать переадресацию – 301 редирект. Для этого в файле .htaccess прописываем:
RewriteEngine onRewriteCond %{HTTP_HOST} ^www.site.ruRewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]
Если вам нужно наоборот сделать редирект с http://site.ru на www.site.ru, то запись будет выглядеть так:
RewriteEngine OnRewriteCond %{HTTP_HOST} ^site.ruRewriteRule (.*) http://www.site.ru/$1 [R=301,L]
5. Директива Host дает определение основного домена с www или без для Яндекса.
Для тех вебмастеров, которые только что создали свой сайт, не спешите выполнять те действия, которые я описал в этом пункте, сначала нужно составить правильный robots.txt прописать директиву Host, этим вы определите основной домен в глазах яндекса.
Это будет выглядеть следующим образом:
User-Agent: YandexHost: site.ru
Директиву Host понимает только Яндекс. Google ее не понимает.
Дальше обязательно нужно дождаться, когда Яндекс правильно склеит домен, а уже потом делать переадресацию в файле .htaccess
6. Joomla дубли страниц склеиваем в файле .htaccess.
Очень часто главная страница сайта на joomla бывает доступна по адресу http://site.ru/index.html или http://site.ru/index.рhp, http://site.ru.html , то есть это дубли главной страницы (http://site.ru), конечно от них можно избавиться путем закрытия их в robots.txt, но лучше это сделать при помощи .htaccess. Для этого в этот файл добавить следующее:
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/RewriteRule ^index.php$ http://ваш сайт.ru/ [R=301,L]
Используйте этот код если вам нужно избавиться от дубля с index.рhp, не забудьте в коде вместо http://ваш сайт.ru/, поставить свой домен.
Чтобы проверить получилась у вас или нет, просто введите в браузер адрес дубля (http://site.ru/index.рhp), если получилось, то вас перебросит на страницу http://site.ru, также будет происходить и с поисковыми ботами и они не будут видеть эти дубли.
И по аналогии склеиваем Joomla дубли с другими приставками к URI вашей главной страницы, просто отредактируйте код который я привел выше.
7. Указать sitemap в robots.txt
Хоть это и не относится к дублям, но раз уж пошла такая движуха, то заодно я рекомендую в файле robots.txt указать путь к карте сайта в xml формате для поисковиков:
Sitemap: http://домен.ru/sitemap.xml.gzSitemap: http://домен.ru/sitemap.xml
Итог
Подвоя итог вышесказанному, для Joomla я бы прописал вот такие строки в robots.txt:
Закрыть к индексации все ссылки что имеют знак вопроса
Disallow: /*?*
Disallow: /*?
Закрыть к индексации все ссылки что начинаются с index.php
Disallow: /index.php
Указать основной хост для Яндекса
User-Agent: YandexHost: site.ru
И вот такие строки в .htaccess
# Склейка домена с www и без
RewriteEngine onRewriteCond %{HTTP_HOST} ^www.site.ruRewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]
# Склейка дублей страниц
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/RewriteRule ^index.php$ http://ваш сайт.ru/ [R=301,L]
Если вы используете другие способы устранения дублей, знаете как усовершенствовать описанное выше или просто Вам есть что сказать по этой теме — пишите, жду в комментариях.
rightblog.ru
Дубли Joomla. Robots txt. Как убрать дубли в Joomla. Как убрать из индексации дублирующие страницы в Джумле
Как убрать дубли в Joomla? - это вопрос и проблема одновременно волнует многих создателей сайтов на Джумле, чаще создателей интернет-магазинов. В основном дубли-дублирующие страницы, которые "вредны" с точки зрения продвижения в поисковиках интернет-магазина или любого вашего сайта.
Как убрать из индексации дублирующие страницы в Джумле? В данной статье мы поговорим о стандартном несложном методе - а именно с помощью robots.txt, который обычно находится в корневой папке сайта. Так вот, его надо отредактировать должным образом, а именно, в данном случае для избавления от повторяющихся страниц, чтобы не было дублей в индексе поисковиков.
Robots.txt для Joomla
Вы можете посмотреть свой "роботс тхт" - пройдя по адресу site.ru/robots.txt (где вместо вместо site.ru подставляем имя своего домена - у меня это saitsozdanie.ru). Данный файл показывает поисковым системам Яндекс, Google и другим инструкции, а именно какие страницы можно им смотреть и добавлять к себе в индекс, а какие и не стоит. У Joomla проблемы с дублями возникают при добавлении сторонних модулей, например модуля интернет-магазина virtuemart или других.
Проверить есть ли у вашего сайта на Джумле дублирующие страницы и другой "мусор" заходим в яндекс вебмастер и смотрим статистику сайта, если при количестве страниц допустим в 1500 штук - лишь 50 в индексе, значит дубли есть! Также можете использовать этот способ, открываем яндекс и вводим это - url:sait.ru* | url:www.sait.ru* - также заменяем на имя своего домена. Яндекс выдаст вам все страницы, которые проиндексировал. Если вы увидите в ваших ссылках что-то типа этого index.php? - то это значит, что ваши ссылки уже неправильные и у вас не задействован стандартный модуль SEF или сторонний(которые превращают ссылки в более человекоудобочитаемые). Современные их модификации - также умеют отлавливать дубли в Джумле.
Сам robots.txt:
User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Sitemap: http://путь к вашей карте XML формата
User-agent: YandexDisallow: /administrator/Disallow: /cache/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Host: vash_sait.ruSitemap: http://путь к вашей карте XML формата
Директива User-agent: * - говорит, что это правило, что ниже относится ко всем поисковикам, если заместо звездочки поставить Yandex - то это уже будет относится только к этой поисковой машине.
Директива Disallow: показывает то, что нужно убрать из индекса поисковиков. Например Disallow: /administrator/ (укажет поисковикам, что нельзя папку administrator заносить в свой индекс и тем более показывать людям, потому что там нет полезной информации для них, там только служебная)
Директива Host: для всех роботс стандартная - тут вы указываете имя своего домена без http:// - для правильной индексации поисковиками.
Директива Sitemap: тут вы указываете путь к файлу с картой сайта для вашего сайта - для ускорения индексации страниц.
Теперь вы уже имеете представление о дублях в Joomla и по работе с robots.txt настало время применить знания на своем сайте - вперед!
Добавить комментарий
saitsozdanie.ru
Дубли страниц Joomla
Друзья, в данной статье, тема которой - дубли страниц Joomla, хочу задать себе и Вам несколько вопросов. Возможно, они будут несколько философского толка, однако, на мой субъективный взгляд, они помогут Вам найти ответы, которые помогут решить проблему дублей страниц. А точнее, что с ними делать. Тем более, проблема дублей страниц относится к внутренней оптимизации сайта.
Вкратце скажу, что существует достаточно большое количество расширений в виде модулей, компонентов и плагинов, которые полностью или частично решают проблему дублей страниц в Joomla, и создают новые проблемы . Например, широко известный в узких кругах компонент sh504SEF дает возможность избавиться от дублей и настроить вид ЧПУ по своему вкусу, вплоть до кириллических. Но, помимо дополнительной нагрузки на сервер, возникает проблема с тем, что делать, если если Вы хотите поменять название материала?.. Если Вы делаете сброс ссылок, то по началу посетители будут любоваться Вашей 404-й страницей, а поисковые системы опустят в выдаче. В общем, у различных расширений свои проблемы - одно лечим, другое калечим . Вообще, многие говорят что Joomla страдает на дубли страниц - скажу Вам по секрету, многие CMS страдают на эту болезнь, так что это отнюдь не камень в огород Joomla, который может быть учтен при выборе CMS для будущего проекта.
Именно по этой причине создается много новых расширений, идут поиски решения проблемы дублей страниц в Joomla, идут активные обсуждения данного вопроса на форумах и блогах, идёт обмен опытом...
Но, уважаемые коллеги, джумловоды, задайте сами себе вопрос - при поисковом запросе, по которому у Вас на сайте существует страница, в каком виде Вы видите результат? В каком виде отображается и индексируется УРЛ релевантной страницы? Наверняка в таком виде, в каком он отображается в карте сайта! По крайней мере, если Вы являетесь таким же приверженцем концептуального минимализма как и я - ничего лишнего не должно быть! Просто переименуйте файл htaccess.txt, создайте карту сайта, настройте файл robots.txt, обозначьте основное зеркало сайта в панелях веб-мастеров поисковых систем и закиньте туда карту сайта - всего этого будет вполне достаточно! Ах, да - если у Вы на сайте решили сделать возможность отображения одной статьи в разных категориях, то не забудьте настроить 301-й редирект. Кстати, дубли страниц в Joomla скрываются под иконками "печать", "отправить другу" и "PDF" - советую убрать отображение этих иконок в статьях, всеравно ими никто не пользуется.
А теперь, давайте перейдем к некоторым примерам, которыми я хочу аргументировать свою точку зрения.
В Joomla одна и та же страница может отображаться в различных вариантах
site.com/index.php?option=com_content&view=article&id=567
site.com/category/567-ololo.html и т.д.
Но если Вы настроили ЧПУ стандартными методами, то как я уже сказал выше, в выдаче Вы увидите статью в том виде, в каком она в карте сайта. Да и кому в голову придет искать дубль страницы в виде site.com/index.php?option=com_content&view=article&id=567 ?
Поисковые системы уже давно научились разбираться с этой проблемой, и отображают страницы в поисковой выдаче в таком виде, в каком они есть в карте сайта! Относительно SEO, если Вы организовываете наращивание внешней ссылочной массы на сайт, отображение УРЛов которого уже заранее настроено, то ссылочный вес не распределится на дубли страниц, УРЛы которых отображаются в ином виде.
Если Вы написали статью, поставили галочку "опубликовано", но не отобразили статью на сайте, то как к этому относятся поисковики? Яндекс к этому никак не относится после её полноценной публикации статья попадает в индекс. Google индексирует содержание статьи и выводит ее в выдаче без визуального вывода статьи на сайт. Но при этом в каком виде URL страницы? В конкретно моем случае, гугл вывел мою статью в виде http://kleparj.com/seo/seo-sborka-joomla-1-5 - т.е. привязал к категории блога на главной странице. После того, как я полностью опубликовал статью, т.е. вывел её в виде пункта меню, как и планировал изначально, статья стала отображаться по двум разным УРЛ http://kleparj.com/seo/seo-sborka-joomla-1-5 и http://kleparj.com/seo-sborka-joomla-1-5. Чтобы убрать первый вариант, я зашел в панель веб-мастеров и удалил ненужный мне вариант УРЛа (конфигурация сайта - доступ для сканера - удалить УРЛ). После этого, Google почему-то посчитал что мою статью следует отображать в виде http://kleparj.com/seo-sandbox/seo-sborka-joomla-1-5 - это один из пунктов меню в виде блога категории. Опять не то что мне нужно. Еще раз проделываю операцию по удалению ненужного варианта УРЛ. После этого, Google выдает мою статью в том виде, в каком хотел того я.
Как дубли страниц Joomla повлияли на позиции моей статьи в выдаче? Первый дубль был в ТОП 10 на 7-м месте по запросу "seo сборка joomla 1.5". Второй дубль был на том же месте. А вот УРЛ страницы, в виде пункта меню, сначала попал на вторую страницу выдачи, а через пару дней попал на то же 7-е место в ТОП 10.
Видите ли Вы проблему дублей страниц в Joomla в данном случае? Я - нет. Хотя бы потому что я публикую статью в админке без вывода на сайт не часто, это было аж один раз! Да и на результат выдачи по большому счету это не повлияло. А Вы часто так делаете?
Ну а если Вам сильно хочется поубирать все дубли, рекомендую прочесть замечательную статью от Анатолия facknet.ru - удаление дублей страниц в Joomla 1.5
Подытоживая все вышесказанное, хочу заметить следуещее:
- Дубли страниц нас начинают беспокоить лишь тогда, когда УРЛ отображаемой страницы в выдаче отличается от УРЛа в соответствующем пункте меню сайта.
- Правильная настройка и отображение ЧПУ может быть осуществлена встроенными возможностями движка Joomla.
- Не нужно устанавливать кучу ненужных свистоперделок на свой сайт Joomla, которые частично решая проблему дублей страниц создают новые проблемы - чем все проще, тем лучше и стабильнее!
- Если статьи могут отображаться в разных категориях, грамотно настройте 301-й редирект.
Поймите меня правильно - удалять дубли страниц Joomla важно, но нужно это делать тогда, когда Вы теряете ссылочный вес, а не потому что при в воде магических символов в виде site.com/index.php?option=com_content&view=article&id=567 статья тоже будет отображаться. В итоге, может, не так страшен черт как его малюют?
P.S. С Рождеством Вас Христовым, желаю всего хорошего в жизни, пусть рождаются и сбываются Ваши мечты
kleparj.com
Дубли страниц в Joomla как с ними бороться?
В этой статье я хочу поговорить о дублях страниц в Joomla. На эту тему написано очень много статей, но мне кажется, что стоит зафиксировать и мой взгляд на эту проблему. В этой статье я буду говорить о Joomla 3, хотя почти все советы актуальны и для Joomla 2.5.
Проблема дублей страниц в Joomla уходит глубоко в корни становления самой CMS, если быть точным, то даже не в саму Joomla, а прародителя CMS Mambo. Дело в том, что над ЧПУ (человеко-понятными URL) тогда не задумывались, а когда проблема стала актуальной и вышла Joomla 1.5, вместо того, чтоб коренным образом переработать систему ссылок, была сделана нашлепка, с которой мы имеем дело сейчас. Да на тот момент, это казалось решением проблемы, но как видим полумера выросла в глобальную проблему.
К счастью разработчики Joomla понимают, что проблема есть, но не хотят идти на радикальные меры, которые кстати предлагались сообществом. Даже был организован успешный сбор средств на новый роутер Joomla, но изменения с трудом просачиваются в основной дистрибутив Joomla.
Так что же реально делает Joomla для того, чтоб избежать дублей?
Они опять пошли по пути полумер, ввели тег canonical, который призван указать на реальную страницу Joomla. Не будем говорить о тернистом пути внедрения, отмечу лишь, что он был действительно тернист. И скажу, что этот метод действительно позволяет сократить количество дублей на сайте, но вот беда, этот метод почти не работает для компонентов Joomla, так как разработчики компонентов, должны позаботится о внедрении поддержки, корректной поддержки, а это происходит далеко не всегда. Да и если честно сам по себе тег canonical не панацея.
Если взглянуть рекомендации Google по борьбе с дублями, то первый способ, который они предлагают – это использование редиректа 301.
Об этом простом и эффективном способе я расскажу вам ниже.
По сути этот метод вам поможет сократить количество дублей в разы. В моей практике он позволял сократить дубли в 10ки раз.
Что нам для это потребуется?
Все рекомендации даны для включенного SEF Joomla.
Первое, что нам говорит Google – исключите дублирующийся домен.
Как это сделать?
Сделать переадресацию с домена www на домен без www. То есть заходим на сайт www.site.ru, а нас перенаправляет на сайт site.ru.
В файле .htaccess добавить следующее правило.
RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC] RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]Site.ru заменить на ваш домен.
Так же рекомендую добавить оба домена в google вебмастер и настроить приоритетный домен.
Теперь переходим к приятному.
Устанавливаем плагин JL No Doubles и включаем его в менеджере плагинов. Если у вас только стандартные материалы Joomla, то ничего настраивать не надо. Собственно, этот ряд не хитрых действий поможет вам радикально сократить количество дублей на сайте.
joomlaportal.ru
причины, частые ошибки и их решение.
Давайте посмотрим на эту проблему изнутри, разберемся, что это за дублирующиеся страницы.
Каждый, кто создает сайт на Joomla рано или поздно сталкивается с проблемой дубликатов страниц сайта. Давайте посмотрим на эту проблему изнутри, разберемся, что это за дублирующиеся страницы, как поисковые системы реагируют на такие страницы и как не запутаться в дубликатах страниц.
Дубликаты страниц – что это.
Дубликаты страницы – идентичные страницы, доступные по разным URL на вашем сайте. Вообще, дублирующиеся страниц – уязвимое место во многих системах управления контентом, не только в Joomla. Подобные страницы совершенно безвредны пока дело не касается их индексирования поисковыми роботами. Если вы следите за индексированием страниц своего сайта и хотите свести до минимума появление дубликатов страниц в результатах поиска, то следует хорошо продумать структуру сайта.
Ведь главная причина появления дублирующихся страниц – неправильная структура сайта. Первое, что надо продумать – иерархию категорий и пунктов меню. Если вы заранее создадите категории (которые, возможно понадобятся в будущем), то вы сможете избежать появления дубликатов страниц.
Рассмотрим эту ошибку на примере. Предположим, у вас на сайте есть категория «Новости» с подкатегориями «Политика», «Экономика» и т.д. Все публикуемые материалы вы размещаете в подкатегориях. Если вы создадите пункты меню только для дочерних категории, то материал будет иметь такой адрес:
https://website.com/politics/23-material
https://website.com/1-newsi/politics/23-material
https://website.com/1-newsi/2-politics/23-material
https://website.com/index.php?option=com_content&task=view&id=23&Itemid=1
Вариантов образования таких URL масса, и все это будут URL одной и той же страницы. Это пример того, как делать не надо. Еще одна проблема дубликатов страниц – это то, что поисковые системы индексируют технические копии документов по ссылкам «Печать», «PDF», «Поделиться с друзьями».
Когда вы только начинаете планировать свой сайт, не пожалейте времени и хорошенько продумайте его структуру, определите основные категории и подкатегории. Тогда с развитием сайта не нужно будет менять структуру, вы просто добавите дополнительные секции, если это будет необходимо. Реструктурирование уже существующего (активно развивающегося) сайта – вещь неблагодарная: займет уйму времени, да и к тому же сайт гарантированно потеряет имеющиеся позиции в списке результатов поиска (потому что многие страницы, если не все, поменяют свой адрес), что приведет к падению посещаемости.
Как поисковые системы находят дубликаты страниц?
Виновниками здесь выступают сторонние расширения и компоненты, которые разработчики активно устанавливают на свои Joomla-сайты. К примеру, модуль новостей на главной странице может выдавать различные адреса одного и того же материала. Дублирующиеся страницы можно посмотреть по карте сайта, если установлен компонент Xmap. Если ваш сайт уже проиндексирован, то найти дубликаты страниц не так уж и сложно – достаточно скопировать пару уникальных предложений со страницы и вставить этот материал в кавычках в поисковом запросе Google. Если ваш сайт еще не проиндексирован, то помочь вам может XENU (при условии, что сайт ваш не велик). XENU найдет всевозможные ссылки сайта.
Почему следует избегать дубликатов страниц?
Поисковые системы не любят и стараются не индексировать сайты с большим количеством дублирующихся страниц. Необходимость в выводе таких страниц в результатах поиска весьма сомнительна. При оптимизации страниц по ключевым словам выбираются наиболее подходящие страницы сайта и их содержимое оптимизируется. Если эти страницы имеют дупликаты, то при очередном обновлении поисковые системы могут спутать дублирующуюся страницу с основной, что приведет к резкому падению позиций и оседанию трафика.
6 способов избежать дублирующихся страниц
Каждый сайт по-своему уникален и не хотелось бы оставлять какой-то за бортом. Рассмотрим наиболее популярные методы, которые помогут в 99,9% случаях. Можете использовать любой понравившийся вариант или скомбирировать сразу несколько из них. Эти методы подойдут и для других систем управления контентом.
Все эти методы сработают, если у вас включены стандартные SEF и перенаправление URL в глобальных настройках Joomla.
1. Плагин StyleWare Content Canonical.
Этот плагин решает проблему нескольких URL одной и той же страницы. Так что если у вас есть, к примеру, страница с двумя URL component/content/article/32-something.html и something.html, оба URL будут индексироваться с одного URL (something.html).
2. Файл Robots.txt.
Этот файл входит в стандартный пакет Joomla, находится в корневой директории по адресу yourwebsite.com/robots.txt. В robots.txt прописана инструкция для поисковой системы о том, как индексировать сайт. С помощью этого файла можно отключить части сайта. Сделать это можно с помощью строки:
Disallow: /*? #каждая ссылка, содержащая символ ? не будет инфексироваться *
Лишь одна строка избавит вас от большого количества проблемных ссылок, таких как:
- материалы для печати;
- ссылка на rss-ленту;
- результаты поиска на странице сайта;
- нумерация страниц;
- а также от других проблем, в зависимости от установленных расширений;
Использовать такую строку или нет - решать вам. Помните, что слишком большой файл robots.txt считается полностью разрешающим. Следите за тем, чтобы случайно не закрыть важные страницы сайта.
3. Перенаправление 301.
Действует тогда, когда у существующих страниц поменялись URL. Подобное перенаправление прописывается в файле .htaccess. Поисковые системы будут тогда знать, что документ перемещен на другой адрес. Этот метод позволяет сохранить индексируемость и посещаемость, а также PageRank.
Перенаправление 301 также используется и для склеивания дублирующихся страниц. Например, хорошо всем известные дупликаты главной страницы Joomla-сайтов: /home или /homepage. Откройте файл .htaccess и введите там строку:
Redirect 301 /index.phphttp://site.com/
Также перенаправление 301 можно прописать в файле index.php следующим образом:
<?phpif($_SERVER['REQUEST_URI'] == '/index.php') {header("Location: /",TRUE,301);exit();}?>Ниже приведен классический пример URL сайта с и без www:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]
RewriteRule ^(.*)$ http://example.com/$1 [R=301,L]
* example.com замените на URL своего сайта.
4. Мета-тег «robots».
Еще один способ борьбы с появлением дубликатов страниц – использование мета-тега «robots»:
<meta name="robots" content="noindex"/>
Этот метод работает в Google теперь намного лучше, чем блокирующие команды в файле robots.txt.
Для того чтобы скрыть результаты поиска при использовании стандартного компонента com_search, нужно добавить в файл index.php вашего шаблона:
<?php $option = JRequest::getVar('option', null); if ($option == 'com_search') : ?> <meta name="robots" content="noindex"/> <?php endif; ?>5. Удаление URL с помощью панели вебмастера.
Для сокращения дубликатов страниц, можно удалить URL этих страниц вручную в панели веб-мастера от Google.
https://www.google.com/webmasters/tools/home?hl=en
6. Заголовки X-Robots-Tag.
Google рекомендует использовать X-Robots-Tag как альтернативу 4-му методу:
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
...
X-Robots-Tag: noindex
...
Из вышеперечисленного становится ясно, что методов борьбы с дупликатами страниц много, надо просто понимать, как каждый из них работает, чтобы выбрать наиболее подходящий вариант.
Понравилась статья? Сохраните себе на стену:
Вконтакте
Одноклассники
Google+
Ваша оценка материала очень важна для нас. Просим вас оценить статью или оставить отзыв в комментариях.wedal.ru