Здравствуйте, коллеги!
Рад встречи на моём блоге.
Сегодня я хочу рассказать Вам о дублирующих страницах.
А главное как выявить дубль страницы , которые создает WordPress.
Многие об этом и не знают. Я тоже попал в их ряды. Однажды, когда я стал проверять результаты индексирования сайта на Яндексе, и увидел URL страницы с непонятной припиской: replytocom.
Вот как это выглядело:
У меня просто отвисла челюсть, когда я увидел их количество. Ведь фактически эти страницы дублируют основные страницы, отбирая у них ссылочный вес.
Дело в том, что после атаки хакера мой сайт упал в посещениях и никак не хотел набирать посетителей. Я стал искать причины. А когда зашел на
(нажми на страницу, чтобы увеличить)
Replytocom — что это такое?
Движок WordPress позволяет устанавливать древовидные комментарии, но при этом создает копии страниц с параметром replytocom (в переводе – в ответ на комментарий). Гугл и Яндекс индексируют эти страницы, как новые, делая оригинальную статью не совсем уникальной, так как дробят её ссылочную массу.
Я стал изучать эту проблему в интернете. Многие утверждают, что после принятия мер посещаемость сайта возрастёт в 10 раз. Так мне того и надо. Но боже мой, что это? Я нахожу страницы-дубли с другими приписками:
- http://mysite.ru/tag
- ……………./page
- ……………./feed
- ……………./comments
- ……………./attachment
Как выявить дубль страницы?
Это можно посмотреть в Google.
Наберите в поисковой строке запрос site:mysite.ru/tag и поисковик предоставит Вам все страницы дубли с припиской tag. Вместо mysite укажите домен своего сайта.
Повторяя запрос и меняя приписку(page, comments, feed, attachment), Вы найдете все свои дублирующие страницы.
Теперь главная задача избавиться от этих страниц. Для этого открываю в yandex.webmaster страницу Удалить URL и по одному удаляю файлы с приписками.
Они, конечно, сразу не удаляться, но исчезнут по мере прохождения робота по вашему сайту. Однако удалять можно только те страницы, которые уже проиндексированы поисковыми системами. В противном случае необходимо запретить поисковым роботам индексировать дубль страницы немедленно.
Как запретить индексирование дубль-страниц?
Как вы знаете (или нет) есть такой файл robots.txt, читая который робот выполняет те работы, которые ему разрешены.
Поэтому нужно внести в этот файл запрет на обращение поисковиков к дубль страницам с различными приписками. Смотрите на скриншоте ниже как это можно сделать:
Не забудьте сделать копию файла robots.txt, только после этого можно производить в нем изменения. Изменив файл, сохраните изменения и закачайте файл на хостинг.
Сколько ждать до десятикратного увеличения посещаемости сайта не знаю. Например, у меня посещаемость в течение месяца не увеличилась ни на йоту.
Я не хочу сказать, что работу по удалению дублирующих страниц не надо делать. Надо и обязательно. А вот на счет увеличения посещаемости у меня пока сомнения. Но поживем увидим.
Теперь вам известно как выявить дубль страницы на сайте и как запретить их индексирование.
На сегодня у меня всё.
Встретимся в статье «Дубли изображений».
Пока.
С уважением, Николай Иванов.
ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ ИЛИ ЗАДАЙТЕ ВОПРОС. ПОСТАРАЮСЬ ОТВЕТИТЬ.