«

»

Авг 20 2014

Как выявить дубль страницы

Маленький человек может сделать многое.


Дубли страниц на wordpress
Здравствуйте, коллеги!

Рад встречи на моём блоге.

Сегодня я хочу рассказать Вам о дублирующих страницах.

А главное как выявить дубль страницы , которые создает WordPress.

Многие об этом и не знают. Я тоже попал в их ряды. Однажды, когда я стал проверять результаты индексирования сайта на Яндексе, и увидел URL страницы с непонятной припиской: replytocom.

Вот как это выглядело:

Дуль страницы

У меня просто отвисла челюсть, когда я увидел их количество. Ведь фактически эти страницы дублируют основные страницы, отбирая у них ссылочный вес.

Дело в том, что после атаки хакера мой сайт упал в посещениях и никак не хотел набирать посетителей. Я стал искать причины. А когда зашел на Yandex.webmaster, чтобы проверить индексацию, обнаружил 297 дублей страниц.
(нажми на страницу, чтобы увеличить)Количество дубль страниц

Replytocom — что это такое?

Движок WordPress позволяет устанавливать древовидные комментарии, но при этом создает копии страниц с параметром replytocom (в переводе – в ответ на комментарий). Гугл и Яндекс индексируют эти страницы, как новые, делая оригинальную статью не совсем уникальной, так как дробят её ссылочную массу.

Я стал изучать эту проблему в интернете. Многие утверждают, что после принятия мер посещаемость сайта возрастёт в 10 раз. Так мне того и надо. Но боже мой, что это? Я нахожу страницы-дубли с другими приписками:

  • http://mysite.ru/tag
  • ……………./page
  • ……………./feed
  • ……………./comments
  • ……………./attachment

 

Как выявить дубль страницы?

Это можно посмотреть в Google.
Поисковая строка Google
Наберите в поисковой строке запрос site:mysite.ru/tag и поисковик предоставит Вам все страницы дубли с припиской tag. Вместо mysite укажите домен своего сайта.

Повторяя запрос и меняя приписку(page, comments, feed, attachment), Вы найдете все свои дублирующие страницы.

Теперь главная задача избавиться от этих страниц. Для этого открываю в yandex.webmaster страницу Удалить URL и по одному удаляю файлы с приписками.

Они, конечно, сразу не удаляться, но исчезнут по мере прохождения робота по вашему сайту. Однако удалять можно только те страницы, которые уже проиндексированы поисковыми системами. В противном случае необходимо запретить поисковым роботам индексировать дубль страницы немедленно.

Как запретить индексирование дубль-страниц?

Как вы знаете (или нет) есть такой файл robots.txt, читая который робот выполняет те работы, которые ему разрешены.

Поэтому нужно внести в этот файл запрет на обращение поисковиков к дубль страницам с различными приписками. Смотрите на скриншоте ниже как это можно сделать:                                                                                                 

Копия рабочего файла robots.txt

Не забудьте сделать копию файла robots.txt, только после этого можно производить в нем изменения. Изменив файл, сохраните изменения и закачайте файл на хостинг.

Сколько ждать до десятикратного увеличения посещаемости сайта не знаю. Например, у меня посещаемость в течение месяца не увеличилась ни на йоту.

Я не хочу сказать, что работу по удалению дублирующих страниц не надо делать. Надо и обязательно. А вот на счет увеличения посещаемости у меня пока сомнения. Но поживем увидим.

Теперь вам известно как выявить дубль страницы на сайте и как запретить их индексирование.

На сегодня у меня всё.

Встретимся в  статье «Дубли изображений».

Пока.

С уважением, Николай Иванов.

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ ИЛИ ЗАДАЙТЕ ВОПРОС. ПОСТАРАЮСЬ ОТВЕТИТЬ.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *