Статьи

Как найти дубли страниц на сайте

Опубликовано: 01.09.2018

видео Как найти дубли страниц на сайте

Как найти и исправить дубли страниц

Удивительная статистика, 9 из 10 сайтов, которые заказывают seo аудит имеют общую ошибку, а именно дубли страниц в индексе, либо пустые страницы. Такие страницы образуются благодаря особенностям CMS (двигателя сайта). И если они попадают в поисковую выдачу, тем самым снижают важность основных страниц и являются причиной плохой выдачи сайта.


Поисковая оптимизация сайта: ищем дубли страниц

В этой статье мы разберемся как найти дубли страниц на сайте , почему они возникают и как с ними бороться? Ведь удаление дублей страниц является обязательной процедурой, если вы хотите продвинуть свой сайт в топ. Поэтому если вы даже уверены, что у вас нет дублей, не поленитесь и проверьте!

Как найти и убрать дубли страниц сайта

Распространенные ошибки

Каждая из CMS имеет множество настроек, где можно указывать, как именно должна быть доступна главная страница. Конечно эти настройки касаются так же и файла htaccess . Посмотрите на картинку выше и проверьте, доступна ли ваша главная страница по дополнительным URL. По идее должен быть настроен 301 редирект на главную, либо выводиться ошибка 404.

Пагинация страниц

Так же частой ошибкой можно назвать попадание в поиск страниц имеющие пагинацию (нумерация страниц). У меня на блоге эта нумерация статей и для каждой страницы выводится дополнительный url путь: page/2, page/3 и тд. И таких страниц в индекс поисковиков может залететь тысячи, что является ошибкой.

Но еще хуже если интернет магазин делает разбивку товаров по страницам по 20-40 штук, когда у него на одну страницу может приходиться по 1 000 товаров. Я считаю лучший выход из такой ситуации, это поставить прокрутку товаров. Да и самим пользователям удобнее, когда товары подгружаются ниже, а не нужно переходить на следующие страницы.

Feed — Новостная лента

В блогах, интернет-журналах и некоторых CMS есть такое дополнение, как автоматическое формирование ленты новостей (feed). Как правило это анонсы статей, которые полностью повторяют структуру сайта. И такие страницы иногда попадают в индекс быстрее, чем основные. Это может увеличить в 2 раза страниц Яндексе, где будет одинаковый контент.

Решается эта проблема достаточно просто. В файле robots.txt нужно добавить строчку Disallow: /feed .

Профили и комментарии

Если на сайте есть регистрации с личным кабинетом, который не доступен для других, то он может так же спокойно попасть в индекс. Примерно с такими url:/?profile227. Иногда достаточно сделать автоматический 301 редирект на главную, что бы избавиться от дублей. Но если это не помогает, то можно на время поставить в robots.txt строчку: Disallow: /? .

С комментариями на сайте может приключиться такая же проблема, каждый из комментариев имеет свой id и для каждого из них формируется url. И если комментарии не древовидного типа и стоят ссылки на эти комментарии, то они могут проиндексироваться в поиске как отдельная страница с контентом! Мне лично помог robots.txt, добавил строчку: Disallow /comment (для вас возможна другая строчка). Либо ссылки в теги noindex, nofollow.

Основные способы поиска дублей страниц сайта

Если же у вас нету стандартных ошибок, то приступим к поиску дублей страниц сайта. Ведь все равно остается шанс, что у вас найдутся дубли страниц.

1. Вебмастер Google

Если вы до сих пор не добавили сайт в вебмастер Google,то рекомендую сделать это прямо сейчас. Поскольку в Гугл удобно отслеживать индексацию страниц, анализировать дубли, удалять страницы из индекса и быстро вносить новые. А так же считаю полезным, залить свой файл robots.

2. Программа Xenu

Xenu — это бесплатная программа для оптимизация сайта. Она отлично сканирует все страницы и файлы, которые находятся на сайте, после чего показывает битые ссылки, дубликаты страниц и отлично помогает в перелинковке сайта . В общем советую программу, которая отлично помогает для продвижения сайта в Яндекс и Google.

3. Поисковая выдача

Иногда достаточно посмотреть поисковую выдачу и просто полистать страницы. Что бы увидеть, какие лишние страницы попали в индекс. Такая практика так же помогает понять, где на сайте плохо сформировались title и description. Но если вам тяжело листать выдачу и искать дубли, то можно воспользоваться онлайн сервисами « проверки уникальности «.

Лично я использую для эти целей Content-watch.ru , где можно не только узнать, какие из страниц дублируются, но и насколько уникальный у вас контент относительно других. Если ниже 70%, то рекомендую поднять результат, это так же положительно скажется для seo. Информация конечно не новая, но надеюсь теперь вы знаете как найти дубли страниц сайта без использования seo аудита.

2011.11.19
Карта
rss