Составляем правильный Robots.txt для CMS WordPress (ВордПресс)

Составляем правильный Robots.txt для CMS WordPress (ВордПресс)Для раскрутки и поисковой оптимизации сайтов сайтов важно создавать правильный robots txt для Яндекса и Google. Запрет и разрешение индексации можно задать в Robots.txt, тем самым исключить дубли страниц, которые негативно сказываются при продвижении сайта и при определенных условиях могут быть жесткие санкции со стороны поисковиков. Поэтому уделим внимание как сделать robots txt для wordpress.

В этой статье поговорим как составить robots txt так, чтобы не было никаких дублей для поисковых систем. Откуда появляются дубли? К примеру Вы используете метки (теги) на своем сайте, нажав на которые выводиться статьи, которые отображаются в основной ленте сайта, это дубли. Также дубли идут при наличии архива статей и новостей на сайте и т.д. От них нужно избавляться, потому как поисковикам не нравятся дубляжи страниц. Можете почитать недавнюю статью Пессимизация сайта ВордПресс за отсутствие файла Robots.txt, к которой рассказывется, как на одном клиентском сайте, резко возросто количество новых страниц и дубляжей. Благо этот сайт у меня был в панели вебмастерс и я вовремя все исправил. Так же там приведен пример как проверять robots txt онлайн.

 

Немного о Robots.txt

Если в двух словах рассказать про Robots.txt, он находиться на сервере, в главной папке сайта и предназначен он для роботов Яндекса, Гугла и других поисковых систем. В нем вебмастер может указывать параметры индексирования (что индексировать, а что не индексировать) на своем сайте. Параметры можно задавать для всех поисковых машин, используя директиву “User-agent: *” и для каждой поисковой системы в отдельности “User-agent: Yandex”.

Основными директивами является

  • Disallow: – запретить к индексации
  • Allow: – разрешить к индексации
  • Host: – задается главное зеркало сайта
  • Sitemap: – указывает, где находиться карта сайта, в формате sitemaps.xml

Есть и другие директивы, но нам в этой статье будет достаточно и их. Символ “*” означает любую последовательность символов, в том числе и пустую.

К примеру у меня на сайте, хоть он и не на WordPress, тоже присутствует robots.txt, он находиться по адресу ageta.ru/robots.txt. Если у Вас есть этот файл, то в него нужно будет дописать необходимые параметры, если нет то создать его и перенести в папку с сайтом.

 

Составляем правильный Robots.txt для WordPress (Водрдпресс)

Каждый составляет Robots.txt по своему, это зависит и от целей и от взглядов самого вебмастера. Я Вам приведу пример своего Robots.txt, а Вы сами решите использовать его или нет. Если не разбираетесь или не хотите разбираться, то можете сразу перейти к главе с готовым Robots и скопировать его себе на сайт и пропустить эту главу.

 

Закрываем системные папки

Одно из самых главных, это нужно закрыть от индексирования системные папки ВордПресс, для этого пишем:

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Почему мы в последних трех строках указывали, конкретные папки, вместо одной директивы Disallow: /wp-content/, потому что есть папка wp-content/uploads, в которой хранятся фотографии статей, которые бы хорошо индексировать, с них тоже можно получить трафик, тем более если они уникальные. Можно конечно использовать так:

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Allow: /wp-content/uploads/

Не имеет разницы, в любом случае робот поисковой системы отработает корректно.

 

Закрываем от индексации страницы регистрации и авторизации

Зачем индексировать страницы с регистрацией и авторизацией, ведь таких дублей очень много в интернете. Поэтому лучше их запретить от индексации:

Disallow: /wp-login.php

Disallow: /wp-register.php

 

Закрываем от индексации RSS ленту, trackback и комментарии

Нет смысла индексировать RSS ленту, создавать бессмысленные дубли страниц, а также страницы Trackback. Если много комментариев на сайте, то создаются дубли с основным контентом статьи, нам это не нужно и мы тоже закрываем от индексации:

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: */comment-page

 

Закрываем от индексации метки, архивы и прочий мусор

Если Вы используете на сайте метки и архивы статей, то это опять дублирование, лучше закрыть от индексации

Disallow: /20*/*

Disallow: /tag/*

Disallow: /*?

Запрет индексации “/20*/*” запретит индексировать архивы статей, которые имеют вид ageta.ru/2012/06, ageta.ru/2011/05, ageta.ru/2010/03

“Disallow: /*?” – часто используется как дополнительный параметр, в основном это всяческий мусор.

 

Что можно еще закрыть от индексации

Да все что угодно. Но некоторые закрывают от индексации страницы категорий и страницы просмотра главной ленты. Если хотите, то добавьте:

Disallow: /page/

Disallow: /category/*/

Disallow: /cgi-bin

Лично я не люблю закрывать их от индексации, они тоже создают дубли страниц, но не 100%, если конечно же вы не выводите статью полностью. Если Вы продаете или намереваетесь продавать ссылки в биржах, то может имеет смысл не закрывать дополнительные страницы от индексации. Но тут учтите, что если у Вас на сайте появиться много частичных дулей в совокупности с резким и большим приростом исходящих ссылок на Вас могут наложить санкции поисковые системы, вплоть до исключения из индекса (АГС).

Иногда хостингах создаются папки “cgi-bin”, их можно тоже закрыть от индексации, но я их удаляю. Возможно у Вас есть еще что то что нужно закрыть в роботс, это бывает не так часто и тут нужен индивидуальный подход. Может это специальная навигация у Вас или какой то плагин создает дополнительные страницы. Некоторые создают отдельный robots для Яндекса и других поисковых систем. Смотрите сами, можете и так сделать, только не забывайте, что в этом случае все что написано в “User-agent: *” будет яндексом  проигнорировано, потому что есть директива “User-agent: Yandex”

 

Указываем главное зеркало сайта и ссылку на файл sitemap

Не забываем указывать ссылку на карту сайта (если она у Вас есть), тем самым поисковые системы составят правильную структуру сайта и будут видеть новые статьи на вашем сайте и указать главное зеркало Вашего сайта.

Host: ageta.ru (или www.ageta.ru) Sitemap: http://ageta.ru/sitemap.xml
 
 

Готовый правильный Robots.txt для ВордПресс

Создаем на рабочем столе txt файл, называем его Robots.txt и вставляем ниже приведённый текст. Обязательно переименовываем, то что выделено красным. Если не знаете что писать, то лучше не добавляйте эти строки
 

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Allow: /wp-content/uploads

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: */feed

Disallow: /trackback

Disallow: */trackback

Disallow: */comments

Disallow: */comment-page

Disallow: /20*/*

Disallow: /tag/

Disallow: /*?

 

Host: ageta.ru (или www.ageta.ru)

Sitemap: http://ageta.ru/sitemap.xml

 

Сохраняем файл и переносим в папку с сайтом на хостинг.

Если хотите, что либо дополнить или привести свой способ robots.txt, пишите в комментариях.

 

Если Вы задались вопросом не только создания правильного Robots.txt, но и покупки хостинга для своего сайта. То можете обратить свое внимание на хостинг провайдера e-planet. Можете купить, арендовать хостинг, а также зарегистрировать доменное имя.

2 комментария
  1. Владислав:

    Интересная задумка с архивом

  2. Дамир:

    Здравствуйте! А, как закрыть от индексации страницы с товарами + категории в joomshopping? Вопрос звучит, конечно, странно, но есть такая необходимость. Хотим ликвидировать старый сайт и запустить новый с одинаковым контентом…

Поделитесь своим мнением
Для оформления сообщений Вы можете использовать следующие тэги:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>