Где лежит robots txt wordpress: Где находится файл robots.txt? | WordPress.org Русский – Robots.txt для сайта WordPress — правильный файл роботс

Содержание

как создать правильный файл robots txt для wordpress

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Начальная оптимизация начинается всегда с роботс потому, что это самый быстрый и дешевый способ устранить все косяки на проекте и направить индексацию сайта поисковыми системами в нужном направлении.

Пример, где должен лежать robots:


http://адрес_сайта/robots.txt

Правильный robots.txt для WordPress


User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: */feed
Disallow: /*?*
Disallow: /20*/*

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

 

Дополнения к роботс

Если у вас меньше трех авторов, или в шаблоне не предусмотрена страница автора, то обязательно добавьте эту строчку в ваш robots.txt

  • Когда авторов более трех, то закрывать эти страницы ненужно, так как это будет служить дополнительным распределением веса межу страницами, а вот если их меньше — возникает опасность, дублированного контента, так как страницы авторов будут схожи с главной страницей или страницами разделов.
  • Еще возникает проблема, когда в шаблоне нет ссылки на страницу автора, страница может попасть в индекс, но не не будет участвовать в общей перелинковке и поисковые системы сочтут ее некачетвенной и ничего хорошего это сайту точно не даст

Disallow: /author

В случае, если главная страница у вас на сайте является «страница», а не лента записей — то нужно добавить обязательно эту строчку в ваш robots.txt — иначе одинаковый контент будет на двух странцах


Disallow: /page/*

 

Разъяснения по роботс

Эти строчки закрывают технические страницы — эо делается больше для подстраховки, так как поисковые системы и так не индексируют эти страницы, если сервер правильно настроен


Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/

Трекбэки — это уведомления, которые приходят на страницу вашего сайта в комментарии, когда кто либо на каком то другом сайте поставил на вашу страницу ссылку. Полезного для поисковых систем в этом ничего нет, так что стоит их закрыть


Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback

Редко, но встречаются дубли страниц в RSS и попадают в индекс из-за установленных плагинов.


Disallow: */*/feed
Disallow: */feed

Результаты поиска всегда нужно закрывать: поисковые системы считают это мусорными страницами. Сами они никогда не войдут в индекс, но если на них кто-то поставит ссылку, то это не исключено.


Disallow: /*?*

WordPress по старинке популярен как блоговый движок и некоторые блоггеры выводят архивы записей, а не качественно сделанный шаблон будет генерировать дубли архивных записей — так что стоит предостиречься и закрыть их от индексации


Disallow: /20*/*

Карта сайта для поисковых систем или любых других ботов, которых в cети сейчас десятки уже


Sitemap: http://site.ru/sitemap.xml

Host и Sitemap являются межсекционными директивами, которые можно использовать в любом месте в роботс. Мы разделяем их пробелом в общем роботс, чтобы другие боты не посчитали наш файл ошибочным.

 

Настройка роботс

Настроить robots txt для WordPress можно 2 способами:

  1. с помощью любого ftp редактора: Total Commander, FileZilla, CuteFTP, WinSCP, FlashFXP, SmartFTP, Core FTP;
  2. с помощью плагинов.

 

Плагины WordPress для настройки robotstxt

Узко функциональные плагины, которые позволяют работать только с роботс
WP Robots Txt
WordPress Meta Robots

Комплексные SEO плагины для WordPress
SEO Ultimate — один из старейших плагинов
WordPress SEO by Yoast — самый популярный плагин по количеству установок
SemanticWP SEO — мы намучались с бесплатными версиями и разработали свой плагин

Правильный файл robots.txt для WordPress

robots.txt является файлом, специально предназначенным для поисковых систем. В нем указывается, какие части сайта нужно выдавать в поиске, а какие нет. Важность robots.txt неоценима, так как он позволяет нацелить поисковую систему на попадание нужного контента сайта в выдаче результатов. Например, при запросе в Гугле “купить стиральную машину” конечному покупателю незачем попадать на страницу администрирования магазина. В этом случае несомненно важно будет пользователю перейти сразу в раздел “Стиральные машины”.

Как добавить robots.txt на сайт?

Если Вы используете плагин Clearfy Pro – просто выставьте галочку напротив Создать правильный robots.txt в разделе SEO на странице настроек плагина. Ничего вставлять из этой статьи Вам не нужно, все реализовано в плагине.

Добавить файл можно несколькими способами. Наиболее удобный для пользователя – по FTP. Для этого необходимо создать сам файл robots.txt. Затем, воспользовавшись одним из FTP-клиентов (например, FileZilla), загрузить robots.txt в корневую папку сайта (рядом с файлами wp-config.php, wp-settings.php) Следует отметить, что перед загрузкой файла нужно узнать у Вашей хостинг-компании IP-адрес, за которым закреплен Ваш сайт, имя FTP-пользователя и пароль.

Где находится robots.txt

После успешной загрузки robots.txt, перейдя по адресу http://sitename.com/robots.txt, Вы сможете посмотреть актуальное состояние файла.

Важным является тот факт, что, изменив файл robots.txt, вы не сразу заметите результаты. Для этого может понадобится от одного до нескольких месяцев (это зависит от поисковой системы). Правильным вариантом является составление корректного файла уже на стадии разработки сайта.

Пример корректного robots.txt

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Host: sitename.com

** Вместо sitename.com следует указать название Вашего сайта

Плагины для robots.txt

Для облегчения создания robots.txt в WordPress существуют специальные плагины. Некоторые из них: WordPress Robots.txt File, DL Robots.txt, Yoast SEO.

Рассмотрим создание файла robots.txt на примере одного из самых мощных SEO-плагинов Yoast SEO.

После установки и активации плагина необходимо в админ-панели выбрать пункт SEO->Консоль. На вкладке Возможности перейти в раздел Дополнительные настройки страницы, передвинуть ползунок в состояние Включено и сохранить изменения. В админ-панели появятся несколько дополнительных пунктов. Далее необходимо перейти по пункту SEO->Инструменты, где выбрать Редактор файлов. Далее на странице редактора необходимо нажать на кнопку Создать файл robots.txt, в редакторе вставить вышеописанный код и нажать Сохранить изменения в robots.txt.

Создание robots.txt в Yoast SEO

Нажмите, пожалуйста, на одну из кнопок, чтобы узнать понравилась статья или нет.

Мне нравитсяНе нравится

Если Вам понравилась статья — поделитесь с друзьями

Правильный robots.txt для wordpress: Яндекс и Google

Привет, читатель блога GuideComputer! У меня хорошая новость, я наконец-то разобрался как правильно составить robots.txt. Всех заинтересованных прошу незамедлительно пройти к чтению статьи:

Начну с того, что лет 7 назад я создавал сайты на Ucoz, а затем на Joomla. В поисковой выдаче всегда творился ад – дубли, дубли и служебные страницы… Позже я узнал, можно говорить поисковикам, что нужно индексировать и добавлять в поисковую выдачу, а что нельзя с помощью robots.txt.

Что такое robots.txt?

Роботс (на русский манер) – это текстовый файл, дающий рекомендации поисковым роботам : какие страницы/файлы стоит сканировать.

Где лежит robots.txt в wordpress?

Находится файл в корневой папке сайта и располагается по адресу site.ru/robots.txt. Кстати, таким образом вы можете посмотреть роботс не только моего веб-ресураса, но и любого другого.

Сейчас я покажу пример правильного robots.txt для сайта на WordPress:

правильный код

Строки выше необходимо скопировать, вставить в текстовый документ, сохранить с именем robots.txt и загрузить в корневую папку сайта. К сожалению, из-за популярности кода, мне пришлось его вставить в виде картинки, иначе уникальность статьи падает до 45%.

Не расстраивайтесь, что вам придется переписывать вручную, я приготовил файл, в котором нужно поменять всего две строчки. Написать название своего ресурса и расположение карты sitemap.xml – Загрузить robots.txt.

Для тех, кому вышесказанное показалось сложным существует более простое решение! Если на вашем сайте установлен плагин Yoast Seo, то существует возможность создать robots.txt прямо из админ панели WordPress. Показываю как:

Заходим в настройки плагина, открываем вкладку инструменты:

вкладка инструменты в плагине yoast seo

Открываем редактор файлов.

редактор файлов

Вставляем код, который вы загрузили выше, и не забываем сохранить!

редактирование содержимого файла

Ниже находится файл .htaccess – без знаний что это такое советую туда не лезть. С этим файлом нужно обращаться очень осторожно, потому что изменения могут привести к ошибкам, в следствии которых сайт может перестать загружаться.

Синтаксис

Особо не стоит заморачиваться над синтаксисом файла, поэтому я расскажу лишь об основных частях кода.

User-agent: – данное выражение отвечает для каких поисковых роботов будут применяться правила. Например, * – обозначается для всех, Yandex – для Яндекса, Googlebot – для Гугл робота.

Disallow – выражение, отвечает за запрет индексирования разделов. Если вы не хотите дублей или технических страниц в поиске, то таким образом можете запретить доступ. Например, вот таким образом Disallow: /tag я не разрешаю индексирование тегов.

Host – данное выражение отвечает за главное зеркало сайта. Учтите, что http, https, www и без – это 4 разных варианта. Необходимо выбрать только один и именно его прописать в роботс.

Sitemap – данное выражение задает адрес по которому располагается карта сайта. На моем веб-ресурсе она создана автоматически с помощью плагина Yoast Seo.

Впервые слышишь о карте сайта? – Читай, что такое sitemap и как его создать для wordpress.

Проблемы без ЧПУ

Я уже рассказывал о важности настройки ЧПУ WordPress для сайта. Этот раздел посвящен тем, кто проигнорировал мои рекомендации:

Без ЧПУ ссылки сайта выглядят следующим образом – guidecomputer.ru/?p=123. Строчка Disallow: /*?* запрещает индексирование статей, поэтому её необходимо удалить. Для невнимательных, в коде выше она встречается 2 раза.

Проверка robots.txt

Чтобы проверить правильность составленного файла – необходимо провести анализ. Для этого существуют два наиболее популярных инструмента:

Проверка robots.txt в Яндекс вебмастере или с помощью инструментов Google. ( Если вы еще не зарегистрировались в сервисах для Вебмастеров – советую это сделать незамедлительно. )

Я покажу как воспользоваться обеими вариантами, выбирайте сами какой больше нравиться. А еще лучше воспользуйтесь каждым, тем более это не займет больше пары минут.

Проверка с помощью Яндекс Вебмастера

Заходим в инструменты в левом меню,  и выбираем первый пункт Анализ robots.txt:

Инструменты Яндекса для сайтов

Добавляем ссылку на проверяемый сайт, нажимаем кнопку загрузки,  а затем проверить.

проверка сайтов

Немного ждем и смотрим Результаты анализа, в моем случае 0 ошибок.

Проверка с помощью Search Console

Заходим в Сканирование, выбираем раздел инструменты проверки файла:

google инструменты проверки файла

Вставляем robots.txt и кликаем отправить.

проверка

В 3-ем пункте выбираем отправить и смотрим на количество ошибок.

запрос на обновление

Заключение

Не стоит откладывать с применением вышесказанного: настройка robots.txt – это одно из важнейших первичных действий при создании веб-ресурса.  Значительность которого можно сравнить с дверями вашего дома, которые оберегают от непрошеных гостей и обеспечивает безопасность.

После того, как построен каркас дома ставят двери. Так же должно происходить с сайтом – покупка домена и хостинга, установка CMS WordPress, а затем роботс.

Надеюсь, что раскрыл все моменты связанные с правильной настройкой файла robots.txt для wordpress. Но если у вас остались вопросы, с удовольствием отвечу – Добро пожаловать в комментарии!

Правильный Robots.txt для WordPress

Всем привет! Сегодня статья о том, каким должен быть правильный файл robots.txt для WordPress. С функциями и предназначением robots.txt мы разбирались несколько дней назад, а сейчас разберём конкретный пример для ВордПресс.

Файл robots.txt для вордпресс

С помощью этого файла у нас есть возможность задать основные правила индексации для различных поисковых систем, а также назначить права доступа для отдельных поисковых ботов. На примере я разберу как составить правильный robots.txt для WordPress. За основу возьму две основные поисковые системы — Яндекс и Google.

В узких кругах вебмастеров можно столкнуться с мнением, что для Яндекса необходимо составлять отдельную секцию, обращаясь к нему по User-agent: Yandex. Давайте вместе разберёмся, на чём основаны эти убеждения.

Яндекс поддерживает директивы Clean-param и Host, о которых Google ничего не знает и не использует при обходе.

Разумно использовать их только для Yandex, но есть нюанс — это межсекционные директивы, которые допустимо размещать в любом месте файла, а Гугл просто не станет их учитывать. В таком случае, если правила индексации совпадают для обеих поисковых систем, то вполне достаточно использовать User-agent: * для всех поисковых роботов.

При обращении к роботам по User-agent важно помнить, что чтение и обработка файла происходит сверху вниз, поэтому используя User-agent: Yandex или User-agent: Googlebot необходимо размещать эти секции в начале файла.

Пример Robots.txt для WordPress

Сразу хочу предупредить: не существует идеального файла, который подойдет абсолютно всем сайтам, работающим на ВордПресс! Не идите на поводу, слепо копируя содержимое файла без проведения анализа под ваш конкретный случай! Многое зависит от выбранных настроек постоянных ссылок, структуры сайта и даже установленных плагинов. Я рассматриваю пример, когда используется ЧПУ и постоянные ссылки вида /%postname%/.

Файл robots

WordPress, как и любая система управления контентом, имеет свои административные ресурсы, каталоги администрирования и прочее, что не должно попасть в индекс поисковых систем. Для защиты таких страниц от доступа необходимо запретить их индексацию в данном файле следующими строками:

Disallow: /cgi-bin
Disallow: /wp-

Директива во второй строке закроет доступ по всем каталогам, начинающимся на

/wp-, в их число входят:

  • wp-admin
  • wp-content
  • wp-includes

Но мы знаем, что изображения по умолчанию загружаются в папку uploads, которая находится внутри каталога wp-content. Разрешим их индексацию строкой:

Allow: */uploads

Служебные файлы закрыли, переходим к исключению дублей с основным содержимым, которые снижают уникальность контента в пределах одного домена и увеличивают вероятность наложения на сайт фильтра со стороны ПС. К дублям относятся страницы категорий, авторов, тегов, RSS-фидов, а также постраничная навигация, трекбеки и отдельные страницы с комментариями. Обязательно запрещаем их индексацию:

Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: */trackback
Disallow: */comments

Далее хотелось бы уделить особое внимание такому аспекту как постоянные ссылки. Если вы используете ЧПУ, то страницы содержащие в URL знаки вопроса зачастую являются «лишними» и опять же дублируют основной контент. Такие страницы с параметрами следует запрещать аналогичным образом:

Disallow: */?

Это правило распространяется на простые постоянные ссылки ?p=1, страницы с поисковыми запросами ?s= и другими параметрами. Ещё одной проблемой могут стать страницы архивов, содержащие в URL год, месяц. На самом деле их очень просто закрыть, используя маску 20*, тем самым запрещая индексирование архивов по годам:

Disallow: /20*

Для ускорения и полноты индексации добавим путь к расположению карты сайта. Робот обработает файл и при следующем посещении сайта будет его использовать для приоритетного обхода страниц.

Sitemap: https:

В файле robots.txt можно разместить дополнительную информацию для роботов, повышающую качество индексации. Среди них директива

Host — указывает на главное зеркало для Яндекса:

Host: webliberty.ru

При работе сайта по HTTPS необходимо указать протокол:

Host: https:

С 20 марта 2018 года Яндекс официально прекратил поддержку директивы Host. Её можно удалить из robots.txt, а если оставить, то робот её просто игнорирует.

Подводя итог, я объединил всё выше сказанное воедино и получил содержимое файла robots.txt для WordPress, который использую уже несколько лет и при этом в индексе нет дублей:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: /20*
Disallow: */trackback
Disallow: */comments
Disallow: */?
Allow: */uploads
 
Sitemap: https:

Постоянно следите за ходом индексации и вовремя корректируйте файл в случае появления дублей.

От того правильно или нет составлен файл зависит очень многое, поэтому обратите особо пристальное внимание к его составлению, чтобы поисковики быстро и качественно индексировали сайт. Если у вас возникли вопросы — задавайте, с удовольствием отвечу!

Делаем правильный файл Robots.txt для WordPress

Приветствую вас, друзья. Сегодня я покажу как сделать правильный файл Robots.txt для WordPress блога. Файл Robots является ключевым элементом внутренней оптимизации сайта, так как выступает в роли гида-проводника для поисковых систем, посещающих ваш ресурс – показывает, что нужно включать в поисковый индекс, а что нет.

Содержание:

Само название файла robots.txt подсказываем нам, что он предназначен для роботов, а не для людей. В статье о том, как работают поисковые системы, я описывал алгоритм их работы, если не читали, рекомендую ознакомиться.

Зачем нужен файл robots.txt

Представьте себе, что ваш сайт – это дом. В каждом доме есть разные служебные помещения, типа котельной, кладовки, погреба, в некоторых комнатах есть потаенные уголки (сейф). Все эти тайные пространства гостям видеть не нужно, они предназначены только для хозяев.

Аналогичным образом, каждый сайт имеет свои служебные помещения (разделы), а поисковые роботы – это гости. Так вот, задача правильного robots.txt – закрыть на ключик все служебные разделы сайта и пригласить поисковые системы только в те блоки, которые созданы для внешнего мира.

Примерами таких служебных зон являются – админка сайта, папки с темами оформления, скриптами и т.д.

Вторая функция этого файла – это избавление поисковой выдачи от дублированного контента. Если говорить о WordPress, то, часто, мы можем по разным URL находить одни и те же статьи или их части. Допустим, анонсы статей в разделах с архивами и рубриках идентичны друг другу (только комбинации разные), а страница автора обычного блога на 100% копирует весь контент.

Поисковики интернета могут просто запутаться во всем многообразии таких страниц и неверно понять – что нужно показывать в поисковой выдаче. Закрыв одни разделы, и открыв другие, мы дадим однозначную рекомендацию роботам по правильной индексации сайта, и в поиске окажутся те страницы, которые мы задумывали для пользователей.

Если у вас нет правильно настроенного файла Robots.txt, то возможны 2 варианта:

1. В выдачу попадет каша из всевозможных страниц с сомнительной релевантностью и низкой уникальностью.

2. Поисковик посчитает кашей весь ваш сайт и наложит на него санкции, удалив из выдачи весь сайт или отдельные его части.

Есть у него еще пара функций, о них я расскажу по ходу.

Принцип работы файла robots

Работа файла строится всего на 3-х элементах:

  • Выбор поискового робота
  • Запрет на индексацию разделов
  • Разрешение индексации разделов

1. Как указать поискового робота

С помощью директивы User-agent прописывается имя робота, для которого будут действовать следующие за ней правила. Она используется вот в таком формате:

User-agent: * # для всех роботов
User-agent: имя робота # для конкретного робота

После символа «#» пишутся комментарии, в обработке они не участвуют.

Таким образом, для разных поисковых систем и роботов могут быть заданы разные правила.

Основные роботы, на которые стоит ориентироваться – это yandex и googlebot, они представляют соответствующие поисковики.

2. Как запретить индексацию в Robots.txt

Запрет индексации осуществляется в помощью директивы Disallow. После нее прописывается раздел или элемент сайта, который не должен попадать в поиск. Указывать можно как конкретные папки и документы, так и разделы с определенными признаками.

Если после этой директивы не указать ничего, то робот посчитает, что запретов нет.

Disallow: #запретов нет

Для запрета файлов указываем путь относительного домена.

Disallow: /zapretniy.php #запрет к индексации файла zapretniy.php

Запрет разделов осуществляется аналогичным образом.

Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta

Если нам нужно запретить разные разделы и страницы, содержащие одинаковые признаки, то используем символ «*». Звездочка означает, что на ее месте могут быть любые символы (любые разделы, любой степени вложенности).

Disallow: */*test #будут закрыты все страницы, в адресе которых содержится test

Обратите внимание, что на конце правила звездочка не ставится, считается, что она там есть всегда. Отменить ее можно с помощью знака «$»

Disallow: */*test$ #запрет к индексации всех страниц, оканчивающихся на test

Выражения можно комбинировать, например:

Disallow: /test/*.pdf$ #закрывает все pdf файлы в разделе /test/ и его подразделах.

3. Как разрешить индексацию в Robots.txt

По-умолчанию, все разделы сайта открыты для поисковых роботов. Директива, разрешающая индексацию нужна в тех случаях, когда вам необходимо открыть какой-либо кусочек из блока закрытого директивой disallow.

Для открытия служит директива Allow. К ней применяются те же самые атрибуты. Пример работы может выглядеть вот так:

User-agent: * # для всех роботов
Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta
Allow: *.pdf$ #разрешает индексировать pdf файлы, даже в разделе /razdel-sajta

Теорию мы изучили, переходим к практике.

Как создать и проверить Robots.txt

Проверить, что содержит ваш файл на данный момент можно в сервисе Яндекса – Проверка Robots.txt. Введете там адрес своего сайта, и он покажет всю информацию.

Если у вас такого файла нет, то необходимо срочного его создать. Открываете текстовый редактор (блокнот, notepad++, akelpad и т.д.), создаете файл с названием robots, заполняете его нужными директивами и сохраняете с txt расширением (ниже я расскажу, как выглядит правильный robots.txt для WordPress).

Дальше, помещаем файл в корневую папку вашего сайта (рядом с index.php) с помощью файлового менеджера вашего хостинга или ftp клиента, например, filezilla (как пользоваться).

Если у вас WordPress и установлен All in One SEO Pack, то в нем все делается прямо из админки, в этой статье я рассказывал как.

Robots.txt для WordPress

Под особенности каждой CMS должен создаваться свой правильный файл, так как конфигурация системы отличается и везде свои служебные папки и документы.

Мой файл robots.txt имеет следующий вид:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: /xmlrpc.php
Disallow: */feed
Disallow: */author
Allow: /wp-content/themes/папка_вашей_темы/
Allow: /wp-content/plugins/
Allow: /wp-includes/js/

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

host: biznessystem.ru

Sitemap: https://biznessystem.ru/sitemap.xml

Первый блок действует для всех роботов, так как в строке User-agent стоит «*». Со 2 по 9 строки закрывают служебные разделы самого вордпресс. 10 – удаляет из индекса страницы RSS ленты. 11 – закрывает от индексации авторские страницы.

По последним требованиям поисковиков, необходимо открыть доступ к стилям и скриптам. Для этих целей в 12, 13 и 14 строках прописываем разрешение на индексирование папки с шаблоном сайта, плагинами и Java скриптами.

Дальше у меня идет 2 блока, открывающих доступ к папке с картинками роботам YandexImages и Googlebot-Image. Можно их не выделять отдельно, а разрешающую директиву для папки с картинками перенести выше на 15 строку, чтобы все роботы имели доступ к изображениям сайта.

Если бы я не использовал All-in-One-Seo-Pack, то добавил бы правило, закрывающее архивы (Disallow: */20) и метки (Disallow: */tag).

При использовании стандартного поиска по сайту от WordPress, стоит поставить директиву, закрывающую страницы поиска (Disallow: *?s=). А лучше, настройте Яндекс поиск по сайту, как это сделано на моем блоге.

Обратите внимание на 2 правила:

1. Все директивы для одного робота идут подряд без пропуска строк.

2. Блоки для разных роботов обязательно разделяются пустой строкой.

В самом конце есть директивы, которые мы ранее не рассматривали – это host и sitemap. Обе эти директивы называют межсекционными (можно ставить вне блоков).

Host – указывает главное зеркало ресурса (с 2018 года отменена и больше не используется). Обязательно стоит указать какой домен является главным для вашего сайта – с www или без www. Если у сайта есть еще зеркала, то в их файлах тоже нужно прописать главное. Данную директиву понимает только Яндекс.

Sitemap – это директива, в которой прописывается путь к XML карте вашего сайта. Ее понимают и Гугл и Яндекс.

Дополнения и заблуждения

1. Некоторые вебмастера делают отдельный блок для Яндекса, полностью дублируя общий и добавляя директиву host. Якобы, иначе yandex может не понять. Это лишнее. Мой файл robots.txt известен поисковику давно, и он в нем прекрасно ориентируется, полностью отрабатывая все указания.

2. Можно заменить несколько строк, начинающихся с wp- одной директивой Disallow: /wp-, я не стал такого делать, так как боюсь – вдруг у меня есть статьи, начинающиеся с wp-, если вы уверены, что ваш блог такого не содержит, смело сокращайте код.

3. Переиндексация файла robots.txt проходит не мгновенно, поэтому, ваши изменения поисковики могут заметить лишь спустя пару месяцев.

4. Гугл рекомендует открывать доступ своим ботам к файлам темы оформления и скриптам сайта, пугая вебмастеров возможными санкциями за несоблюдение этого правила. Я провел эксперимент, где оценивал, насколько сильно влияет это требование на позиции сайта в поиске – подробности и результаты эксперимента тут.

Резюме

Правильный файл Robots.txt для WordPress является почти шаблонным документом и его вид одинаков для 99% проектов, созданных на этом движке. Максимум, что требуется для вебмастера – это внести индивидуальные правила для используемого шаблона.

Как создать правильный robots.txt для WordPress

Как создать правильный robots.txt для WordPress

Выполняю данное мною обещание, сегодня речь пойдет о том, как настроить правильный файл robots.txt для WordPress. Что это за файл такой, и насколько он важен для сайта или блога я писал в недавней статье о robots txt для Яндекс.

Совершая «прогулки» по блогам, которые созданы на платформе вордпресс, я заметил, что почти на каждом из них есть ошибки в роботсе. Пусть у некоторых они и не значительны, но из вот таких мелочей порой и складываются в будущем огромные проблемы. Многие блогеры понятия не имеют об этом файлике, а уж тем более о том, где он находится.

Где находится robots.txt в WordPress

Расположение robots.txt  в Вордпресс ни чем, ни отличается от другого любого сайта – корневая папка сайта. Где находится данная папка? Естественно на вашем хостинге, эта та папка, в которой находятся все файлы вашего блога или сайта. На каждом хостинге это выглядит по-своему. Достут к корневой директории (папке) возможен через файловый менеджер панели управления вашим хостингом, либо по FTP.

Как создать правильный robots.txt для WordPress

Тот, кто знает, что можно зайти в корень сайта по SSH, может воспользоваться и этим методом.

Как создать robots.txt для WordPress

Для начала создадим простой текстовый файл с именем «robots». От кроем его и начинаем прописывать директивы для поисковых систем. Для примера я сделал скрин роботса своего блога, скопировать его можно перейдя по ссылке (если скопировали, не забудьте в дальнейшем его отредактировать).

А теперь пройдемся по всем директивам, что бы вам было понятно что и для чего.

User-agent: Yandex  – открываем доступ всем поисковым роботам Яндекса

 Allow: /wp-content/uploads/  — разрешаем индексировать картинки, это обязательная директива!!!

  Disallow: /wp-  — запрет на индексацию всех системных папок и файлов

 Disallow: /webstat  – это не обязательная директива, добавил ее исключительно в собственных целях, возможно у вас в корне сайта лежат такие папки

 Disallow: /cgi-bin   —  без объяснений, это очень долго, да и не нужно

 Disallow: */trackback  – и

 Disallow: */trackback/  — запрет индексации трекбеков

 Disallow: */feed  – и

 Disallow: */feed/  — и

 Disallow: /?feed=   — запрещаем индексировать фид, почему так много директив? Все зависит от используемого шаблона, поэтому я сделал так

 Disallow: */comments  – и

 Disallow: */comments/  – дабы не плодить дубли страниц с комментариями, закрываем, не волнуйтесь, все комментарии будут проиндексированы

 Disallow: /tag  – тут я думаю все понятно, закрываем страницы тегов, лично я их не прописываю, что бы не плодить лишних страниц, которые дублируют контент, но всякий случай директиву прописал

 Disallow: /category  – спорный запрет, если хотите что бы ваши страницы категорий попали в индекс поисковика, уберите эту строчку

 Disallow: /archive  – яснее не куда, закрываем страницы с архивами

 Disallow: /?wysija-  —  это я закрыл страницы создаваемые одним из плагинов, вам это не обязательно, об этом плагине я напишу в ближайшем будущем

  Disallow: /?s=  — запрет на индексацию страниц с поиска сайта

 Disallow: /lin  – это тоже вам не нужно, использую эту папку для файлов редиректа

 Host: platon-shhukin.ru  – понятно?

 Sitemap: http:platon-shhukin.ru/sitemap.xml    Sitemap: http:platon-shhukin.ru/sitemap.xml.gz  — думаю тоже не возникло проблем.

 User-agent: *  — открываем доступ к сайту всем роботам

Директивы прописаны отдельно для Яндекса, и отдельно для всех остальных поисковых роботов.

Вот и все, рабочий файл robots.txt для блога на WordPress готов, остается проверить его, но вы то уже знаете как это сделать? Если забыли, то смотрите еще раз в конце статьи проверка и анализ файла robots txt. Теперь остается загрузить файл в коревую папку вашего сайта, и поисковые системы приступят к правильной индексации вашего блога.

Есть вопросы, спрашивайте в комментариях, постараюсь помочь в меру своих знаний.

Файл robots.txt для WordPress — плагин для редактирования файла

robots.txt

Сделать правильный файл robots.txt для WordPress очень важно. Благодаря ему поисковики будут знать — что можно и что нельзя индексировать. То есть в поисковой выдаче будет только то, что нужно, без дублей страниц и внутренностей WordPress.

Пример файла robots.txt

User-Agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /?s=
Disallow: *&s=             
Disallow: /search          
Disallow: /author/         
Disallow: *?attachment_id=
Disallow: */feed
Disallow: */rss
Disallow: */embed
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /*/*.js             
Allow: /*/*.css            
Allow: /wp-*.png           
Allow: /wp-*.jpg           
Allow: /wp-*.jpeg          
Allow: /wp-*.gif           
Allow: /wp-*.svg           
Allow: /wp-*.pdf

Sitemap: https://site.ru/sitemap_index.xml

Раньше для Яндекса необходима было  директива Host, которая обозначала главное зеркало сайта. Теперь в ней нет надобности, для определения главного зеркала сайта используется 301 редирект.

Как добавить файл robots.txt в WordPress

Можно скачать наш плагин Robots.txt Editor:

 

Либо добавить в файл functions.php следующий код:

add_filter( 'robots_txt', 'add_robotstxt' );
function add_robotstxt($text){
    $site_url = get_site_url();
    $text .= "User-Agent: *
Disallow: /cgi-bin 
Disallow: /wp-
Disallow: /?s=
Disallow: *&s=             
Disallow: /search          
Disallow: /author/         
Disallow: *?attachment_id=
Disallow: */feed
Disallow: */rss
Disallow: */embed 
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /*/*.js             
Allow: /*/*.css            
Allow: /wp-*.png           
Allow: /wp-*.jpg           
Allow: /wp-*.jpeg          
Allow: /wp-*.gif           
Allow: /wp-*.svg           
Allow: /wp-*.pdf 

Sitemap: $site_url/sitemap_index.xml";

return $text;
}

Данный способ работает и в мультисайтовой версии WordPress. Для каждого сайта сети будет отображаться правильный Sitemap. Sitemap будет таким, если используется плагин Yoast SEO. 

Файл robots.txt не является гарантией, что закрытые в нем страницы не будут проиндексированы, поэтому дубли контента нужно дополнительно скрыть с помощью 301 редиректа в файле .htaccess:

 

# BEGIN WordPress

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{QUERY_STRING} ^replytocom= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteRule ^feed$ /$1 [R=301,L]
RewriteRule (.*)/feed$ /$1 [R=301,L]
RewriteRule (.+)/comment-page /$1 [R=301,L]
RewriteRule (.+)/trackback /$1 [R=301,L]
RewriteRule (.+)/comments /$1 [R=301,L]
RewriteRule (.+)/attachment /$1 [R=301,L]
RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress

Благодаря плагину Yoast SEO файл .htaccess можно отредактировать из админки WordPress (пункт меню плагина «Инструменты»-> «Редактор файлов»).

Обновлено: 17.06.2019

Вам помогла эта статья? Оцените! robots.txt Загрузка…

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *