Индексация wordpress – 10 советов по оптимизации кода вашей WordPress-темы для лучшей индексации контента сайта

Содержание

Индексация WordPress. Как закрыть WordPress от индексации

Индексация WordPress

От автора: приветствую вас, друзья. В этой коротенькой и простой статье мы затронем один из многочисленных вопросов, связанных с SEO оптимизацией сайта WordPress. В частности, мы рассмотрим такой вопрос, как индексация WordPress.

На самом деле перед тем, как сесть за написание данной статьи, я сомневался, нужна ли она. Однако, как показывает практика, статья все же может дать ответ на вопрос, который нет-нет да и возникает порой у некоторых владельцев сайта WordPress.

Что же это за вопрос, связанный с индексацией WordPress? Как ни странно, но иногда от пользователей звучит он так: Почему мой сайт не появляется в поисковике? Почему поисковики не индексируют мой сайт? Они его не любят?

Чтобы ответить на такие вопросы, нужно посмотреть на сам сайт, а также уточнить, сколько времени сайт «живет» в сети. Давайте начнем с последнего момента, поскольку зачастую выясняется, что владелец сайта просто оказался нетерпелив. Думаю, вы знаете, что после того, как сайт готов и выложен в сеть, он не сразу появится в поисковике. И даже не через день или неделю. Однако, рядовые пользователи интернета этого вполне могут не знать.

Соответственно, если в ответ на вопрос, сколько сайт «живет» в сети, вы услышите что-то вроде «да вот только вчера сделали», тогда можете успокоить собеседника и объяснить ему, что процесс индексации сайта — это не быстрый и, тем более, не одномоментный процесс. В зависимости от поисковой системы сайт может появится в ней в среднем через пару месяцев. И все это при условии, что поисковому роботу сообщили о появлении нового сайта на просторах интернета.
Теперь перейдем к первому моменту, к необходимости взглянуть на сайт. Ведь владелец сайта может сказать, что его детищу уже несколько месяцев, а в результатах поиска его все нет и нет. Здесь уже стоит заглянуть в исходный код сайта, посмотреть файл robots.txt, в общем, необходим хотя бы минимальный аудит сайта.

Индексация WordPress

Бесплатный курс «Основы создания тем WordPress»

Изучите курс и узнайте, как создавать мультиязычные темы с нестандартной структурой страниц

Скачать курс

Небольшой казус из моей практики. Когда-то давно знакомый обратился ко мне со своей ситуацией: полдня, говорит, просидел в Гугле и Яндексе, добрался до сотой страницы в каждом из них, а моего сайта там нет. После недолгого общения выяснилось, что сайт он сделал сам, воспользовавшись одним из бесплатных шаблонов. Сделал он его около года назад. Никаких посторонних ссылок на сайте не размещал. В общем, было понятно, что сайт должен быть уже проиндексирован, но в поиске его действительно не оказалось.

Когда я заглянул в исходный код сайта, то практически сразу все стало понятно. В исходном коде красовалась вот такая вот строка:

<meta name=’robots’ content=’noindex,follow’ />

<meta name=’robots’ content=’noindex,follow’ />

Как вы понимаете, эта строка запрещала индексирование сайта. Когда я задал знакомому риторический вопрос, откуда взялось сие безобразие, то в ответ получил ожидаемый недоуменный взгляд.

Прошерстив тему WordPress на предмет «виновника бед», я нигде этого тега не обнаружил. Чтобы исключить возможность вывода зашифрованной в коде темы зловредной строки, я поменял тему на дефолтную, но строка никуда не делась.

И здесь я вспомнил, что WordPress есть возможность закрыть сайт от индексации. Сделать это можно как на этапе установки, так и в дальнейшем из настроек сайта. Вот эта настройка, которую можно отметить на этапе установки:

Индексация WordPress

А вот эта настройка на уже установленном WordPress:

Индексация WordPress

В процессе вспоминания действительно выяснилось, что галочка ставилась знакомым самолично на этапе установки сайта. Поскольку дело сайтостроения для него было новым, то чтобы сайт на второй день не появился в сети в процессе его экспериментов, эта галочка и была отмечена. Впоследствии о ней как-то забылось, а проблема осталась.

В общем, история имела счастливый конец, как в сказке. Ненужная настройка была выключена, строка, блокирующая индексацию, пропала из исходного кода и вскоре сайт уже появился в поисковике.

Вся эта история рассказана как раз для тех пользователей, которые по каким-то причинам использовали данную настройку, закрыв индексацию, а затем просто забыли о ней. Ну и также для тех веб-мастеров, которые столкнутся с аналогичной ситуацией :)

Ну а на этом у меня все. Удачи!

Индексация WordPress

Бесплатный курс «Основы создания тем WordPress»

Изучите курс и узнайте, как создавать мультиязычные темы с нестандартной структурой страниц

Скачать курс :)

Основы создания тем WordPress

Научитесь создавать мультиязычные темы с нестандартной структурой страниц

Смотреть

рецепт быстрой индексации нового сайта Яндексом и Гуглом / Dimox.name

В одной из своих предыдущих статей я уже озадачивался вопросом: «Как заставить Яндекс проиндексировать новый сайт?«. В ней составлен ряд рекомендаций, которые позволяют частично ответить на данный вопрос.

Прошло некоторое время, я все продолжал экспериментировать с созданием сайтов на WordPress (разговор о том, почему я всегда использую этот движок, заслуживает отдельного поста). И вот, наконец, я выявил для себя действенный рецепт того, как заставить Яндекс, а заодно и Google, начать индексировать только что созданный сайт, работающий на движке WordPress.

Поскольку WordPress — универсальная платформа, которая позволяет создавать множество разновидностей сайтов, то, я полагаю, что данная информация может пригодиться многим. Хотя для определенного процента читателей информация, описанная ниже, покажется «баяном».

Мой удачный эксперимент начался с того момента, когда я хотел забабахать самый банальный сапе-сплог, но у меня, ИМХО, получился правильный сплог (контент уникальный, и пишу, в общем-то, для людей). А в моем понимании последний — это самый, что ни на есть настоящий блог (привет DimaX‘у ;).

В общем, так. Чтобы больше «не лить воду», выкладываю по пунктам рецепт быстрой индексации нового WordPress-сайта Яндексом и Гуглом:

  1. Покупаем новый домен в зоне .ru — Это один из двух самых весомых моментов. На 90% уверен, что нахождение сайта в этой доменной зоне имеет большое значение в плане любви его Яндексом (аля индексация). Этот факт подтверждает и то, что мои сайты в доменах net.ru, org.ru и pp.ru, которые Яндекс никак не хотел индексить, после переезда на ру-домены, сразу полюбились ему.
  2. Устанавливаем и настраиваем WordPress.
  3. Заходим в админку WordPress в «Настройки -> Написание» (в английской версии «Options -> Writing») и в поле «Сервисы обновления» вставляем вот этот список пинг-сервисов. Это и есть второй важный момент в решении нашей задачи.

    Главное здесь то, что в списке присутствуют пинг-адреса Яндекса и Гугла, которые оперативно уведомляют обе искали о появлении на Вашем WP-сайте новых записей. А это в результате и оборачивается тем, что страницы сайта в скором времени появляются в индексе обозначенных поисковиков (примерно неделя-полторы).

  4. Начинаем регулярно писать в блог/сайт. Моя практика показывает, что независимо от того, уникальный или неуникальный контент публикуется на сайте, он одинаково хорошо индексируется и Яндексом, и Гуглом.
  5. После появления в индексе Яндекса первых страниц сайта для пущей уверенности можно добавить сайт в адурилку (в этот момент с искалок начинают приходить первые посетители).
  6. Дожидаемся полной индексации ресурса.
  7. Монетизируем сайт (если оно надо), например, пользуемся услугами саперов.

Вот и весь рецепт.

Прошу заметить, что при использовании моего «рецепта приготовления WordPress-сайта» мне не потребовалось ставить на новый сайт ни единой внешней ссылки, ни добавлять его в адурилку.

88817e8e9818ee232dff3861a0ef4537

* * *

Лучший отдых для души и делай вам обеспечат горящие путевки в Турцию, страну солнца, впечатлений и контрастов. Вы обязательно полюбите Турцию.

Индексация WordPress сайтов. Файл robots.txt и мета-тег robots

Правильная настройка индексирования сайта напрямую влияет на успешность его будущего продвижения в поисковых системах. В рамках данной статьи я расскажу, как правильно настроить индексацию сайтов на WordPress и полностью избавиться от дублированного контента. Нижеописанная технология многократно опробована и отлично зарекомендовала себя.

Суть данной технологии заключается в том, чтобы использовать для настройки индексации файл robots.txt в сочетании с мета-тегами robots. Таким образом, мы создаем двухуровневую защиту от дублированного контента. При этом даже двойная защита не гарантирует 100% результат, так как поисковые системы могут игнорировать настройки индексации. К счастью, такое бывает очень редко, но мы все же рассмотрим способы для защиты и от этого.

Прежде чем мы перейдем непосредственно к рассмотрению особенностей настройки индексации, определимся, какие страницы существуют в WordPress, какие нужно разрешить индексировать, а какие запретить. Я придерживаюсь мнения, что разрешать индексировать стоит только те страницы, которые нам необходимы. Все остальное необходимо закрывать.

Основные типы страниц в WordPress

В WordPress существует несколько основных типов страниц, которые могут понадобиться нам в работе:

  • Статические страницы.
  • Страницы записей (постов).
  • Страницы категорий (рубрик).
  • Страницы тегов (меток).
  • Страницы таксономий (произвольные категории и теги).
  • Страницы произвольных типов записей.

Также существуют страницы ошибок 404, поиска, страницы вложений и т.д., но с ними мы работать не будем, так как в 99% случаев в этом нет необходимости.

Большинство обычных проектов используют только первые четыре типа страниц, которые доступны в Wordrpess по умолчанию. Чтобы получить доступ ко всем остальным возможностям движка, потребуется внести соответствующие изменения в код шаблона. Так или иначе, мы рассмотрим полную версию кода, чтобы избежать каких-либо проблем в будущем. Код является универсальным и будет работать даже в том случае, если какой-то функционал не реализован.

Использование мета-тега robots

Мета-тег robots является очень мощным инструментом в настройке индексирования сайта. С его помощью можно произвольно разрешать или запрещать индексацию тех или иных страниц, а также разрешать или запрещать поисковым роботам переход по имеющимся на странице ссылкам. Сам мета-тег robots имеет следующий синтаксис:

<meta name="robots" content="значение">

В качестве значения мы будем использовать четыре основных конструкции:

  • index, follow – разрешить индексацию страницы и переход по ссылкам на ней
  • noindex, follow – запретить индексацию страницы, но разрешить переход по ссылкам
  • index, nofollow – разрешить индексацию страницы, но запретить переход по ссылкам
  • noindex, nofollow – запретить как индексацию, так и переход по ссылкам

Как вы уже поняли, index/noindex разрешает или запрещает индексацию страницы, а follow/nofollow разрешает или запрещает переход по имеющимся на странице ссылкам.

Существуют и другие конструкции, которые могут использоваться в качестве значения для атрибута content в мета-теге robots. Их мы рассматривать не будем, так как практическое применение их невелико.

Код управления мета-тегом robots для сайтов на WordPress

В качестве примера я приведу облегченную версию кода, который позволяет автоматизировать вывод мета-тега robots на сайте, работающем под управлением WordPress. В данном примере не будет возможности произвольно изменять значение мета-тега для отдельных страниц через административную панель сайта. Я убрал эту возможность, так как в 99% случаев в этом просто нет необходимости. К тому же это позволило значительно облегчить код.

if ( ( is_single() || is_page() || is_home() || is_category() || is_tag() || is_tax() || is_post_type_archive() ) && !is_paged() ) {
echo '<meta name="robots" content="index, follow" />' . "\n";
}
else {
echo '<meta name="robots" content="noindex, nofollow" />' . "\n";
}

Для установки кода на сайт, достаточно просто добавить его в файл header.php между тегами <head>. Теперь давайте немного разберемся с кодом.

Как видно с примера, мы делаем обычную проверку типов страниц и в зависимости от этого выводим мета-тег robots с нужным нам значением. Для определения типов страниц мы используем встроенные функции WordPress, так называемые условные теги.

  • is_single() – для определения отдельных записей (постов).
  • is_page() – для определения статических страниц.
  • is_home() – для определения главной страницы.
  • is_category() – для определения страниц категорий (рубрик).
  • is_tag() – для определения страниц тегов (меток).
  • is_tax() – для определения архивных страниц пользовательских таксономий.
  • is_post_type_archive() – для определения архивных страниц произвольных типов записей.
  • is_paged() – для определения страниц с постраничной навигацией.

Вышеприведенный код разрешит индексацию всех страниц постов, статических страниц, страниц категорий и тегов, страниц произвольных таксономий и архивных страниц произвольных типов записей, а также страниц самих произвольных записей, где не выводится постраничная навигация. Все остальные страницы будут автоматически закрыты от индексации при помощи мета-тега robots.

Если вам необходимо запретить индексацию какого-то типа страниц, достаточно просто удалить или закомментировать нужную функцию в коде. Например, если мы хотим запретить индексацию тегов, то достаточно удалить функцию is_tag(). Естественно две вертикальные линии || тоже нужно будет удалить, чтобы избежать синтаксической ошибки в коде.

Если же вам нужно запретить только какую-то конкретную страницу записи, то придется немного модернизировать код. Как вариант, можно использовать произвольные поля. С подробными примерами о том, как это сделать, можно ознакомиться в статье о произвольных полях WordPress.

Итак, с мета-тегами мы разобрались. Теперь перейдем ко второй части статьи и рассмотрим пример оптимального, на мой взгляд, файла robots.txt

Файл Robots.txt для сайтов на WordPress

Файл robots.txt используется для настройки индексации сайта в целом. Обычно в нем используются только общие конструкции, которые позволяют запретить индексирование тех или иных разделов сайта. Все же некоторые умудряются перечислять в нем ссылки на отдельные страницы, с целью исключения их из поиска. Я не считаю это хорошей идеей, поэтому в примере ниже будут только общие конструкции.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=*
Disallow: /page/*
Disallow: /author/*
Host: dmitriydenisov.com
Sitemap: https://archive.dmitriydenisov.com/sitemap.xml
Sitemap: https://archive.dmitriydenisov.com/sitemap.xml.gz

Вышеприведенный пример является универсальным для использования на большинстве проектов, работающих под управлением Wordrpess. Он закрывает от индексации системные папки WordPress, требеки, страницы фидов, тегов, поиска, архивные страницы авторов, постраничную навигацию, а также страницы, содержащие в себе параметры GET. Если необходимо добавить/удалить какую-то директорию или страницу, сделать это можно аналогичным образом, используя пример выше.

Защита от дублированного контента на страницах разделов

К сожалению, даже все вышеперечисленные способы не дают 100% гарантию того, что закрытые от индексации страницы не будут проиндексированы. Как вариант, кто-то может сослаться на закрытую страницу и она все же может появиться в индексе поисковых систем. Такое иногда бывает. В этом нет ничего плохого, если эта страница не является точной копией другой страницы, которую, к тому же, вы можете продвигать.

Дополнительная защита от дублированного контента особенно актуальна при продвижении страниц с постраничной навигацией. Такими являются страницы разделов, тегов и т.д. Чтобы избежать полных дублей, есть очень простой способ – отключить вывод основного описания страницы при активной постраничной навигации.

if ( !is_paged() ) {
основной текст
}

Таким образом, описание будет отображаться только на первой странице. При переходе на вторую, третью и т.д. описание выводиться не будет. Это позволит избежать дублирования основного текста на страницах с постраничной навигацией.

При использовании всех трех методов можно добиться 100% качества сайта. Под 100% качеством в данном случае я подразумеваю ситуацию, когда в индексе поисковых систем присутствуют только целевые страницы и полностью отсутствуют мусорные. Самый простой способ проверить, все ли сделано правильно – обратиться к поисковой системе Google.

Данная поисковая система очень удобна для проверки сайта тем, что все страницы, которые считает полезными, она заносит в основной индекс. Все остальное попадает в так называемый дополнительный индекс. Сразу хочу заметить, что в поиске участвуют только страницы с основного индекса, поэтому чем ниже качество сайта по мнению Google, тем хуже.

Для проверки качества вы можете использовать следующие конструкции, которые необходимо будет ввести в строку поиска Google.

site:domen.com
site:domen.com/&

Первая конструкция позволит узнать, какое общее количество страниц проиндексировано поисковой системой. Вторая же конструкция покажет, сколько страниц сайта находится в основном индексе Google. Разделив второе значение на первое и умножив на 100 мы узнаем качество сайта в % по мнению поисковой системы Google.

Для наглядности привожу данные по одному из моих старых проектов.

Общее количество страниц в индексе Google

Количество страниц в основном индексе Google

Также для проверки качества можно использовать плагин для браузера RDS Bar. В нем все расчеты происходят в автоматическом режиме.

Качество сайта через RDS Bar

Заключение

Использование вышеописанных методов позволит значительно повысить качество сайта в глазах поисковых систем за счет избавления от дублированного контента, что в свою очередь позитивно скажется на динамике продвижения. В индексе будут присутствовать только целевые страницы и ничего больше.

В некоторых случаях это может привести к небольшим потерям трафика за счет уменьшения общего количества страниц в индексе. Это происходит по той причине, что часть страниц с дублями все же попадает в индекс поисковых систем и приносит какой-то трафик. Когда же мы закрываем их от индексации, то исключаем возможность появления этого дополнительного трафика. Это небольшая плата за повышение качества сайта в целом. Так или иначе, каждый сам выбирает, что ему нужно больше.

На этом данная статья подошла к концу. Если у вас остались какие-то вопросы по данному материалу, вы всегда можете задать их в комментариях.

На этом все. Удачи вам и успеха в продвижении сайтов!