Роботы Яндекса

На сайте Яндекса доступен список его роботов. В логах сервера хранятся записи о заходах на сайт как обычных посетителей сайта, так и различных роботов, которые создают дополнительную, часто бесполезную нагрузку на сервер. Каким роботам лучше запретить заходить на сайт, а каким разрешить?

Указания роботам записывают в файл robots.txt

Список роботов Яндекса

Важные для любого сайта:
YandexBot
YandexImages
YandexAntivirus

Цитата с сайта Яндекса ( Роботы Яндекса в логах сервера):

У Яндекса есть много роботов, которые представляются по-разному:

  1. Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;
  2. Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;
  3. Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;
  4. Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
  5. Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
  6. Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);
  7. Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер;
  8. Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки;
  9. Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;
  10. Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот Яндекс.Директа, особым образом интерпретирует robots.txt***;
  11. Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией;
  12. Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок;
  13. Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса;
  14. Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;
  15. Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;
  16. Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов;
  17. Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
  18. Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода;
  19. Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок, используется для проверки доступности страниц, добавленных в закладки;
  20. Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета;
  21. Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей;
  22. Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt***.

IP-адресов, с которых «приходят» роботы Яндекса, тоже много, и они часто меняются. Поэтому мы не разглашаем их список и не рекомендуем использовать фильтрацию на их основе.

ЯндексРоботы-исключения

*** особым образом интерпретируют robots.txt 2 робота Яндекса (Исключения). Они не следуют общим запрещающим правилам в robots.txt и скачивают документы, но не для индексации, а для других целей (Яндекс сообщает, что такие документы не индексируются и не попадают в поисковую выдачу).

Можно ограничить доступ к сайту или его части в robots.txt с помощью директив специально для этих роботов, например:

User-agent: YaDirectFetcher
Disallow: /
User-agent: YandexCalendar
Disallow: /*.ics$
Опубликовано в рубрике Поисковые системы |

3 комментария: Роботы Яндекса

  1. Ahmet говорит:

    YaDirectFetcher ? YandexDirectFetcher ?

  2. Секрет говорит:

    Спасибо! Не знал, что роботов яндекса ТАК много!
    Пойду смотреть логи, кто из них у меня в гости "захаживает" )))

  3. Мария говорит:

    Понимаю, что глупый вопрос, но яндекс не обидится, если заблокировать доступ его YaDirectFetcher ? 🙂

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *