На сайте Яндекса доступен список его роботов. В логах сервера хранятся записи о заходах на сайт как обычных посетителей сайта, так и различных роботов, которые создают дополнительную, часто бесполезную нагрузку на сервер. Каким роботам лучше запретить заходить на сайт, а каким разрешить?
Указания роботам записывают в файл robots.txt
Список роботов Яндекса
Важные для любого сайта:
YandexBot
YandexImages
YandexAntivirus
Цитата с сайта Яндекса ( Роботы Яндекса в логах сервера):
У Яндекса есть много роботов, которые представляются по-разному:
- Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;
- Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;
- Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;
- Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
- Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
- Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);
- Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер;
- Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки;
- Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;
- Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот Яндекс.Директа, особым образом интерпретирует robots.txt***;
- Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией;
- Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок;
- Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса;
- Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;
- Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;
- Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов;
- Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
- Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода;
- Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок, используется для проверки доступности страниц, добавленных в закладки;
- Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета;
- Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей;
- Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt***.
IP-адресов, с которых «приходят» роботы Яндекса, тоже много, и они часто меняются. Поэтому мы не разглашаем их список и не рекомендуем использовать фильтрацию на их основе.
ЯндексРоботы-исключения
*** особым образом интерпретируют robots.txt 2 робота Яндекса (Исключения). Они не следуют общим запрещающим правилам в robots.txt и скачивают документы, но не для индексации, а для других целей (Яндекс сообщает, что такие документы не индексируются и не попадают в поисковую выдачу).
Можно ограничить доступ к сайту или его части в robots.txt с помощью директив специально для этих роботов, например:
User-agent: YaDirectFetcher Disallow: / User-agent: YandexCalendar Disallow: /*.ics$
YaDirectFetcher ? YandexDirectFetcher ?
Спасибо! Не знал, что роботов яндекса ТАК много!
Пойду смотреть логи, кто из них у меня в гости "захаживает" )))
Понимаю, что глупый вопрос, но яндекс не обидится, если заблокировать доступ его YaDirectFetcher ? :)