Вебмайстер
Яндекс для вебмайстрів
Як Яндекс індексує сайти
Сайт на сторінці результатів пошуку
Сервіс «Яндекс.Вебмайстер»
Налаштування індексування
Вміст сайту
Сайт у результатах пошуку
Безпека сайтів
Сервіси Яндекса на вашому сайті

Як перевірити, що робот належить Яндексу

Деякі роботи можуть маскуватися під роботів Яндекса шляхом зазначення відповідного user-agent. Ви можете перевірити, що робот є тим, за кого себе видає, використовуючи ідентифікацію, що базується на зворотних DNS-запитах (reverse DNS lookup).

Для цього необхідно виконати таке:

  • Для user-agent, що вас цікавить, визначте IP-адресу за логами вашого сервера. Всі роботи Яндекса подаються за допомогою заданих user-agent.

  • За отриманою IP-адресою визначте доменне ім'я хоста, використовуючи зворотний DNS-запит.

  • Після визначення імені хоста, ви можете перевірити, чи належить він Яндексу. Імена всіх роботів Яндекса закінчуються на 'yandex.ru', 'yandex.net' або 'yandex.com'. Якщо ім'я хоста має інше закінчення, це означає, що робот не належить Яндексу.

  • Наостанок переконайтеся в коректності отриманого імені. Для цього треба використати прямий DNS-запит (forward DNS lookup), щоб отримати IP-адресу, що відповідає імені хоста. Вона повинна збігатися з IP-адресою, що використовується при зворотному DNS-запиті. Якщо IP-адреси не збігаються, це означає, що отримане ім'я хоста підроблене.

Як у логах сервера подається робот

У Яндекса є декілька роботів, які подаються по-різному:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основний індексуючий робот;

  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) — індексуючий робот;
  • Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) — завантажує сторінки для перевірки їх доступності користувачам, особливим чином інтерпретує robots.txt.
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) — робот, який визначає сторінки з версткою, підходить під мобільні пристрої, особливим чином інтерпретує robots.txt;
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — індексатор Яндекс.Зображень;

  • Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) — робот, який робить знімок сторінки, особливим чином інтерпретує robots.txt.
  • Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — індексатор Яндекс.Відео;

  • Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) — індексатор Яндекс.Відео, особливим чином інтерпретує robots.txt.
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, що індексує мультимедійні дані;

  • Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот пошуку у блогах, що індексує коментарі постів;

  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) — робот, що індексує піктограми сайтів (favicons);

  • Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) — робот сервісу Яндекс.Вебмайстер;

  • Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) — робот, що звертається до сторінки у разі валідації мікророзмітки через форму «Валідатор мікророзмітки»;

  • Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобільних сервісів;

  • Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — завантажує інформацію про вміст сайтів-партнерів Рекламної мережі, щоб уточнити їх тематику для підбору релевантної реклами, особливим чином інтерпретує robots.txt;

  • Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) — «простукувалка» Яндекс.Директа, перевіряє коректність посилань з оголошень перед модерацією, особливим чином інтерпретує robots.txt;

  • Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукувалка» швидких посилань, використовується для перевірки доступності сторінок, які визначилися як швидкі посилання;

  • Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламної мережі Яндекса;

  • Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики, особливим чином інтерпретує robots.txt.;

  • Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новин;

  • Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукувалка» Яндекс.Новин, використовується для перевірки посилань із новинних матеріалів;

  • Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукувалка» Яндекс.Каталогу, використовується для тимчасового зняття з публікування недоступних сайтів у Каталозі;

  • Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивірусний робот, який перевіряє сторінки на наявність небезпечного коду;

  • Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркету;

  • Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот пошукових вертикалей;

  • Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, використовується для синхронізації з іншими календарями, особливим чином інтерпретує robots.txt;

  • Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) — робот, який визначає дзеркала сайтів;
  • Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) — робот Яндекс.Довідника.

IP-адрес, з яких «ходить» робот Яндекса, теж багато, і вони часто змінюються. Тому ми не розголошуємо їх список і не рекомендуємо використовувати фільтрацію на їх основі.

Оцініть статтю
Дякуємо за ваш відгук!