Поисковые роботы

Рубрика: Sitemap и robots.txt

теги: поисковые роботы, роботы поисковых систем, робот яндекс, робот google, список поисковых роботов

yndex_bot01433bf970b-500wiЧто такое робот поисковой системы

Робот (crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

Какие бывают индексирующие роботы

В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.

В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

Поисковые роботы

Роботы Яндекса

Mozilla/5.0 (compatible; YandexBot/3.0; http://yandex.com/bots) — основной индексирующий робот;
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; http://yandex.com/bots) — робот, определяющий зеркала сайтов;
Mozilla/5.0 (compatible; YandexImages/3.0; http://yandex.com/bots) — индексатор Яндекс.Картинок;
Mozilla/5.0 (compatible; YandexVideo/3.0; http://yandex.com/bots) — индексатор Яндекс.Видео;
Mozilla/5.0 (compatible; YandexMedia/3.0; http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
Mozilla/5.0 (compatible; YandexFavicons/1.0; http://yandex.com/bots) — робот, индексирующий пиктограммы сайтов;
Mozilla/5.0 (compatible; YandexWebmaster/2.0; http://yandex.com/bots)— робот, обращающийся к странице при добавлении ее через форму «Добавить URL»;
Mozilla/5.0 (compatible; YandexImageResizer/2.0; http://yandex.com/bots) — робот мобильных сервисов;
Mozilla/5.0 (compatible; YandexDirect/3.0; http://yandex.com/bots) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; http://yandex.com/bots) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией;
Mozilla/5.0 (compatible; YandexMetrika/2.0; http://yandex.com/bots) — робот Яндекс.Метрики;
Mozilla/5.0 (compatible; YandexNews/3.0; http://yandex.com/bots) — робот Яндекс.Новостей;
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel; http://yandex.com/bots) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге;
Mozilla/5.0 (compatible; YandexAntivirus/2.0; http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода.
Mozilla/5.0 (compatible; YandexZakladki/3.0; Dyatel; http://yandex.com/bots) — простукивалка Яндекс.Закладок. Используется для проверки доступности страниц, добавленных в закладки.

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Поэтому их список не разглашается и не рекомендуется  использовать фильтрацию на их основе.

Роботы Google

Mozilla/5.0 (compatible; Googlebot/2.1;  — поисковый робот Google.

Googlebot-Image (Google) Googlebot-Image/1.0 — робот-индексатор картинок.
Директивы, адресованные этому роботу, прописываются для удаления изображений из Картинок Google, например, для запрета индексации картинок в новостях (в данном случае иллюстрации к новостям размещаются в папке /news/img/):
User-agent: *
Disallow: /news

User-agent: Googlebot-Image
Disallow: /news/img/
(аналогично директивы можно применить ко всем роботам, перечисленным на этой странице)
Mediapartners-Google — робот-анализатор AdSense.
Директивы, адресованные этому роботу, прописываются для запрета индексации страниц с сохранением показа объявлений AdSense, например:
User-agent: *
Disallow: /news

User-agent: MediaPartners-Google
Allow: /news
(Allow: — открывающая для индексации директива, противоположна Disallow: аналогично директивы можно применить ко всем роботам, перечисленным на этой странице)
Googlebot-Mobile (compatible; Googlebot-Mobile/2.1; — робот индексирующий сайты для мобильных устройств.
Google Search Appliance (Google) gsa-crawler — поисковой робот нового аппаратно-программного комплекса Search Appliance (GSA 6.0).
AdsBot-Google http://www.google.com/adsbot.html — оценка качества целевых страниц AdWords.

Роботы Рамблера

StackRambler/2.0 (MSIE incompatible) — поисковый робот Рамблера.
StackRambler/2.0 — поисковый робот Рамблера.

Роботы Апорта

Aport — поисковый робот Апорта
AportCatalogRobot/2.0 — робот Апорт каталога.

Роботы Yahoo!

Mozilla/5.0 (compatible; Yahoo! Slurp — поисковый робот Yahoo!
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp — новый робот Yahoo! 3-го поколения.
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com) — робот-индексатор картинок.
Yahoo-Blogs/v3.9 (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html — робот поиска по блогам.

Роботы MSN

msnbot/1.1  — основной робот MSN.
msnbot-media/1.0 — робот-индексатор мультимедийных файлов для images.live.com.

msnbot-media/1.1  — робот-индексатор мультимедийных файлов.

msnbot-news  — робот индексирующий новости.

msnbot-NewsBlogs/1.0  — обеспечивает актуальность новостей и блогов для search.live.com/news
Если робот поисковой системы пытается получить доступ к вашему веб-узлу чаще одного раза в несколько секунд, можно увеличить задержку между обращениями и настроить их минимальную частоту (в секундах) с помощью параметра Crawl-delay в файле robots.txt, например:
User-agent: msnbot
Crawl-delay: 120
(на новостной робот msnbot-NewsBlogs /1.0 не распространяется действие параметра задержки обхода)
msnbot-Products/1.0  — индексация для поиска товаров и шоппинга products.live.com

msnbot-Academic/1.0  — производит академический поиск в academic.live.com

Робот Alexa

ia_archiver http://www.alexa.com/site/help/webmasters; [email protected]) — робот Alexa.
ia_archiver-web.archive.org — робот Alexa. Роботы Alexa полезны тем, что индексируют сайты для web.archive.org

SAPE.BOT is watching you! — сканирует сайты для биржи SAPE.ru




1,415 просмотров
Метки:
Комментарии и пинг закрыты.
LiveRSS: Каталог русскоязычных RSS-каналов RSSMicro FeedRank Results Анализ сайта
Поиск в RSS новостях и блогах