Сканирование (crawl)
Определение: сканирование (crawl, краулинг) — это когда поисковый робот обходит сайт по ссылкам и спискам URL (например, из sitemap), скачивает страницы и проверяет их содержимое. Сканирование — это этап «обхода», а не гарантия попадания страницы в поиск: после обхода ещё идёт обработка и индексация.
Зачем это нужно
- Чтобы поисковик находил новые страницы и замечал изменения на старых.
- Чтобы важные разделы сайта регулярно переобходились и обновлялись в базе поиска.
- Чтобы контролировать, куда робот тратит время: не на дубли и фильтры, а на полезные страницы.
- Чтобы быстрее выявлять технические проблемы: 404/500, редиректы, «пустые» страницы, бесконечные URL.
- Чтобы планировать структуру ссылок и навигацию так, чтобы робот без проблем доходил до нужных страниц.
Пример
Пример кода:
robots.txt
User-agent: *
Disallow: /search/
Disallow: /filter/
Disallow: /*?*
Sitemap: https://example.ru/sitemap.xml
В примере робот не тратит бюджет сканирования на внутренний поиск, фильтры и URL с параметрами, а sitemap подсказывает ему список приоритетных страниц. Это помогает быстрее и стабильнее переобходить важные URL.
Скриншот
Подпись к скриншоту: раздел Google Search Console со статистикой сканирования: как часто робот приходит, сколько страниц запрашивает и не тормозит ли сервер.
Частые ошибки
- Открыть для обхода «бесконечные» URL (параметры, фильтры, сортировки) и получить тысячи дублей.
- Закрыть в robots.txt важные разделы и удивляться, что робот их не посещает.
- Сделать навигацию без нормальных ссылок (например, всё на скриптах) — роботу трудно добраться до страниц.
- Длинные цепочки редиректов и много 404/500: робот тратит обход впустую и реже доходит до нужного.
- Не обновлять sitemap: робот продолжает ходить по устаревшим URL и пропускает новые страницы.
Связанные термины
- Индексация
- Бюджет сканирования (crawl budget)
- robots.txt
- Sitemap (карта сайта)
- Внутренняя перелинковка
- Код ответа сервера (200/301/404/500)
Наши услуги
- SEO-продвижение сайтов — настроим структуру и обход: приоритеты, перелинковку, устранение дублей.
- Доработка сайтов — исправим редиректы, ошибки, навигацию и технические причины «плохого краулинга».
- Техническая поддержка сайтов — регулярный контроль сканирования, sitemap, robots и стабильности сервера.