Analyse de logs SEO : comprendre le comportement de Googlebot sur votre site

Aurélien PAGEConsultant SEO/GEO

# Analyse de logs SEO : comprendre le comportement de Googlebot sur votre site

La Google Search Console vous dit ce que Google veut bien vous dire. Les logs serveur vous disent ce qui se passe réellement. L'analyse de logs est la technique SEO avancée par excellence — celle qui révèle les comportements de Googlebot invisibles depuis n'importe quel autre outil.

Qu'est-ce qu'un log serveur ?

Un log serveur (ou log d'accès) est un fichier généré automatiquement par votre serveur web qui enregistre chaque requête reçue, quelle qu'en soit la source. Chaque ligne correspond à une visite : un internaute, un bot, un crawler de monitoring — chacun laisse une trace.

Une ligne de log type ressemble à ceci :

`` 66.249.66.1 - - [10/Apr/2025:14:32:01 +0000] "GET /blog/seo-technique/ HTTP/1.1" 200 45231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" ``

On y lit : l'IP source, la date et l'heure, la méthode HTTP et l'URL requise, le code de réponse du serveur, la taille de la réponse, et l'User-Agent qui identifie le client.

Pour le SEO, ce qui nous intéresse est de filtrer uniquement les lignes correspondant aux crawlers — Googlebot, Bingbot, mais aussi, de plus en plus, les bots IA (GPTBot, PerplexityBot, anthropic-ai…).

Pourquoi analyser les logs alors qu'on a la Search Console ?

La Search Console est un outil précieux, mais elle présente des limites importantes :

Elle ne montre que ce que Google choisit de vous montrer. Googlebot crawle bien plus de pages qu'il n'en indexe ou n'en signale dans la Search Console. Les pages crawlées mais non indexées, les erreurs de crawl sur des URLs non stratégiques, les patterns de crawl anormaux — tout cela n'apparaît pas dans la Search Console.

Elle est à posteriori. La Search Console consolide des données sur plusieurs jours. Les logs sont en temps réel — ou quasi temps réel selon votre configuration.

Elle ne montre pas les bots IA. La Search Console ne différencie pas les visites de Googlebot des visites de GPTBot ou de PerplexityBot. Seuls les logs permettent d'identifier et d'analyser le comportement de chaque bot séparément.

Elle ne montre pas les erreurs 5xx. Les erreurs serveur (500, 503…) n'apparaissent pas toujours dans la Search Console — surtout si elles sont intermittentes. Les logs capturent chaque erreur, même les plus fugaces.

Ce que révèle l'analyse de logs

La répartition du budget de crawl

Googlebot dispose d'un budget de crawl limité sur votre site. Les logs révèlent précisément comment ce budget est dépensé : quelles pages sont crawlées le plus fréquemment, lesquelles sont ignorées, et quelle proportion du crawl est consacrée à des pages sans valeur SEO (pages de filtres, paramètres d'URL, contenus dupliqués).

Si Googlebot passe 40% de son temps à crawler vos pages de recherche interne (non indexables), il ne lui reste que 60% pour vos pages stratégiques. L'analyse de logs permet de mesurer ce gaspillage et de le corriger.

La fréquence de crawl par page

Les pages les plus importantes de votre site sont-elles crawlées régulièrement ? La fréquence de crawl est un indicateur de la valeur que Google accorde à chaque page. Une page importante mais crawlée une fois tous les 30 jours signale soit un problème de maillage interne (Googlebot ne la trouve pas facilement), soit un problème de contenu (Google ne la juge pas assez fraîche ou importante pour la revisiter souvent).

La corrélation crawl — indexation — ranking

En croisant les données de logs avec celles de la Search Console (pages indexées, positions, impressions), vous pouvez établir des corrélations précises : est-ce que les pages les plus crawlées sont aussi celles qui génèrent le plus d'impressions ? Est-ce que certaines pages très crawlées ne sont pourtant pas indexées — et pourquoi ?

Cette analyse croisée est l'une des plus puissantes en SEO technique. Elle révèle des incohérences qu'aucun autre outil ne peut détecter.

Les erreurs réelles de crawl

Les logs enregistrent chaque code HTTP renvoyé à Googlebot, y compris les erreurs intermittentes (500 pendant quelques secondes lors d'un pic de charge) que la Search Console peut manquer. Des erreurs 5xx récurrentes sur certaines pages, même si elles ne s'affichent pas dans les rapports standard, peuvent expliquer des problèmes d'indexation.

Le comportement des bots IA

C'est l'utilisation émergente la plus stratégique de l'analyse de logs. En filtrant par User-Agent, vous pouvez identifier :

  • Quels bots IA visitent votre site (GPTBot, PerplexityBot, Claude-Web, ChatGPT-user…)
  • À quelle fréquence ils crawlent
  • Quelles pages ils consultent en priorité
  • Si leurs visites correspondent à des "Instant Bots" (récupération en temps réel pour composer une réponse) ou à des "Crawler Bots" (aspiration pour les données d'entraînement)

Cette information est précieuse pour valider votre stratégie robots.txt vis-à-vis des bots IA, et pour comprendre quels contenus attirent l'attention des moteurs génératifs.

Comment accéder à vos logs

L'hébergement mutualisé : la plupart des hébergeurs mutualisés donnent accès aux logs d'accès depuis le panneau de contrôle (cPanel, Plesk). Les logs sont généralement disponibles en format Apache (Combined Log Format) ou Nginx.

Le serveur dédié ou VPS : les logs sont accessibles directement sur le serveur, généralement dans /var/log/apache2/access.log (Apache) ou /var/log/nginx/access.log (Nginx).

Les plateformes cloud (AWS, GCP, Azure) : les logs sont disponibles via les services de logging natifs (CloudWatch, Cloud Logging, Azure Monitor), avec des options de filtrage et d'analyse directement dans l'interface.

CDN (Cloudflare, Fastly…) : si vous utilisez un CDN, les logs de votre serveur origine ne capturent que les requêtes qui atteignent votre serveur (cache miss). Les logs du CDN capturent l'ensemble du trafic — y compris les requêtes servies depuis le cache. Pour une analyse complète, utilisez les logs du CDN.

Les outils d'analyse de logs SEO

Screaming Frog Log Analyser : l'outil de référence pour les analyses de logs SEO. Il importe vos fichiers de logs bruts, identifie automatiquement les bots, et génère des rapports croisés sur le budget de crawl, la fréquence de crawl par page, et les erreurs. Peut être connecté à la Search Console pour les analyses croisées.

Oncrawl : solution SaaS qui combine crawl, logs et données Search Console dans une interface unifiée. Particulièrement puissant pour les analyses croisées sur les grands sites. Son module "Log Monitor" détecte automatiquement les anomalies de crawl.

Botify : plateforme enterprise d'analyse de crawl et de logs, orientée grands comptes (sites avec des millions de pages). Offre des analyses de budget de crawl très granulaires.

JetOctopus : alternative SaaS plus accessible, avec connexion native à la Search Console et Google Analytics. Bien adapté pour les consultants et les sites de taille intermédiaire.

Solutions maison : si vous êtes à l'aise avec les outils de data, vous pouvez ingérer vos logs dans BigQuery (Google Cloud) ou Elasticsearch/Kibana pour créer vos propres tableaux de bord d'analyse. Cette approche demande un setup initial mais offre une flexibilité totale.

Une analyse de logs en pratique : les étapes clés

1. Collecter les logs : récupérez les logs sur une période significative (minimum 30 jours, idéalement 90 jours pour lisser les variations).

2. Filtrer par bot SEO : ne conservez que les lignes correspondant à Googlebot (en validant les IPs via la documentation Google), Bingbot, et les bots IA que vous souhaitez analyser. Excluez les faux Googlebots (IPs non répertoriées par Google).

3. Croiser avec votre liste de pages : associez chaque URL crawlée à son statut dans votre CMS (publiée, dépubliée, en draft), à son statut de crawl (indexable, noindex…), et à ses données Search Console (impressions, positions).

4. Identifier les anomalies : pages jamais crawlées malgré un contenu stratégique, pages très crawlées mais non indexées, sections aspirant disproportionnément le budget de crawl.

5. Prioriser les corrections : construisez un plan d'actions basé sur l'impact estimé de chaque correction sur le budget de crawl et l'indexation.

L'analyse de logs n'est pas une démarche ponctuelle — c'est idéalement un monitoring continu. Les patterns de crawl évoluent avec les mises à jour algorithmiques, les évolutions de votre site, et l'émergence de nouveaux bots. Un consultant SEO qui surveille régulièrement les logs de ses clients dispose d'une longueur d'avance significative sur ceux qui se limitent aux outils standards.


Aurélien Page — Consultant SEO/GEO & Traffic Manager

Pas encore sûr par où commencer ?

Échangeons 30 minutes sur votre projet. Gratuit, sans engagement.

  • Votre situation actuelle et vos objectifs
  • Les leviers prioritaires à activer (SEO, SEA, IA, no-code)
  • Une première orientation concrète, immédiatement actionnable
Réserver mon diagnostic offert30 min · Visio ou téléphone · Gratuit