Analyse de logs SEO : comprendre le comportement de Googlebot sur votre site
La Google Search Console vous dit ce que Google veut bien vous montrer. Les logs serveur vous disent ce qui se passe vraiment. L'analyse de logs est la technique SEO avancée par excellence, celle qui révèle les comportements de Googlebot invisibles depuis n'importe quel autre outil, et qui permet souvent d'expliquer des problèmes d'indexation que rien d'autre ne laissait entrevoir.
Si vous avez des pages "détectées mais non indexées" dans la Search Console, des contenus qui stagnent malgré une bonne optimisation on-page, ou des sections entières de votre site qui semblent invisibles pour Google, l'analyse de logs est souvent la première étape pour trouver pourquoi. Elle s'inscrit dans une démarche d'audit SEO avancée, complémentaire aux outils classiques.
Qu'est-ce qu'un log serveur ?
Un log serveur (ou log d'accès) est un fichier généré automatiquement par votre serveur web qui enregistre chaque requête reçue, quelle qu'en soit la source. Chaque ligne correspond à une visite : un internaute, un bot, un crawler de monitoring, chacun laisse une trace horodatée.
Une ligne de log type ressemble à ceci :
`` 66.249.66.1 - - [10/Apr/2025:14:32:01 +0000] "GET /blog/seo-technique/ HTTP/1.1" 200 45231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" ``
On y lit : l'IP source, la date et l'heure, la méthode HTTP et l'URL requise, le code de réponse du serveur, la taille de la réponse, et l'User-Agent qui identifie le client. Pour le SEO, ce qui nous intéresse est de filtrer uniquement les lignes correspondant aux crawlers, Googlebot, Bingbot, mais aussi, de plus en plus, les bots IA (GPTBot, PerplexityBot, anthropic-ai, ClaudeBot…).
Pourquoi analyser les logs alors qu'on a la Search Console ?
La Search Console est un outil précieux, mais elle présente des limites structurelles importantes :
Elle ne montre que ce que Google choisit de vous montrer. Googlebot crawle bien plus de pages qu'il n'en indexe ou n'en signale dans la Search Console. Les pages crawlées mais non indexées, les erreurs de crawl sur des URLs non stratégiques, les patterns de crawl anormaux, tout cela n'apparaît pas dans la Search Console.
Elle ne couvre pas les bots IA. La Search Console ne différencie pas les visites de Googlebot des visites de GPTBot ou de PerplexityBot. Seuls les logs permettent d'identifier et d'analyser le comportement de chaque bot séparément. Dans un contexte où la visibilité dans les moteurs génératifs devient aussi importante que le classement Google, c'est une information stratégique.
Elle ne capture pas les erreurs intermittentes. Les erreurs 5xx qui durent quelques secondes lors d'un pic de charge n'apparaissent pas toujours dans la Search Console. Les logs capturent chaque erreur, même les plus fugaces, et ces erreurs peuvent suffire à bloquer Googlebot sur certaines pages.
Elle est à posteriori. La Search Console consolide des données sur plusieurs jours. Les logs sont en temps réel, ou quasi temps réel selon votre configuration.
Ce que révèle l'analyse de logs : 4 diagnostics clés
1. La répartition du budget de crawl
Googlebot dispose d'un budget de crawl limité sur votre site. Les logs révèlent précisément comment ce budget est dépensé : quelles pages sont crawlées le plus fréquemment, lesquelles sont ignorées, et quelle proportion du crawl est consacrée à des URLs sans valeur SEO.
Dans un audit réel que j'ai mené sur un site e-commerce de 50 000 pages, 38% du budget de crawl était absorbé par des pages de filtres de navigation générées dynamiquement, des URLs comme /produits?couleur=rouge&taille=M&tri=prix-asc. Ces pages n'avaient aucune valeur SEO, n'étaient pas indexables, mais Googlebot les crawlait en boucle. Résultat : les pages catégories prioritaires n'étaient crawlées qu'une fois tous les 20 jours, alors qu'elles auraient mérité une visite quotidienne.
La correction (mise en place de robots.txt pour bloquer les paramètres dynamiques + canonicals) a multiplié par 3 la fréquence de crawl des pages catégories en 6 semaines. Ce type de problème est invisible depuis la Search Console seule. Pour aller plus loin sur le sujet du budget de crawl, l'article sur l'indexabilité SEO vous donnera les bases théoriques.
2. La fréquence de crawl par page
Les pages les plus importantes de votre site sont-elles crawlées régulièrement ? La fréquence de crawl est un indicateur indirect de la valeur que Google accorde à chaque page. Une page stratégique crawlée une fois tous les 30 jours signale soit un problème de maillage interne (Googlebot ne la trouve pas facilement), soit un problème de contenu (Google ne la juge pas assez fraîche ou pertinente pour la revisiter souvent).
Cette métrique est particulièrement utile pour diagnostiquer des problèmes de maillage interne : si une page bien optimisée est sous-crawlée, c'est souvent parce qu'elle reçoit peu de liens internes depuis le reste du site, et que Googlebot ne la "redécouvre" que rarement.
3. La corrélation crawl, indexation, ranking
En croisant les données de logs avec celles de la Search Console (pages indexées, positions, impressions), vous pouvez établir des corrélations précises : les pages les plus crawlées sont-elles aussi celles qui génèrent le plus d'impressions ? Des pages très crawlées restent-elles non indexées, et pourquoi ?
Cette analyse croisée est l'une des plus puissantes en SEO technique. Elle révèle des incohérences qu'aucun autre outil ne peut détecter. Par exemple : une page crawlée 3 fois par jour mais absente de l'index signale souvent un problème de contenu (thin content, duplicate, signal qualité insuffisant) plutôt qu'un problème de crawlabilité. À l'inverse, une page non crawlée du tout et non indexée pointe vers un problème de discovery ou de robots.txt.
4. Le comportement des bots IA
C'est l'utilisation la plus stratégique de l'analyse de logs en 2025. En filtrant par User-Agent, vous identifiez quels bots IA visitent votre site (GPTBot, PerplexityBot, Claude-Web, Amazonbot, YouBot…), à quelle fréquence, et quelles pages ils consultent en priorité.
Cette information permet de valider, ou d'ajuster, votre stratégie robots.txt vis-à-vis des bots IA, et de comprendre quels contenus attirent l'attention des moteurs génératifs. Si PerplexityBot crawle systématiquement vos articles sur un thème précis, c'est que votre contenu sur ce thème est potentiellement cité dans les réponses de Perplexity, un signal de visibilité GEO.
Comment accéder à vos logs
Hébergement mutualisé (OVH, o2switch, Infomaniak) : les logs sont accessibles depuis le panneau de contrôle (cPanel, DirectAdmin). Format Apache Combined Log Format.
Serveur dédié ou VPS : /var/log/apache2/access.log (Apache) ou /var/log/nginx/access.log (Nginx). Pensez à configurer la rotation des logs pour conserver l'historique.
CDN (Cloudflare, Fastly) : si vous utilisez un CDN, vos logs serveur ne capturent que les requêtes non servies depuis le cache (cache miss). Les logs du CDN capturent l'ensemble du trafic. Pour une analyse SEO complète, utilisez les logs CDN.
Next.js / Vercel : par défaut, Vercel ne fournit pas de logs de crawl détaillés. Il faut passer par les intégrations de logging (Datadog, Axiom, Logtail) pour capturer les requêtes bots.
Les outils d'analyse de logs SEO
Screaming Frog Log Analyser, la référence pour les consultants. Import de fichiers de logs bruts, identification automatique des bots, rapports croisés sur le budget de crawl. Peut être connecté à la Search Console et Google Analytics.
JetOctopus, alternative SaaS accessible, avec connexion native Search Console et GA4. Bien adapté aux sites de taille intermédiaire (10 000 à 500 000 pages).
Oncrawl, solution SaaS combinant crawl, logs et données Search Console. Puissant pour les analyses croisées sur les grands sites, son module "Log Monitor" détecte automatiquement les anomalies.
Solutions maison (BigQuery / Elasticsearch), si vous êtes à l'aise avec les outils data, ingérer vos logs dans BigQuery offre une flexibilité totale. Coût très faible, mais setup technique initial non négligeable.
Analyse de logs en pratique : les 5 étapes
1. Collecter sur une période significative, minimum 30 jours, idéalement 90 jours pour lisser les variations. Les patterns de crawl sont irréguliers ; une semaine de données ne suffit pas.
2. Filtrer par bot SEO authentifié, ne conservez que les lignes correspondant à Googlebot en validant les IPs via la documentation officielle Google (reverse DNS lookup). Les faux Googlebots sont nombreux ; ils doivent être exclus.
3. Croiser avec votre liste de pages, associez chaque URL crawlée à son statut dans votre CMS (publiée, dépubliée), à son statut crawlabilité (indexable, noindex, bloquée en robots.txt), et à ses données Search Console.
4. Identifier les anomalies, pages jamais crawlées malgré un contenu stratégique ; pages très crawlées mais non indexées ; sections aspirant disproportionnément le budget de crawl ; erreurs 5xx récurrentes sur des URLs importantes.
5. Prioriser les corrections, classez les anomalies par impact estimé. Un section qui absorbe 30% du budget de crawl sur des pages sans valeur est une priorité absolue. Une page stratégique non crawlée l'est presque autant.
Questions fréquentes sur l'analyse de logs SEO
L'analyse de logs est-elle réservée aux grands sites ? Non. Elle est évidemment plus critique sur les sites de plusieurs dizaines de milliers de pages, où le budget de crawl est une ressource rare. Mais même sur un site de 200 pages, l'analyse de logs peut révéler des problèmes invisibles depuis la Search Console : pages jamais crawlées malgré un bon maillage interne, erreurs intermittentes, bots IA bloqués ou non.
Quelle différence entre le rapport "Crawl Stats" de la Search Console et les logs ? Le rapport "Crawl Stats" de la Search Console donne une vue agrégée du comportement de Googlebot, nombre de pages crawlées par jour, types de ressources. Les logs donnent le détail complet : chaque URL crawlée, à quelle heure, avec quel code de réponse. La granularité est incomparable.
À quelle fréquence faut-il analyser ses logs ? Pour un consultant SEO ou un responsable technique, un monitoring continu est idéal. À défaut, une analyse mensuelle permet de détecter les dérives avant qu'elles n'impactent significativement le positionnement. Les bons outils (JetOctopus, Oncrawl) envoient des alertes automatiques sur les anomalies de crawl.
Peut-on analyser les logs sans outil payant ? Oui, avec des limites. Sur de petits volumes de logs, un tableur ou des scripts Python/bash suffisent pour les analyses de base. À partir de quelques centaines de milliers de lignes, un outil dédié ou BigQuery devient nécessaire pour des analyses en temps raisonnable.
L'analyse de logs n'est pas une démarche ponctuelle, c'est idéalement un monitoring continu. Les patterns de crawl évoluent avec les mises à jour algorithmiques, les évolutions de votre site, et l'émergence de nouveaux bots. Pour compléter votre diagnostic SEO technique, les articles sur le crawler SEO et sur l'indexabilité SEO vous donneront le cadre complet.
Vous voulez analyser le comportement de Googlebot sur votre site ? C'est une partie centrale des audits SEO que je réalise. Contactez-moi pour en discuter.