Aller au contenu
Accueil » Comment les robots des moteurs de recherche explorent un site web ?

Comment les robots des moteurs de recherche explorent un site web ?

seo link building as search engine optimization, marketing and digital for home page development or mobile applications vector illustration

Ce sont des étapes indispensables à connaître lorsqu’on débute en SEO ou avant de lancer les premières étapes d’une stratégie SEO.

C’est une question que se pose ou que doit se poser tous les consultants SEO en herbe et les professionnels du SEO !

Une chose est sûre, toute stratégie SEO qui se veut efficace débute par le fait de proposer aux moteurs de recherche et à commencer par Google un site web facilement explorable par leurs robots.

Ils vont récupérer les pages des sites web pour les envoyer aux moteurs de recherche pour indexation.

Un consultant SEO se doit en plus d’optimiser cette exploration des pages d’un site web vers les pages les plus stratégiques, celles qui vont générer un trafic quantitatif et qualitatif.

Qu’est-ce que le crawl d’un site web ?

Le crawl est l’étape d’exploration d’un site web par les robots des moteurs de recherche. Ils vont analyser le contenu HTML de la page pour ensuite l’envoyer au moteur. Pour poursuivre leur travail d’analyse sur d’autres pages web, les robots vont repérer les liens sortants internes et externes présents dans cette page.

Pour trouver les pages d’un site web à explorer, les robots disposent de plusieurs possibilités en plus de suivre les liens internes et externes d’une page web. Ils peuvent aussi passer par le Sitemap XML.

Le crawl correspond donc à l’étape de découverte des pages d’un site web pour en récupérer le contenu. Sachez par exemple que Googlebot, le robot de Google crawle 20 milliards de sites web par jour.

Vous vous demandez sûrement le temps que va mettre Google à crawler le contenu de votre site web, cela va dépendre clairement de votre site web. Si le bot de Google a l’habitude de venir régulièrement analyser de nouveaux contenus, votre site web est régulièrement mis à jour, le crawl de votre contenu peut se faire très vite comme c’est le cas des sites médias dont le crawl de leurs articles peut s’effectuer en quelques minutes.

Si votre site est relativement statique, vous devez forcer Googlebot à venir très souvent en proposant par exemple sur votre page d’accueil des liens vers de nouvelles pages de votre site web. Le robot suivra les liens internes et crawlera vos nouvelles pages de contenu. 

Vous pouvez aussi simuler le crawl d’un robot sur un site web à l’aide de nombreux outils comme Screaming Frog, onCrawl, Botify, Seolyzer … Cela vous permettra d’obtenir des informations sur l’état des codes http renvoyés, l’absence de balises title, meta description, H1, balises alt… Un outil de ce genre est indispensable aux consultants SEO Freelance ou à tous ceux qui aspirent à une stratégie SEO réellement efficace.

Qu’est-ce que le budget de crawl ?

Les robots des moteurs de recherche accordent un temps limité au crawl des pages d’un site web. Pour optimiser ce budget de crawl, le consultant SEO va tâcher de présenter aux robots que des pages indexables et de qualité. Retenez qu’un site web mieux crawlé est aussi un site web mieux indexé. Pour s’assurer de bonnes performances en SEO, le consultant SEO doit veiller à ce que les bots des principaux moteurs de recherche comme Google et Bing consacrent leur budget crawl à l’exploration des pages les plus intéressantes au niveau SEO.

Qu’est-ce que la profondeur de crawl ?

Il s’agit du nombre de clics nécessaires pour accéder à une page web depuis la page d’accueil. Dans l’univers SEO, nous avons tendance à dire que pour le crawl et donc l’indexation, chacune des pages d’un site web doit être accessible en moins de trois clics depuis la page d’accueil en passant par les menus et les différents liens internes.

Qu’est-ce l’indexation d’un site web ?

Cette phase ne va débuter que lorsque la page a été crawlée, c’est suite à cette étape d’analyse par les robots que le moteur va décider d’indexer ou non un site web, c’est-à-dire le faire figurer dans ses pages de résultats, les fameuses SERP. Les raisons les plus fréquentes qui expliquent la non indexation d’un site web sont :

  • Le contenu dupliqué ;
  • Les redirections (3xx) ;
  • Les erreurs reçues (4xx, 5xx).

Est-il possible d’interdire l’indexation d’une page web ?

En effet c’est possible et pour cela, il y a plusieurs façons de faire :

  • Soit en utilisant la balise meta robots noindex
  • Soit en utilisant la directive X-Robots-Tag du protocole http (Dans ce cas, la page est crawlée mais est non indexée.)

Sachez que si les robots les plus sérieux suivent les interdictions de crawl et d’indexation, un robot pirate peut quant à lui aller à l’encontre des interdictions et ne pas tenir compte des consignes présentes dans un fichier robots.txt ou une balise meta robots.

Combien de temps faut-il aux moteurs de recherche pour indexer un contenu ?

L’indexation d’un site web est très rapide après le crawl, le plus souvent c’est quasi immédiat. Vous pouvez aussi passer par l’inspection d’url de la Search Console qui permet de demander un crawl et donc une indexation de votre page web.

Si vous avez des questions sur le crawl et l’indexation de votre site web, n’hésitez-pas à me poser vos questions, je tâcherai d’y répondre en tant que consultant SEO freelance

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *