IndexNow : crawl et l’indexation instantanés des pages ! Miss SEO Girl

La presque injonction IndexNow

Voici le dernier venu des crawlers : IndexNow. S’il sonne comme une injonction, on peut dire, que pour une fois, ce protocole redonne du pouvoir aux développeurs et aux propriétaires de sites web. Comment fonctionne IndexNow ? Quels moteurs de recherche l’intègrent aujourd’hui ? Les géants du net s’y intéressent-ils vraiment ?

Avant de répondre à ces questions, dans ce contexte si spécial, nous avons pensé qu’une petite piqûre de rappel serait aussi d’actualité. Nous allons donc faire une légère aparté pour nous imprégner de l’histoire et des enjeux du crawling.

Rapide histoire du crawling

“Crawling in my skin Consuming all I feel…”, vous connaissez ? “Crawling”, Linkin Park en 2000, mais ne nous égarons pas !

Le crawling, celui qui nous intéresse, connu de tous les padawans ou maîtres du référencement, date de 1993.

À cette époque, pas si lointaine, le Word Wide Web ne comptait que quelques 200 sites. Mosaic, développé par le centre de recherches américain NCSA (National Center for Supercomputing Applications), va venir bousculer ce petit monde. C’est le premier navigateur à gérer et supporter des images, des formulaires interactifs au cœur des pages. Avec son interface graphique plus intuitive et légèrement plus friendly (très loin des standards d’aujourd’hui !), il séduit les grandes organisations privées et publiques qui créent leur site web. Les plus blagueurs parlent alors du Word Wide Wait, tant le réseau est engorgé !

Dans le même temps, Matthew Gray développe le premier crawler officiel appelé World Wide Web Wanderer, ou Wanderer pour les intimes. L’objectif de ce premier crawler est, selon les mots de son créateur, de “connaître la taille d’Internet” et sa croissance. Avec Wanderer naît l’index “Wandex”, et de manière sibylline, le premier moteur de recherche Web.

Le mouvement du Web Crawling et de l’indexation est lancé. Aujourd’hui tous les moteurs de recherche s’appuient sur ces robots d’exploration pour :

collecter les données des pages web ;
analyser, organiser et indexer les données récoltées en amont.

Quasiment tous les yeux et cerveaux des pros du web sont tournés vers Googlebot, le collecteur de données de… Google. C’est bien, vous suivez ! Les autres moteurs de recherche ne menacent pas son hégémonie. Dans tous les cas, la connaissance des mécanismes de crawling semblent être un enjeu SEO

Connaître les mécanismes du crawling, un enjeu SEO ?

IndewNow enjeu SEO

Plus de 1,84 milliards de sites aujourd’hui contre 2 millions en 1998, quand Google s’est imposé l’air de rien ! Aujourd’hui, la pouponnière web accueille plus de 3 sites par seconde… On le sait, mais ces chiffres filent le tournis.

Alors oui, dans cette jungle, comprendre les bots et les mécanismes de crawling présente un véritable enjeu SEO.

Optimisation et pertinence de contenu, netlinking (et Pagerank), accessibilité, performance et sécurité influencent directement la crawlabilité, et par effet de bord, l’indexation et le bon référencement d’un site web. Nous pouvons parler de SEO technique. Le directeur SEO d’Eskimoz, confirme la nécessaire maîtrise de : “la crawlabilité, l’indexation, le maillage interne, les web performances, le budget de crawl, l’index mobile-first, le sitemap et son indexation, le volume de crawl par des bots, ou encore le gaspillage du budget de crawl”.

Faciliter le crawl dans une stratégie SEO

C’est confirmé, une stratégie SEO doit faciliter le crawling des pages d’un site web pour :

à court terme, optimiser le budget de crawl, autrement dit le temps passé par le bot à explorer le site ;
sur du plus long terme, se donner les moyens de se positionner durablement dans le haut du SERP.

Le budget de crawl est l’un des premiers indicateurs à analyser dans le cadre d’une stratégie SEO.

Pourquoi le budget de crawl est si important dans les stratégies SEO ?

Penchons-nous quelques secondes sur la vie de Googlebot. Comme dit plus haut, avec la popularité grandissante du web, notre ami doit scanner et crawler un nombre de pages colossal. Pour optimiser ses tâches, il alloue un temps limité à chaque exploration de site, c’est ce qu’on appelle le budget de crawl.

Le budget de crawl peut être augmenté grâce à une bonne stratégie de netlinking (ou link building). Dans le même temps, il doit être aussi rationalisé.

5 axes pour rationaliser le budget de crawl

5 axes de travail pour rationaliser le budget de crawl d’un site web :

La vitesse de chargement du site, plus le robot parcourt rapidement un site, plus il peut le crawler en profondeur. Il faut veiller aux bonnes performances du serveur qui hébergent le site et à l’optimisation du code et du contenu du site.

La profondeur des pages, plus il faut de clics pour atteindre une page, moins il y a de chances que la dite-page soit explorée. Le maillage interne est l’une des premières briques à travailler pour s’assurer que les pages les plus importantes soient facilement accessibles

La fréquence de publication de nouveaux contenus structurés, qualitatifs, optimisés donne un signal positif aux bots qui vont venir crawler le site mis à jour

La cartographie du site web avec le fichier sitemap.xml qui va guider le robot d’exploration.

La définition des pages à ne pas indexer et qui ne seront donc pas crawler, avec le fichier
robots.txt, premier fichier consulté par le robot.

Aujourd’hui, un nouveau venu s’invite dans ce magnifique monde du crawling : IndexNow. Une fois n’est pas coutume, c’est Bing et le “google russe” Yandex qui en sont les géniteurs.

Alors IndexNow, c’est quoi ? Comment fonctionne-t-il ? Quels acteurs l’ont déjà intégré ?

IndexNow, c’est quoi ?

IndexNow, c’est quoi

IndexNow est un nouveau protocole. Il permet le crawl et l’indexation instantanés des pages modifiées et soumises directement par un professionnel du web, ou par un propriétaire de site web. D’un crawl en mode “pull”, comme majoritairement géré aujourd’hui, on passe à un crawl en mode “push”, donc mieux “maîtrisable” en amont. Le rêve expliqué par Microsoft :

“[…] historiquement, l’un des principaux problèmes rencontrés par les propriétaires de sites Web a été de permettre aux moteurs de recherche de découvrir et d’examiner rapidement les dernières modifications apportées à leur site Web. Cela peut prendre des jours, voire des semaines, pour que de nouvelles URL soient découvertes et indexées dans les moteurs de recherche, ce qui entraîne une perte de trafic potentiel, de clients et même de ventes.

[…] une fois que les moteurs de recherche sont informés des mises à jour, ils explorent rapidement et reflètent les modifications apportées au site Web dans leur index et leurs résultats de recherche.”

Comment fonctionne IndexNow ?

Comment fonctionne IndexNow

IndexNow fonctionne comme un ping. Via une requête HTTP, l’URL modifiée, couplée à une clé unique, est transmise aux moteurs de recherche. Facile non ? Et il n’y a pas de pièges !

Plusieurs méthodes d’utilisation IndexNow sont envisagées/geables :

Les crawlers manuels, Botify et son principal concurrent Oncrawl, ont prévu de l’intégrer ;
IndexNow est opensource et disponible sous forme d’API à la disposition des développeurs ;
Les CMS Wix et Duda envisagent d’intégrer l’API ;
Les CDN (Réseau de diffusion de contenus) Cloudflare et Akamai prennent d’ores et déjà en charge le protocole.

A lire pour aller plus loin : OnCrawl, performant crawler & puissant outil d’analyse de logs

Onely, Yext et les sites Web de Microsoft (GitHub, LinkedIn et MSN) utilisent déjà IndexNow.

Quid de Google et de WordPress face à IndexNow ?

Quid de Google et de WordPress face à IndexNow

Encore une fois, deux géants du net, l’incontournable Google et le CMS WordPress (39,5% de tous les sites web en 2021 selon it-revue.fr), concentrent toute notre attention.

Selon les dernières sources, si WordPress n’est pas fermé à ce nouveau protocole de crawling, l’implémentation divise. Microsoft propose l’intégration d’un code au cœur de WordPress, alors que WordPress souhaite privilégier l’utilisation d’un plugin. Dans ce dernier cas, Microsoft garderait la responsabilité du support du plugin.

Si le projet semble avoir une portée limitée, la position de Google peut tout changer. Qu’est-ce qui peut faire hésiter le premier moteur de recherche du marché ? 2 éléments clés :

Google travaille à l’amélioration continue de ses mécanismes d’exploration, notamment avec l’utilisation du protocole de transfert de données HTTP/2. Ils ont déclaré à Search Engine Land “nous adoptons une approche holistique de la durabilité chez Google, y compris des efforts pour développer l’index le plus efficace et le plus précis du Web”.

Google a déjà développé sa propre API d’indexation en temps réel pour des pages spécifiques et ils se sont déjà posé la question des limites de cette méthodologie.

Ils se sont toutefois engagés à tester IndexNow. Peut-on dire que l’avenir de ce protocole est entre les mains, encore une fois, de Google ? Affaire à suivre !

Nous arrivons à la fin de cet article, malgré tout synthétique sur un sujet où il y a tant à dire. Il faut retenir que le crawling est l’affaire de tous les professionnels du web et des référenceurs web. Le spectre du SEO s’élargit tous les jours un peu plus. La bonne connaissance, notamment des moteurs de recherche, et la veille technique sont absolument indispensables. Et nous allons suivre de près la trajectoire de ce nouveau protocole IndexNow.

Alexandra Martin

Passionnée par le référencement naturel et la rédaction web ! Blogueuse depuis 2012 ! Coauteur du livre “Techniques de référencement web” et “Stratégie de contenu e-commerce”.
Découvrez mes “Prestations SEO” et contactez-moi pour échanger sur votre projet SEO.

Please wait...

2 réflexions au sujet de « La presque injonction IndexNow »

Le 10 décembre 2021 à 11 h 21 min, Mobyssey a dit :

IndexNow est un changement majeur dans l’indexation des moteurs de recherche.
Le 14 février 2022 à 13 h 41 min, djefoo a dit :

Il reste à espérer que dans un avenir proche, Google prendra des mesures qui profiteront aux deux parties (Google et les propriétaires des sites).

Miss SEO Girl

Conseils SEO et astuces pour le référencement naturel de vos sites🤍