Le leader mondial des moteurs de recherche, Google, a récemment introduit une nouvelle application d’exploration en ligne pour leur produit Vertex AI. Cet ajout, bien que discret, est destiné aux commerciaux qui sont clients de ce produit. Cependant, il semble que ce nouvel explorateur n’aura accès qu’aux sites dont les propriétaires ont le contrôle total, bien que les détails de fonctionnement ne soient pas encore entièrement clairs.
Sommaire
Les agents Vertex AI
Du nom de Google-CloudVertexBot, ce nouvel explorateur est capable de capter le contenu des sites web pour les clients de Vertex AI. Cette caractéristique le distingue des autres bots qui sont associés à Google Search ou à la publicité.
La documentation officielle de Google Cloud nous en dit plus : « Dans Vertex AI Agent Builder, il existe différents types de magasins de données. Un magasin de données ne peut contenir qu’un seul type de données « … Les données publiques des sites web font partie des six types de données mentionnés. On découvre également qu’il existe deux types d’exploration de sites web, chacun avec ses propres limitations.
La documentation est confuse
La documentation précise que « Un magasin de données avec des données de site web utilise des données indexées à partir de sites web publics. Vous pouvez fournir un ensemble de domaines et configurer une recherche ou des recommandations sur les données extraites de ces domaines. Ces données comprennent le texte et les images balisées avec des métadonnées ».
À ce point, rien ne dit clairement qu’il est nécessaire de vérifier les domaines. Par ailleurs, l’indexation de base des sites web ne mentionne pas non plus la vérification du propriétaire du site.
Un explorateur confus
La section du nouveau bot, Google-CloudVertexBot, est tout aussi troublante. D’une part, elle indique que l’explorateur ne recherche les données que sur « demande du propriétaire du site », ce qui laisse penser qu’il ne s’intéressera pas aux sites publics. D’autre part, la Changelog qui concerne ce nouveau bot semble indiquer qu’il pourrait visiter votre site.
Le changelog précise que « Le nouvel explorateur a été introduit pour aider les propriétaires de sites à identifier le nouveau trafic d’explorateur »… De plus, on note que le nouvel explorateur utilise les jetons d’agent utilisateur « Google-CloudVertexBot » et « Googlebot ».
Les incertitudes sur le nouveau bot de Google
Malgré l’effort de transparence de Google, le manque de clarté de la documentation continue de poser des questions sur la réelle fonction du Google-CloudVertexBot. En effet, si le Changelog suggère qu’il pourrait explorer tous les sites, y compris les sites publics, la documentation semble indiquer le contraire. Il est donc légitime de se demander s’il vaudrait mieux bloquer ce nouvel explorateur avec un fichier robots.txt, par précaution. Cependant, il ne s’agit que d’une supposition, en particulier parce que la documentation est assez vague sur le fait qu’il n’explore que les domaines qui sont vérifiés comme étant sous le contrôle de l’entité qui initie l’exploration.