Frédéric Dubut et Fabrice Canel dirigent le programme de recherche "Search and IA" du moteur de recherche de Microsoft.
JDN. À Search Y à Paris, vous avez parlé du plan de développement de l'analyse sur 18 mois. En quoi consiste ce plan?
Fabrice Canel. Le défi des moteurs de recherche aujourd'hui est le besoin de nouvelles données. Il y a encore deux ou trois ans, il suffisait de redéfinir le contenu quelques jours ou quelques heures après un premier passage pour afficher les éventuelles mises à jour. Aujourd'hui, les utilisateurs s'attendent à disposer instantanément de la dernière version. Mais comment être sûr que le contenu présenté est le plus cool sans perdre du temps à repasser sur les mêmes pages? Nous travaillons à fournir aux webmasters des outils pour faciliter la notification lorsque de nouveaux contenus arrivent. Plus précisément, nous communiquons avec les utilisateurs et les professionnels du Web pour savoir comment améliorer leur expérience d'analyse de manière rentable. Nous ferons des annonces dans cette direction en 2019.
Quelle mesure Bing a-t-elle déjà mise en place pour limiter le coût de l'analyse?
F. C. La plupart des agents utilisateurs nommés d'après les moteurs de recherche sont en réalité des faux, qui n'ont rien à voir avec eux. Qu'ils soient malveillants ou non, leur passage consomme des ressources pour les sites. Nous aidons les webmasters à les reconnaître pour les bloquer.
Frédéric Dubut. De plus, il est déjà possible de soumettre l'adresse IP d'un agent utilisateur à l'outil de détection Bingbot, disponible dans l'outil webmaster. Il n'y a qu'un seul Bingbot officiel, avec des variations en fonction des besoins du site.
"Si le contenu ajouté par les webmasters est difficile à analyser pour le moteur de recherche, ce sera difficile pour les utilisateurs"
Les moteurs de recherche doivent maintenant explorer de plus en plus de nouveaux formats. Quelles contraintes cela représente-t-il?
F. C. Le travail du moteur de recherche consiste à s’adapter au contenu le plus possible, et non l’inverse. La création et la gestion d'un site doivent rester simples pour les webmasters. Voici comment Internet a été construit. Bien sûr, il est plus facile d’explorer une page HTML, plus légère qu’une vidéo 4K. Nous avons des directives pour référer les référenceurs qui veulent bien faire et ceux qui ne suivent pas sont un défi pour nous. Ce qu’ils ne réalisent pas toujours, c’est que si le contenu ajouté est difficile à analyser pour le moteur de recherche, il le sera également pour les utilisateurs. S'ils envoient trop de poids aux serveurs, les pages sont tout simplement trop lourdes à charger. Ce n'est pas nous qui sommes la cause du blocage.
Bing travaille-t-il à l'amélioration de l'exploration JavaScript?
F. C. Le contenu sur Internet devient de plus en plus dynamique et doit s’adapter à toutes les tailles d’écran. Oui, le JavaScript est donc un problème important. Je précise que l'exploration de JavaScript n'est pas un problème. Cela se complique lorsque des milliers de pages en JavaScript envoient des appels à d'autres pages en JavaScript. Cela multiplie le nombre de requêtes http adressées au serveur Web. Cela coûte cher à la fois pour le moteur de recherche et le serveur. Le webmaster qui souhaite ajouter massivement des animations complexes prend le risque que ni les utilisateurs ni les moteurs ne puissent ouvrir le contenu de ses pages.
"Si vous voulez bien dormir, choisissez HTML"
F. D. Sur ce point, nous atteignons Google, qui conseille aux grands sites qui utilisent beaucoup JS d’utiliser le rendu dynamique. Cette technique détecte le robot et renvoie le contenu HTML nécessitant uniquement un appel http au serveur Web pour obtenir le texte, l'image, le contenu vidéo et les feuilles de style correctement affichées. C’est un moyen plus simple et plus prévisible d’analyser le contenu, avec une seule base de données. Dans le cas contraire, il est nécessaire d’attendre le passage d’une deuxième analyse robot pour reconnaître le contenu de JS. Vous ne savez jamais quand ce sera, ni quel rendu la page aura comme résultat.
F. C. Si vous voulez bien dormir, choisissez HTML. Demain, il peut y avoir des changements dans l’exploration et l’indexation et ceux qui s’écartent des directives ne sont pas certains que leur contenu sera toujours lu.
La première indexation mobile est-elle une priorité pour Bing?
F. C. Bien sûr. Mais avec la technologie d'affichage adaptatif, un seul fichier est envoyé aux serveurs, quel que soit le périphérique. C'est beaucoup moins de travail pour les webmasters et les robots d'exploration.
L'utilisation de balises de données structurées schema.org est-elle un critère de positionnement pour Bing?
F. D. Oui, tout à fait, car utilisés de bonne foi, ils aident les moteurs de recherche à recueillir des informations. En revanche, ils deviennent un facteur négatif si la balise de classement indique que le site a reçu 400 visites par mois alors qu'il n'y en a eu que dix par exemple. Les spammeurs les utilisent pour donner à leur site une image bien meilleure que la réalité. Mais ce n’est pas parce qu’une balise de titre indique "Je suis le site Web officiel de Facebook", mais nous allons le croire.
Fabrice Canel est un vétéran de la recherche chez Microsoft depuis 22 ans. Il est responsable des protocoles et des normes de recherche pour Bing et dirige l'équipe d'analyse. Avant de rejoindre Bing, Fabrice était responsable de la recherche sur les sites Web de Microsoft, supervisant les technologies de pointe des moteurs de recherche, l'expérience utilisateur et le référencement, au tout début des techniques de référencement.
Frédéric Dubut est responsable principal du programme, responsable de l’équipe anti-spam organique de Bing. Il travaille régulièrement sur les problématiques d'analyse, d'indexation, de qualité des résultats et d'apprentissage automatique. Il travaille chez Microsoft depuis 11 ans et a fait partie d’équipes réparties sur trois continents (la Suisse, les États-Unis et la Chine). Avant de mener la lutte contre le blackhat SEO chez Bing, il a dirigé l'équipe d'analyse pendant 4 ans et a travaillé pour les divisions Office et Xbox. Frédéric est diplômé de l'Ecole Polytechnique et de l'EPFL avec une spécialisation en technologies de l'internet, en PNL et en gestion de la technologie.