Lorsqu’on tape un mot-clé dans Google, on a l’habitude de le voir s’afficher en gras dans les différents résultats proposés par le moteur de recherche. Google se contente ainsi de retrouver les pages web où se trouve ce mot sans chercher à savoir si le résultat présenté est pertinent. A une époque, on tombait même sur des résultats qui n’ont aucun rapport avec la requête initiale, fruits du travail black-hat des adeptes du Google Bombing.

Des internautes américains ont récemment constaté que le moteur de recherche arrivait à répondre à la requête des internautes directement dans ses résultats de recherche. Simple subterfuge ou véritable (r)évolution ?

De la recherche par navigation à la recherche par requête

La recherche par navigation (Navigational Searches)
L’internaute tape dans le moteur de recherche une phrase ou une combinaison de mots qu’il s’attend à trouver dans des documents. Le moteur de recherche se contente de reconnaître une simple chaîne de caractères, sans traiter les données de façon intelligente. Il est indifférent à l’analyse du sens et joue le rôle d’un simple outil de navigation.

Le moteur de recherche s’intéresse par exemple à la morphologie du mot. L’exemple le plus fréquent est la lemmatisation qui consiste à connaître les différentes formes que peut revêtir un mot (pluriel, verbe infinitif,…).

02_yeux-oeil-google
Le moteur de recherche s’intéresse également à l’analyse syntaxique du texte, c’est-à-dire à la façon avec laquelle un mot peut se combiner avec d’autres mots pour former des phrases et des expressions.
L’auto-complétion de Google ainsi que les recherches associées en sont un exemple même si ces innovations se basent pour l’instant sur les requêtes les plus fréquentes des internautes plutôt que sur le traitement des pages du web :

03_autocompletion-google

La recherche par requête (Research Searches)
Dans certains cas, l’internaute n’utilise pas le moteur de recherche pour trouver un document particulier mais pour recueillir le plus d’informations possibles sur un sujet donné. Pour répondre à ce besoin le moteur de recherche tente d’analyser un mot au niveau du sens plutôt que de la morphologie ou la syntaxe.

Mais est-ce si facile que ça ?
Nous sommes tous bien placés pour savoir que les internautes ont longtemps subi l’infortune de la recherche aléatoire sur internet : pages sur-optimisées, inutiles, spammées,…

Par ailleurs, jusque-là, l’analyse sémantique est présente sur le web selon des méthodes plus statistiques que linguistiques, comme par exemple l’identification du champ lexical d’un document à partir du calcul des cooccurrences.

Cependant, nous avons récemment constaté que Google arrivait à répondre à des questions directement dans les résultats de recherche.

Résultat classique

04_airline-pilot-salary-classique

Nouveau résultat

01_airline-pilot-salary
Est-il donc vraiment devenu intelligent ? Comment est-il arrivé à trouver la réponse directement dans le texte ?

Hummingbird, le dernier algorithme de Google
Lorsque Hummingbird est sorti en août 2013, Google annonça l’objectif de ce changement majeur : comprendre l’intention de l’internaute via la recherche conversationnelle. Mettre en gras le salaire d’un pilote d’avion dans ses résultats de recherche en est un exemple évident.

Mais qu’est-ce qui permet à un moteur de recherche de comprendre le sens d’un texte ? D’autant plus que le sens d’un mot varie sensiblement d’un contexte à un autre ?

Les microdonnées
Les microdonnées sont une fonctionnalité HTML5 créée afin d’offrir du contenu sémantique dans des documents html (source : wikipédia)
Les principaux moteurs de recherche Google, Bing et Yahoo ont décidé de se regrouper pour créer un nouveau standard commun basé sur les microdonnées et intitulé schema.org. Il se base sur la création d »un schéma de balisage des données structurées.

Ces balises sémantiques nous permettent de communiquer avec les moteurs de recherche : ceci est un produit, ceci est son prix, ceci est l’image associée au produit,… Cette personne est un réalisateur, il a réalisé tel film avec tel acteur,… Les données, liées entre elles, prennent sens.

Google propose des outils de test destinés aux développeurs ainsi qu’une rubrique spécifique dans Webmaster Tools pour détecter les éventuelles erreurs et champs manquants.

Le Page Rank Thématique
Imaginez qu’un jour nous explorons les documents en nous basant sur leur thème. Nous pourrons observer l’évolution des thèmes à travers le temps et comment ils sont connectés les uns avec les autres (ça ne vous fait pas penser à Google Correlate tout ça ?). Au lieu de trouver des documents en nous basant seulement sur la recherche de mots-clés, nous pourrons commencer par trouver le thème qui nous intéresse puis examiner les documents relatifs à ce thème.

En 2003, Google embaucha Taher HAVELIWALA, un mathématicien ayant travaillé sa thèse de doctorat sur un nouveau système de filtration du PageRank. Ce dernier propose une méthode permettant d’attribuer à chaque page du Web différentes notes de réputation, chacune spécifique à une thématique donnée.

Grâce au PageRank thématique, Google va pouvoir comprendre que dans un corpus de pages traitant de politique, le mot « rose » n’aura pas le même sens que dans un corpus parlant de jardinage ou de films mythiques.

Le langage HTML5
Enfin, il ne faut pas oublier que la structure HTML d’une page est très importante en SEO. On sait par exemple qu’un lien en haut d’une page n’a pas le même poids qu’un lien en bas de la page. Le langage HTML5 renforce cette structuration grâce à ses nouvelles balises : aside, nav, article.
Ainsi, un mot-clé n’aura pas la même importance dans une balise article que dans une balise aside ou nav. L’utilisation de ces balises facilite sûrement la tâche à Google pour donner du poids à tel ou tel autre mot-clé ainsi que pour analyser la réelle densité d’un mot-clé sur une page.

Donner du sens aux données : une condition sine qua non pour que les moteurs de recherche comprennent le contenu de vos pages web. Toutefois, tout bon SEO sait que cela ne suffit pas pour rendre un moteur de recherche plus intelligent. En effet, la question de la liaison des données entre elles a toujours été au centre du comportement des moteurs de recherche, notamment dans leur quête de l’intelligence.
N’hésitez donc pas à contacter l’équipe génération de trafic de Rouge Interactif pour en savoir plus à ce sujet !

Quelques sources :
http://www2003.org/cdrom/papers/refereed/p779/ess.html
https://websemantique.wordpress.com/2013/02/26/la-recherche-dinformations/
http://igm.univ-mlv.fr/~chilowi/unsortable/m2/pagerank.article.pdf
http://www.seomoz.org/blog/semantic-web-and-link-building-without-links-the-future-for-seo

 

20 mai 2015