La lemmatisation est par définition une action consistant à l’analyse lexicale d’un texte avec pour but de regrouper les mots d’une même famille. On parle ici de donner la forme canonique d’un mot ou d’un ensemble de mots : Chacun de ces mots d’un contenu donné se trouve réduit en une entité appelée en lexicologie lemme ou encore “forme canonique d’un mot”. Les lemmes d’une langue utilisent plusieurs formes en fonction :
- du genre (masculin ou féminin),
- de leur nombre (un ou plusieurs),
- de leur personne (moi, toi, eux…),
- de leur mode (indicatif, impératif…)
Il existe généralement plusieurs formes pour un même lemme.
Exemples de lemmatisation et application pour la recherche sémantique
Quelques exemples sont plus évocateurs pour présenter la lemmatisation :
L’adjectif grand existe sous quatre formes : grand, grande, grands et grandes. La forme canonique de tous ces mots dont le sens premier exprime une taille importante est grand.
Les verbes ont une forme canonique reconnaissable à leur infinitif :
Exemple pour le verbe être : est, sois, fut, étais, fussions, etc.
Compte-tenu de la difficulté pour un programme de reconnaître la similarité de “sois” et “est”, on utilise en informatique très largement la lemmatisation pour permettre la reconnaissance des phrases et des mots.
Impact en SEO et en recherche vocale de la lemmatisation
Traditionnellement, un moteur de recherche analyse votre page en essayant de retrouver chacune des variantes pour les regrouper autour de lemmes ; Le principe étant de définir le sujet principal. Google arrive aujourd’hui à associer les termes d’une page pour en définir le sens général. Évoquer le croissant en l’associant à la pâte, le feuilleté, la cuisson et vous comprendrez que l’on parle de boulange. En revanche, évoquer le croissant avec la lune, l’ombre, la lumière et les astres… on parle ici évidemment bien d’astronomie.
Cette distinction frappante ne se fait pas uniquement sur le lemme donc, mais sur l’association des termes dans un contexte. En tous les cas pour la compréhension des textes. In fine et pour reprendre un cas de figure auquel vous avez très probablement été confronté quand vous étiez dans le cursus scolaire, ce que le moteur de recherche doit faire pour pouvoir identifier un texte et le classer dans la bonne catégorie correspond au célèbre exercice en français que vous aviez à faire et dans lequel vous deviez retrouver tel ou tel champ lexical. Mais si l’exercice pouvait vous paraître simple à l’époque, la tâche pour le moteur de recherche s’avère relativement plus ardue. Et outre ces efforts, il faut aussi considérer, que l’internaute – du webmaster qui gère le site Web aux éventuels personnes qui viendraient le commenter par exemple – se trompe. Aussi bien dans les lemmes eux-mêmes que dans les mots ou formes de mots.
Ainsi “est” est fréquemment employé pour désigner “l’Est”. Et le non respect d’emploi des majuscules n’est qu’une infime partie des fautes d’orthographe commises par les internautes, dont on ne sait qu’il s’agit de fautes qu’en considérant le mot mal orthographié dans son contexte. Ajoutez à cela à l’inverse, même si malheureusement, c’est devenu beaucoup plus rare, les subtilités de langage et les jeux de mots, des articles qui comme celui-ci évoquent la pluralité sémantique d’un même mot, etc.
C’est un travail très complexe pour le moteur de recherche et il est fréquent que ce dernier ait des difficultés à classer un document Web dans la bonne thématique qu’il traite. Sa compréhension est toutefois tout à fait adéquat pour ce qui concerne les déterminants. Un exemple éloquent, vous n’aurez pas le même résultat en recherchant une “location de ski” et une “location au ski” 🙂
La lemmatisation prend particulièrement son sens dans le décryptage des sons de la recherche vocale : comprendre que “est” est une forme du lemme “être” relève d’efforts considérables d’interprétations de différentes formes d’énonciations. Adapter la technique SEO à la recherche vocale implique de prendre en compte ces facteurs d’énonciation. Le “la lemmatisation c’est quoi ?” suppose de faire également associer au moteur la forme “qu’est-ce que la lemmatisation ?”. Voici l’effort en partie à consentir pour obtenir la position zéro sur Google…