Sujet très à la mode aux Etats-Unis en 2005 puis en France aux alentours de 2007, le Latent Semantic Indexing est rapidement tombé dans les oubliettes (Un peu à la manière de Google Wave). Le LSI a été breveté en 1988 et de nombreuses universités, notamment américaines, s’y sont intéressées. On retrouve donc logiquement tout un tas de paperasse (mémoires, rapports d’études…) en anglais assez technique, toujours archivés chez nos amis. Au fur et à mesure de mes lectures, j’ai pris quelques notes, mais c’est un gros coup de pompe dans le derche de Sylvain d’Axe-Net qui m’aura forcé à rédiger proprement ce billet. C’est donc lui qu’il faudra remercier ![]()
C’est quoi, le LSI ?
Il ne faut pas confondre le Latent Semantic Indexing, qui est une méthode avancée de recherche d’information (donc potentiellement, une partie de l’algorithme d’un moteur de recherche majeur) et le web sémantique dont on parle de plus en plus (voir l’article de Camille Roux sur le référencement sémantique, il est toujours valable un an plus tard et les microformats qu’il décrit débarquent de plus en plus souvent dans les SERPs…).
Le Latent Semantic Indexing est donc une méthode qui vise à déterminer des concepts, et des familles de concepts, à travers les mots qui sont contenus dans un document (il est même possible que ce soient des n-grams qui soient utilisés, qui sont des « ensembles de lettres ». par exemple, le mot maison donne les n-grams « mai », « maiso », « mais », « ison »…). Les mots ne sont donc pas regroupés par ressemblance, mais par proximité, par fréquence de co-occurrence (co-occurrence : apparition des deux termes proches l’un de l’autre). Un exemple que je trouve assez parlant :
Paris and Hilton are associated with a woman instead of a city and a hotel, Tiger and Woods are associated with golf.
Source : free-seo-news
Un exemple en français ? « la marque au lion », qu’on s’attend à trouver associé à Peugeot assez souvent.
Attention, un peu de technique
(Ayant été développeur, j’ai été bien obligé de réfléchir aux implications techniques de mes lectures sur le LSI)
On se retrouve donc avec des familles de mots plus ou moins proches qu’on peut regrouper en grappes ou en arbres. Le concept de grappes de mots me semble très adapté au fonctionnement d’un algo qui doit chercher des corrélations dans des volumes très importants de documents. Chaque grappe (composée de mots) se retrouve au coeur d’une « galaxie » de documents qui en sont sémantiquement proches. Quand un internaute tape une requête, on cherche directement dans la grappe concernée et directement autour d’elle. Cela permet de cerner grossièrement des documents autour d’un thème et de pouvoir approfondir en recherchant les plus pertinants, parmi ceux-ci uniquement.
Qui est Peter Foltz ?
Peter Foltz, c’est un gros cerveau plein de bonnes idées. Chercheur en phychologie cognitive, il a publié de nombreuses études pour l’Université de Boulder (Colorado) depuis le début des années 2000. Il est spécialisé en méthodes de tri et de recherche d’informations. Ses travaux l’ont conduit vers la sémantique et la linguistique et ses études regorgent de perles. Très calé en « latent semantic analysis » (LSA), il fait partie des gens ayant modélisé le LSI dans l’unique but de trier et classer des informations, ce que fait notre ami Google des millions (milliards?) de fois par jour.
Pour avoir lu plusieurs de ses études, il me semble quasi-évident que chez Google, on est fans du bonhomme: la plupart de ses théories peuvent être associées à un ou plusieurs services Google. Par exemple, Foltz a travaillé sur le pourquoi du comment de de créer des modèles d’utilisateurs précis. Cela permettrait de mieux cibler ses intérêts et donc les documents qu’il souhaite trouver. (Google Profile et la recherche personnalisée ?)
Puisqu’il est difficile de créer un profil pertinent (merci Jori, grâce à toi je vais faire du tourisme au Portugal), Peter se tourne vers le « keyword matching » (correspondance mot-à-mot) mais laisse rapidement tomber l’idée puisque d’après des études de 1983, seulement 10 à 20% des personnes utilisent spontanément le même mot pour parler de la même chose (déformation professionnelle : ça voudrait dire qu’en étant premier seulement sur le mot-clef générique qui représente votre activité, vous perdriez 80 à 90% de vos clients potentiels). De plus, des concepts comme la polysémie (plusieurs sens pour le même mot) et la synonymité (plusieurs mots pour un même sens) font aussi échouer les recherches menées mot-à-mot.
Foltz se tourne donc vers le Latent Semantic Indexing qui regroupe les mots en matrices multidimensionnelles (qui sont des grappes, en mieux ordonné) qui permettent de traiter plus d’informations à chaque itération de l’algorithme. Le LSI utilise ces matrices comme filtre :
Because LSI results in a space based on underlying semantic similarity, articles on similar topics should tend to cluster in the space. This feature is the basis for using it for filtering
Source: Using Latent Semantic Indexing for Information Filtering by Peter Foltz (Université de Boulder, Colorado)
Implications pour le SEO
Le mot est lâché : cluster ! Les articles sur des sujets similaires reprennent plus ou moins automatiquement le même corpus de termes. (ex: pour des articles sur les voitures, on verra souvent moteur, échappement, consommation…). Pour qu’une page soit considérée comme pertinente sur un sujet, en l’analysant au moyen du LSI, puis en filtrant sur une matrice de termes connexes, il faut logiquement qu’elle reprenne l’ensemble des termes de la grappe.
Pour faire clair : Si je parle de voiture, il FAUT que j’utilise aussi moteur, échappement et consommation sur la même page.
Et pourquoi se limiter au contenu d’une page ? Si je prenais le texte des liens qui pointent vers la page, et que ces liens étaient tous « spontanés », je devrais logiquement retrouver les éléments de ma matrice sémantique…. Il est donc très important de varier les textes des ancres qui mènent à une page, tout en respectant une certaine proximité sémantique avec le contenu pour ne pas taper à côté de la première matrice (Google utilise déjà le « landing page relevancy » au niveau du Quality Score calculé pour le SEM… J’imagine que l’algo doit plus ou moins être équivalent).
C’est une partie de ce qu’en référencement on appelle le Keyword Clustering, l’autre partie étant une séparation plus ou moins stricte – selon quel gourou vous écoutez – des clusters ou grappes au sein d’un site. Le keyword clustering est le « smart way » pour cibler une expression assez concurrentielle avec un site trop jeune ou puissant pour apparaitre naturellement dans les SERPs sur la requête concernée. En travaillant sur les « petits mots clefs » de la même grappe sémantique, on prépare le terrain pour une requête plus lourde, qui finira quasiment par monter toute seule.
Il est donc même possible de faire ressortir une page sans utiliser un terme ni dans son contenu, ni dans les liens qui pointent vers elle, simplement en jouant avec le champs sémantique des ancres. Pour reprendre notre exemple, une page liée sur les termes moteur, échappement et consommation, et qui contient ces termes, a de grandes chances de parler de voiture. Avant l’apparition des réseaux sociaux et compagnie, j’avais un blog qui ressortait très bien sur mon nom, qui n’était pourtant mentionné nulle part).
Et encore une fois, pourquoi s’arrêter là ? La page qui fait le lien vers la mienne a aussi une matrice LSI. En comparant les deux, on peut calculer leur proximité et comprendre pourquoi le lien est là : les pages peuvent avoir des matrices « superposables » : elles parlent alors du même sujet. Si une partie seulement (un « coin ») de la matrice est commune, c’est que les pages parlent de sujet connexes et se complètent.
Outils
Les outils qui pourront vous aider à varier le champ lexical de votre page sont légions. Parmi eux, on trouve :
- Google Keyword Suggest
- Google Search-based Keyword Tool (le fameux « SK Tool »)
- Google Insight for Search
- Google Trends (très utile pour s’enlever un doute quand on a restreint la liste à 3 ou 4 mots-clefs)
- recherche Google (et si… fouillez les SERPs à la recherche des mots-clefs qui vous manquent)
- recherche Google (uniquement sur le .com) avec l’opérateur ~ devant le mot-clé qui passe en mode « recherche sémantique »
… amusez-vous bien !
Bonjour ! Je suis consultant e-business, spécialisé en référencement naturel (





Je suis assez dubitatif sur l’application faite au SEO de ce concept de grappe de MC.
Théoriquement, une page qui traite de tous l’univers de l’équitation sans utiliser 1 fois le mot ‘cavalier’ pourrait se positionner sur le mot ‘cavalier’. J’ai beau regarder les SERPs dans tous les sens, je ne vois jamais de page optimisée sur cheval&co qui ressortent sur ‘cavalier’…
Que peut-on en conclure ?
On ne peut pas vraiment en conclure que LSI n’est pas utilisé par les moteurs. On peut imaginer qu’il ne sert pas directement au ranking, mais peut-être à des classements thématiques des pages ou sites.
On peut aussi imaginer que la « distance » entre les mots d’une grappe agit comme une dilution de leur poids dans l’analyse de la page avec la requête visée. Et que de fait, les pages qui sont centrées sur le mot ‘cavalier’ sortent devant les pages qui utilisent tous les autres mots de la grappe (mais pas cavalier).
Par conséquent, conseiller le « keyword clustering » me parait hasardeux, car pas du tout adapté à toutes les stratégies de SEO.
mdr le lien, bonjour la dilution de ton LSI :p
Sinon, je pense bien que Google le fait aussi pour un site tout entier.
Tu as une page qui parle de pot d’échappement, une autre de moteur, une autre de vitesse, alors tout ton site est mega pertinent pour « voiture », encore plus si la home en parle.
On aurait donc une grosse requête chapeau concurrentielle en home, et les « sous-requêtes » en rapport dans des pages secondaires. C’est je pense la structure idéale d’un site au niveau de son contenu.
@MagicYoyo: en effet, je ne voulais pas conseiller le keyword clustering comme « seule » stratégie SEO mais clairement, cela peut aider. Comme le dit Jori, le fait d’avoir des pages optimisées sur différentes facettes de la matrice peut aider une autre page, le site entier, ou encore la homepage, a ressortir sur d’autres facettes de la même matrice. En clair, avec des pages sur « cavalier », « cheval », il sera plus aisé de faire ressortir une page sur « équitation », notamment puisque les liens internes du site apporteront une sémantique cohérente à ladite page. Après, je ne dis pas que ça suffira à dépasser les autres pages optimisées sur le même terme, mais c’est un bon début.
J’ai parfois des visiteurs sur des expression où je ne retrouve pas le site dans les serps, comme si elles avaient complètement changé entre temps (sans me logger, sans cookies, sans session…). Je pense carrément que Google « teste » en direct plusieurs jeux de résultats concurrents et se sert notamment du taux de clic pour classer les sites. Ca expliquerait qu’en faisant tourner deux fois un logiciel comme SeeURank à des dates très rapprochées (parfois dans la même journée) on puisse avoir des résultats différents. Pour rappel, c’est comme ça que les Quality Raters de Google notent les SERPs… On leur en présente plusieurs et c’est à eux de déterminer la meilleure.
@ Magicyoyo
C’est pourtant le principe du Google bombing. Bien sûr, c’est encore plus efficace lorsque l’on pratique cela vers une page qui possède les autres termes adéquat de l’univers sémantique ciblé.
Je suis toutefois d’accord avec toi, il serait balot de ne pas mettre le mot « cavalier » dans la page pour l’exemple que tu donnes.
@ Didier
Quand tu dis « En travaillant sur les « petits mots clefs » de la même grappe sémantique, on prépare le terrain pour une requête plus lourde, qui finira quasiment par monter toute seule. »
C’est exactement ce que je pratique depuis maintenant deux ou trois ans, et dans bon nombre de cas, je ne cherche même plus de BL ayant comme ancre la requête principale d’un site.
(d’ailleurs, je donne un exemple dans ma signature de commentaire)
J’essaie avant tout de trouver des pages aux thèmes les plus approchants possibles pour tenter d’y obtenir des liens contextuels. Et si je peux, je tente l’obtention de BL sur des pages profondes et/ou sur des ancres « longue traine » ou plutôt, des ancres que je trouve dans les suggestions Google.
Bien évidemment, les résultats ne sont pas effectifs en 1 mois, mais globalement, j’ai réussi à positionner quelques sites sur des requêtes très concurrentielles de cette manière (requête principale du site) et ceux-ci semblent indélogeable de la 1ère position des SERPs.
Jai lu un autre article ici : http://www.ratmort.fr/blog/google-est-multidimensionnel qui reprend une théorie similaire, et je trouve qu’avec le tien, ils indiquent donnent de bonnes idées à suivre pour obtenir un positionnement très durable dans le temps.
ps 1 / J’ai bien fait de te relancer, ton article est excellent
ps 2 / Tu devrais agrandir ton champ de commentaires
@didier : je vois pas le lien de ton 2eme paragraphe avec LSI
@AxeNet : le Google bombing, c’est avec des ancres de liens. Je vois pas où tu fais le rapprochement.
J’ai du louper un (ou deux) truc.
Je voulais dire que je pense que le LSI est incorporé dans le processus de sélection des résultats par Google, et les matrices contenant plus de liens d’une page de résultat, les autres critères servent à déterminer quel document d’une matrice précise doit être affiché. Dans tous les cas, on a un « pool » de documents à servir, ce qui pourrait expliquer l’instabilité de certaines SERPs (les plus concurrentielles?)
Au passage, je trouve assez dommage qu’on se focalise sur essayer de déterminer si oui ou non le LSI est utilisé par Google. Ce n’est pas un « nouvel algo » mais juste une méthode de recherche d’informations, qui est tout à fait complémentaire du reste des critères qu’on connait.
Excellent article.
Nous on explique ca par le phénomène de la pyramide (à la place du schéma des ballons)
Excellent article

Je trouve que tu mets le doigt sur LE point important : le LSI sert davantage à détecter la thématique d’une page (et par extension d’un site, le cas échéant). Le ranking n’en dépend pas directement.
Impact sur le SEO indéniable puisque les expressions reprises dans le contenu, combinées aux ancres permettent d’atteindre le positionnement que l’on souhaite à terme, mais si les expressions de la page de départ (celle qui héberge le lien) et celles de la page cible sont complémentaires, c’est jackpot
Comme le mentionne Sylvain, c’est bien plus long que de faire un linking sur les expressions ciblées, par contre la solidité des positions est confortée (plusieurs sites dans ce cas).
A contrario, trop d’opti sur les ancres des liens externes (hors bombing) n’est pas franchement souhaitable à long terme (expérience inside)… Un manque de variété dans les ancres devient rapidement un point faible. D’où l’intérêt de s’appuyer sur des suggestions de MC assez denses…
C’est pourquoi il est important, lorsqu’on le peut (et je pense notamment aux pages partenaires), d’entourer les liens que l’on fait vers d’autres sites de texte au contenu sémantique proche de la page de destination.
PS: Sylvain a bien fait de te coller quelques coups de pompe, ça valait le coup
Tiens, ça faisait un bail qu’on n’avait pas causé LSI.
La dernière fois que je me penchais sur le sujet, il était apparemment que les résultats GG en termes de polymésie étaient trop mauvais pour laisser penser que le LSI était intégré à l’algo.
La rumeur donnait quand même l’idée que les techos GG pourraient bien bosser dessus.
A la limite, on s’en fout comme dit Didier.
L’important est que ça puisse servir au SEO. Sur ce point, c’est évident sauf qu’il faut sortir l’outil qui l’incorpore comme il faut.
Long et complet, bravo.
Pour ma part, j’utilise en général une analogie pour parler du LSI :
Tu vois le jeu ou il faut faire découvrir une personne ou un mot sans jamais prononcer le mot, et bien c’est un peu pareil.
Si je dis : menu, chef, serveur, addition, carte, menu, plat du jour…
>>(Google utilise déjà le « landing page relevancy » au niveau du Quality Score calculé pour le SEM… J’imagine que l’algo doit plus ou moins être équivalent).
Dans ce cas l’algo Adwords doit recouvrir en partie celui des résultats naturels
Pour l’outil Keyword de Google il est intéressant de regarde les résultats au bas de la page qui peuvent donner des indices sur les termes à similarité sémantique.
Je pense que l’intégration du LSI n’est pas encore pour demain, mais pourrait être intéressant dans des disciplines bien cernées (médecine, aéronautique,…) l’appliquer à l’échelle de la recherche généraliste de Google reste un challenge.
Bravo pour avoir expliqué cet algo de façon claire
Ce que je conclue de cette explication, c’est qu’il faut élaborer ses contenus certes en optimisant pour les requêtes visées, mais également en incluant des termes proches (les termes associés de façon « latente »). Ca aboutit au final à écrire d’une façon plutôt naturelle (par naturel j’entend un texte avec des occurences pas trop artificielles). Ecrire de cette façon si LSI est implémenté permettrait de remonter sur les expression visées, mais également de créer du trafic de longue traîne. Plutôt positif . Ca rejoint ce qu’avait dit Philippe Yonnet dans ce billet : http://s.billard.free.fr/referencement/?2006/10/09/296-ne-prenez-pas-lsi-pour-des-lanternes-par-philippe-yonnet
Très bon article, clair et pas trop long, sinon je crois que j’aurais lâché dans l’aspect plus technique.
Il est clair que cela ne rentre pas dans le positionnement, mais cela doit servir pour des services comme Adplanner.
LSI, longue traine, sémantique associée, … les termes me semblent étroitement liés d’un point de vue SEO. Tout dépend du site travaillé, avec son cycle de vie et de la concurrence : pour un jeune site, on se mettra plutôt dans un travail de longue traine. Par contre pour un site ayant un peu de bouteille, la question du générique pourra être envisagée, en fonction du niveau de concurrence …
Concept intéressant, qui rappelle la nécessité de varier la sémantique d’un texte, et éventuellement d’y ajouter un style, mais c’est un autre sujet
Un article parfait, une chose que je n’ai jamais su expliquer avec des mots, bravo, génial, un des meilleurs articles SEO que j’ai pus lire depuis très longtemps,
l’explication est clair et révèle exactement ce qu’il se passe dans l’algorithme de Google qui analyse la pertinence des textes.
Un article qu’on va citer en formation chez nous
Par contre la Sémantique du code reste pour moi une masturbation de l’esprit de quelques codeurs illuminés et rêveur.
@Seo Fail Non c’est encore différent,
Et encore une fois, pourquoi s’arrêter là ? La page qui fait le lien vers la mienne a aussi une matrice LSI. En comparant les deux, on peut calculer leur proximité et comprendre pourquoi le lien est là : les pages peuvent avoir des matrices « superposables » : elles parlent alors du même sujet. Si une partie seulement (un « coin ») de la matrice est commune, c’est que les pages parlent de sujet connexes et se complètent.
Prendre conscience de ça, c’est arrêter de se fatiguer à chercher des liens sur des sites qui n’apporteront rien, faire une nébuleuse sémantiquement proche plutôt que de chercher des liens à tous prix.
J’avais fais un article il y a quelques temps, mais la qualité rédactionnel et la lisibilité est bien moins bonne
http://seofuckly.com/seo/semantique-et-referencement.seo
De toute façon la conclusion est simple, je suis d’accord avec Sébastien, cette technique même si elle est connue par tout le monde, sous ce nom ou un autre, n’est pas applicable autrement qu’en travaillant au mieux ce qu’on connait, c’est à dire faire des échanges de liens avec des thématiques connexe, qui pousseront du power sémantique, ou rédiger des textes intéressant et surtout complets.
Connaitre ça, le révéler (réussir à l’expliquer) ca ne sert à rien, pour tirer meilleur profit de cette partie de l’agglo de Google il faut écrire des articles sur le sujet linké (Communiqués de presse) ou trouver des partenaires de même thématique (même sémantique).
Y a pas de secret, même si je me triture à imaginer un générateur de sémantique pour aider mes rédacteurs à écrire plus facilement.
Encore une fois merci d’avoir rendu la définition de ce mot aux rédacteurs.
@pagetronic je crois pas que nous soyons si éloignés de ça. C’est un rappel fort pour soigner son contenu : sujet, idées développées, champ lexical, proposition de sources (sous forme de liens)
@Pagetronic
« [...] il faut écrire des articles sur le sujet linké (Communiqués de presse) ou trouver des partenaires de même thématique (même sémantique).[...] »
Je ne te suis plus, tu me laisses perplexe : tu prônes ici la rédaction de communiqués de presse et a contrario tu fustiges les tauliers de communiqué de presse ainsi que ces usagers dans ton article (http://seofuckly.com/life/communiques-de-presse.seo) que j’avais lu quelques semaines plus tôt.
Article, quoique discutable, à contre courant, intéressant voire pertinent sur certains points.
Un très bon article, avec des explications claires et finalement logiques.
Je vais mettre en pratique ces conseils pour élargir les expressions ciblées sur certains sites qui ont déjà « épuisés » leurs quotas sur leurs expressions principales.
Merci!
@Christophe : on change vite sur le Web, je pense que c’est une bonne solution les communiqués de presse unique, mais le problème c’est que 90% de ces sites sont tenus par des blaireaux.
@Pagetronic Tu y vas un peu fort, bien que je sois d’accord avec les idées que tu développes. Proximité des textes liés non réciproquement, unicité du texte, …
@Pagetronic : bon ok partons de ce postulat.
Alors quels sont les critères selon toi qui font que les autres 10% sont « une bonne solution »?
@Didier : je me permets de dévier légèrement du sujet de ce post, car ayant solicité Pagetronic sur son blog à ce propos et n’ayant pas eu de réponse, je profite vite fait de ton hospitalité pour connaitre son point de vue.Merci
je ne vois pas ce que tu ne comprends pas, il n’y a rien à expliquer, 90% font rire google.
qui se laissent très vite tenter par du duplicat en masse…
Les 10% restant n’ont pas d’accès publique, et sont du copinage et de l’échange de bons procédés comme je l’avais expliqué dans mon article, mais c’est de plus en plus rare parce qu’on fréquent beaucoup de blaireaux
Excellent rappel
Et si on rapprochait le »" LSI »" du « »Thésaurus »" ?
Anyway, c’est avec ça qu’il faut écrire SEO.
L’ensemble LSI est inclu dans l’ensemble Longue Traine avec des chiffres étonnamment proches
d’après des études de 1983, seulement 10 à 20% des personnes utilisent spontanément le même mot pour parler de la même chose (déformation professionnelle : ça voudrait dire qu’en étant premier seulement sur le mot-clef générique qui représente votre activité, vous perdriez 80 à 90% de vos clients potentiels).
Tout ça est extrèmement cohérent. Et affaiblit encore la pratique du positionnement.
A SEO Campus, et à propos de Géolocalisation, je faisais part de ma pratique de « toile d’araignée » autour de la localisation ciblée. Avec le LSI, c’est une « toile » autour du terme visé. Au fait, on appelle ça un « web » non ?
Allez! Pour 1 fois, je tweet
David