// you’re reading...

Référencement

La plume et l’algorithme

On sait que Google ne se base pas sur des balises pour savoir dans quelle langue est proposée une page, mais qu’il le détecte à partir du contenu. Voici une petite réflexion sur ce que ça peut impliquer en terme d’algorithme, et donc en terme de référencement naturel. Sans aller aussi loin que Backlinker qui considèrera certainement que tout ceci n’est que du flan (voir 2012 : l’année du bouleversement SEO ? ), je ne m’avance pas jusqu’à dire que Google utilise tout ce dont je parle dans l’article.

Détection de langue

Pour détecter une langue, la méthode la plus utilisée en programmation est la détection des 3-grams. Ces suites de trois caractères (de n caractères, le nom générique du construct est « n-gram ») sont caractéristiques d’un langage. En étudiant leur fréquence d’apparition dans un texte, on peut en déterminer à coup sûr sa langue (bien sûr, il faut que le texte réponde à certains critères, notamment de longueur et d’orthographe). Le footprint laissé est vraiment caractéristique, et cette méthode de « profiling sémantique » d’une langue est considérée comme très fiable. Je ne peux qu’imaginer que Google se base sur une technologie similaire pour détecter la langue d’un texte.

Détection d’auteur

détecter la plume d'un auteurDe la même manière, en disposant d’un corpus (ensemble de documents à analyser) plus important, comme par exemple, au hasard, l’index de Google, on peut aller jusqu’à détecter le « footprint » non pas d’un langage, mais carrément d’une personne. Chaque auteur (vous, moi, l’autre) utilise des tournures de phrases spécifiques et un vocabulaire précis, qui modifieront suffisamment mon footprint pour que je sois reconnaissable. Sur le net, de nombreuses sources de contenu m’identifient clairement comme leur auteur (blogs, commentaires, forums, réseaux sociaux, et tutti quanti). Je pourrais synthétiser ma propre empreinte sémantique, ma « plume ». Pour m’être penché sur le sujet, j’ai été assez étonné de voir à quel point la plume d’un auteur ne change pas au fil du temps et au gré de l’humeur.

Ensuite, à chaque apparition d’un nouveau document, il est possible de vérifier si celui-ci a un footprint qui ressemble suffisamment à celui d’un auteur, pour savoir qui l’a écrit. Plus que les n-grams, j’ai vu des algorithmes avoir de très bons résultats en utilisant la ponctuation, la longueur moyenne des mots et des phrases, etc.

J’en vois un qui rit, au fond. Sache, petit con, que des chercheurs très sérieux font ça à longueur d’année, notamment via le Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur, unité de recherche du CNRS. Chaque année, le Défi Fouille de texte propose une problématique d’ordre sémantique et assez complexe, et des tas de labos participent. En 2005 (comme quoi, ça date), le défi était d’identifier des extraits de discours de Mitterand, glissés dans des allocutions de Chirac, alors en pleine campagne présidentielle. Pour la petite histoire, des algorithmes similaires existent aussi pour détecter le sentiment qui se cache derrière un texte. On pourra ainsi savoir si un avis exprimé est neutre, positif ou négatif (c’était le défi 2007).

Application possible

Revenons à nos white hat moutons. Je suis Google. J’ai toutes les cartes en main, (à savoir: de la puissance de calcul et un index pseudo-infini) pour déterminer qui parle d’un site donné. Si vous passez la journée à publier des communiqués de presse, je peux très bien, pourquoi pas grâce à mon nouveau filtre Panda, détecter le nombre de personnes qui parlent d’un site. Si le ratio de ce nombre sur le nombre de domaines qui font un lien est bas, c’est que le site n’a finalement que peu d’écho en dehors de son auteur (et/ou de son agence ou consultant).

Très franchement, j’y crois moyennement. Quand je vois les horreurs que certains poussent en masse dans l’index du moteur, je me prends à douter de ses réelles capacités sémantiques autres que « statistiques ». Ceci dit, le traitement automatique du langage naturel est un domaine qui apporte des compétences appréciables pour tout « webmaster » digne de ce nom (je déteste ce mot, peut-être autant que « référenceur »).

Mais tout en y croyant à moitié, je me dis que la meilleure façon de faire monter un site est de faire écrire à son auteur habituel un article qui parle de votre site. Dirigez un peu les ancres et les liens mais laissez la personne rédiger le texte. (mode copinage)Raison de plus pour faire appel à des rédacteurs web qualifiés !(/mode copinage)

Corollaire: La ressemblance avec le footprint de base sera acceptuée dans un texte spinné.

J'espère que vous avez trouvé ce post intéressant. Si c'est le cas, merci de m'aider à le faire connaître ! Si vous pensez avoir besoin de mes services, n'hésitez pas à me demander un devis.

Discussion

8 Responses to “La plume et l’algorithme”

  1. Posté par Le juge from Recherche de Prestataire SEO, le 04. oct, 2011 à 16 h 26 min

    Quand tu parles de la capacité de Google a detecter une langue … la pas de soucis de mon coté je ne vois d’ailleurs pas pourquoi GG continuerai de se fier a des balises qui sont mises de facon plus qu’aléatoire par les « webmasters » pour se faire une idée de la langue parlée sur un site.

    De la a pousser la réflection jusqu’a la détection d’un auteur, il y a un pas que je ne passerai pas meme si je ne doutes pas des capacité de calcul importante (pas infini qd meme) de GG.

    Le probleme est qu’a un certains moment, surtout en Anglais, il y a une limite de qualité de contenu qu’on va atteindre lorsqu’on parle d’un service ou d’un produit. Cette limite est fixée par le niveau de langue / jargon utilisé dans une certaine thématique et elle s’atteint d’autant plus vite lorsqu’on est dans du B2B.

    en résumé – Il arrive toujours un moment ou on va se repeter sur un theme si on veut avoir l’air sérieux et parler dans un jargon pro et reconnu dans une thématique donnée.

    Je prends un exemple concret – un client en moi fait de la « normalisation » de tubes pour l’industrie pétroliere – la normalisation c’est chauffer un tube et le refroidir pour que le metal du tube soit bien uniforme par rapport a certains standard – Bon et bien das le cas présent – il n’y a pas 200 solutions différentes pour parler de ce service quand tu t’addresse a des pros de la profession.

  2. Posté par Sam, le 04. oct, 2011 à 20 h 45 min

    Il me semble que Google utilise plutôt les filtres bayésiens pour détecter la langue, non ?

  3. Posté par Simon, le 04. oct, 2011 à 21 h 03 min

    Il me semble bien aussi que ce genre d’algo est mis en place dans le search de Twitter pour évaluer la tonalité d’un message … non ?

  4. Posté par Magicyoyo from annuaire entreprises, le 05. oct, 2011 à 15 h 51 min

    La détection de la langue ne pose en effet aucun problème.
    Je suis beaucoup plus suspicieux sur l’identification de l’auteur.

    Tu fais référence à l’analyse du sentiment… qui est une grosse tarte à la crême de la recherche informatique sur laquelle un paquet d’équipes se cassent les dents depuis des années.

    Ensuite, repérer le mélange d’auteurs dans un texte est une chose faisable. Assigner un texte à un auteur parmi une infinité, ça me parait une toute autre paire de manches !

  5. Posté par Magicyoyo from emploi informatique, le 05. oct, 2011 à 15 h 57 min

    (désolé pour le bump, tu peux fusionner les coms)

    Pour répondre directement à Simon, il n’y a justement pas d’analyse de sentiment dans Twitter et les autres médias sociaux, pour la seule et bonne raison que ça ne marche pas.

    Dans la recherche avancée de Twitter, tu peux détecter les Tweets qui contiennent un smiley :) ou :( ou un point d’interrogation… on est trèèèèèès loin de l’analyse de sentiment.

  6. Posté par Marco from agence webmarketing, le 06. oct, 2011 à 15 h 04 min

    Juste une remarque par rapport à la logique d’analyse. D’un point de vue référencement, je ne vois pas de problème à ce que ce soit un même auteur qui écrive a plusieurs endroit, le simple fait d’avoir un lien publié sur un site tiers est une forme de reconnaissance, et c’est en ce sens que le prend Google (en tout cas, c’est comme ca que je le vois). Donc pour reprendre ton exemple, si tu écrits un guest post, pas grave que ce soit ton écriture (en admettant qu’il arrive à le détecter), GoogleBot va se dire, hmmm c’est lui qui écrit sur ce site, c’est que ce site doit bien l’aimer, donc je l’aime bien aussi .

    Voila, tout ca pour dire que même dans une approche WH, cela ne me choque pas le moins du monde que ce soit une seule personne qui publie beaucoup de contenu partout, et je ne comprendrais pas que cela soit pénalisé par Google (tant que le contenu publié est de qualité).

  7. Posté par Sam, le 06. oct, 2011 à 15 h 31 min

    Au delà de parler d’empreinte numérique liée à la façon de rédiger, on peut juste parler de profils: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.87.754&rep=rep1&type=pdf

  8. Posté par Antoine, le 06. oct, 2011 à 16 h 55 min

    Article très intéressant qui me replonge dans les cours de TAL et je me revois en train de faire de beaux arbres syntaxiques.
    Bref, je pense comme toi que Google sera capable (ou l’est déjà un petit peu) d’identifier un auteur à partir de la construction de ses phrases. Ne serait-ce qu’en analysant la fréquence d’utilisation des mots, leur placement dans la phrase. Et il est tout à fait possible qu’il se serve de cela comme de signaux de spam potentiel.
    Dans le doute et comme tu le préconises, mieux vaut donc passer par du guest blogging ou des rédacteurs quand il s’agit de produire du contenu en masse. Vive le travail d’équipe ! :)

Post a comment

Pour votre nom, vous pouvez entrer "pseudo@mot-clef" (Keyword Luv). Les liens sont en dofollow après 3 commentaires (déposés avec la même adresse e-mail).