Les clés d'une véritable analyse sémantique sur Twitter

L'analyse des tendances sur twitter est fondamentale pour toute grande entreprise. Mais il ne faut pas se tromper de méthode Par par Bruno Mathis, "Engagement manager", Sterwen

La plupart des outils d'analyse des verbatims sur Twitter comptent des mots-clefs. Mais cette technique n'est vraiment adaptée qu'à des thèmes généraux et de gros volumes de messages. Twitter s'est affirmé comme le meilleur support de capture de la parole publique, anonyme ou non. Ce ne sont cependant pas les directions marketing qui s'en sont aperçues les premières. Comme souvent en matière d'innovation, l'aiguillon est venu des métiers de la finance.

 Repérer les mots à connotation positive ou négative

Il y a deux ans déjà, un hedge fund, Derwent Capital Markets, était créé sur l'idée de guider une politique d'investissement en fonction du sentiment sur les valeurs boursières véhiculé par Twitter. Le principe était de repérer les mots à connotation positive ou négative sur un nombre de tweets suffisamment significatifs pour que les erreurs d'interprétation par la machine, dans un sens ou dans l'autre, ne changent pas la direction générale du pronostic.

 Cette expérience-là ne s'est pas avérée concluante, mais les cas d'application ne se sont pas moins multipliés depuis lors. Twitter apporte de la profondeur statistique, par le nombre de messages, et des textes courts, donc susceptibles d'être analysés de façon automatique dans des marges d'erreur acceptables. Des outils de « tag management » proposent un étiquetage manuel et des fonctions de visualisation. Mais l'étiquetage manuel  peut être entaché d'un défaut de rigueur et n'est adapté que pour des volumes modestes.

 Une analyse lexicale fondée sur les mots clés

Les premiers outils d'étiquetage automatique s'appuient sur des mots-clefs : ils relèvent de l'analyse lexicale. Ils sont adaptés pour saisir l'humeur de l'opinion sur un débat public ou pour une mesure « d'e-notoriété ». Il faut que le thème soit général pour que l'association d'un nom (par ex : le produit X) et d'un adjectif (ex : « génial », « nul »…) assure un classement automatique de bonne qualité.

Un bon support lors du lancement d'une campagne

 Twitter est un excellent support pour tester le lancement d'une campagne. Mais au fur et à mesure que la direction marketing affute ses analyses et cherche des enseignements plus précis à partir de Twitter, le volume sous-jacent chute. Par exemple, le nombre de tweets qui comparent le produit X de l'entreprise au produit Y d'un concurrent est beaucoup plus faible que le nombre de tweets qui évoquent le produit X dans l'absolu.

Même dans le carcan de 140 caractères, une même idée peut être rendue par un nombre infini d'expressions, d'autant que beaucoup de scripteurs recourront aux formes abrégées, voire phonétiques, pour gagner de la place. On touche là aux limites de l'analyse lexicale, qui risque de classer à tort des tweets sous une étiquette donnée (c'est du bruit) ou d'en omettre (c'est du silence).

 De l'analyse lexicale à l'analyse sémantique, un saut technique

Ce saut en qualité « d'insight », c'est l'analyse sémantique, ou plus précisément, l'analyse morpho-syntaxique qui l'apporte. Prenons l'exemple d'un constructeur automobile X qui veut savoir comment un nouveau modèle est reçu ; deux tweets, dont l'un dirait « Elle fait 3000 euros de plus que le (modèle) Y de chez Z » et l'autre « La Y est moins chère que la X » partagent ainsi le même thème (le prix de X plus élevé que Y) sans partager aucun nom commun. Une recherche par mot-clef ne les rassemblerait pas tandis qu'une analyse sémantique qui reconnaitrait une relation de comparaison associée à la présence d'un montant en euros ou d'un adjectif comme « cher » saurait le faire.

 Une analyse fine de l'expression écrite pour détecter le dénigrement

Autre exemple, la détection d'une éventuelle incompatibilité d'un propos d'un salarié avec la politique de communication de son entreprise ne peut pas non plus dépendre d'une recherche lexicale. Dénigrement, diffamation, violation du secret professionnel, promesse ou engagement sans habilitation, ou tout simplement brouillage du message institutionnel ne peuvent être révélés que par une analyse fine de l'expression écrite.

Une détection des robots

Ce deuxième cas d'usage porte en outre une difficulté supplémentaire : l'authentification de l'auteur, dont le nom n'apparait pas nécessairement en clair. Au contraire des verbatims véhiculés sur les autres réseaux sociaux (affinitaires ou d'entreprise), Twitter est pauvre en métadonnées : seulement une adresse ip et un horodatage en plus du pseudo. Aussi l'outillage devra-t-il, pour un tel cas d'usage, associer à l'analyse sémantique une fonction de détection des tweets générés par des robots, et une autre de validation manuelle.

 Deux familles de logiciels

La distinction entre analyse lexicale et analyse sémantique n'a rien de théorique ; elle correspond à deux familles de logiciels. La où un logiciel d'analyse lexicale recherche une chaine de caractères, l'outil d'analyse morpho-syntaxique identifie la langue, décompose la phrase, identifie la nature grammaticale de chaque terme, repère sujet et complément d'objet direct liés à un verbe, reconnait expressions régulières, paraphrases et idiomatismes, bref analyse le sens du texte. Il y a donc un saut en technicité à assumer pour se donner les moyens d'analyses vraiment pointues.

 

Sujets les + lus

|

Sujets les + commentés

Commentaires 6
à écrit le 14/02/2014 à 14:01
Signaler
"La distinction entre analyse lexicale et analyse sémantique correspond à deux familles de logiciels." (Bruno Mathis). Cette distinction sur le marché des plateformes de veille est importante et la meilleure approche reste un outil qui combine les de...

à écrit le 13/02/2014 à 18:00
Signaler
J'ai lu une étude où il apparait que les gens les plus puissants du Monde n'utilisent jamais Twitter et Facebook. Est-ce vrai ? car je n'utilise pas moi-même Twitter ni Fassebook ...

le 13/02/2014 à 23:24
Signaler
Exact , Man...Moi , par exemple , l'un des plus grands batteurs du 20 ème siècle , je les utilise jamais...ça fait chicos. Faut laisser ça aux Plouques. Allez , je m'arrache , Man...C ya later !!!

le 14/02/2014 à 18:34
Signaler
Vous m'avez certainement vu dans des Westerns qui ont marqué l'Histoire du Cinéma Américain...j'ai accessoirement été Président , mais c'était pour me faire des gonzesses...Et je partage votre position...je n'utilise pas Twitter , je n'utilise pas Fa...

à écrit le 13/02/2014 à 16:49
Signaler
Survol intéressant mais plusieurs questions demeurent ; par exemple, une enquête qualitative a-t-elle besoin du volume proposé par Twit...? Quelle est la représentativité des sources comme Twit... ? Et beaucoup d'autres questions en suspens en matièr...

le 14/02/2014 à 16:32
Signaler
Sans doute y a-t-il un enjeu de représentativité : les geeks envoient plus de tweets que des ruraux ou des retraités. Mais chaque type d'enquête a ses biais méthodologiques. Les réponses à des questions fermées qui ennuient l'interviewé sont plus dél...

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.