Comment opérer une détection automatique des contenus haineux ? Ne confère-t-on pas trop de pouvoir à l’Intelligence Artificielle ? Les technologies offertes par les sciences du numérique peuvent-elles contribuer à lutter contre ce déferlement en ligne ? En partie, si on en fait un usage éclairé et sans perdre de vue ses limites. (*) Par Sébastien Harispe, docteur en Informatique, enseignant-chercheur dans le domaine de l’Intelligence Artificielle, à IMT Mines Alès, UMR EuroMov Digital Health in Motion.Les réseaux sociaux et autres plateformes d'expression libre sur le Web permettent aujourd'hui la mise en visibilité d'un spectre large d'opinions sur pléthore de thématiques. Véritables outils de communication et de structuration de communautés, ces plateformes ne cessent de démontrer le rôle de catalyseur qu'elles peuvent jouer dans la lutte contre de multiples formes d'oppressions, d'inégalités et d'abus qui méritent d'être condamnés (Printemps arabes, mouvements #meetoo, Black live matters, #meeTooInceste).
Ces plateformes permettent par construction - c'est leur essence première - à tout individu ou organisation d'exprimer un point de vue. Celui-ci contribuera très souvent à rendre visible et faire vivre des corpus d'idées plus larges, susceptibles de façonner l'opinion de l'autre sur des sujets potentiellement clivants. La diversité de ces points de vue est cependant à l'image de la diversité des représentations mentales des milliards d'individus qui les expriment (3.6 milliards utilisateurs de ce type de plateformes en 2020 [1]). Elle laisse ainsi place à l'expression de contenus haineux visant à porter préjudice à des groupes d'individus identifiables sur la base de leur origine, genre, religion, orientation sexuelle, handicap... Comment alors éviter de telles publications sans revisiter la nature même de ces plateformes d'expression libre qui, détachées de politiques éditoriales, publient sous couvert d'anonymat des millions d'informations quotidiennement ? La lutte contre la publication de contenus haineux reste plus que jamais un problème ouvert.
L'automatisation cognitive
Les initiatives visant à lutter contre la publication et la prolifération de contenus haineux sont pourtant multiples. La Loi Avia, promulguée en France le 24 juin 2020 pour la lutte contre les contenus haineux sur Internet sur la base de notifications d'utilisateurs, en est un bon exemple. Une automatisation de la détection de ce type de contenus est cependant centrale pour faire face aux flux massifs de publications générés en continu. Certaines initiatives cherchent alors à s'affranchir tant que possible de la dépendance à l'intervention humaine en adoptant des approches automatisées. Celles-ci tirent parti d'une véritable automatisation cognitive visant à déporter à l'examen algorithmique l'identification du caractère haineux des contenus. Ces algorithmes évaluent, sur la base de l'analyse des multiples modalités des contenus (texte, image, son, vidéo, métadonnées), le caractère potentiellement haineux des messages qu'ils véhiculent. Différentes techniques d'analyse de données, aujourd'hui très souvent introduites comme des techniques dites d'Intelligence Artificielle, sont ainsi utilisées. Les plus performantes se basent plus particulièrement sur des approches d'apprentissage automatique dont celles issues de l'apprentissage profond (Deep Learning). Ces dernières sont notamment à l'origine de récentes prouesses en traitement d'images ou du langage naturel, et dans la résolution de problèmes complexes que beaucoup de chercheurs du domaine ne pensaient adressables de leur vivant (par exemple le jeu de Go [2] ou la prédiction de structures protéiques [3]).