Les médias sociaux permettent d’échanger des informations comme jamais auparavant. Mais ils ont aussi ouvert la porte aux commentaires agressifs et violents, au harcèlement, voire à la diffamation et à la haine.
Et si un outil permettait de savoir qu’une conversation va mal tourner et agir pour empêcher les dérapages ?
C’est le défi sur lequel planchent Richard Khoury, de l’Université Laval, et Éloi Brassard-Gourdeau, de Two Hat Security, une entreprise qui fournit des outils pour modérer les conversations sur les réseaux sociaux.
Dans un article publié dans le compte rendu de la 34ᵉ Conférence canadienne sur l’intelligence artificielle (IA), les chercheurs montrent que le caractère positif ou négatif des mots utilisés et l’intensité de cette polarisation dans une conversation permettent d’améliorer les algorithmes servant à prédire si un échange risque de dérailler. La Conversation en a discuté avec Richard Khoury.
Les réseaux sociaux, les jeux vidéo et les communautés sur Internet font tous face au même problème : la multiplication des commentaires toxiques par une poignée d’utilisateurs malveillants. Pour garder ces communautés florissantes, il est essentiel de filtrer ces messages toxiques aussi rapidement que possible, sans pour autant nuire aux conversations légitimes qui ont lieu entre les membres de ces communautés. Nos travaux cherchent à anticiper le dérapage des conversations et découvrir les signes précurseurs des messages toxiques. Ceci permettrait éventuellement aux modérateurs des communautés d’intervenir avant même que les messages toxiques n’apparaissent.
Détecter des mots est relativement simple et ce genre de filtre existe déjà depuis plusieurs années. Le problème est que ça détecte les mots exacts et c’est très facile de simplement changer une lettre pour les contourner, ou d’utiliser un mot en apparence inoffensif mais qui a une connotation négative dans le contexte. Une conversation peut avoir l’air saine en apparence alors qu’elle comporte un message toxique. En parallèle, ces filtres étant très stricts, ils bloquent le mot, peu importe son contexte d’utilisation. Il y a donc beaucoup d’utilisations légitimes de certains mots, comme lors de conversations constructives sur la sexualité ou le cyberharcèlement, qui seront aussi bloqués. Le filtrage par mots-clés est donc très inefficace pour deux raisons : il laisse passer beaucoup de choses et en bloque d’autres par erreur.
La solution humaine est souvent utilisée lorsque l’on ne dispose pas de la technologie ou qu’on ne lui fait pas confiance. Ce sont des modérateurs qui relisent les conversations, mais ils agissent une fois que le mal est fait et lorsqu’on leur signale un message toxique. C’est très lent parce qu’ils doivent relire chaque message. C’est aussi incomplet, car une proportion importante de messages toxiques ne sont jamais rapportés. De plus, il a été clairement démontré que ceux qui en font une profession et qui sont exposés constamment à des messages violents et haineux peuvent avoir des séquelles psychologiques à la longue.
Nos recherches visent à créer des filtres qui traiteront les mots et les messages en tenant compte du contexte de la conversation dans laquelle ils surviennent. En prenant en compte ce contexte, il sera possible de déterminer si un mot ou un message est toxique ou inoffensif. Il sera également possible d’observer la conversation qui se dégrade, les messages qui changent et s’enveniment graduellement, et ainsi intervenir plus tôt, avant que les messages plus toxiques ne soient écrits. Dans notre plus récent article, nous nous sommes penchés plus précisément sur une nouvelle façon plus fine de traiter les sentiments exprimés dans la conversation pour contribuer à cet objectif.
Nous sommes d’abord partis des travaux d’un autre chercheur qui avait classé 1270 paires de conversations sur Wikipedia, qui contenaient une conversation qui avait dérapé et l’autre qui était restée polie. Ce chercheur avait découvert que les conversations toxiques contenaient souvent des messages à la deuxième personne (tu) et des questions directes. En échange, l’utilisation de la première personne avec des formules de politesse et de remerciements était un indicateur de positivité. Nous avons entraîné notre algorithme utilisant les sentiments à prévoir ces situations avec ces mêmes données et ensuite avec 26 954 conversations recueillies sur une plate-forme de jeux vidéo.
D’abord, nous avons réalisé que l’analyse fine des sentiments est un très bon indicateur du déroulement d’une conversation, tant pour celles qui sont constructives que celles qui dégénèrent. Mais ce qui nous a le plus surpris est que ça ne prend pas grand-chose pour qu’une conversation dérape alors qu’il faut beaucoup d’effort pour garder une conversation positive. Il faut au moins quatre ou cinq mots positifs pour maintenir une conversation polie, mais il suffit d’un ou deux mots négatifs pour que ça dérape. Les premiers mots positifs ont donc l’air d’avoir moins d’importance, moins d’impact sur le reste de l’échange. Nous avons aussi découvert que le ton d’une conversation peut changer radicalement en moins de trois messages, ce qui veut dire que l’on dispose de quelques secondes seulement pour intervenir avant qu’une conversation polie au départ ne devienne toxique.
J’espère que ce genre de travaux, non seulement les miens, mais aussi ceux d’autres chercheurs, auront un impact important sur l’évolution de l’Internet. On ne se cachera pas que la propagation des messages toxiques est un gros problème et un gros défi aujourd’hui. Internet a été imaginé comme un espace où l’on pourrait s’exprimer librement, mais il a aussi ouvert une porte aux commentaires agressifs et violents, d’une manière illimitée et non contrôlée. Donc ce genre de travaux, je l’espère, permettra d’assainir la place publique virtuelle et en faire un environnement conforme à ce qu’on avait imaginé au départ, où l’on peut parler librement, mais de manière constructive, et échanger de l’information pour faire avancer la société. En ce moment, on le voit, l’ambiance toxique décourage les gens d’être actifs sur Internet et sur les réseaux sociaux parce qu’on ne veut pas se faire attaquer.
Il reste encore beaucoup de travail à faire pour que des algorithmes prédictifs de toxicité puissent être utilisés pour gérer des communautés web. Nous devrons tester notre système sur un plus grand ensemble de données et dans plusieurs contextes. Éventuellement, nous aimerions aussi étudier la voix, car dans les jeux vidéo, par exemple, il n’y a pas que des échanges de messages écrits, mais aussi des messages vocaux et le ton de la voix, qui peuvent être un élément prédictif de la qualité des échanges.
Oui, et nous devons en tenir compte. Nous voulons développer un outil qui ne bloquera pas les conversations constructives. Un algorithme mal entraîné pourrait non seulement avoir ce défaut, mais en plus cibler certains groupes de manière disproportionnée. Lorsqu’on parle d’éthique en intelligence artificielle, il faut regarder les jeux de données qui sont utilisés pour entraîner les algorithmes ; les groupes qui y sont mal représentés ou qui n’en font pas partie du tout risquent de subir des préjudices. Dans notre cas, des études d’autres chercheurs ont montré que lorsqu’on utilise des algorithmes qui n’ont pas été entraînés avec des jeux de données représentatifs, les messages écrits dans des dialectes de certains groupes culturels ne faisant pas partie des données d’entraînement étaient plus souvent faussement étiquetés comme toxiques. Il faut tenir compte aussi de nos biais personnels. Nous sommes très conscients de ça.
Nous savons tous que le droit de vote est à la base de notre système démocratique auquel d’ailleurs, beaucoup aiment ajouter l’adjectif «républicain». Nous savons tous aussi que bon nombre de nos aïeux ont accepté de mourir pour l’établir et le...
LES BRÈVES