Magazine Gadgets

La technologie vous espionne ? Une nouvelle IA pourrait empêcher les écoutes clandestines | La science

Publié le 31 mai 2022 par Mycamer

Big Brother écoute. Les entreprises utilisent des « bosswares » pour écouter leurs employés lorsqu’ils sont à proximité de leurs ordinateurs. Plusieurs applications « logiciels espions » peuvent enregistrer des appels téléphoniques. Et les appareils domestiques tels que l’Echo d’Amazon peuvent enregistrer les conversations quotidiennes. Une nouvelle technologie, appelée Neural Voice Camouflage, offre désormais une défense. Il génère un bruit audio personnalisé en arrière-plan pendant que vous parlez, déroutant l’intelligence artificielle (IA) qui transcrit nos voix enregistrées.

Le nouveau système utilise un “attaque contradictoire.” La stratégie utilise l’apprentissage automatique – dans lequel les algorithmes trouvent des modèles dans les données – pour modifier les sons de manière à ce qu’une IA, mais pas les gens, les confonde avec quelque chose d’autre. Essentiellement, vous utilisez une IA pour en tromper une autre.

Cependant, le processus n’est pas aussi simple qu’il y paraît. L’IA d’apprentissage automatique doit traiter l’ensemble du clip sonore avant de savoir comment le modifier, ce qui ne fonctionne pas lorsque vous souhaitez camoufler en temps réel.

Ainsi, dans la nouvelle étude, les chercheurs ont enseigné un réseau de neurones, un système d’apprentissage automatique inspiré du cerveau, pour prédire efficacement l’avenir. Ils l’ont formé sur de nombreuses heures de discours enregistré afin qu’il puisse traiter en permanence des clips audio de 2 secondes et déguiser ce qui est susceptible d’être dit ensuite.

Par exemple, si quelqu’un vient de dire « profitez de la grande fête », il ne peut pas prédire exactement ce qui sera dit ensuite. Mais en tenant compte de ce qui vient d’être dit, ainsi que des caractéristiques de la voix du locuteur, il produit des sons qui vont perturber une gamme de phrases possibles qui pourraient suivre. Cela inclut ce qui s’est réellement passé ensuite; ici, le même orateur disant, “ça se cuisine.” Pour les auditeurs humains, le camouflage audio ressemble à un bruit de fond et ils n’ont aucun mal à comprendre les mots prononcés. Mais les machines trébuchent.

M. Chiquier et al., ICLR 2022 Oral

Les scientifiques ont superposé la sortie de leur système sur la parole enregistrée alors qu’elle était directement introduite dans l’un des systèmes de reconnaissance automatique de la parole (ASR) qui pourraient être utilisés par les indiscrets pour la transcription. Le système a augmenté le taux d’erreurs sur les mots du logiciel ASR de 11,3 % à 80,2 %. “Je suis presque affamé moi-même, car conquérir des royaumes est un travail difficile”, par exemple, a été transcrit comme “im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson” (voir la vidéo ci-dessus).

Les taux d’erreur pour la parole déguisée par du bruit blanc et une attaque contradictoire concurrente (qui, dépourvue de capacités prédictives, ne masquait que ce qu’elle venait d’entendre avec un bruit joué une demi-seconde trop tard) n’étaient que de 12,8 % et 20,5 %, respectivement. Le travail a été présenté dans une papier le mois dernier à la Conférence internationale sur les représentations de l’apprentissage, qui examine les soumissions de manuscrits par des pairs.

Même lorsque le système ASR a été formé pour transcrire la parole perturbée par Neural Voice Camouflage (une technique que les oreilles indiscrètes pourraient éventuellement utiliser), son taux d’erreur est resté à 52,5 %. En général, les mots les plus difficiles à perturber étaient les mots courts, tels que “le”, mais ce sont les parties les moins révélatrices d’une conversation.

Les chercheurs ont également testé la méthode dans le monde réel, en jouant un enregistrement vocal combiné avec le camouflage à travers un ensemble de haut-parleurs dans la même pièce qu’un microphone. Cela fonctionnait toujours. Par exemple, “Je viens aussi de recevoir un nouveau moniteur” a été transcrit comme “avec des raisons avec eux aussi toscat et neumanitor”.

Ce n’est que la première étape pour protéger la vie privée face à l’IA, déclare Mia Chiquier, informaticienne à l’Université de Columbia qui a dirigé la recherche. “L’intelligence artificielle collecte des données sur notre voix, nos visages et nos actions. Nous avons besoin d’une nouvelle génération de technologie qui respecte notre vie privée.

Chiquier ajoute que la partie prédictive du système a un grand potentiel pour d’autres applications nécessitant un traitement en temps réel, telles que les véhicules autonomes. “Vous devez anticiper où la voiture sera la prochaine, où le piéton pourrait être”, dit-elle. Les cerveaux fonctionnent également par anticipation ; vous êtes surpris lorsque votre cerveau prédit quelque chose de manière incorrecte. À cet égard, dit Chiquier, “Nous imitons la façon dont les humains font les choses.”

“Il y a quelque chose de bien dans la façon dont il combine la prédiction de l’avenir, un problème classique de l’apprentissage automatique, avec cet autre problème de l’apprentissage automatique contradictoire”, déclare Andrew Owens, informaticien à l’Université du Michigan, Ann Arbor, qui étudie le traitement audio. et camouflage visuel et n’a pas participé aux travaux. Bo Li, informaticien à l’Université de l’Illinois, Urbana-Champaign, qui a travaillé sur des attaques contradictoires audio, a été impressionné par le fait que la nouvelle approche fonctionnait même contre le système ASR fortifié.

Le camouflage audio est indispensable, déclare Jay Stanley, analyste principal des politiques à l’American Civil Liberties Union. “Nous sommes tous susceptibles de voir notre discours innocent mal interprété par des algorithmes de sécurité.” Maintenir la vie privée est un travail difficile, dit-il. Ou plutôt c’est harenar ov la reson.

Big Brother écoute. Les entreprises utilisent des « bosswares » pour écouter leurs employés lorsqu’ils sont à proximité de leurs ordinateurs. Plusieurs applications « logiciels espions » peuvent enregistrer des appels téléphoniques. Et les appareils domestiques tels que l’Echo d’Amazon peuvent enregistrer les conversations quotidiennes. Une nouvelle technologie, appelée Neural Voice Camouflage, offre désormais une défense. Il génère un bruit audio personnalisé en arrière-plan pendant que vous parlez, déroutant l’intelligence artificielle (IA) qui transcrit nos voix enregistrées.

Le nouveau système utilise un “attaque contradictoire.” La stratégie utilise l’apprentissage automatique – dans lequel les algorithmes trouvent des modèles dans les données – pour modifier les sons de manière à ce qu’une IA, mais pas les gens, les confonde avec quelque chose d’autre. Essentiellement, vous utilisez une IA pour en tromper une autre.

Cependant, le processus n’est pas aussi simple qu’il y paraît. L’IA d’apprentissage automatique doit traiter l’ensemble du clip sonore avant de savoir comment le modifier, ce qui ne fonctionne pas lorsque vous souhaitez camoufler en temps réel.

Ainsi, dans la nouvelle étude, les chercheurs ont enseigné un réseau de neurones, un système d’apprentissage automatique inspiré du cerveau, pour prédire efficacement l’avenir. Ils l’ont formé sur de nombreuses heures de discours enregistré afin qu’il puisse traiter en permanence des clips audio de 2 secondes et déguiser ce qui est susceptible d’être dit ensuite.

Par exemple, si quelqu’un vient de dire « profitez de la grande fête », il ne peut pas prédire exactement ce qui sera dit ensuite. Mais en tenant compte de ce qui vient d’être dit, ainsi que des caractéristiques de la voix du locuteur, il produit des sons qui vont perturber une gamme de phrases possibles qui pourraient suivre. Cela inclut ce qui s’est réellement passé ensuite; ici, le même orateur disant, “ça se cuisine.” Pour les auditeurs humains, le camouflage audio ressemble à un bruit de fond et ils n’ont aucun mal à comprendre les mots prononcés. Mais les machines trébuchent.

M. Chiquier et al., ICLR 2022 Oral

Les scientifiques ont superposé la sortie de leur système sur la parole enregistrée alors qu’elle était directement introduite dans l’un des systèmes de reconnaissance automatique de la parole (ASR) qui pourraient être utilisés par les indiscrets pour la transcription. Le système a augmenté le taux d’erreurs sur les mots du logiciel ASR de 11,3 % à 80,2 %. “Je suis presque affamé moi-même, car conquérir des royaumes est un travail difficile”, par exemple, a été transcrit comme “im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson” (voir la vidéo ci-dessus).

Les taux d’erreur pour la parole déguisée par du bruit blanc et une attaque contradictoire concurrente (qui, dépourvue de capacités prédictives, ne masquait que ce qu’elle venait d’entendre avec un bruit joué une demi-seconde trop tard) n’étaient que de 12,8 % et 20,5 %, respectivement. Le travail a été présenté dans une papier le mois dernier à la Conférence internationale sur les représentations de l’apprentissage, qui examine les soumissions de manuscrits par des pairs.

Même lorsque le système ASR a été formé pour transcrire la parole perturbée par Neural Voice Camouflage (une technique que les oreilles indiscrètes pourraient éventuellement utiliser), son taux d’erreur est resté à 52,5 %. En général, les mots les plus difficiles à perturber étaient les mots courts, tels que “le”, mais ce sont les parties les moins révélatrices d’une conversation.

Les chercheurs ont également testé la méthode dans le monde réel, en jouant un enregistrement vocal combiné avec le camouflage à travers un ensemble de haut-parleurs dans la même pièce qu’un microphone. Cela fonctionnait toujours. Par exemple, “Je viens aussi de recevoir un nouveau moniteur” a été transcrit comme “avec des raisons avec eux aussi toscat et neumanitor”.

Ce n’est que la première étape pour protéger la vie privée face à l’IA, déclare Mia Chiquier, informaticienne à l’Université de Columbia qui a dirigé la recherche. “L’intelligence artificielle collecte des données sur notre voix, nos visages et nos actions. Nous avons besoin d’une nouvelle génération de technologie qui respecte notre vie privée.

Chiquier ajoute que la partie prédictive du système a un grand potentiel pour d’autres applications nécessitant un traitement en temps réel, telles que les véhicules autonomes. “Vous devez anticiper où la voiture sera la prochaine, où le piéton pourrait être”, dit-elle. Les cerveaux fonctionnent également par anticipation ; vous êtes surpris lorsque votre cerveau prédit quelque chose de manière incorrecte. À cet égard, dit Chiquier, “Nous imitons la façon dont les humains font les choses.”

“Il y a quelque chose de bien dans la façon dont il combine la prédiction de l’avenir, un problème classique de l’apprentissage automatique, avec cet autre problème de l’apprentissage automatique contradictoire”, déclare Andrew Owens, informaticien à l’Université du Michigan, Ann Arbor, qui étudie le traitement audio. et camouflage visuel et n’a pas participé aux travaux. Bo Li, informaticien à l’Université de l’Illinois, Urbana-Champaign, qui a travaillé sur des attaques contradictoires audio, a été impressionné par le fait que la nouvelle approche fonctionnait même contre le système ASR fortifié.

Le camouflage audio est indispensable, déclare Jay Stanley, analyste principal des politiques à l’American Civil Liberties Union. “Nous sommes tous susceptibles de voir notre discours innocent mal interprété par des algorithmes de sécurité.” Maintenir la vie privée est un travail difficile, dit-il. Ou plutôt c’est harenar ov la reson.

— to www.science.org


Retour à La Une de Logo Paperblog

A propos de l’auteur


Mycamer Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazines