PDG de Microsoft AI : le contenu du Web ouvert est un « logiciel gratuit » pour la formation à l'IA

Publié le 03 juillet 2024 par Zaebos @MetatroneFR

Cette affirmation absurde suscite de nombreuses inquiétudes en matière de droits d'auteur

Qu'est-ce qui vient de se passer? L'utilisation de contenus protégés par le droit d'auteur pour entraîner l'intelligence artificielle est devenue un sujet brûlant, les experts étant divisés sur la question de savoir s'il s'agit d'un vol ou d'une forme légitime d'étude apparentée à la formation artistique. Le directeur général de l'intelligence artificielle de Microsoft a pensé que ce serait une bonne idée de jeter de l'huile sur le feu en faisant des déclarations audacieuses sur ce que les entreprises peuvent faire légalement avec le contenu en ligne lors de l'entraînement de leurs systèmes d'intelligence artificielle.

Mustafa Suleyman, qui dirige les efforts d'IA de Microsoft depuis mars, a déclaré à CNBC dans une interview que le matériel publié ouvertement sur le Web devient essentiellement un « logiciel gratuit » que chacun peut copier et utiliser à sa guise.

« Je pense que, depuis les années 90, le contrat social qui s'applique aux contenus déjà présents sur le Web ouvert est qu'ils sont d'usage équitable. N'importe qui peut les copier, les recréer, les reproduire », a-t-il déclaré. « C'est du « freeware », si vous voulez, c'est ce qui est convenu. »

C'est une interprétation très piquante, et inexacte. Il suffit de consulter la page FAQ du Bureau américain du droit d'auteur. L'une des réponses indique que « votre œuvre est protégée par le droit d'auteur dès qu'elle est créée et fixée sous une forme tangible qui est perceptible soit directement, soit à l'aide d'une machine ou d'un appareil. »

La même FAQ ajoute que vous n'avez même pas besoin de vous enregistrer « pour être protégé ». L'enregistrement n'est nécessaire que lorsque vous souhaitez intenter une action en justice pour violation. On peut donc affirmer sans risque que l'usage équitable ne découle pas d'un « contrat social » comme le suggère Suleyman.

Suleyman a apparemment reconnu l'importance du fichier robots.txt, affirmant que la mention « ne pas gratter ou explorer » sur un site Web pourrait faire du scraping une « zone grise ». Mais adhérer à ce protocole de base bloquant les robots d'exploration Web est davantage une question de courtoisie, et non quelque chose qui doit « passer par les tribunaux », comme il l'a suggéré.

Sans surprise, même le fichier robots.txt est ignoré par diverses sociétés d’IA, notamment Anthropic, Perplexity et OpenAI.

Ce n'est pas la première fois qu'un responsable travaillant sur le développement de l'IA fait des déclarations controversées. L'une des principales raisons derrière la prévalence de telles déclarations est probablement que, malgré plus d'un an depuis le lancement de ChatGPT, les bases juridiques concernant les données de formation et les droits d'auteur sont toujours en cours d'élaboration.

Microsoft et son partenaire OpenAI font en effet face à de nombreuses poursuites judiciaires de la part d'éditeurs qui les accusent d'avoir utilisé des articles en ligne protégés par le droit d'auteur pour former leurs puissants modèles linguistiques sans autorisation. Cependant, ces affaires n'ont pas encore abouti à des résolutions définitives qui pourraient apporter plus de clarté juridique.

Les déclarations de Suleyman reflètent une vision de l'IA qui consiste à extraire les données d'Internet, à l'instar de la façon dont les artistes ont toujours étudié les grandes œuvres tout en apprenant leur métier. « Que sommes-nous, collectivement, en tant qu'organisme humain, sinon un moteur de connaissance et de production intellectuelle ? », a-t-il demandé dans la même interview.

Cependant, la différence entre l’IA et les artistes est qu’un seul est capable d’ingérer et de régurgiter le contenu mondial dans des produits et services d’IA rentables à une échelle sans précédent.