Big data et math destruction

Publié le 04 octobre 2016 par Fmariet

Cathy O'Neil, Weapons of Math Destruction. How Big Data Increases Inequality and Threatens Democracy,  Crown, New York, 2016, 272 p., $13,94 (eBook).
L'auteur est mathématicienne de formation (PhD de maths, Harvard, en théorie des nombres) ; ancienne quantitativiste (quant) dans un hedge fund (E.D. Shaw), elle a également travaillé pour une startup new-yorkaise spécialisée dans le e-commerce et l'analyse du comportement commercial des internautes (Intent Media) afin de la cibler. Cet ouvrage de vulgarisation est servi par un rigoureux marketing (à base de data ?) et un transfert de légitimité tout à fait classique de (maths, Harvard, PhD : car il faut beaucoup de légitimité à une femme pour réussir dans ce domaine). Dans ce livre, sans toutefois cracher dans la soupe qui l'a nourrie, elle met en garde contre les algorithmes et autres modèles mathématiques qui gèrent notre vie. On l'a vue à Occupy Wall Street (Alternative Banking Group) et elle tient un blog, mathbabe.org. Avec Rachel Schutt, une ancienne googler, elle est co-auteur de l'ouvrage Doing Data Science. Straight Talk from the Front Line (O'Reilly Media, 2014). Théorie et pratique, elle sait donc de quoi elle parle et elle est parfaitement armée pour en parler.
Pour illustrer la fécondité des modèles mathématiques, elle évoque le roman Moneyball (Michael Lewis, 2003 ; au cinéma en 2011) ; il s'agit de l'application de modèles prédictifs à la gestion d'une équipe de baseball qui mobilisent des données nombreuses, fraîches et pertinentes, sans cesse rectifiées à partir de nouveaux résultats. Situation idéale. Mais ensuite le livre en vient à des exemples moins heureux. Avec leur réputation de rigueur, de rationalité et d'infaillibilité, les maths et les algorithmiques qu'ils forgent peuvent être utilisés pour des actions économiques et sociales aux résultats douteux : attribution de bourses, de prêts immobiliers, lutte contre la criminalité, classement des universités... Mal appliquées voire non suivies, parfois manipulant des données fautives, biaisées, ces mathématiques sont surtout utilisées pour légitimer des décisions politiques et sociales malheureuses et injustes : elles deviennent alors des armes de destruction sociale massives (Weapons of Math Destruction).
Le premier exemple développé est celui des subprimes et de la fameuse crise financière qui s'en suit. L'histoire est connue mais Cathy O'Neil la raconte bien pour l'avoir vécue de l'intérieur. Le second exemple est celui du classement des universités américaines. Lancés à l'origine par l'hebdomadaire U.S. News & World Report (1988), ce type de classement repose sur des données plus ou moins discutables ; les effets en sont redoutables car, pour améliorer leur classement, des établissement sont amenés à truquer leurs données. Faute de données rigoureusement construites et pertinentes, le classement recourt à des proxies, variables fumeuses telles que la réputation, variable subjective s'il en est. Superbe chapitre, d'autant plus édifiant que ce type de classement est devenu un genre journalistique à part entière, un marronnier, et un centre de profit dans le monde entier : tout y passe désormais, les universités et les lycées, les hôpitaux, les banques, les restaurants, les villes, etc. Les classements des universités sont même devenus mondiaux : Shanghaï, Quacquarelli Symonds (QS), etc. : que de bêtises sont faites en leur nom !
Le livre déploie plusieurs autres exemples : la publicité prédatrice utilisée pour cibler des populations vulnérables, la justice et la prévision de la criminalité, le recrutement, l'établissement des emplois du temps dans les entreprises (scheduling software), l'éducation et les performances pédagogiques, le prix des polices d'assurance, les élections et le micro-ciblage...
L'ouvrage débouche sur une réflexion à propos de la propriété de la data et la vie privée, notamment lorsqu'il s'agit de données de la santé des personnes ou de la situation financière des ménages. La data emprisonne dans le passé. Droit à l'oubli ?
On the other side of the algorithms
De l'autre côté de l'algorithme, l'auteur montre la souffrance et le malheur : les faillites, les personnes perdant leur emploi et leur habitation, les vies saccagées par des emplois du temps absurdes, l'échec scolaire. Convaincant.
Mais ce ne sont pas les mathématiques qui sont en question, c'est l'usage toxique qui en est fait, selon des consignes données par des personnes et appliquées par des personnes. Le problème vient des consignes et de l'obéissance - aveugle ? - à ces consignes dans les banques, les administrations, les entreprises, les écoles. Boîtes noires, dit-elle, "secret sauce" et de dénoncer l'opacité et les dommages créés.
Mais qui est responsable ? Ce ne sont certainement pas des algorithmes et la "secret sauce" qu'ils cuisinent ni des outils mathématiques, fatalement complexes ("by design, inscrutable black boxes").
L'auteur en appelle à la responsabilité des ingénieurs pour empêcher le mésusage (misuse) des données et des maths. Science sans conscience... Elle réclame une déontologie, un code de bonne conduite pour les ingénieurs et les mathématiciens, une sorte de serment d'Hippocrate adapté aux métiers de la donnée (data science) ? Dans le même ordre d'idées, l'auteur demande que soient audités les algorithmes, notamment ceux des réseaux sociaux. Mais qui a les moyens d'assurer de tels audits (revendication qui recoupe celle des annonceurs) ? La conclusion qui s'impose est que la qualité de la data est déterminante, sa fraîcheur aussi et que les utilisations des algorithmes doivent être méticuleusement et régulièrement contrôlées. Mais, ceci affect les coûts...
L'ouvrage, en partie auto-biographique, en partie journalistique, entr'ouvre une fenêtre sur le monde social peu connu de la quantification des données (optimisation) et de la confection des bases de données. Parfois, on dirait du Balzac... Livre bien écrit, qui ne manque pas d'humour dans sa description de l'obsession quantitative (benchmarking) et de la data, mais qui manque de précision. On y trouve peu de mathématiques et beaucoup de généralités sociales et politiques, beaucoup de bonne conscience, d'opinion et peu de démonstration. Plus de générosité et de morale que d'algorithmes. Dommage.
L'utilisation de bases de données fautives est souvent la principale source des problèmes dénoncés par l'auteur : vouloir tout inclure dans des bases de données et les utiliser pour rationaliser les recrutements (par exemple) ou encore "surveilller et punir" c'est se fier à un modèle économique simpliste, court-termiste. Passer de la relation sociale, du face à face, de la rencontre des visages, à une relation mécanique, aveugle, permet certes de passer des coûts variables à des coûts fixes qui s'amortissent sur de grandes échelles (scaling) : plus que de jugement économique, il s'agit de jugement éthique.