Son activité concerne en effet le concept de données synthétiques, c'est-à-dire, en résumé, le recours à des algorithmes dans le but de produire des jeux de données entièrement fictifs mais parfaitement représentatifs, d'un point de vue statistique, des caractéristiques de la source réelle à partir de laquelle ils opèrent, un peu de la même manière que ChatGPT produit des textes et des illustrations originaux en « s'inspirant » des milliards de références qui ont alimenté son apprentissage initial.
Le principe ne date certes pas d'hier, mais Hazy mérite tout de même notre attention en raison de sa cible privilégiée dans le secteur bancaire (en complément des opérateurs téléphoniques). Elle compte d'ailleurs parmi ses principaux clients Nationwide (au Royaume-Uni) et Wells Fargo (aux États-Unis), qui participent également à sa ronde de financement, aux côtés du fonds de capital risque de l'italienne Intesa Sanpaolo.
Les applications grand public de l'IA ne sont heureusement pas la seule raison de ramener les données synthétiques au premier plan de l'intérêt des institutions financières. La multiplication des usages des gisements d'information dont elles disposent constitue un puissant facteur d'attraction pour les technologies qui les rendent possibles dans le respect des exigences éthiques et réglementaires de protection de la vie privée.
Ces solutions trouvent ainsi une place privilégiée dans les équipes qui construisent et entraînent des modèles d'analyse à partir de données sensibles, en particulier celles des clients et de leurs comptes, sans que celles-ci ne soient accessibles, à aucun moment. Mais elles ont aussi une utilité indéniable dans les départements informatiques, où les besoins de matière première sont généralement mal satisfaits lors des tests logiciels, et elles peuvent même fournir un produit de substitution prêt à la commercialisation, sans encourir les risques qu'engendrerait la distribution d'information sensible.
Les données synthétiques ont jusqu'à maintenant mauvaise presse auprès de leur audience de prédilection, en raison notamment de leurs limitations, par exemple dans leur incapacité historique à reproduire des structures logiquement cohérentes, parfois complexes. Les progrès rapides de l'intelligence artificielle générative et la publicité dont lui fait bénéficier aujourd'hui un outil tel que ChatGPT devraient cependant contribuer désormais à reconsidérer ces réticences, qui paraissent de moins en moins justifiées.