L'objectif de la compétition est en effet de concevoir des modèles d'analyse susceptibles de distinguer automatiquement les demandes d'indemnisation « fiables » de celles qui requièrent une vérification complémentaire. À la clé, les dossiers sans risque pourront être traités et indemnisés beaucoup plus rapidement, à la grande satisfaction de la clientèle. À l'ère du « temps réel », l'enjeu devient considérable : les consommateurs attendent une réactivité particulière de leur assureur quand survient un sinistre.
Naturellement, BNP Paribas Cardif trouvera également son compte dans l'automatisation des évaluations. D'une part, en même temps que les délais, elle sera en mesure de réduire les coûts des contrôles – en grande partie manuels – réalisés plus ou moins systématiquement aujourd'hui. D'autre part, elle devrait également pouvoir ajuster ses efforts en fonction du niveau de risque identifié sur chaque cas, ce qui aboutira logiquement à une réduction globale de la fraude (et des erreurs humaines).
En pratique, la compagnie fournit aux participants un jeu de données brutes, représentant un corpus d'informations recueillies au plus tôt dans les cycles de gestion des demandes. À partir de cet échantillon, réparti entre des cas qui ont effectivement requis une étude approfondie et d'autres éligibles à un « circuit court », le but du challenge est de produire un modèle algorithmique capable de prédire la probabilité qu'un nouveau dossier se classe dans l'une ou l'autre de ces catégories.
Il faut hélas souligner un petit défaut dans l'organisation de la compétition : les données mises à la disposition des « data scientists » sont de simples colonnes de chiffres et de codes, sans qu'aucune signification ne leur soit associée. Or – ainsi que j'ai pu le vérifier concrètement (avec une collègue) à l'occasion d'un autre défi – sans compréhension du métier abordé et sans connaissance de la sémantique de l'information manipulée, le potentiel d'excellence des modèles produits est sérieusement diminué.
Il existe peut-être des raisons légitimes (protection des données personnelles ?) justifiant cette limitation mais la réalité est que, sous cette forme, le challenge de « data science » se transforme de fait en un triste concours d'algorithmes et de statistiques. Et, pour aussi subtile qu'elle paraisse, la différence est fondamentale, constituant l'essence de la discipline. De surcroît, la créativité que recherche BNP Paribas Cardif avec sa démarche ouverte s'exprimerait mieux en combinant les approches techniques – que ses équipes internes maîtrisent parfaitement – avec une vision « neuve » de son métier.