Optimiser la qualité de vos données clients : le data scanning

Prédire de comportement d'achat de vos clients suppose de le modéliser, c'est-à-dire de construire une description mathématique (par exemple une équation) à partir de laquelle vos données clients vous permettront de prévoir pour chacun d'eux, avec une marge d'erreur quantifiée, combien ils vont dépenser chez vous, pour acheter quoi, à quels moments, et pour quelle durée.

Les différents scores prédictifs calculés client par client ont, ainsi, vocation à chiffrer la survenue et l'ampleur probables du comportement individuellement attendu. Avant d'obtenir un modèle utilisable, et afin d'en garantir la validité et l'efficacité, une attention cruciale doit être portée à la qualité de vos données clients.

Optimiser la qualité de vos données clients (en vue de leur analyse et de leur modélisation) oblige d'abord à collecter des données suffisamment variées, au contenu riche et actualisé, corrigé des erreurs de saisie, et de consolider leur stockage de la manière la plus standardisée possible malgré la multiplicité des sources ayant permis leur recueil. On touche ici aux méthodes de contrôle-qualité relatives à l'acquisition des données (souvent regroupées, en jargon d'analyste, sous l'expression globale de data quality management).

Condition sine qua non d'une analyse des données pertinente, la qualité de la collecte initiale de vos données clients doit, ensuite, impérativement se doubler d'une exploration systématique de leurs caractéristiques mathématiques.

Cette étape cruciale implique d'examiner en détail le contenu de chaque variable au sein desquelles vos données clients sont ventilées. Variable par variable, et entre variables, l'analyste de données (fort heureusement aidé de sa batterie de logiciels) va alors bâtir et utiliser un protocole méthodologique ayant pour objet de tester, calculer, comparer, compléter, transformer, combiner les données clients disponibles pour, au final, créer - à partir de l'entrepôt de données originel - un " magasin de données " optimalement exploitable par les outils de modélisation. On parle alors de balayage (parfois de nettoyage) des données (ou, pour les anglophiles, de data scanning).

Traditionnellement, on distingue cinq grandes phases-clés au sein du processus de modélisation prédictive du comportement client : l'extraction des données d'origine, leur analyse exploratoire, la recherche d'un modèle de prévision, la validation de ce modèle, enfin sa diffusion opérationnelle (et, en sixième phase, son perfectionnement ultérieur, via l'enrichissement des données et le retour d'expérience). Le data quality management intervient à la première étape, le data scanning à la deuxième.

La plupart des logiciels de fouille de données actuels permettent de piloter toutes ces étapes en construisant un " flux datamining" , lequel correspond à un e nchaînement d'opérations paramétrables effectuées sur les données clients. Ces ensembles d'opérations sont manipulables à l'écran sous la forme d'objets baptisés " noeuds ", reliés entre eux pour matérialiser leur chaînage logique : à une extrémité, les entrées (données extraites avant balayage et transformations); à l'autre extrémité, les sorties (résultats des opérations effectuées par le noeud, lesquels peuvent être intermédiaires - c'est-à-dire insérés dans le flux - ou terminaux - en l'occurrence en fin de flux).

Tout l'art du fouilleur de données (dataminer) va donc consister à creuser son sillon dans les données clients, en bâtissant le flux datamining le plus complet et pertinent possible, pour obtenir en bout de course un modèle de prévision du comportement client non seulement statistiquement performant, mais aussi suffisamment intelligible pour être communicable aux non-spécialistes.

Parvenir à expliquer avec clarté un modèle (décortiquer par exemple en termes simples les éléments d'une équation de régression, ou décrire les feuilles d'un arbre de décision et son mode de construction) crédibilise en effet fortement les résultats obtenus, qu'il s'agisse, par exemple, d'un score calculé pour chaque client ou de l'appartenance de chaque client à un segment particulier au sein d'une typologie.

A ce stade - autrement dit à l'étape ultime du déploiement opérationnel d'un modèle au sein des équipes opérationnelles et des systèmes d'information de l'entreprise - l e soin apporté en amont (via le contrôle-qualité de la collecte et le scannage intégral des données pour analyse) s'avère toujours payant, car même si ces étapes de recueil et de traitement des données consomment une bonne partie du temps (humain et machine) d'un projet de modélisation prédictive du comportement client, en faire l'économie aboutit, en règle générale, à des modèles sous-performants, voire contre-productifs. Investir aujourd'hui dans la qualité de vos données clients constitue, en cela, la pierre angulaire de votre efficacité future.