Pour le vieux data-miner, celui qui utilisait SPSS en DOS et les codes SAS, celui qui a été nourri au lait de l'analyse des données et des algorithmes de classification, les vingt dernières années ont été une période plus que faste, joyeuse, munificente.
La taille des fichiers double chaque année, la vitesse de calcul rattrape cette taille, rendant obsolète cette vieille théorie des sondages à mesure que les populations dépassaient les milliers d'individus, puis les dizaines de milliers, et les centaines, comptant aujourd'hui en millions, voire dizaines de millions. Les Oracles, les IBM, ont largement contribué à la construction logique de ces bases. D'autres solutions émergent fondées sur le calcul dans les nuages.
Bien sûr en parallèle de ce mouvement, de nouveaux modèles, les algorithmes s'adaptent à ces nouvelles données, et de nombreux modèles sont apparus même s'ils ne sont pas si systématiquement employés par l'industrie : réseaux de neurones, réseaux bayésiens, modèles multi-niveaux, modèles de mélanges, cointégration et modèles VAR, juste pour en citer quelques- uns.
Mais le fait dominant reste dans la dimensions des bases de données. Et il peut être bien d'en caractériser les principales structures.
La structure de données élémentaires est celle des enquêtes ad-hoc. Autrefois limitées à quelques centaines d'interviews en face à face, on peut envisager désormais des enquêtes électroniques de plusieurs dizaines de milliers de personnes. Ces données sont transversales, couvrent une ou plusieurs populations, et sont constituées de réponses à un questionnaire. Elles concernent des dimensions attitudinalles : connaissances et jugements.
Bien avant l'internet un souci aigu s'est manifesté pour mesurer l'impact des médias de masse. Les panels en sont la solution. Longitudinaux par nature, ils contrôlent l'évolution de valeurs agrégées telles que la part de marché, des taux de pénétration, d'audience, de couverture de la distribution, de prix moyens pratiqués. Les modèles fondamentaux sont les modèles de part de marché qui évalue l'impact des moyens du mix sur le choix des consommateurs. Panel de distributeurs ou de consommateurs, ils saisissent une population dans sa continuité par des données journalières. Internationaux ils couvrent désormais des dizaines de milliers d'individus dont ils suivent quotidiennement les consommations. Trois sociétés dominent : GFk, Homescan, et IRI avec Médiamétrie pour les audiences.
Une des conséquences de la révolution des TI a été l'introduction et le développement des système CRM qui capturent avec un grand détail les comportements d'une clientèle. Le volume de ces données peut aller jusqu'à plusieurs millions d'individus, pour lesquels plusieurs dizaines d'actes d'achats sont enregistrés ainsi qu'un nombre équivalent de contacts marketing. La limite de ces données est de limiter la vue avec ceux dont on est au contact, pour le reste du marché on devient aveugle. Segmentation et scoring en sont les outils privilégié.
L'internet bouleverse ce paysage de trois manières :
Il généralise la géolocalisation et en fait la clé universelle de mise en relation des bases de données.
Il introduit des matrices de relations sociales et permet de mesurer plus que les attitudes, les comportements et les expositions mais aussi les interactions sociales. C'est le graphe social.
Il permet l'association de plusieurs bases de données par la mise à disposition d'API au service des développeurs d'application, faisant du mash -up la nouvelle frontière des bases de données : leur interopérabilité.
Dans cette perspective, on peut se demander si on ne va pas vers nouvel outil de mesure ? Très certainement, on peut en imaginer les traits. Il sera d'abord un outil hybride qui associe différentes sources, par exemple en échantillonnant les bases de données CRM des principaux concurrents sur un marché. La juxtaposition de ces bases neutraliserait leur caractère partiel, égocentré, en donnant une vue panoptique du marché.
Mais elle exige une stricte anonymisation. L'unité de matching des données devra par conséquent se réaliser à un autre niveau d'analyse que l'individu et ses identifications (nom, adresses, numéros de comptes..). Un bon candidat est la position géographique, qui permettrait de faire coïncider les données avec celles du web, peut aussi dessiner un niveau très fin d'agrégation très proche de l'individu.
Ainsi le CRM analytique ne s'appuiera plus seulement sur les données comportementales de la clientèle, y compris les contacts, mais s'élargissant aussi par la dimension sociale, il puisera dans dans bases externes, les éléments utile pour mieux comprendre le marché et chacun de ses agents. Reste à identifier les clés légitimes d'appariement des données.