La sortie il y a quelques mois d'un petit projet Google Labs (dont j'avais parlé ici) m'a donné envie de tester (sans a priori) une manipulation simple (en principe...) qui devrait aider des étudiants et chercheurs à exploiter des données récupérées sur le web.
L'idée simple est que beaucoup de documents récupérés sont sous la forme de PDF, format bien pratique pour la diffusion mais qui ne prévoit pas l'export global d'informations vers d'autres supports (au hasard Excel/calc ou Word/writer). Imaginant ce que l'on pourrait faire avec Google Fusion Table et bavant sur la génération automatique de cartes et diagrammes divers très alléchants, j'ai élaboré le scénario suivant:
sociologue travaillant sur l'Indice de développement humain, j'ai récupéré en pdf le rapport annuel et souhaite pouvoir en extraire différents tableaux avec lesquels je pourrais générer des cartes et diagrammes.
Ayant mon document sur mon Bureau, je le convertis en Excel grâce à l'outil en ligne PdFtoExcel online (attention aux messageries professionnelle qui sont souvent très suspicieuses des pièces jointes et risquent de voir virer mail et fichier sans autre forme de procès...). Pour bien faire les choses, j'ai coupé mon pdf au préalable grâce à mon imprimante virtuelle gratuite (avec pdf creator par exemple) et sorti les seules pages du tableau que je souhaité exploiter.
- Je toilette un peu et vérifie mon excel.
- J'importe dans Google Fusion Table
- ... et je m'aperçois qu'à moins d'un sérieux travail préparatoire sur le tableau excel, j'obtiendrais dans Google des données très partiellement exploitables (notamment pas possible de générer une carte du monde...).
Conclusion: décevant et nécessite suffisamment de boulot pour dissuader les utilisateurs.
Conclusion bis: préférer utiliser l'extraordinaire page d'outils et de générateurs de l'ONU