Text mining tool
Ce petit programme portable permet très simplement d'extraire le contenu textuel depuis des fichiers pdf, doc, rtf, chm (aide), html, même sans programme de lecture PDF installé. Il suffit d'ouvrir un de ces documents avec, et il en extrait le texte, que l'on peut sauvegarder au format .txt après récupération. Les images ne sont donc pas traitées. Très pratique sur du PDF, sans avoir besoin de tout sélectionner à la main. J'ai testé sur un plan de métro PDF : les noms des stations sont extraits car entrés sous forme de texte et non d'image. Multiples applications possibles, selon les fichiers que vous croisez, pages web comprises.
Une version en ligne de commande est fournie afin d'automatiser les tâches et traiter par lots (minetext.exe) dans le zip, la version avec interface graphique est TextMiningTool.exe
OS : Windows 2000, XP, Vista avec .NET 2 (inclus dans Vista)
Taille : 8,5 Mo
Langue : anglais
Licence : freeware