J'ai passé en revue deux outils différents avant deextraire du texte à partir de divers formats populaires - outil d’exploration de texte et terminal OCR. Ces outils vous permettent d’extraire du texte à partir de divers formats d’image, PDF, HTML, etc. Si vous recherchez un outil beaucoup plus large, un utilitaire capable d’extraire du texte de plusieurs autres formats, alors teXtracta vous sera utile.
C’est un outil qui fonctionne sur le principe deIFilter. Une interface COM développée par Microsoft pour son service d’indexation afin de lui permettre d’indexer des fichiers de différents formats. Ces fichiers indexés sont ensuite utilisés dans Windows 7 / Vista Search, Windows Desktop Search, etc. Des IFilters appropriés doivent être installés sur votre ordinateur avant de pouvoir extraire du texte à partir de divers formats à l'aide de teXtracta. Pour installer les IFilters appropriés, cliquez ici.
Dans cet article, je vais expliquer comment extrairetexte d'un document PDF à titre d'exemple. Tout d’abord, téléchargez le IFilter approprié à partir du lien indiqué ci-dessus, puis prenez teXtracta à partir du lien indiqué à la fin de cet article. Maintenant, chargez l'outil et sélectionnez le fichier que vous souhaitez traiter. Vous pouvez également sélectionner un dossier. Ainsi, tous les fichiers de ce dossier seront traités. Cochez ensuite les options souhaitées, telles que Afficher le texte, Enregistrer le texte et Inclure les sous-répertoires.
Lorsque vous avez terminé, choisissez enfin les filtres comme j'ai choisi le PDF IFilter, comme indiqué dans la capture d'écran ci-dessous.
Lorsque vous sélectionnez un fichier ou un dossier, des options telles que Démarrer le traitement, Mettre en pause le traitement et Arrêter le traitement sont automatiquement activées.
Maintenant, cliquez sur le bouton Démarrer le traitement pour commencer le texteprocessus d'extraction. Si IFilter n’est pas installé correctement, il vous en avertira immédiatement, sinon le processus se déroulera sans heurts. Notez que le temps pris par le processus dépendra en grande partie du fichier que vous pouvez convertir.
Si l'option Enregistrer le texte est activée, la sortie sera enregistrée au format txt dans le même répertoire que le fichier ou le dossier.
Télécharger teXtracta
Il fonctionne sous Windows 2000, Windows XP, Windows Vista et Windows 7. Profitez-en!
commentaires