Ho già esaminato due diversi strumenti prima diestrarre il testo da vari formati popolari - Strumento di estrazione testo e Terminale OCR. Questi strumenti ti consentono di estrarre il testo da vari formati di immagine, formato PDF e HTML, ecc. Se stai cercando uno strumento molto più ampio, un'utilità in grado di estrarre il testo da più formati, teXtracta ti tornerà utile.
È uno strumento che funziona secondo il principio diIFilter. Un'interfaccia COM sviluppata da Microsoft per il suo servizio di indicizzazione in modo che possa indicizzare file di vari formati. Questi file indicizzati vengono quindi utilizzati in Ricerca di Windows 7 / Vista, Ricerca desktop di Windows e così via. È necessario disporre di IFilter appropriati installati sul computer prima di poter estrarre il testo da vari formati utilizzando teXtracta. Per installare i filtri IFilter appropriati, vai qui.
In questo articolo spiegherò come estrarretesto da un documento PDF come esempio. Per prima cosa scarica l'IFilter appropriato dal link sopra indicato, prendi teXtracta dal link dare alla fine di questo articolo. Ora carica lo strumento e seleziona il singolo file che vuoi elaborare. Puoi anche selezionare una cartella, in questo modo verranno elaborati tutti i file all'interno di quella cartella. Quindi seleziona le opzioni desiderate, ad esempio Mostra testo, Salva testo e Includi sottodirectory.
Al termine, scegli finalmente i filtri come ho scelto il filtro IFilter PDF, come mostrato nella schermata qui sotto.
Quando si seleziona un file o una cartella, le opzioni come Avvia elaborazione, Sospendi elaborazione e Interrompi elaborazione verranno abilitate automaticamente.
Ora premi il pulsante Avvia elaborazione per iniziare il testoprocesso di estrazione. Se non hai installato IFilter corretto ti avviserà immediatamente, altrimenti il processo procederà senza intoppi. Si noti che il tempo impiegato dal processo dipenderà in gran parte dal file che è possibile convertire.
Se l'opzione Salva testo è abilitata, l'output verrà salvato in formato txt nella stessa directory in cui è presente il file o la cartella.
Scarica teXtracta
Funziona su Windows 2000, Windows XP, Windows Vista e Windows 7. Divertiti!
Commenti