- - Pakk ut tekst fra flere filformater med teXtracta

Pakk ut tekst fra flere filformater med teXtracta

Jeg har gjennomgått to forskjellige verktøy førtrekke ut tekst fra forskjellige populære formater - Text Mining Tool og OCR Terminal. Disse verktøyene lar deg trekke ut tekst fra forskjellige bildeformater, PDF- og HTML-format, etc. Hvis du er ute etter et mye bredere verktøy, et verktøy som kan trekke ut tekst fra flere formater, vil teXtracta komme til nytte.

Det er et verktøy som fungerer etter prinsippet omIFilter. Et COM-grensesnitt utviklet av Microsoft for sin indekseringstjeneste, slik at det kan indeksere filer med forskjellige formater. Disse indekserte filene blir deretter brukt i Windows 7 / Vista Search, Windows Desktop Search og så videre. Du må ha passende IFilters installert på datamaskinen din før du kan trekke ut tekst fra forskjellige formater ved bruk av teXtracta. Gå hit for å installere passende IFilters.

I denne artikkelen vil jeg forklare hvordan du kan trekke uttekst fra et PDF-dokument som eksempel. Last ned passende IFilter fra lenken gitt ovenfor, ta teXtracta fra lenken gi på slutten av denne artikkelen. Last nå opp verktøyet og velg enkeltfilen du vil behandle. Du kan også velge en mappe, på denne måten blir alle filene i den mappen behandlet. Kontroller deretter de ønskede alternativene, for eksempel, Vis tekst, Lagre tekst og Inkluder underkataloger.

textracta-ekstrakt-tekst-fra-forskjellige-fil-formater

Når du er ferdig, velger du endelig filtrene som om jeg har valgt PDF IFilter som vist på skjermdumpen nedenfor.

pdf-iFilter-filter-for-textracta

Når du velger en fil eller mappe, vil alternativer som Start prosessering, pausebehandling og stoppebehandling aktiveres automatisk.

ekstrakt-tekst-alternativer-uthevet

Nå trykker du på Start prosessering-knappen for å begynne tekstenutvinningsprosess. Hvis du ikke har riktig IFilter installert, vil det varsle deg umiddelbart, ellers vil prosessen gå greit. Merk at tiden det tar prosessen i stor grad vil avhenge av filen du kan konvertere.

textracta-hoved-windows-skjermbilde

Hvis alternativet Lagre tekst er aktivert, blir utdataene lagret i txt-format i den samme katalogen som filen eller mappen er til stede.

Last ned teXtracta

Det fungerer på Windows 2000, Windows XP, Windows Vista og Windows 7. Kos deg!

kommentarer