- - Izvilkt tekstu no vairākiem failu formātiem ar teXtracta

Izvilkt tekstu no vairākiem failu formātiem ar teXtracta

Iepriekš esmu pārskatījis divus dažādus rīkusiegūt tekstu no dažādiem populāriem formātiem - Teksta ieguves rīks un OCR terminālis. Šie rīki ļauj iegūt tekstu no dažādiem attēlu formātiem, PDF un HTML formātiem utt. Ja jūs meklējat daudz plašāku rīku, utilītu, kas tekstu var iegūt no vairākiem formātiem, tad teXtracta noderēs.

Tas ir rīks, kas darbojas pēcIFilter. COM saskarne, ko Microsoft izstrādājis indeksēšanas pakalpojumam, lai tā varētu indeksēt dažādu formātu failus. Pēc tam šie indeksētie faili tiek izmantoti Windows 7 / Vista meklēšanā, Windows darbvirsmas meklēšanā utt. Lai varētu iegūt tekstu no dažādiem formātiem, izmantojot teXtracta, datorā jābūt instalētam atbilstošam IFilter. Lai instalētu atbilstošos IFilterus, dodieties šeit.

Šajā rakstā es paskaidrošu, kā iegūtteksts no PDF dokumenta kā piemērs. Vispirms lejupielādējiet atbilstošo IFilter no iepriekš norādītās saites, satveriet teXtracta no saites, kas sniegta šī raksta beigās. Tagad ielādējiet rīku un atlasiet vienu failu, kuru vēlaties apstrādāt. Varat arī atlasīt mapi, šādā veidā tiks apstrādāti visi tajā esošie faili. Pēc tam pārbaudiet vēlamās opcijas, piemēram, Rādīt tekstu, Saglabāt tekstu un Iekļaut apakšdirektorijas.

teksta-izvilkuma-teksta-no-dažādiem-failu formāti

Kad tas ir izdarīts, beidzot izvēlieties filtrus, piemēram, es esmu izvēlējies PDF IFilter, kā parādīts zemāk esošajā ekrānuzņēmumā.

pdf-ifilter-filters-for-textracta

Kad jūs izvēlēsities failu vai mapi, tādas opcijas kā Sākt apstrādi, Pauzt apstrādi un Pārtraukt apstrādi tiks iespējotas automātiski.

izcelt tekstu-iespējas-izcelt

Tagad noklikšķiniet uz Sākt apstrādes procesu, lai sāktu tekstuieguves process. Ja jums nav instalēts pareizais IFilter, tas jums nekavējoties paziņos, pretējā gadījumā process noritēs gludi. Ņemiet vērā, ka procesa laiks lielā mērā būs atkarīgs no faila, kuru varat pārveidot.

textracta-main-windows-screenshot

Ja ir iespējota opcija Saglabāt tekstu, izvade tiks saglabāta txt formātā tajā pašā direktorijā, kur atrodas fails vai mape.

Lejupielādējiet teXtracta

Tas darbojas operētājsistēmās Windows 2000, Windows XP, Windows Vista un Windows 7. Izbaudiet!

Komentāri