- - Ištraukite tekstą iš kelių failų formatų naudodami „teXtracta“

Ištraukite tekstą iš kelių failų formatų naudodami „teXtracta“

Anksčiau peržiūrėjau dvi skirtingas priemonesištraukite tekstą iš įvairių populiarių formatų - teksto gavybos įrankio ir OCR terminalo. Šie įrankiai leidžia išgauti tekstą iš įvairių vaizdo formatų, PDF ir HTML formatų ir tt Jei ieškote daug platesnio įrankio, naudingumo įrankio, galinčio išgauti tekstą iš daugiau formatų, tada „teXtracta“ bus naudinga.

Tai įrankis, veikiantisIFilter. COM sąsaja, kurią sukūrė „Microsoft“ indeksavimo tarnybai, kad ji galėtų indeksuoti įvairaus formato failus. Šie indeksuoti failai tada naudojami „Windows 7“ / „Vista“ paieškoje, „Windows“ darbalaukio paieškoje ir kt. Kad galėtumėte išgauti įvairių formatų tekstą naudodami „teXtracta“, kompiuteryje turite būti įdiegę tinkamus IF filtrus. Norėdami įdiegti tinkamus IF filtrus, eikite čia.

Šiame straipsnyje paaiškinsiu, kaip išgautitekstas iš PDF dokumento kaip pavyzdys. Pirmiausia atsisiųskite tinkamą „IFilter“ iš aukščiau pateiktos nuorodos, patraukite „teXtracta“ iš nuorodos, pateiktos šio straipsnio pabaigoje. Dabar įkelkite įrankį ir pasirinkite vieną failą, kurį norite apdoroti. Taip pat galite pasirinkti aplanką, tokiu būdu bus apdoroti visi tame aplanke esantys failai. Kitas pažymėkite norimas parinktis, pvz., Rodyti tekstą, Įrašyti tekstą ir Įtraukti pakatalogius.

teksto-ekstrakto-teksto-iš-įvairių-failų formatai

Kai baigsite, pagaliau pasirinkite filtrus, kaip aš pasirinkau „PDF IFilter“, kaip parodyta toliau esančioje ekrano kopijoje.

„pdf-ifilter-filters-for-textracta“

Kai pasirinksite failą ar aplanką, tokios parinktys kaip Pradėti apdorojimą, Pristabdyti apdorojimą ir Baigti apdorojimą bus įjungtos automatiškai.

ištrauka-tekstas-paryškinimai

Dabar paspauskite mygtuką Pradėti apdorojimą, kad pradėtumėte tekstągavybos procesas. Jei netinkamai įdiegėte „IFilter“, jis nedelsdamas apie tai praneš, kitaip procesas vyks sklandžiai. Atminkite, kad proceso trukmė daugiausia priklausys nuo failo, kurį galite konvertuoti.

„textracta-main-windows“ ekrano kopija

Jei įjungta parinktis Išsaugoti tekstą, išvestis bus išsaugota txt formatu tame pačiame kataloge, kuriame yra failas ar aplankas.

Atsisiųskite „teXtracta“

Tai veikia „Windows 2000“, „Windows XP“, „Windows Vista“ ir „Windows 7“. Mėgaukitės!

Komentarai