- - izdvajanje teksta iz više formata datoteka s teXtracta

Izdvojite tekst iz više formata datoteka s teXtracta

Prije sam pregledao dva različita alataizdvajanje teksta iz različitih popularnih formata - Text Mining Tool i OCR Terminal. Ovi alati omogućuju vam izdvajanje teksta iz različitih formata slika, PDF i HTML formata itd. Ako tražite mnogo širi alat, uslužni program koji može izdvojiti tekst iz više formata, teXtracta će vam dobro doći.

To je alat koji radi na principuIFilter. COM sučelje koje je razvio Microsoft za uslugu indeksiranja tako da može indeksirati datoteke različitih formata. Ove indeksirane datoteke tada se koriste u sustavu Windows 7 / Vista Search, Windows Desktop Search i tako dalje. Morate imati odgovarajuće IFilters instalirane na vašem računalu prije nego što možete izvući tekst iz različitih formata pomoću teXtracta. Da biste instalirali odgovarajuće IFilters, idite ovdje.

U ovom ću članku objasniti kako izvućitekst iz PDF dokumenta kao primjer. Prvo preuzmite odgovarajući IFilter s gornje veze, uzmite teXtracta s linka dajte na kraju ovog članka. Sada umetnite alat i odaberite jednu datoteku koju želite obraditi. Također možete odabrati mapu, na taj način će se obraditi sve datoteke unutar te mape. Zatim provjerite željene opcije kao što su Prikaži tekst, Spremi tekst i Uključi poddirektoriju.

textracta ekstrakt-text-od-raznih-file-formata

Kada završite, konačno odaberite filtere kao što sam izabrao PDF IFilter kao što je prikazano na slici ispod.

PDF-IFilter filtri-za-textracta

Kad odaberete datoteku ili mapu, opcije kao što su Pokretanje obrade, Pauziranje obrade i Zaustavljanje obrade automatski će biti omogućene.

ekstrakt-tekst-opcije-istaknut

Sada pritisnite gumb Start Processing za početak tekstapostupak ekstrakcije. Ako nemate pravilno instaliran IFilter, obavijestit će vas odmah, u protivnom postupak će teći bez problema. Imajte na umu da vrijeme potrebno za postupak uvelike ovisi o datoteci koju možete pretvoriti.

textracta-glavni-windows-zaslona

Ako je omogućena opcija Spremi tekst, izlaz će biti spremljen u txt formatu u istom direktoriju u kojem je prisutna datoteka ili mapa.

Preuzmite teXtracta

Radi na Windows 2000, Windows XP, Windows Vista i Windows 7. Uživajte!

komentari