- - Extrageți text din mai multe formate de fișiere cu teXtracta

Extrageți text din mai multe formate de fișiere cu teXtracta

Am revizuit două instrumente diferite înainte deextrageți text din diferite formate populare - Instrumentul de extragere a textului și terminalul OCR. Aceste instrumente vă permit să extrageți text din diferite formate de imagine, format PDF și HTML, etc. Dacă sunteți în căutarea unui instrument mult mai larg, un utilitar care poate extrage text din mai multe formate, atunci TeXtracta va veni la îndemână.

Este un instrument care funcționează pe principiulIFilter. Interfață COM dezvoltată de Microsoft pentru serviciul de indexare, astfel încât să poată indexa fișiere de diferite formate. Aceste fișiere indexate sunt apoi utilizate în Windows 7 / Vista Search, Windows Desktop Search și așa mai departe. Trebuie să aveți IFilters corespunzători instalate pe computer înainte de a putea extrage text din diferite formate folosind teXtracta. Pentru a instala IFilter-urile corespunzătoare, accesați aici.

În acest articol vă voi explica cum se extrageca exemplu dintr-un document PDF. Mai întâi descărcați IFilter-ul corespunzător din linkul dat mai sus, apucați teXtracta din linkul dat la sfârșitul acestui articol. Acum încărcați instrumentul și selectați singurul fișier pe care doriți să îl procesați. De asemenea, puteți selecta un folder, în acest fel toate fișierele din acel folder vor fi procesate. Apoi verificați opțiunile dorite, cum ar fi, Afișare text, Salvare text și Includere subdirectorii.

textracta-extract de text-din-diferite-file-formate

După ce ați terminat, alegeți în sfârșit filtrele de parcă am ales PDF IFilter așa cum se arată în imaginea de mai jos.

pdf-IFilter-filtre-pentru-textracta

Când veți selecta un fișier sau un folder, opțiuni precum Start Processing, Pause Processing și Stop Processing sunt activate automat.

Extract de text-opțiuni nu au fost evidențiate

Acum apăsați butonul Start procesare pentru a începe textulproces de extracție. Dacă nu aveți IFilter instalat corespunzător, vă va anunța imediat, altfel procesul va merge bine. Rețineți că timpul luat de proces va depinde în mare măsură de fișierul pe care îl puteți converti.

textracta-Main-ferestre-captură de ecran

Dacă opțiunea Salvare text este activată, ieșirea va fi salvată în format txt în același director în care este prezent fișierul sau folderul.

Descărcați teXtracta

Funcționează pe Windows 2000, Windows XP, Windows Vista și Windows 7. Bucurați-vă!

Comentarii