- - Extrahujte text z viacerých formátov súborov pomocou teXtracta

Extrahujte text z viacerých formátov súborov pomocou teXtracta

Predtým som skontroloval dva rôzne nástrojeextrahovať text z rôznych populárnych formátov - Text Mining Tool a OCR Terminal. Tieto nástroje vám umožňujú extrahovať text z rôznych obrazových formátov, formátu PDF a HTML atď. Ak hľadáte oveľa širší nástroj, nástroj, ktorý dokáže extrahovať text z viacerých formátov, teXtracta sa vám hodí.

Je to nástroj, ktorý funguje na princípeIFilter. Rozhranie COM vyvinuté spoločnosťou Microsoft pre službu indexovania tak, aby mohla indexovať súbory rôznych formátov. Tieto indexované súbory sa potom používajú v systéme Windows 7 / Vista Search, Windows Desktop Search atď. Predtým, ako budete môcť extrahovať text z rôznych formátov pomocou teXtracta, musíte mať v počítači nainštalované príslušné IFilters. Ak chcete nainštalovať príslušné IFilters, prejdite sem.

V tomto článku vysvetlím, ako extrahovaťako príklad možno uviesť text z dokumentu PDF. Najprv si stiahnite príslušný IFilter z vyššie uvedeného odkazu, stiahnite teXtracta z odkazu na konci tohto článku. Teraz načítajte nástroj a vyberte jeden súbor, ktorý chcete spracovať. Môžete tiež vybrať priečinok, čím sa spracujú všetky súbory v tomto priečinku. Ďalej skontrolujte požadované možnosti, napríklad Zobraziť text, Uložiť text a Zahrnúť podadresáre.

textracta-extract-text-z-rôznych-file-formáty

Keď to urobíte, nakoniec vyberte filtre, ako som si vybral PDF IFilter, ako je to znázornené na obrázku nižšie.

PDF IFilter filtre-for-textracta

Keď vyberiete súbor alebo priečinok, automaticky sa povolia možnosti ako Začať spracovať, Pozastaviť spracovanie a Zastaviť spracovanie.

zvýrazní extrakt-text-možnosti-

Teraz stlačte tlačidlo Spustiť na spustenie textuextrakčný proces. Ak nemáte nainštalovaný správny IFilter, ihneď vás to upozorní, inak proces prebehne hladko. Upozorňujeme, že čas, ktorý tento proces zaberie, bude vo veľkej miere závisieť od súboru, ktorý môžete prevádzať.

textracta-Mohan-windows-screenshot

Ak je zapnutá možnosť Uložiť text, výstup sa uloží vo formáte txt v rovnakom adresári, v ktorom sa nachádza súbor alebo priečinok.

Stiahnite si teXtracta

Funguje vo Windows 2000, Windows XP, Windows Vista a Windows 7. Užite si to!

Komentáre