Predtým som skontroloval dva rôzne nástrojeextrahovať text z rôznych populárnych formátov - Text Mining Tool a OCR Terminal. Tieto nástroje vám umožňujú extrahovať text z rôznych obrazových formátov, formátu PDF a HTML atď. Ak hľadáte oveľa širší nástroj, nástroj, ktorý dokáže extrahovať text z viacerých formátov, teXtracta sa vám hodí.
Je to nástroj, ktorý funguje na princípeIFilter. Rozhranie COM vyvinuté spoločnosťou Microsoft pre službu indexovania tak, aby mohla indexovať súbory rôznych formátov. Tieto indexované súbory sa potom používajú v systéme Windows 7 / Vista Search, Windows Desktop Search atď. Predtým, ako budete môcť extrahovať text z rôznych formátov pomocou teXtracta, musíte mať v počítači nainštalované príslušné IFilters. Ak chcete nainštalovať príslušné IFilters, prejdite sem.
V tomto článku vysvetlím, ako extrahovaťako príklad možno uviesť text z dokumentu PDF. Najprv si stiahnite príslušný IFilter z vyššie uvedeného odkazu, stiahnite teXtracta z odkazu na konci tohto článku. Teraz načítajte nástroj a vyberte jeden súbor, ktorý chcete spracovať. Môžete tiež vybrať priečinok, čím sa spracujú všetky súbory v tomto priečinku. Ďalej skontrolujte požadované možnosti, napríklad Zobraziť text, Uložiť text a Zahrnúť podadresáre.
Keď to urobíte, nakoniec vyberte filtre, ako som si vybral PDF IFilter, ako je to znázornené na obrázku nižšie.
Keď vyberiete súbor alebo priečinok, automaticky sa povolia možnosti ako Začať spracovať, Pozastaviť spracovanie a Zastaviť spracovanie.
Teraz stlačte tlačidlo Spustiť na spustenie textuextrakčný proces. Ak nemáte nainštalovaný správny IFilter, ihneď vás to upozorní, inak proces prebehne hladko. Upozorňujeme, že čas, ktorý tento proces zaberie, bude vo veľkej miere závisieť od súboru, ktorý môžete prevádzať.
Ak je zapnutá možnosť Uložiť text, výstup sa uloží vo formáte txt v rovnakom adresári, v ktorom sa nachádza súbor alebo priečinok.
Stiahnite si teXtracta
Funguje vo Windows 2000, Windows XP, Windows Vista a Windows 7. Užite si to!
Komentáre