- - Wyodrębnij tekst z wielu formatów plików za pomocą teXtracta

Wyodrębnij tekst z wielu formatów plików za pomocą teXtracta

Wcześniej sprawdziłem dwa różne narzędziawyodrębnij tekst z różnych popularnych formatów - Text Mining Tool i OCR Terminal. Narzędzia te pozwalają wyodrębnić tekst z różnych formatów graficznych, PDF i HTML itp. Jeśli szukasz znacznie szerszego narzędzia, narzędzie, które może wyodrębnić tekst z większej liczby formatów, przyda się teXtracta.

To narzędzie działa na zasadzieIFilter. Interfejs COM opracowany przez Microsoft dla jego usługi indeksowania, aby mógł indeksować pliki o różnych formatach. Te zindeksowane pliki są następnie używane w wyszukiwaniu Windows 7 / Vista, Windows Desktop Search i tak dalej. Aby wyodrębnić tekst z różnych formatów przy użyciu teXtracta, musisz mieć zainstalowane odpowiednie filtry IFilter. Aby zainstalować odpowiednie filtry IFil, przejdź tutaj.

W tym artykule wyjaśnię, jak wyodrębnićtekst z dokumentu PDF jako przykład. Najpierw pobierz odpowiedni IFilter z linku podanego powyżej, pobierz teXtracta z linku podanego na końcu tego artykułu. Teraz załaduj narzędzie i wybierz pojedynczy plik, który chcesz przetworzyć. Możesz także wybrać folder, w ten sposób wszystkie pliki w tym folderze zostaną przetworzone. Następnie sprawdź żądane opcje, takie jak Pokaż tekst, Zapisz tekst i Uwzględnij podkatalogi.

textracta-extract-tekst-z-różnych-formatów plików

Po zakończeniu wybierz filtry, tak jak wybrałem IFilter PDF, jak pokazano na zrzucie ekranu poniżej.

pdf-ifilter-filter-for-textracta

Po wybraniu pliku lub folderu opcje takie jak Rozpocznij przetwarzanie, Wstrzymaj przetwarzanie i Zatrzymaj przetwarzanie zostaną włączone automatycznie.

wyodrębnij-tekst-podświetlone opcje

Teraz naciśnij przycisk Rozpocznij przetwarzanie, aby rozpocząć tekstproces ekstrakcji. Jeśli nie masz zainstalowanego odpowiedniego IFiltera, natychmiast Cię o tym powiadomi, w przeciwnym razie proces przebiegnie bezproblemowo. Pamiętaj, że czas potrzebny na proces będzie w dużej mierze zależał od pliku, który możesz przekonwertować.

textracta-main-windows-screenshot

Jeśli włączona jest opcja Zapisz tekst, dane wyjściowe zostaną zapisane w formacie txt w tym samym katalogu, w którym znajduje się plik lub folder.

Pobierz teXtracta

Działa w systemach Windows 2000, Windows XP, Windows Vista i Windows 7. Ciesz się!

Komentarze