Я раніше переглянув два різні інструментивитягнути текст з різних популярних форматів - Text Mining Tool та OCR Terminal. Ці інструменти дозволяють витягувати текст з різних форматів зображень, формату PDF та HTML тощо. Якщо ви шукаєте набагато більш широкий інструмент, утиліту, яка може витягувати текст з більшої кількості форматів, тоді teXtracta стане корисним.
Це інструмент, який працює за принципомIFilter. COM-інтерфейс, розроблений Microsoft для служби індексації, щоб він міг індексувати файли різних форматів. Ці індексовані файли потім використовуються в пошуку Windows 7 / Vista, пошуку на робочому столі Windows тощо. Перед тим, як ви зможете витягувати текст з різних форматів за допомогою teXtracta, у вас повинен бути встановлений відповідний IFilters. Щоб встановити відповідні IFilters, перейдіть сюди.
У цій статті я поясню, як витягтитекст із PDF-документа як приклад. Спочатку скачайте відповідний IFilter із наведеного вище посилання, перейдіть за teXtracta зі посилання, наведеного в кінці цієї статті. Тепер завантажте інструмент і виберіть один файл, який потрібно обробити. Ви також можете вибрати папку, таким чином всі файли всередині цієї папки будуть оброблені. Далі перевірте потрібні параметри, такі як Показати текст, Зберегти текст та Включити підкаталоги.
Після закінчення виберіть фільтри, як я вибрав PDF IFilter, як показано на знімку нижче.
Коли ви виберете файл або папку, такі параметри, як "Почати обробку", "Призупинити обробку" та "Зупинити обробку", будуть включені автоматично.
Тепер натисніть кнопку Почати обробку, щоб почати текстпроцес вилучення. Якщо у вас не встановлений належний IFilter, він негайно повідомить вас про це, інакше процес пройде безперебійно. Зауважте, що час, який потребує процес, багато в чому залежатиме від файлу, який ви можете перетворити.
Якщо параметр «Зберегти текст» увімкнено, вихід буде збережено у форматі txt у тому самому каталозі, де є файл або папка.
Завантажити teXtracta
Він працює в Windows 2000, Windows XP, Windows Vista та Windows 7. Насолоджуйтесь!
Коментарі