Прегледах два различни инструмента предиизвличане на текст от различни популярни формати - Text Mining Tool и OCR терминал. Тези инструменти ви позволяват да извличате текст от различни формати на изображения, PDF и HTML формат и др. Ако търсите много по-широк инструмент, помощна програма, която може да извлича текст от повече формати, тогава teXtracta ще ви бъде полезен.
Това е инструмент, който работи на принципа наIFilter. COM интерфейс, разработен от Microsoft за услугата за индексиране, така че да може да индексира файлове в различни формати. След това тези индексирани файлове се използват в Windows 7 / Vista Search, Търсене на работния плот в Windows и т.н. Трябва да имате инсталирани подходящи IFilters на вашия компютър, преди да можете да извличате текст от различни формати, използвайки teXtracta. За да инсталирате подходящите IFilters, отидете тук.
В тази статия ще обясня как се извличатекст от PDF документ като пример. Първо изтеглете подходящия IFilter от дадената по-горе връзка, вземете teXtracta от връзката, дайте в края на тази статия. Сега заредете инструмента и изберете отделния файл, който искате да обработите. Можете също да изберете папка, като по този начин всички файлове в тази папка ще бъдат обработени. След това проверете желаните опции като Показване на текст, Запазване на текст и Включване на поддиректории.
Когато приключите, изберете най-накрая филтрите, като аз избрах PDF IFilter, както е показано на екрана по-долу.
Когато изберете файл или папка, опции като Стартиране на обработката, Пауза обработка и Спиране на обработката ще бъдат активирани автоматично.
Сега натиснете бутона Стартиране на обработката, за да започнете текстапроцес на извличане. Ако нямате правилно инсталиран IFilter, той ще ви уведоми незабавно, в противен случай процесът ще протече гладко. Обърнете внимание, че времето, отнесено от процеса, ще зависи до голяма степен от файла, който можете да конвертирате.
Ако опцията Запиши текст е активирана, изходът ще бъде записан в txt формат в същата директория, в която е налице файлът или папката.
Изтеглете teXtracta
Работи в Windows 2000, Windows XP, Windows Vista и Windows 7. Наслаждавайте се!
Коментари