Пре тога сам прегледао два различита алатаиздвајање текста из различитих популарних формата - Тект Мининг Тоол и ОЦР Терминал. Ови алати вам омогућавају да издвојите текст из различитих формата слика, ПДФ и ХТМЛ формата итд. Ако тражите много шири алат, услужни програм који може издвојити текст из више формата, теКстрацта ће вам добро доћи.
То је алат који ради на принципуИФилтер. ЦОМ интерфејс који је развио Мицрософт за услугу индексирања тако да може да индексира датотеке различитих формата. Ове индексиране датотеке се затим користе у системима Виндовс 7 / Виста Сеарцх, Виндовс Десктоп Сеарцх и тако даље. Морате имати одговарајуће ИФилтерс инсталиране на вашем рачунару да бисте могли да издвојите текст из различитих формата помоћу теКстрацта. Да бисте инсталирали одговарајуће ИФилтерс, идите овде.
У овом чланку ћу објаснити како извућитекст из ПДФ документа као пример. Прво преузмите одговарајући ИФилтер са горе наведене везе, узмите теКстрацта са линка дајте на крају овог чланка. Сада убаците алат и одаберите једну датотеку коју желите да обрадите. Такође можете да изаберете фолдер, на тај начин ће се обрадити све датотеке унутар те мапе. Затим проверите жељене опције, као што су Прикажи текст, Сачувај текст и Укључи поддиректоријуме.
Када завршите, коначно изаберите филтере као што сам изабрао ПДФ ИФилтер као што је приказано на слици испод.
Када одаберете датотеку или мапу, опције као што су Покретање обраде, Паузирање обраде и Заустављање обраде аутоматски ће бити омогућене.
Сада притисните тастер Старт Процессинг да бисте започели текстпоступак екстракције. Ако немате одговарајућу инсталацију ИФилтер-а, одмах ће вас обавестити, у супротном ће процес ићи несметано. Имајте на уму да ће вријеме потребно за процес увелике овисити о датотеци коју можете претворити.
Ако је опција Саве Тект омогућена, излаз ће бити сачуван у ткт формату у истој директорији у којој је датотека или мапа присутна.
Преузмите теКстрацта
Ради на Виндовс 2000, Виндовс КСП, Виндовс Виста и Виндовс 7. Уживајте!
Коментари