- - Extraia texto de vários formatos de arquivo com o teXtracta

Extrair texto de vários formatos de arquivo com o teXtracta

Revi duas ferramentas diferentes antes paraextrair texto de vários formatos populares - Text Mining Tool e OCR Terminal. Essas ferramentas permitem extrair texto de vários formatos de imagem, PDF e HTML, etc. Se você estiver procurando por uma ferramenta muito mais ampla, um utilitário que possa extrair texto de mais formatos, o teXtracta será útil.

É uma ferramenta que trabalha com o princípio deIFilter. Uma interface COM desenvolvida pela Microsoft para seu serviço de indexação, para que possa indexar arquivos de vários formatos. Esses arquivos indexados são usados ​​no Windows 7 / Vista Search, no Windows Desktop Search e assim por diante. Você deve ter IFilters apropriados instalados no seu computador antes de poder extrair texto de vários formatos usando o teXtracta. Para instalar os IFilters apropriados, clique aqui.

Neste artigo, explicarei como extrairtexto de um documento PDF como exemplo. Primeiro faça o download do IFilter apropriado no link acima, pegue o teXtracta no link fornecido no final deste artigo. Agora carregue a ferramenta e selecione o único arquivo que você deseja processar. Você também pode selecionar uma pasta, assim todos os arquivos dentro dessa pasta serão processados. Em seguida, verifique as opções desejadas, como Mostrar texto, Salvar texto e Incluir subdiretórios.

textracta-extrair-texto-de-vários-formatos de arquivo

Quando terminar, finalmente escolha os filtros como eu escolhi o PDF IFilter, conforme mostrado na captura de tela abaixo.

pdf-ifilter-filtros-para-textracta

Quando você seleciona um arquivo ou pasta, opções como Iniciar processamento, Pausar processamento e Parar processamento serão ativadas automaticamente.

extrair opções de texto destacadas

Agora pressione o botão Iniciar processamento para iniciar o textoprocesso de extração. Se você não tiver o IFilter adequado instalado, ele será notificado imediatamente, caso contrário, o processo ocorrerá sem problemas. Observe que o tempo gasto pelo processo dependerá amplamente do arquivo que você pode converter.

textracta-main-windows-screenshot

Se a opção Salvar texto estiver ativada, a saída será salva no formato txt no mesmo diretório em que o arquivo ou a pasta está presente.

Baixar teXtracta

Funciona no Windows 2000, Windows XP, Windows Vista e Windows 7. Aproveite!

Comentários