- - Extraiga texto de múltiples formatos de archivo con teXtracta

Extraer texto de múltiples formatos de archivo con teXtracta

He revisado dos herramientas diferentes antes deextraer texto de varios formatos populares: herramienta de minería de texto y terminal OCR. Estas herramientas le permiten extraer texto de varios formatos de imagen, PDF y HTML, etc. Si está buscando una herramienta mucho más amplia, una utilidad que pueda extraer texto de más formatos, entonces teXtracta será útil.

Es una herramienta que funciona según el principio deIFilter. Una interfaz COM desarrollada por Microsoft para su servicio de indexación para que pueda indexar archivos de varios formatos. Estos archivos indexados se usan en Windows 7 / Vista Search, Windows Desktop Search, etc. Debe tener instalados los IFilters apropiados en su computadora antes de poder extraer texto de varios formatos usando teXtracta. Para instalar los IFilters apropiados, vaya aquí.

En este artículo explicaré cómo extraertexto de un documento PDF como ejemplo. Primero descargue el IFilter apropiado desde el enlace dado anteriormente, tome teXtracta del enlace que se encuentra al final de este artículo. Ahora cargue la herramienta y seleccione el archivo único que desea procesar. También puede seleccionar una carpeta, de esta manera se procesarán todos los archivos dentro de esa carpeta. Luego marque las opciones deseadas, como Mostrar texto, Guardar texto e Incluir subdirectorios.

textracta-extract-text-from-varios-formatos-de-archivo

Cuando termine, finalmente elija los filtros como he elegido el IFilter PDF como se muestra en la captura de pantalla a continuación.

pdf-ifilter-filters-for-textracta

Cuando seleccione un archivo o carpeta, las opciones como Iniciar procesamiento, Pausar procesamiento y Detener procesamiento se habilitarán automáticamente.

opciones-extracto-texto-resaltadas

Ahora presione el botón Iniciar procesamiento para comenzar el textoproceso de extracción. Si no tiene IFilter instalado correctamente, se lo notificará de inmediato, de lo contrario el proceso se realizará sin problemas. Tenga en cuenta que el tiempo que tome el proceso dependerá en gran medida del archivo que pueda convertir.

textracta-main-windows-screenshot

Si la opción Guardar texto está habilitada, la salida se guardará en formato txt en el mismo directorio donde está presente el archivo o la carpeta.

Descargar teXtracta

Funciona en Windows 2000, Windows XP, Windows Vista y Windows 7. ¡Disfruta!

Comentarios