똑똑한 기술 팁 - 윈도우 -teXtracta를 사용하여 여러 파일 형식에서 텍스트 추출

teXtracta를 사용하여 여러 파일 형식에서 텍스트 추출

전에 두 가지 도구를 검토했습니다.텍스트 마이닝 도구 및 OCR 터미널 등 다양한 형식의 텍스트를 추출합니다. 이 도구를 사용하면 다양한 이미지 형식, PDF 및 HTML 형식 등에서 텍스트를 추출 할 수 있습니다. 훨씬 광범위한 도구를 찾고 있다면 더 많은 형식에서 텍스트를 추출 할 수있는 유틸리티 인 teXtracta가 유용합니다.

그것은 원칙에 따라 작동하는 도구입니다IFilter. 다양한 형식의 파일을 인덱싱 할 수 있도록 인덱싱 서비스를 위해 Microsoft에서 개발 한 COM 인터페이스입니다. 이 인덱싱 된 파일은 Windows 7 / Vista Search, Windows Desktop Search 등에서 사용됩니다. teXtracta를 사용하여 다양한 형식의 텍스트를 추출하려면 컴퓨터에 적절한 IFilter가 설치되어 있어야합니다. 적절한 IFilter를 설치하려면 여기로 이동하십시오.

이 기사에서는 추출하는 방법을 설명합니다.PDF 문서의 텍스트를 예로들 수 있습니다. 먼저 위의 링크에서 적절한 IFilter를 다운로드하고이 기사의 끝에있는 링크에서 teXtracta를 가져 오십시오. 이제 도구를로드하고 처리 할 단일 파일을 선택하십시오. 폴더를 선택할 수도 있습니다. 이런 방식으로 해당 폴더 내의 모든 파일이 처리됩니다. 그런 다음 텍스트 표시, 텍스트 저장 및 하위 디렉토리 포함과 같은 원하는 옵션을 확인하십시오.