- -teXtracta를 사용하여 여러 파일 형식에서 텍스트 추출

teXtracta를 사용하여 여러 파일 형식에서 텍스트 추출

전에 두 가지 도구를 검토했습니다.텍스트 마이닝 도구 및 OCR 터미널 등 다양한 형식의 텍스트를 추출합니다. 이 도구를 사용하면 다양한 이미지 형식, PDF 및 HTML 형식 등에서 텍스트를 추출 할 수 있습니다. 훨씬 광범위한 도구를 찾고 있다면 더 많은 형식에서 텍스트를 추출 할 수있는 유틸리티 인 teXtracta가 유용합니다.

그것은 원칙에 따라 작동하는 도구입니다IFilter. 다양한 형식의 파일을 인덱싱 할 수 있도록 인덱싱 서비스를 위해 Microsoft에서 개발 한 COM 인터페이스입니다. 이 인덱싱 된 파일은 Windows 7 / Vista Search, Windows Desktop Search 등에서 사용됩니다. teXtracta를 사용하여 다양한 형식의 텍스트를 추출하려면 컴퓨터에 적절한 IFilter가 설치되어 있어야합니다. 적절한 IFilter를 설치하려면 여기로 이동하십시오.

이 기사에서는 추출하는 방법을 설명합니다.PDF 문서의 텍스트를 예로들 수 있습니다. 먼저 위의 링크에서 적절한 IFilter를 다운로드하고이 기사의 끝에있는 링크에서 teXtracta를 가져 오십시오. 이제 도구를로드하고 처리 할 단일 파일을 선택하십시오. 폴더를 선택할 수도 있습니다. 이런 방식으로 해당 폴더 내의 모든 파일이 처리됩니다. 그런 다음 텍스트 표시, 텍스트 저장 및 하위 디렉토리 포함과 같은 원하는 옵션을 확인하십시오.

textracta 추출 텍스트에서 다양한 파일 형식

완료되면 아래 스크린 샷과 같이 PDF IFilter를 선택한 것처럼 필터를 선택하십시오.

tex-tracta를위한 pdf-ifilter-filters

파일 또는 폴더를 선택하면 처리 시작, 처리 일시 중지 및 처리 중지와 같은 옵션이 자동으로 활성화됩니다.

추출 텍스트 옵션 강조 표시

이제 처리 시작 버튼을 눌러 텍스트를 시작하십시오.추출 과정. 적절한 IFilter가 설치되어 있지 않으면 즉시 알리고 그렇지 않으면 프로세스가 순조롭게 진행됩니다. 프로세스에 걸리는 시간은 변환 할 수있는 파일에 따라 크게 달라집니다.

textracta-main-windows-screenshot

텍스트 저장 옵션이 활성화되면 출력은 파일 또는 폴더가있는 동일한 디렉토리에 txt 형식으로 저장됩니다.

teXtracta 다운로드

Windows 2000, Windows XP, Windows Vista 및 Windows 7에서 작동합니다.

코멘트