전에 두 가지 도구를 검토했습니다.텍스트 마이닝 도구 및 OCR 터미널 등 다양한 형식의 텍스트를 추출합니다. 이 도구를 사용하면 다양한 이미지 형식, PDF 및 HTML 형식 등에서 텍스트를 추출 할 수 있습니다. 훨씬 광범위한 도구를 찾고 있다면 더 많은 형식에서 텍스트를 추출 할 수있는 유틸리티 인 teXtracta가 유용합니다.
그것은 원칙에 따라 작동하는 도구입니다IFilter. 다양한 형식의 파일을 인덱싱 할 수 있도록 인덱싱 서비스를 위해 Microsoft에서 개발 한 COM 인터페이스입니다. 이 인덱싱 된 파일은 Windows 7 / Vista Search, Windows Desktop Search 등에서 사용됩니다. teXtracta를 사용하여 다양한 형식의 텍스트를 추출하려면 컴퓨터에 적절한 IFilter가 설치되어 있어야합니다. 적절한 IFilter를 설치하려면 여기로 이동하십시오.
이 기사에서는 추출하는 방법을 설명합니다.PDF 문서의 텍스트를 예로들 수 있습니다. 먼저 위의 링크에서 적절한 IFilter를 다운로드하고이 기사의 끝에있는 링크에서 teXtracta를 가져 오십시오. 이제 도구를로드하고 처리 할 단일 파일을 선택하십시오. 폴더를 선택할 수도 있습니다. 이런 방식으로 해당 폴더 내의 모든 파일이 처리됩니다. 그런 다음 텍스트 표시, 텍스트 저장 및 하위 디렉토리 포함과 같은 원하는 옵션을 확인하십시오.
완료되면 아래 스크린 샷과 같이 PDF IFilter를 선택한 것처럼 필터를 선택하십시오.
파일 또는 폴더를 선택하면 처리 시작, 처리 일시 중지 및 처리 중지와 같은 옵션이 자동으로 활성화됩니다.
이제 처리 시작 버튼을 눌러 텍스트를 시작하십시오.추출 과정. 적절한 IFilter가 설치되어 있지 않으면 즉시 알리고 그렇지 않으면 프로세스가 순조롭게 진행됩니다. 프로세스에 걸리는 시간은 변환 할 수있는 파일에 따라 크게 달라집니다.
텍스트 저장 옵션이 활성화되면 출력은 파일 또는 폴더가있는 동일한 디렉토리에 txt 형식으로 저장됩니다.
teXtracta 다운로드
Windows 2000, Windows XP, Windows Vista 및 Windows 7에서 작동합니다.
코멘트