あなたを賢くするための技術的なヒント - 窓 -teXtractaを使用して複数のファイル形式からテキストを抽出する

teXtractaを使用して複数のファイル形式からテキストを抽出する

以前に2つの異なるツールを確認しましたさまざまな一般的な形式（テキストマイニングツールとOCRターミナル）からテキストを抽出します。これらのツールを使用すると、さまざまな画像形式、PDF、HTML形式などからテキストを抽出できます。より広範なツール、より多くの形式からテキストを抽出できるユーティリティを探している場合は、teXtractaが便利です。

それはの原則に基づいて動作するツールですIFilter。 Microsoftがインデックスサービス用に開発したCOMインターフェース。さまざまな形式のファイルのインデックスを作成できます。これらのインデックスファイルは、Windows 7 / Vista Search、Windows Desktop Searchなどで使用されます。 teXtractaを使用してさまざまな形式からテキストを抽出するには、コンピューターに適切なIFilterをインストールする必要があります。適切なIFilterをインストールするには、こちらにアクセスしてください。

この記事では、抽出する方法を説明します例としてPDFドキュメントのテキスト。最初に上記のリンクから適切なIFilterをダウンロードし、この記事の最後にあるリンクからteXtractaを取得します。次に、ツールをロードし、処理する単一のファイルを選択します。フォルダを選択することもできます。この方法で、そのフォルダ内のすべてのファイルが処理されます。次に、[テキストの表示]、[テキストの保存]、[サブディレクトリを含める]などの必要なオプションを確認します。