- -teXtractaを使用して複数のファイル形式からテキストを抽出する

teXtractaを使用して複数のファイル形式からテキストを抽出する

以前に2つの異なるツールを確認しましたさまざまな一般的な形式(テキストマイニングツールとOCRターミナル)からテキストを抽出します。これらのツールを使用すると、さまざまな画像形式、PDF、HTML形式などからテキストを抽出できます。より広範なツール、より多くの形式からテキストを抽出できるユーティリティを探している場合は、teXtractaが便利です。

それはの原則に基づいて動作するツールですIFilter。 Microsoftがインデックスサービス用に開発したCOMインターフェース。さまざまな形式のファイルのインデックスを作成できます。これらのインデックスファイルは、Windows 7 / Vista Search、Windows Desktop Searchなどで使用されます。 teXtractaを使用してさまざまな形式からテキストを抽出するには、コンピューターに適切なIFilterをインストールする必要があります。適切なIFilterをインストールするには、こちらにアクセスしてください。

この記事では、抽出する方法を説明します例としてPDFドキュメントのテキスト。最初に上記のリンクから適切なIFilterをダウンロードし、この記事の最後にあるリンクからteXtractaを取得します。次に、ツールをロードし、処理する単一のファイルを選択します。フォルダを選択することもできます。この方法で、そのフォルダ内のすべてのファイルが処理されます。次に、[テキストの表示]、[テキストの保存]、[サブディレクトリを含める]などの必要なオプションを確認します。

textracta-extract-text-from-various-file-formats

完了したら、下のスクリーンショットに示すように、PDF IFilterを選択したように、最後にフィルターを選択します。

pdf-ifilter-filters-for-textracta

ファイルまたはフォルダーを選択すると、処理の開始、処理の一時停止、処理の停止などのオプションが自動的に有効になります。

抽出テキストオプション強調表示

[処理を開始]ボタンを押してテキストを開始します抽出プロセス。適切なIFilterがインストールされていない場合、すぐに通知されます。そうでない場合、プロセスはスムーズに進みます。プロセスにかかる時間は、変換できるファイルに大きく依存することに注意してください。

textracta-main-windows-screenshot

[テキストの保存]オプションが有効になっている場合、出力はファイルまたはフォルダーが存在する同じディレクトリにtxt形式で保存されます。

ダウンロードteXtracta

Windows 2000、Windows XP、Windows Vista、およびWindows 7で動作します。お楽しみください!

コメント