- - Extrahieren Sie Text aus mehreren Dateiformaten mit teXtracta

Extrahieren Sie Text aus mehreren Dateiformaten mit teXtracta

Ich habe vorher zwei verschiedene Tools getestetextrahieren Sie Text aus verschiedenen gängigen Formaten - Text Mining Tool und OCR Terminal. Mit diesen Tools können Sie Text aus verschiedenen Bildformaten, PDF- und HTML-Formaten usw. extrahieren. Wenn Sie nach einem viel umfassenderen Tool suchen, einem Dienstprogramm, das Text aus mehreren Formaten extrahieren kann, ist teXtracta praktisch.

Es ist ein Werkzeug, das nach dem Prinzip vonIFilter. Eine von Microsoft für den Indexdienst entwickelte COM-Schnittstelle, mit der Dateien in verschiedenen Formaten indiziert werden können. Diese indizierten Dateien werden dann in Windows 7 / Vista Search, Windows Desktop Search usw. verwendet. Sie müssen geeignete IFilter auf Ihrem Computer installiert haben, bevor Sie mit teXtracta Text aus verschiedenen Formaten extrahieren können. Klicken Sie hier, um die entsprechenden IFilter zu installieren.

In diesem Artikel werde ich erklären, wie man extrahiertBeispieltext aus einem PDF-Dokument. Laden Sie zuerst den entsprechenden IFilter über den oben angegebenen Link herunter und greifen Sie zu teXtracta über den Link am Ende dieses Artikels. Laden Sie nun das Tool und wählen Sie die einzelne Datei aus, die Sie bearbeiten möchten. Sie können auch einen Ordner auswählen. Auf diese Weise werden alle Dateien in diesem Ordner verarbeitet. Aktivieren Sie als Nächstes die gewünschten Optionen, z. B. Text anzeigen, Text speichern und Unterverzeichnisse einschließen.

textracta-text-aus-verschiedenen-dateiformaten-extrahieren

Wenn Sie fertig sind, wählen Sie schließlich die Filter aus, wie im folgenden Screenshot gezeigt.

pdf-ifilter-filters-for-textracta

Wenn Sie eine Datei oder einen Ordner auswählen, werden Optionen wie "Verarbeitung starten", "Verarbeitung anhalten" und "Verarbeitung anhalten" automatisch aktiviert.

Extrahieren-Text-Optionen-hervorgehoben

Klicken Sie nun auf die Schaltfläche Verarbeitung starten, um den Text zu beginnenExtraktionsprozess. Wenn Sie nicht den richtigen IFilter installiert haben, werden Sie sofort benachrichtigt, andernfalls verläuft der Prozess reibungslos. Beachten Sie, dass die für den Vorgang benötigte Zeit weitgehend von der Datei abhängt, die Sie konvertieren können.

textracta-main-windows-screenshot

Wenn die Option Text speichern aktiviert ist, wird die Ausgabe im TXT-Format in demselben Verzeichnis gespeichert, in dem sich die Datei oder der Ordner befindet.

Laden Sie teXtracta herunter

Es funktioniert unter Windows 2000, Windows XP, Windows Vista und Windows 7. Viel Spaß!

Bemerkungen