- - Extraheer tekst uit meerdere bestandsindelingen met teXtracta

Extraheer tekst uit meerdere bestandsindelingen met teXtracta

Ik heb eerder twee verschillende tools bekekenhaal tekst uit verschillende populaire formaten - Text Mining Tool en OCR Terminal. Met deze hulpmiddelen kunt u tekst extraheren uit verschillende afbeeldingsindelingen, PDF- en HTML-indeling, enz. Als u op zoek bent naar een veel bredere tool, een hulpprogramma dat tekst uit meer indelingen kan extraheren, dan komt teXtracta van pas.

Het is een tool die werkt volgens het principe vanIFilter. Een COM-interface die door Microsoft is ontwikkeld voor de indexeringsservice, zodat deze bestanden van verschillende indelingen kan indexeren. Deze geïndexeerde bestanden worden vervolgens gebruikt in Windows 7 / Vista Search, Windows Desktop Search, enzovoort. U moet geschikte IFilters op uw computer hebben geïnstalleerd voordat u tekst uit verschillende formaten kunt extraheren met behulp van teXtracta. Ga hierheen om de juiste IFilters te installeren.

In dit artikel leg ik uit hoe je kunt extraherentekst uit een PDF-document als voorbeeld. Download eerst de juiste IFilter van de bovenstaande link, pak teXtracta uit de link aan het einde van dit artikel. Laad nu de tool en selecteer het enkele bestand dat u wilt verwerken. U kunt ook een map selecteren, op deze manier worden alle bestanden in die map verwerkt. Vink vervolgens de gewenste opties aan, zoals Tekst weergeven, Tekst opslaan en Subdirectory's opnemen.

textracta-extract-text-from-various-bestandsformaten

Wanneer u klaar bent, kiest u eindelijk de filters zoals ik de PDF IFilter heb gekozen, zoals weergegeven in de onderstaande schermafbeelding.

pdf-IFilter-filters-for-textracta

Wanneer u een bestand of map selecteert, worden opties zoals Start Processing, Pause Processing en Stop Processing automatisch ingeschakeld.

extract-text-options-gemarkeerd

Druk nu op de knop Start Processing om de tekst te beginnenextractie proces. Als u niet de juiste IFilter hebt geïnstalleerd, wordt u hiervan onmiddellijk op de hoogte gesteld, anders verloopt het proces soepel. Merk op dat de tijd die het proces in beslag neemt grotendeels zal afhangen van het bestand dat u kunt converteren.

textracta-main-windows-screenshot

Als de optie Tekst opslaan is ingeschakeld, wordt de uitvoer in txt-indeling opgeslagen in dezelfde map waarin het bestand of de map aanwezig is.

TeXtracta downloaden

Het werkt op Windows 2000, Windows XP, Windows Vista en Windows 7. Veel plezier!

Comments