- - Extrahera text från flera filformat med teXtracta

Extrahera text från flera filformat med teXtracta

Jag har granskat två olika verktyg tidigareextrahera text från olika populära format - Text Mining Tool och OCR Terminal. Dessa verktyg låter dig extrahera text från olika bildformat, PDF- och HTML-format, etc. Om du letar efter ett mycket bredare verktyg, ett verktyg som kan extrahera text från fler format, kommer teXtracta att vara praktiska.

Det är ett verktyg som fungerar enligt principen omIFilter. Ett COM-gränssnitt utvecklat av Microsoft för dess indexeringstjänst så att det kan indexera filer med olika format. Dessa indexerade filer används sedan i Windows 7 / Vista Search, Windows Desktop Search, och så vidare. Du måste ha lämpliga IFilters installerade på din dator innan du kan extrahera text från olika format med teXtracta. Gå hit för att installera lämpliga IFilters.

I den här artikeln kommer jag att förklara hur man kan extraheratext från ett PDF-dokument som exempel. Ladda ner först lämplig IFilter från länken ovan, ta teXtracta från länken ge i slutet av denna artikel. Ladda nu upp verktyget och välj den enda fil som du vill bearbeta. Du kan också välja en mapp, på detta sätt kommer alla filer i den mappen att behandlas. Nästa kontrollera önskade alternativ, t.ex. Visa text, Spara text och Inkludera underkataloger.

textracta-extrakt-text-från-olika-filformat

När du är klar väljer du äntligen filtren som jag har valt PDF IFilter som visas på skärmdumpen nedan.

pdf-IFilter-filter-för-textracta

När du väljer en fil eller mapp aktiveras alternativ som Startbearbetning, Pausebehandling och Stoppbehandling automatiskt.

extrakt-text-alternativ-markerat

Klicka nu på Startbearbetningsknappen för att börja textenextraktionsprocess. Om du inte har rätt IFilter installerat kommer det att meddela dig omedelbart, annars går processen smidigt. Observera att den tid det tar för processen till stor del kommer att bero på filen du kan konvertera.

textracta-huvud-windows-skärmdump

Om alternativet Spara text är aktiverat sparas utdata i txt-format i samma katalog där filen eller mappen finns.

Ladda ner teXtracta

Det fungerar på Windows 2000, Windows XP, Windows Vista och Windows 7. Njut av!

kommentarer