- - Pura teksti useista tiedostomuodoista teXtracta-sovelluksella

Pura teksti useista tiedostomuodoista teXtracta-sovelluksella

Olen tarkistanut kaksi erilaista työkalua ennenpurkaa tekstiä useista suosituista muodoista - Text Mining Tool ja OCR Terminal. Näiden työkalujen avulla voit purkaa tekstiä erilaisista kuvamuodoista, PDF- ja HTML-tiedostomuodoista jne. Jos etsit paljon laajempaa työkalua, apuohjelmaa, joka voi poimia tekstiä useammista muodoista, teXtracta on kätevä.

Se on työkalu, joka toimiiIFilter. Microsoftin kehittämä COM-käyttöliittymä indeksointipalvelua varten, jotta se voi indeksoida eri muodossa olevia tiedostoja. Näitä indeksoituja tiedostoja käytetään sitten Windows 7 / Vista -haussa, Windows Desktop Searchissa ja niin edelleen. Sinulla on oltava asianmukaiset IF-suodattimet asennettuna tietokoneellesi, ennen kuin voit purkaa tekstiä eri muodoista teXtractan avulla. Asenna asianmukaiset IF-suodattimet siirtymällä tähän.

Tässä artikkelissa selitän kuinka poimiateksti PDF-dokumentista esimerkkinä. Lataa ensin sopiva IFilter yllä olevasta linkistä, napauta teXtracta tämän artikkelin lopussa olevasta linkistä. Lataa nyt työkalu ja valitse yksi tiedosto, jonka haluat käsitellä. Voit myös valita kansion, tällä tavalla kaikki kansion sisällä olevat tiedostot käsitellään. Seuraavaksi tarkista haluamasi vaihtoehdot, kuten Näytä teksti, Tallenna teksti ja Sisällytä alihakemistot.

textracta-uute-teksti-from-erilaisista-tiedosto-formaatteja

Kun olet valmis, valitse lopulta suodattimet, kuten olen valinnut PDF IFilterin alla olevan kuvakaappauksen osoittamalla tavalla.

pdf-IFilter-suodattimet-for-textracta

Kun valitset tiedoston tai kansion, muun muassa Käynnistä käsittely, Keskeytä käsittely ja Lopeta käsittely otetaan käyttöön automaattisesti.

ote-teksti-asetukset-korostettu

Nyt napsauta Aloita käsittely -painiketta aloittaaksesi tekstinuuttoprosessi. Jos sinulla ei ole kunnollista IFilter-ohjelmaa asennettuna, se ilmoittaa sinulle heti, muuten prosessi sujuu. Huomaa, että prosessin aika riippuu suuresti tiedostosta, jonka voit muuntaa.

textracta-main-windows-kuvakaappaus

Jos Tallenna teksti -vaihtoehto on käytössä, tulosteet tallennetaan txt-muodossa samassa hakemistossa, jossa tiedosto tai kansio on.

Lataa teXtracta

Se toimii Windows 2000, Windows XP, Windows Vista ja Windows 7 -käyttöjärjestelmissä. Nauti!

Kommentit