Két különböző eszközt vizsgáltam át korábbankivonat szöveget különféle népszerű formátumokból - Szövegbányász eszköz és OCR terminál. Ezek az eszközök lehetővé teszik a szöveg kibontását különféle képformátumokból, PDF és HTML formátumokból stb. Ha egy sokkal szélesebb eszközt keres, olyan segédprogramot, amely kibonthatja a szöveget több formátumból, akkor a teXtracta hasznos lesz.
Ez egy olyan eszköz, amely aIFilter. A Microsoft által kifejlesztett COM felület az indexelési szolgáltatáshoz, hogy különféle formátumú fájlokat indexelhessen. Ezeket az indexelt fájlokat ezután a Windows 7 / Vista Search, a Windows Desktop Search stb. Használják. Mielőtt különféle formátumokból kivonhat szöveget a teXtracta használatával, telepítenie kell a számítógépére a megfelelő IF szűrőket. A megfelelő IF szűrők telepítéséhez ugorjon ide.
Ebben a cikkben elmagyarázom, hogyan lehet kibontanipéldaként egy PDF-dokumentum szövege. Először töltse le a megfelelő IFiltert a fent megadott linkből, fogja meg a teXtracta-t a cikk végén található linkből. Most töltse fel az eszközt, és válassza ki a feldolgozni kívánt fájlt. Kiválaszthat egy mappát is, így a mappában lévő összes fájl feldolgozásra kerül. Ezután ellenőrizze a kívánt beállításokat, például a Szöveg megjelenítése, Szöveg mentése és Alkönyvtárak beillesztése.
Ha kész, végül válassza ki a szűrőket, ahogy az alábbi képernyőképen látható módon választottam a PDF IFiltert.
Amikor kiválaszt egy fájlt vagy mappát, az automatikusan aktiválódik az olyan lehetőségek, mint a Feldolgozás indítása, A feldolgozás szüneteltetése és a Feldolgozás leállítása.
Most nyomja meg a Feldolgozás indítása gombot a szöveg elindításáhozkivonási folyamat. Ha nincs megfelelő IFilter telepítve, akkor erről azonnal értesítést küld, különben a folyamat simán megy. Vegye figyelembe, hogy a folyamathoz szükséges idő nagyban függ a konvertálható fájltól.
Ha a Szöveg mentése opció engedélyezve van, a kimenetet txt formátumban menti ugyanabba a könyvtárba, ahol a fájl vagy mappa található.
Töltse le a teXtracta-t
Windows 2000, Windows XP, Windows Vista és Windows 7 rendszereken működik. Élvezze!
Hozzászólások