- - חלץ טקסט מתבניות קבצים מרובות באמצעות teXtracta

חלץ טקסט מתבניות קבצים מרובות באמצעות teXtracta

בדקתי לפני כן שני כלים שוניםלחלץ טקסט מפורמטים פופולריים שונים - כלי כריית טקסט ומסוף OCR. כלים אלה מאפשרים לך לחלץ טקסט מתבניות תמונה שונות, מפורמט PDF ו- HTML וכו '. אם אתה מחפש כלי רחב הרבה יותר, כלי שיכול לחלץ טקסט מתבניות נוספות, teXtracta יגיע שימושי.

זהו כלי שעובד על העיקרון שלIFilter. ממשק COM שפותח על ידי מיקרוסופט עבור שירות האינדקס שלה כך שהוא יכול לאינדקס קבצים בפורמטים שונים. לאחר מכן משתמשים בקבצים האינדקסים בחיפוש ב- Windows 7 / Vista, חיפוש שולחן העבודה של Windows וכן הלאה. עליך להתקין IFilters מתאימים במחשב שלך לפני שתוכל לחלץ טקסט מתבניות שונות באמצעות teXtracta. להתקנת IFilters המתאימים, עבור לכאן.

במאמר זה אסביר כיצד לחלץטקסט ממסמך PDF כדוגמה. הורד תחילה את ה- IFilter המתאים מהקישור שצוין לעיל, תפס teXtracta מהקישור לתת בסוף מאמר זה. כעת טען את הכלי ובחר את הקובץ היחיד שברצונך לעבד. אתה יכול גם לבחור תיקיה, בדרך זו כל הקבצים שבתיקיה הזו יעובדו. הבא בדוק את האפשרויות הרצויות, כגון הצגת טקסט, שמור טקסט וכלול ספריות משנה.

textracta-extract-text-from-files-formats

בסיום בחר סוף סוף את המסננים כמו שבחרתי ב- PDF IFilter כפי שמוצג בתמונת המסך למטה.

pdf-ifilter-filters-for-textracta

כשתבחר קובץ או תיקיה, אפשרויות כגון התחל עיבוד, השהיית עיבוד והפסקת העיבוד יופעלו באופן אוטומטי.

לחלץ טקסט-אפשרויות-מודגשים

כעת לחץ על לחצן התחל עיבוד כדי להתחיל בטקסטתהליך מיצוי. אם אין לך התקנת IFilter תקינה, זה יודיע לך מייד, אחרת התהליך יעבור בצורה חלקה. שים לב שהזמן שלוקח התהליך יהיה תלוי במידה רבה בקובץ שאתה יכול להמיר.

textracta-main-windows-screenshot

אם האפשרות שמור טקסט מופעלת, הפלט יישמר בתבנית txt באותה ספרייה בה נמצא הקובץ או התיקיה.

הורד teXtracta

זה עובד על Windows 2000, Windows XP, Windows Vista ו- Windows 7. תהנו!

הערות