טיפים טכניים כדי להפוך אותך לחכם יותר - חלונות - חלץ טקסט מתבניות קבצים מרובות באמצעות teXtracta

חלץ טקסט מתבניות קבצים מרובות באמצעות teXtracta

בדקתי לפני כן שני כלים שוניםלחלץ טקסט מפורמטים פופולריים שונים - כלי כריית טקסט ומסוף OCR. כלים אלה מאפשרים לך לחלץ טקסט מתבניות תמונה שונות, מפורמט PDF ו- HTML וכו '. אם אתה מחפש כלי רחב הרבה יותר, כלי שיכול לחלץ טקסט מתבניות נוספות, teXtracta יגיע שימושי.

זהו כלי שעובד על העיקרון שלIFilter. ממשק COM שפותח על ידי מיקרוסופט עבור שירות האינדקס שלה כך שהוא יכול לאינדקס קבצים בפורמטים שונים. לאחר מכן משתמשים בקבצים האינדקסים בחיפוש ב- Windows 7 / Vista, חיפוש שולחן העבודה של Windows וכן הלאה. עליך להתקין IFilters מתאימים במחשב שלך לפני שתוכל לחלץ טקסט מתבניות שונות באמצעות teXtracta. להתקנת IFilters המתאימים, עבור לכאן.

במאמר זה אסביר כיצד לחלץטקסט ממסמך PDF כדוגמה. הורד תחילה את ה- IFilter המתאים מהקישור שצוין לעיל, תפס teXtracta מהקישור לתת בסוף מאמר זה. כעת טען את הכלי ובחר את הקובץ היחיד שברצונך לעבד. אתה יכול גם לבחור תיקיה, בדרך זו כל הקבצים שבתיקיה הזו יעובדו. הבא בדוק את האפשרויות הרצויות, כגון הצגת טקסט, שמור טקסט וכלול ספריות משנה.

textracta-extract-text-from-files-formats

בסיום בחר סוף סוף את המסננים כמו שבחרתי ב- PDF IFilter כפי שמוצג בתמונת המסך למטה.

כשתבחר קובץ או תיקיה, אפשרויות כגון התחל עיבוד, השהיית עיבוד והפסקת העיבוד יופעלו באופן אוטומטי.

כעת לחץ על לחצן התחל עיבוד כדי להתחיל בטקסטתהליך מיצוי. אם אין לך התקנת IFilter תקינה, זה יודיע לך מייד, אחרת התהליך יעבור בצורה חלקה. שים לב שהזמן שלוקח התהליך יהיה תלוי במידה רבה בקובץ שאתה יכול להמיר.