Αναθεώρησα δύο διαφορετικά εργαλεία πριν από τοεξαγωγή κειμένου από διάφορες δημοφιλείς μορφές - εργαλείο εξόρυξης κειμένου και τερματικό OCR. Αυτά τα εργαλεία σας επιτρέπουν να εξαγάγετε κείμενο από διάφορες μορφές εικόνας, μορφή PDF και HTML, κλπ. Αν ψάχνετε για ένα πολύ ευρύτερο εργαλείο, ένα βοηθητικό πρόγραμμα που μπορεί να εξαγάγει κείμενο από περισσότερες μορφές, τότε το teXtracta θα είναι βολικό.
Είναι ένα εργαλείο που λειτουργεί με βάση την αρχήIFilter. Μια διεπαφή COM που αναπτύχθηκε από τη Microsoft για την υπηρεσία ευρετηρίου της, ώστε να μπορεί να ευρετηριάζει αρχεία διαφόρων μορφών. Αυτά τα αρχεία ευρετηρίου χρησιμοποιούνται στη συνέχεια στα Windows 7 / Vista Search, Windows Desktop Search και ούτω καθεξής. Πρέπει να έχετε εγκατεστημένους τους κατάλληλους IFilters στον υπολογιστή σας πριν να μπορείτε να εξαγάγετε κείμενο από διάφορες μορφές χρησιμοποιώντας το teXtracta. Για να εγκαταστήσετε τους κατάλληλους IFilters, πηγαίνετε εδώ.
Σε αυτό το άρθρο θα σας εξηγήσω πώς να εξαγάγετεκείμενο από ένα έγγραφο PDF ως παράδειγμα. Πρώτα κατεβάστε το κατάλληλο IFilter από το σύνδεσμο που δόθηκε παραπάνω, αρπάξτε το teXtracta από τη σύνδεση που δίνεται στο τέλος αυτού του άρθρου. Τώρα φορτώστε το εργαλείο και επιλέξτε το μεμονωμένο αρχείο που θέλετε να επεξεργαστείτε. Μπορείτε επίσης να επιλέξετε ένα φάκελο, έτσι θα επεξεργαστούν όλα τα αρχεία μέσα σε αυτόν το φάκελο. Στη συνέχεια, επιλέξτε τις επιλογές που θέλετε, όπως το "Show Text", "Save Text" και "Include Subdirectories".
Όταν τελειώσετε, επιλέξτε επιτέλους τα φίλτρα όπως έχω επιλέξει το IFilter PDF όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.
Όταν επιλέγετε ένα αρχείο ή ένα φάκελο, θα ενεργοποιηθούν αυτόματα επιλογές όπως η Επεξεργασία Έναρξης, η Παύση Επεξεργασίας και η Διακοπή Επεξεργασίας.
Τώρα πατήστε το πλήκτρο Start Processing για να ξεκινήσει το κείμενοεξόρυξης. Αν δεν έχετε εγκαταστήσει το κατάλληλο IFilter, θα σας ειδοποιήσει αμέσως, διαφορετικά η διαδικασία θα γίνει ομαλά. Σημειώστε ότι ο χρόνος που απαιτείται για τη διαδικασία θα εξαρτηθεί σε μεγάλο βαθμό από το αρχείο που μπορείτε να μετατρέψετε.
Αν η επιλογή "Αποθήκευση κειμένου" είναι ενεργοποιημένη, η έξοδος θα αποθηκευτεί σε μορφή txt στον ίδιο κατάλογο όπου υπάρχει το αρχείο ή ο φάκελος.
Μεταφορτώστε το teXtracta
Λειτουργεί στα Windows 2000, Windows XP, Windows Vista και Windows 7. Απολαύστε!
Σχόλια