- - TeXtracta के साथ कई फ़ाइल स्वरूपों से पाठ निकालें

TeXtracta के साथ कई फ़ाइल स्वरूपों से पाठ निकालें

मैंने पहले दो अलग-अलग टूल की समीक्षा की हैविभिन्न लोकप्रिय प्रारूपों से टेक्स्ट निकालें - टेक्स्ट माइनिंग टूल और ओसीआर टर्मिनल। ये उपकरण आपको विभिन्न छवि प्रारूपों, पीडीएफ और एचटीएमएल प्रारूप आदि से पाठ निकालने की अनुमति देते हैं। यदि आप एक बहुत व्यापक उपकरण की तलाश कर रहे हैं, तो एक उपयोगिता जो पाठ को अधिक स्वरूपों से निकाल सकती है, फिर टेकएक्सट्रैक्ट काम में आएगा।

यह एक उपकरण है जो के सिद्धांत पर काम करता हैIFilter। Microsoft द्वारा अनुक्रमण सेवा के लिए COM इंटरफ़ेस विकसित किया गया है ताकि वह विभिन्न स्वरूपों की फ़ाइलों को अनुक्रमित कर सके। इन अनुक्रमित फ़ाइलों का उपयोग तब विंडोज 7 / विस्टा सर्च, विंडोज डेस्कटॉप सर्च और इसी तरह किया जाता है। TeXtracta का उपयोग करके विभिन्न स्वरूपों से पाठ निकालने से पहले आपके पास आपके कंप्यूटर पर उपयुक्त IFilters स्थापित होना चाहिए। उपयुक्त IFilters स्थापित करने के लिए, यहां जाएं।

इस लेख में मैं समझाऊंगा कि कैसे निकालना हैएक उदाहरण के रूप में एक पीडीएफ दस्तावेज़ से पाठ। सबसे पहले ऊपर दिए गए लिंक से उपयुक्त IFilter डाउनलोड करें, इस लेख के अंत में दिए गए लिंक से TeXtracta को पकड़ो। अब टूल को लोड करें और उस सिंगल फाइल को चुनें जिसे आप प्रोसेस करना चाहते हैं। आप एक फ़ोल्डर भी चुन सकते हैं, इस तरह से उस फ़ोल्डर के अंदर की सभी फाइलें संसाधित हो जाएंगी। अगला वांछित विकल्पों की जाँच करें, जैसे, टेक्स्ट दिखाएं, टेक्स्ट सहेजें, और उपनिर्देशिका शामिल करें।

textracta-निकालने-पाठ-से-विभिन्न-फ़ाइल-प्रारूपों

जब किया जाता है, तो अंतिम रूप से उन फिल्टरों का चयन करें जैसे मैंने पीडीएफ IFilter को चुना है जैसा कि नीचे स्क्रीनशॉट में दिखाया गया है।

पीडीएफ-IFilter-फिल्टर के लिए textracta

जब आप एक फ़ाइल या फ़ोल्डर का चयन करेंगे, तो विकल्प जैसे कि स्टार्ट प्रोसेसिंग, पॉज प्रोसेसिंग और स्टॉप प्रोसेसिंग स्वचालित रूप से सक्षम हो जाएंगे।

निकालने-पाठ-विकल्प-प्रकाश डाला

अब टेक्स्ट को शुरू करने के लिए स्टार्ट प्रोसेसिंग बटन को हिट करेंनिष्कर्षण प्रक्रिया। यदि आपके पास उचित IFilter स्थापित नहीं है, तो यह आपको तुरंत सूचित करेगा, अन्यथा प्रक्रिया सुचारू रूप से चलेगी। ध्यान दें कि प्रक्रिया द्वारा लिया गया समय काफी हद तक उस फ़ाइल पर निर्भर करेगा जिसे आप परिवर्तित कर सकते हैं।

textracta-मुख्य-windows-स्क्रीनशॉट

यदि टेक्स्ट सहेजें विकल्प सक्षम है, तो आउटपुट उसी निर्देशिका में txt प्रारूप में सहेजा जाएगा जहाँ फ़ाइल या फ़ोल्डर मौजूद है।

TeXtracta डाउनलोड करें

यह विंडोज 2000, विंडोज एक्सपी, विंडोज विस्टा और विंडोज 7 पर काम करता है। आनंद लें!

टिप्पणियाँ