نصائح تقنية لتجعلك أكثر ذكاءً - شبابيك - استخراج النص من صيغ الملفات المتعددة مع teXtracta

استخراج النص من صيغ الملفات المتعددة مع

لقد استعرضت أداتين مختلفتين قبلاستخراج النص من مختلف الأشكال الشعبية - أداة تعدين النص ومحطة التعرف الضوئي على الحروف. تتيح لك هذه الأدوات استخراج النص من تنسيقات الصور المختلفة ، تنسيق PDF و HTML ، إلخ. إذا كنت تبحث عن أداة أوسع بكثير ، وهي أداة يمكن أن تستخرج النص من تنسيقات أكثر ، فسيصبح teXtracta سهل الاستخدام.

إنها أداة تعمل على مبدأيفيلتر. واجهة COM التي طورتها Microsoft لخدمة الفهرسة بحيث يمكنها فهرسة الملفات ذات التنسيقات المختلفة. ثم يتم استخدام هذه الملفات المفهرسة في Windows 7 / Vista Search و Windows Desktop Search وما إلى ذلك. يجب أن يكون لديك عوامل تصفية IF مثبتة على جهاز الكمبيوتر الخاص بك قبل أن تتمكن من استخراج النص من تنسيقات مختلفة باستخدام teXtracta. لتثبيت IFilters المناسبة ، اذهب هنا.

في هذه المقالة سوف أشرح كيفية استخراجالنص من وثيقة PDF كمثال. قم أولاً بتنزيل IFilter المناسب من الرابط المذكور أعلاه ، وانتزاع teXtracta من الرابط الذي تقدمه في نهاية هذه المقالة. الآن قم بتحميل الأداة وحدد الملف الفردي الذي تريد معالجته. يمكنك أيضًا تحديد مجلد ، وبهذه الطريقة ستتم معالجة جميع الملفات الموجودة داخل هذا المجلد. تحقق بعد ذلك من الخيارات المطلوبة ، مثل إظهار النص وحفظ النص وتضمين الدلائل الفرعية.

عند الانتهاء ، اختر أخيرًا المرشحات مثل لقد اخترت PDF IFilter كما هو موضح في لقطة الشاشة أدناه.

قوات الدفاع الشعبي يفيلتر مرشحات مقابل textracta

عندما تقوم بتحديد ملف أو مجلد ، سيتم تمكين خيارات مثل بدء المعالجة والتوقف المؤقت للمعالجة وإيقاف المعالجة تلقائيًا.

الآن اضغط على زر بدء المعالجة لبدء النصعملية الاستخراج. إذا لم يكن لديك IFilter مثبتًا بشكل صحيح ، فسوف يقوم بإعلامك على الفور ، وإلا ستتم العملية بسلاسة. لاحظ أن الوقت الذي تستغرقه العملية سوف يعتمد إلى حد كبير على الملف الذي يمكنك تحويله.