เคล็ดลับเทคที่จะทำให้คุณฉลาดขึ้น - ของ windows - แยกข้อความจากหลายรูปแบบไฟล์ด้วย teXtracta

แยกข้อความจากหลายรูปแบบไฟล์ด้วย teXtracta

ฉันได้ตรวจสอบเครื่องมือสองแบบที่แตกต่างกันก่อนแล้วดึงข้อความจากรูปแบบที่นิยมต่าง ๆ - เครื่องมือการทำเหมืองข้อความและเทอร์มินัล OCR เครื่องมือเหล่านี้ช่วยให้คุณสามารถดึงข้อความจากรูปแบบภาพที่หลากหลายรูปแบบ PDF และ HTML ฯลฯ หากคุณกำลังมองหาเครื่องมือที่กว้างขึ้นเครื่องมือที่สามารถแยกข้อความจากรูปแบบอื่น ๆ ได้มากขึ้น teXtracta จะมีประโยชน์

มันเป็นเครื่องมือที่ทำงานบนหลักการของIFilter ส่วนต่อประสาน COM ที่พัฒนาโดย Microsoft สำหรับบริการทำดัชนีเพื่อให้สามารถจัดทำดัชนีไฟล์ในรูปแบบต่างๆ ไฟล์ที่มีการจัดทำดัชนีเหล่านี้จะถูกใช้ในการค้นหา Windows 7 / Vista, Windows Desktop Search และอื่น ๆ คุณต้องติดตั้ง IFilters ที่เหมาะสมบนคอมพิวเตอร์ของคุณก่อนจึงจะสามารถแยกข้อความจากรูปแบบต่างๆโดยใช้ teXtracta หากต้องการติดตั้ง IFilters ที่เหมาะสมไปที่นี่

ในบทความนี้ฉันจะอธิบายวิธีการแยกข้อความจากเอกสาร PDF เป็นตัวอย่าง ขั้นแรกให้ดาวน์โหลด IFilter ที่เหมาะสมจากลิงก์ที่ให้ไว้ข้างต้นคว้า teXtracta จากลิงค์ที่ให้ไว้ท้ายบทความนี้ จากนั้นให้โหลดเครื่องมือและเลือกไฟล์เดียวที่คุณต้องการดำเนินการ คุณยังสามารถเลือกโฟลเดอร์ด้วยวิธีนี้ไฟล์ทั้งหมดภายในโฟลเดอร์นั้นจะถูกประมวลผล ตรวจสอบตัวเลือกที่ต้องการเช่น Show Text, Save Text และรวมถึง Subdirectories

textracta สารสกัดข้อความจากที่ต่างๆรูปแบบไฟล์-

เมื่อเสร็จแล้วให้เลือกตัวกรองแบบที่ฉันเลือก PDF IFilter ตามที่แสดงในภาพหน้าจอด้านล่าง

รูปแบบไฟล์ PDF IFilter กรองสำหรับ textracta

เมื่อคุณจะเลือกไฟล์หรือโฟลเดอร์ตัวเลือกเช่นเริ่มการประมวลผลหยุดการประมวลผลและหยุดการประมวลผลจะถูกเปิดใช้งานโดยอัตโนมัติ

ตอนนี้กดปุ่มเริ่มการประมวลผลเพื่อเริ่มข้อความกระบวนการสกัด หากคุณติดตั้ง IFilter ไม่ถูกต้องระบบจะแจ้งให้คุณทราบทันทีมิฉะนั้นกระบวนการจะดำเนินไปอย่างราบรื่น โปรดทราบว่าเวลาที่ใช้ในกระบวนการส่วนใหญ่จะขึ้นอยู่กับไฟล์ที่คุณสามารถแปลงได้