ฉันได้ตรวจสอบเครื่องมือสองแบบที่แตกต่างกันก่อนแล้วดึงข้อความจากรูปแบบที่นิยมต่าง ๆ - เครื่องมือการทำเหมืองข้อความและเทอร์มินัล OCR เครื่องมือเหล่านี้ช่วยให้คุณสามารถดึงข้อความจากรูปแบบภาพที่หลากหลายรูปแบบ PDF และ HTML ฯลฯ หากคุณกำลังมองหาเครื่องมือที่กว้างขึ้นเครื่องมือที่สามารถแยกข้อความจากรูปแบบอื่น ๆ ได้มากขึ้น teXtracta จะมีประโยชน์
มันเป็นเครื่องมือที่ทำงานบนหลักการของIFilter ส่วนต่อประสาน COM ที่พัฒนาโดย Microsoft สำหรับบริการทำดัชนีเพื่อให้สามารถจัดทำดัชนีไฟล์ในรูปแบบต่างๆ ไฟล์ที่มีการจัดทำดัชนีเหล่านี้จะถูกใช้ในการค้นหา Windows 7 / Vista, Windows Desktop Search และอื่น ๆ คุณต้องติดตั้ง IFilters ที่เหมาะสมบนคอมพิวเตอร์ของคุณก่อนจึงจะสามารถแยกข้อความจากรูปแบบต่างๆโดยใช้ teXtracta หากต้องการติดตั้ง IFilters ที่เหมาะสมไปที่นี่
ในบทความนี้ฉันจะอธิบายวิธีการแยกข้อความจากเอกสาร PDF เป็นตัวอย่าง ขั้นแรกให้ดาวน์โหลด IFilter ที่เหมาะสมจากลิงก์ที่ให้ไว้ข้างต้นคว้า teXtracta จากลิงค์ที่ให้ไว้ท้ายบทความนี้ จากนั้นให้โหลดเครื่องมือและเลือกไฟล์เดียวที่คุณต้องการดำเนินการ คุณยังสามารถเลือกโฟลเดอร์ด้วยวิธีนี้ไฟล์ทั้งหมดภายในโฟลเดอร์นั้นจะถูกประมวลผล ตรวจสอบตัวเลือกที่ต้องการเช่น Show Text, Save Text และรวมถึง Subdirectories
เมื่อเสร็จแล้วให้เลือกตัวกรองแบบที่ฉันเลือก PDF IFilter ตามที่แสดงในภาพหน้าจอด้านล่าง
เมื่อคุณจะเลือกไฟล์หรือโฟลเดอร์ตัวเลือกเช่นเริ่มการประมวลผลหยุดการประมวลผลและหยุดการประมวลผลจะถูกเปิดใช้งานโดยอัตโนมัติ
ตอนนี้กดปุ่มเริ่มการประมวลผลเพื่อเริ่มข้อความกระบวนการสกัด หากคุณติดตั้ง IFilter ไม่ถูกต้องระบบจะแจ้งให้คุณทราบทันทีมิฉะนั้นกระบวนการจะดำเนินไปอย่างราบรื่น โปรดทราบว่าเวลาที่ใช้ในกระบวนการส่วนใหญ่จะขึ้นอยู่กับไฟล์ที่คุณสามารถแปลงได้
หากเปิดใช้งานตัวเลือกบันทึกข้อความเอาต์พุตจะถูกบันทึกในรูปแบบ txt ในไดเรกทอรีเดียวกันกับที่มีไฟล์หรือโฟลเดอร์อยู่
ดาวน์โหลด teXtracta
มันใช้งานได้กับ Windows 2000, Windows XP, Windows Vista และ Windows 7 สนุกได้เลย!
ความคิดเห็น