PDF เป็นข้อความ
ดึงข้อความจาก PDF ออกมาเป็นไฟล์ .txt ทำงาน 100% ในเบราว์เซอร์ของคุณ — ไม่มีการอัปโหลดอะไรทั้งสิ้น
เลือกไฟล์ PDF
หรือลากไฟล์ PDF มาวางที่นี่
—
Your file is ready
Processed entirely in your browser — the file never left your device.
วิธีแปลง PDF เป็นข้อความ
สามขั้นตอน ทุกอย่างทำงานในเครื่อง
เลือกไฟล์ PDF
ลากหรือเลือกไฟล์ PDF ไฟล์จะถูกอ่านในเครื่อง ไม่มีการอัปโหลด
เลือกตัวคั่น
กำหนดวิธีทำเครื่องหมายแบ่งหน้าในผลลัพธ์ ค่าเริ่มต้นเป็นเครื่องหมายที่อ่านง่าย
ดาวน์โหลด .txt
ไฟล์ข้อความล้วน UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ
«PDF เป็นข้อความ» คืออะไร
การแปลง PDF เป็นข้อความหมายถึงการลดทอนเอกสาร PDF ให้เหลือเพียง คำดิบ ๆ ไม่มีฟอนต์ ไม่มีรูปภาพ ไม่มีเลย์เอาต์ ผลลัพธ์คือไฟล์ .txt แบบ UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ ระบบปฏิบัติการใด ๆ ทุก ยุคทุกสมัย เป็นรูปแบบที่เลือกใช้เมื่อคุณต้องการค้นด้วย grep ใน เอกสาร วางลงในแชตบอต ป้อนให้สคริปต์ หรือเพียงแค่ เก็บถาวรเนื้อหาของ PDF ในไฟล์ที่เล็กที่สุดเท่าที่จะเป็นไปได้
ข้อความใน PDF ทั่วไปจะถูกเก็บเป็นลำดับของตัวอักษรที่ มีพิกัดกำกับ เครื่องมือนี้จะอ่านตัวอักษรเหล่านั้นใหม่ จัดกลุ่มเป็น บรรทัดตามพิกัด Y เรียงบรรทัดจากบนลงล่าง เรียงองค์ประกอบ จากซ้ายไปขวาภายในแต่ละบรรทัด แล้วเขียนผลลัพธ์เป็น สตริง UTF-8 เดียวต่อกันทีละหน้า
PDF เป็นข้อความทำงานในเบราว์เซอร์ของคุณอย่างไร
เมื่อคุณลาก PDF เข้ามา เบราว์เซอร์ของคุณจะอ่านไฟล์เข้าหน่วยความจำ เราส่ง
ไบต์เหล่านั้นไปยัง
PDF.js
เอนจิน PDF โอเพนซอร์สของ Mozilla สำหรับแต่ละหน้าเราจะเรียก
getTextContent() ซึ่งคืนค่าทุกองค์ประกอบข้อความพร้อม
ตำแหน่งของมัน เราจัดกลุ่มองค์ประกอบเป็นบรรทัด เรียงตามลำดับ
การอ่าน แล้วต่อกันเป็นสตริงเดียว ไม่มีขั้นตอน OCR:
ข้อความที่มีอยู่ใน PDF ในรูปข้อความอยู่แล้วจะถูกดึงออกมาตรง ๆ ถ้า
PDF เป็นภาพที่สแกนมา ชั้นข้อความจะว่างเปล่าและจะไม่ได้
อะไรออกมา (ในกรณีนั้นให้ใช้ OCR ก่อน)
ผลลัพธ์จะถูกเขียนลงใน Blob และเสนอให้ดาวน์โหลด ไม่มีการอัปโหลด อะไร ทั้งกระบวนการ — การแยกวิเคราะห์ การดึง การบรรจุ — ทำงานภายในแท็บเบราว์เซอร์ของคุณ คุณรันแบบออฟไลน์ได้ และ มันก็ยังทำงานอยู่
กรณีใช้งานที่พบบ่อย
- คลังเอกสารที่ค้นหาได้จากโฟลเดอร์ PDF ดึงข้อความจาก PDF แต่ละไฟล์ บันทึก .txt ไว้ข้าง ๆ แล้วตอนนี้ grep ค้นหาอะไรก็เจอในไม่กี่วินาที
- วาง PDF ลงใน ChatGPT/Claude/Gemini หน้าเว็บ LLM ส่วนใหญ่รับข้อความล้วนได้ดีกว่า PDF มาก: วาง .txt แล้วถามได้เลย
- เปรียบเทียบเอกสารสองเวอร์ชัน ดึงทั้งสอง PDF รัน
diffแล้วดูว่าอะไรเปลี่ยนไปบ้างอย่างแม่นยำ - การประมวลผลล่วงหน้าสำหรับ NLP / สคริปต์ การวิเคราะห์อารมณ์ การดึงเอนทิตี การสรุป — ทุกอย่างรับข้อความ ไม่ใช่ PDF
- การเข้าถึง แปลงเป็นข้อความแล้ววางลงในโปรแกรมแก้ไขที่รองรับโปรแกรมอ่านหน้าจอ
ความเป็นส่วนตัวและความปลอดภัย
สัญญา สลิปเงินเดือน ประวัติการรักษา รายงานภายใน — เอกสาร ประเภทที่ผู้คนอยากดึงข้อความออกมามากที่สุด มักเป็นเอกสารที่ พวกเขาไม่อยากให้อยู่บนเซิร์ฟเวอร์ของคนแปลกหน้ามากที่สุดเช่นกัน เครื่องมือ PDF เป็นข้อความออนไลน์ส่วนใหญ่จะอัปโหลดไฟล์ ดึงข้อความบนเซิร์ฟเวอร์ของตน แล้วส่งไฟล์ .txt กลับมา imisspdf ทำงานเดียวกันนี้ด้วย PDF.js ที่ทำงาน ภายในแท็บของคุณ ไม่มีการอัปโหลด ไม่มีบัญชี ไม่มีโควตารายวัน ดู บทวิเคราะห์ ความเป็นส่วนตัวของ iLovePDF ของเรา เพื่อดูว่าโมเดลการอัปโหลด มาตรฐานเป็นอย่างไรจริง ๆ
คำถามที่พบบ่อย
PDF ที่สแกนมาเป็นภาพของหน้ากระดาษ ไม่ใช่ข้อความ จึงไม่มีชั้นข้อความให้ดึงออกมา ตัวอักษรที่คุณเห็นเป็นเพียงพิกเซลเท่านั้น ให้นำ PDF ไปผ่านเครื่องมือ OCR ของเราก่อน เครื่องมือนี้จะเพิ่มชั้นข้อความทับลงบนภาพ หลังจากนั้น pdf-to-text จึงจะดึงคำออกมาได้ ถ้า PDF สร้างขึ้นจากการถ่ายภาพหรือสแกนกระดาษ การทำ OCR คือขั้นตอนที่ขาดไปเสมอ
ไม่ ผลลัพธ์เป็นข้อความล้วนแบบ UTF-8 ไม่มีตัวหนา ตัวเอียง ขนาดฟอนต์ หรือสี บรรทัดจาก PDF ต้นฉบับจะถูกเก็บไว้ แต่เลย์เอาต์แบบหลายคอลัมน์จะถูกทำให้แบนเป็นลำดับการอ่านทีละคอลัมน์ ถ้าคุณต้องการรักษารูปแบบไว้ ให้ใช้ PDF เป็น Word แทน ซึ่งจะคงหัวข้อและสไตล์ในบรรทัดเอาไว้
ทำได้ดีที่สุดเท่าที่จะเป็นไปได้ ตารางจะกลายเป็นบรรทัดที่คั่นด้วยแท็บคร่าว ๆ ตามตำแหน่งคอลัมน์เดิมใน PDF โดยทั่วไปพออ่านได้แต่ไม่ได้จัดแนวตรงกันอย่างสมบูรณ์ ส่วนบทความหลายคอลัมน์จะถูกดึงทีละคอลัมน์จากบนลงล่าง หากต้องการดึงตารางอย่างแม่นยำ ให้ใช้ PDF เป็น Excel
ไม่ PDF.js จะแยกวิเคราะห์ไฟล์ภายในแท็บเบราว์เซอร์ของคุณ ดึงข้อความด้วย getTextContent() แล้วเขียนผลลัพธ์ลงใน Blob เพื่อดาวน์โหลดมายังคอมพิวเตอร์ของคุณ ไม่มีอะไรวิ่งผ่านเครือข่าย คุณตรวจสอบได้ด้วยการรันเครื่องมือนี้ขณะออฟไลน์ ก็ยังใช้งานได้อยู่
ไม่ได้โดยตรง PDF ที่เข้ารหัสไว้ไม่สามารถแยกวิเคราะห์ได้หากไม่มีรหัสผ่าน ให้นำไฟล์ไปผ่านเครื่องมือ ปลดล็อก PDF ของเราก่อน (โดยใส่รหัสผ่าน) แล้วจึงนำ PDF ที่ปลดล็อกแล้วมาที่นี่ เราปฏิเสธ PDF ที่เข้ารหัสอย่างชัดเจนพร้อมข้อความแจ้งที่เป็นมิตร แทนที่จะส่งไฟล์เปล่ากลับไปเงียบ ๆ
เคล็ดลับให้ได้ผลลัพธ์ที่ดีที่สุด
- ถ้าไฟล์มาจากเครื่องสแกนหรือกล้อง ให้ทำ OCR ก่อน PDF ที่สแกนมาไม่มีชั้นข้อความให้ดึงออกมา
- เลือก «เครื่องหมายแบ่งหน้า» สำหรับการอ่านโดยมนุษย์ ตัวคั่นเริ่มต้นช่วยให้หาได้ง่ายว่าหน้าหนึ่งจบตรงไหนและหน้าถัดไปเริ่มตรงไหน
- ใช้อักขระขึ้นหน้าใหม่สำหรับเครื่องพิมพ์/เครื่องมือเก่าแบบ ASCII ถ้าคุณจะป้อน .txt ไปยังสิ่งที่เก่าแก่ อักขระ \f คือการแบ่งหน้าแบบดั้งเดิม
- PDF หลายคอลัมน์ต้องการต้นฉบับที่สะอาด ถ้าสองคอลัมน์ปนกัน PDF ต้นทางอาจเข้ารหัสข้อความไว้ผิดลำดับ — ลองเปิดใน Acrobat แล้วบันทึกใหม่
- ปลดล็อก PDF ที่เข้ารหัสก่อน เราไม่ส่งข้อความเปล่ากลับไปเงียบ ๆ — ใช้ ปลดล็อก PDF แล้วกลับมา
เครื่องมือ PDF ที่เกี่ยวข้อง
- TXT เป็น PDF — ทำกลับกัน: แปลงข้อความล้วนกลับเป็น PDF ที่จัดรูปแบบแล้ว
- PDF เป็น Word — คงหัวข้อและสไตล์ในบรรทัดไว้ ไม่ใช่แค่คำเปล่า ๆ
- OCR PDF — ทำให้ PDF ที่สแกนมาดึงข้อความได้ก่อน
- สรุป PDF — ให้ LLM อ่าน PDF แล้วสรุปประเด็นสำคัญให้คุณ