เครื่องมือ
Merge PDF Split PDF Compress PDF เครื่องมือ PDF ทั้งหมด →
โซลูชัน
For Business For Education For Developers
บริษัท
เกี่ยวกับเรา บล็อก Press ติดต่อ
ผลิตภัณฑ์
ราคา คุณสมบัติ คำถามที่พบบ่อย Security
หน้าแรกเครื่องมือPDF เป็นข้อความ

PDF เป็นข้อความ

ดึงข้อความจาก PDF ออกมาเป็นไฟล์ .txt ทำงาน 100% ในเบราว์เซอร์ของคุณ — ไม่มีการอัปโหลดอะไรทั้งสิ้น

เลือกไฟล์ PDF

หรือลากไฟล์ PDF มาวางที่นี่

100% in-browser No upload No signup

วิธีแปลง PDF เป็นข้อความ

สามขั้นตอน ทุกอย่างทำงานในเครื่อง

1

เลือกไฟล์ PDF

ลากหรือเลือกไฟล์ PDF ไฟล์จะถูกอ่านในเครื่อง ไม่มีการอัปโหลด

2

เลือกตัวคั่น

กำหนดวิธีทำเครื่องหมายแบ่งหน้าในผลลัพธ์ ค่าเริ่มต้นเป็นเครื่องหมายที่อ่านง่าย

3

ดาวน์โหลด .txt

ไฟล์ข้อความล้วน UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ

«PDF เป็นข้อความ» คืออะไร

การแปลง PDF เป็นข้อความหมายถึงการลดทอนเอกสาร PDF ให้เหลือเพียง คำดิบ ๆ ไม่มีฟอนต์ ไม่มีรูปภาพ ไม่มีเลย์เอาต์ ผลลัพธ์คือไฟล์ .txt แบบ UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ ระบบปฏิบัติการใด ๆ ทุก ยุคทุกสมัย เป็นรูปแบบที่เลือกใช้เมื่อคุณต้องการค้นด้วย grep ใน เอกสาร วางลงในแชตบอต ป้อนให้สคริปต์ หรือเพียงแค่ เก็บถาวรเนื้อหาของ PDF ในไฟล์ที่เล็กที่สุดเท่าที่จะเป็นไปได้

ข้อความใน PDF ทั่วไปจะถูกเก็บเป็นลำดับของตัวอักษรที่ มีพิกัดกำกับ เครื่องมือนี้จะอ่านตัวอักษรเหล่านั้นใหม่ จัดกลุ่มเป็น บรรทัดตามพิกัด Y เรียงบรรทัดจากบนลงล่าง เรียงองค์ประกอบ จากซ้ายไปขวาภายในแต่ละบรรทัด แล้วเขียนผลลัพธ์เป็น สตริง UTF-8 เดียวต่อกันทีละหน้า

PDF เป็นข้อความทำงานในเบราว์เซอร์ของคุณอย่างไร

เมื่อคุณลาก PDF เข้ามา เบราว์เซอร์ของคุณจะอ่านไฟล์เข้าหน่วยความจำ เราส่ง ไบต์เหล่านั้นไปยัง PDF.js เอนจิน PDF โอเพนซอร์สของ Mozilla สำหรับแต่ละหน้าเราจะเรียก getTextContent() ซึ่งคืนค่าทุกองค์ประกอบข้อความพร้อม ตำแหน่งของมัน เราจัดกลุ่มองค์ประกอบเป็นบรรทัด เรียงตามลำดับ การอ่าน แล้วต่อกันเป็นสตริงเดียว ไม่มีขั้นตอน OCR: ข้อความที่มีอยู่ใน PDF ในรูปข้อความอยู่แล้วจะถูกดึงออกมาตรง ๆ ถ้า PDF เป็นภาพที่สแกนมา ชั้นข้อความจะว่างเปล่าและจะไม่ได้ อะไรออกมา (ในกรณีนั้นให้ใช้ OCR ก่อน)

ผลลัพธ์จะถูกเขียนลงใน Blob และเสนอให้ดาวน์โหลด ไม่มีการอัปโหลด อะไร ทั้งกระบวนการ — การแยกวิเคราะห์ การดึง การบรรจุ — ทำงานภายในแท็บเบราว์เซอร์ของคุณ คุณรันแบบออฟไลน์ได้ และ มันก็ยังทำงานอยู่

กรณีใช้งานที่พบบ่อย

  • คลังเอกสารที่ค้นหาได้จากโฟลเดอร์ PDF ดึงข้อความจาก PDF แต่ละไฟล์ บันทึก .txt ไว้ข้าง ๆ แล้วตอนนี้ grep ค้นหาอะไรก็เจอในไม่กี่วินาที
  • วาง PDF ลงใน ChatGPT/Claude/Gemini หน้าเว็บ LLM ส่วนใหญ่รับข้อความล้วนได้ดีกว่า PDF มาก: วาง .txt แล้วถามได้เลย
  • เปรียบเทียบเอกสารสองเวอร์ชัน ดึงทั้งสอง PDF รัน diff แล้วดูว่าอะไรเปลี่ยนไปบ้างอย่างแม่นยำ
  • การประมวลผลล่วงหน้าสำหรับ NLP / สคริปต์ การวิเคราะห์อารมณ์ การดึงเอนทิตี การสรุป — ทุกอย่างรับข้อความ ไม่ใช่ PDF
  • การเข้าถึง แปลงเป็นข้อความแล้ววางลงในโปรแกรมแก้ไขที่รองรับโปรแกรมอ่านหน้าจอ

ความเป็นส่วนตัวและความปลอดภัย

สัญญา สลิปเงินเดือน ประวัติการรักษา รายงานภายใน — เอกสาร ประเภทที่ผู้คนอยากดึงข้อความออกมามากที่สุด มักเป็นเอกสารที่ พวกเขาไม่อยากให้อยู่บนเซิร์ฟเวอร์ของคนแปลกหน้ามากที่สุดเช่นกัน เครื่องมือ PDF เป็นข้อความออนไลน์ส่วนใหญ่จะอัปโหลดไฟล์ ดึงข้อความบนเซิร์ฟเวอร์ของตน แล้วส่งไฟล์ .txt กลับมา imisspdf ทำงานเดียวกันนี้ด้วย PDF.js ที่ทำงาน ภายในแท็บของคุณ ไม่มีการอัปโหลด ไม่มีบัญชี ไม่มีโควตารายวัน ดู บทวิเคราะห์ ความเป็นส่วนตัวของ iLovePDF ของเรา เพื่อดูว่าโมเดลการอัปโหลด มาตรฐานเป็นอย่างไรจริง ๆ

คำถามที่พบบ่อย

PDF ที่สแกนมาเป็นภาพของหน้ากระดาษ ไม่ใช่ข้อความ จึงไม่มีชั้นข้อความให้ดึงออกมา ตัวอักษรที่คุณเห็นเป็นเพียงพิกเซลเท่านั้น ให้นำ PDF ไปผ่านเครื่องมือ OCR ของเราก่อน เครื่องมือนี้จะเพิ่มชั้นข้อความทับลงบนภาพ หลังจากนั้น pdf-to-text จึงจะดึงคำออกมาได้ ถ้า PDF สร้างขึ้นจากการถ่ายภาพหรือสแกนกระดาษ การทำ OCR คือขั้นตอนที่ขาดไปเสมอ

ไม่ ผลลัพธ์เป็นข้อความล้วนแบบ UTF-8 ไม่มีตัวหนา ตัวเอียง ขนาดฟอนต์ หรือสี บรรทัดจาก PDF ต้นฉบับจะถูกเก็บไว้ แต่เลย์เอาต์แบบหลายคอลัมน์จะถูกทำให้แบนเป็นลำดับการอ่านทีละคอลัมน์ ถ้าคุณต้องการรักษารูปแบบไว้ ให้ใช้ PDF เป็น Word แทน ซึ่งจะคงหัวข้อและสไตล์ในบรรทัดเอาไว้

ทำได้ดีที่สุดเท่าที่จะเป็นไปได้ ตารางจะกลายเป็นบรรทัดที่คั่นด้วยแท็บคร่าว ๆ ตามตำแหน่งคอลัมน์เดิมใน PDF โดยทั่วไปพออ่านได้แต่ไม่ได้จัดแนวตรงกันอย่างสมบูรณ์ ส่วนบทความหลายคอลัมน์จะถูกดึงทีละคอลัมน์จากบนลงล่าง หากต้องการดึงตารางอย่างแม่นยำ ให้ใช้ PDF เป็น Excel

ไม่ PDF.js จะแยกวิเคราะห์ไฟล์ภายในแท็บเบราว์เซอร์ของคุณ ดึงข้อความด้วย getTextContent() แล้วเขียนผลลัพธ์ลงใน Blob เพื่อดาวน์โหลดมายังคอมพิวเตอร์ของคุณ ไม่มีอะไรวิ่งผ่านเครือข่าย คุณตรวจสอบได้ด้วยการรันเครื่องมือนี้ขณะออฟไลน์ ก็ยังใช้งานได้อยู่

ไม่ได้โดยตรง PDF ที่เข้ารหัสไว้ไม่สามารถแยกวิเคราะห์ได้หากไม่มีรหัสผ่าน ให้นำไฟล์ไปผ่านเครื่องมือ ปลดล็อก PDF ของเราก่อน (โดยใส่รหัสผ่าน) แล้วจึงนำ PDF ที่ปลดล็อกแล้วมาที่นี่ เราปฏิเสธ PDF ที่เข้ารหัสอย่างชัดเจนพร้อมข้อความแจ้งที่เป็นมิตร แทนที่จะส่งไฟล์เปล่ากลับไปเงียบ ๆ

เคล็ดลับให้ได้ผลลัพธ์ที่ดีที่สุด

  • ถ้าไฟล์มาจากเครื่องสแกนหรือกล้อง ให้ทำ OCR ก่อน PDF ที่สแกนมาไม่มีชั้นข้อความให้ดึงออกมา
  • เลือก «เครื่องหมายแบ่งหน้า» สำหรับการอ่านโดยมนุษย์ ตัวคั่นเริ่มต้นช่วยให้หาได้ง่ายว่าหน้าหนึ่งจบตรงไหนและหน้าถัดไปเริ่มตรงไหน
  • ใช้อักขระขึ้นหน้าใหม่สำหรับเครื่องพิมพ์/เครื่องมือเก่าแบบ ASCII ถ้าคุณจะป้อน .txt ไปยังสิ่งที่เก่าแก่ อักขระ \f คือการแบ่งหน้าแบบดั้งเดิม
  • PDF หลายคอลัมน์ต้องการต้นฉบับที่สะอาด ถ้าสองคอลัมน์ปนกัน PDF ต้นทางอาจเข้ารหัสข้อความไว้ผิดลำดับ — ลองเปิดใน Acrobat แล้วบันทึกใหม่
  • ปลดล็อก PDF ที่เข้ารหัสก่อน เราไม่ส่งข้อความเปล่ากลับไปเงียบ ๆ — ใช้ ปลดล็อก PDF แล้วกลับมา

เครื่องมือ PDF ที่เกี่ยวข้อง

 ไทย
Get unlimited PDF tools + AI features
Start free trial →