หน้าแรก›เครื่องมือ›PDF เป็นข้อความ

PDF เป็นข้อความ

ดึงข้อความจาก PDF ออกมาเป็นไฟล์ .txt ทำงาน 100% ในเบราว์เซอร์ของคุณ — ไม่มีการอัปโหลดอะไรทั้งสิ้น

เลือกไฟล์ PDF

หรือลากไฟล์ PDF มาวางที่นี่

100% in-browser No upload No signup

วิธีแปลง PDF เป็นข้อความ

สามขั้นตอน ทุกอย่างทำงานในเครื่อง

เลือกไฟล์ PDF

ลากหรือเลือกไฟล์ PDF ไฟล์จะถูกอ่านในเครื่อง ไม่มีการอัปโหลด

เลือกตัวคั่น

กำหนดวิธีทำเครื่องหมายแบ่งหน้าในผลลัพธ์ ค่าเริ่มต้นเป็นเครื่องหมายที่อ่านง่าย

ดาวน์โหลด .txt

ไฟล์ข้อความล้วน UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ

ทำต่อเลย

เครื่องมือ PDF ที่เกี่ยวข้อง

PNG to PDF

Convert PNG images to PDF with transparency support.

«PDF เป็นข้อความ» คืออะไร

การแปลง PDF เป็นข้อความหมายถึงการลดทอนเอกสาร PDF ให้เหลือเพียง คำดิบ ๆ ไม่มีฟอนต์ ไม่มีรูปภาพ ไม่มีเลย์เอาต์ ผลลัพธ์คือไฟล์ .txt แบบ UTF-8 ที่เปิดได้ในโปรแกรมแก้ไขข้อความใด ๆ ระบบปฏิบัติการใด ๆ ทุก ยุคทุกสมัย เป็นรูปแบบที่เลือกใช้เมื่อคุณต้องการค้นด้วย grep ใน เอกสาร วางลงในแชตบอต ป้อนให้สคริปต์ หรือเพียงแค่ เก็บถาวรเนื้อหาของ PDF ในไฟล์ที่เล็กที่สุดเท่าที่จะเป็นไปได้

ข้อความใน PDF ทั่วไปจะถูกเก็บเป็นลำดับของตัวอักษรที่ มีพิกัดกำกับ เครื่องมือนี้จะอ่านตัวอักษรเหล่านั้นใหม่ จัดกลุ่มเป็น บรรทัดตามพิกัด Y เรียงบรรทัดจากบนลงล่าง เรียงองค์ประกอบ จากซ้ายไปขวาภายในแต่ละบรรทัด แล้วเขียนผลลัพธ์เป็น สตริง UTF-8 เดียวต่อกันทีละหน้า

PDF เป็นข้อความทำงานในเบราว์เซอร์ของคุณอย่างไร

เมื่อคุณลาก PDF เข้ามา เบราว์เซอร์ของคุณจะอ่านไฟล์เข้าหน่วยความจำ เราส่ง ไบต์เหล่านั้นไปยัง PDF.js เอนจิน PDF โอเพนซอร์สของ Mozilla สำหรับแต่ละหน้าเราจะเรียก getTextContent() ซึ่งคืนค่าทุกองค์ประกอบข้อความพร้อม ตำแหน่งของมัน เราจัดกลุ่มองค์ประกอบเป็นบรรทัด เรียงตามลำดับ การอ่าน แล้วต่อกันเป็นสตริงเดียว ไม่มีขั้นตอน OCR: ข้อความที่มีอยู่ใน PDF ในรูปข้อความอยู่แล้วจะถูกดึงออกมาตรง ๆ ถ้า PDF เป็นภาพที่สแกนมา ชั้นข้อความจะว่างเปล่าและจะไม่ได้ อะไรออกมา (ในกรณีนั้นให้ใช้ OCR ก่อน)

ผลลัพธ์จะถูกเขียนลงใน Blob และเสนอให้ดาวน์โหลด ไม่มีการอัปโหลด อะไร ทั้งกระบวนการ — การแยกวิเคราะห์ การดึง การบรรจุ — ทำงานภายในแท็บเบราว์เซอร์ของคุณ คุณรันแบบออฟไลน์ได้ และ มันก็ยังทำงานอยู่

กรณีใช้งานที่พบบ่อย

คลังเอกสารที่ค้นหาได้จากโฟลเดอร์ PDF ดึงข้อความจาก PDF แต่ละไฟล์ บันทึก .txt ไว้ข้าง ๆ แล้วตอนนี้ grep ค้นหาอะไรก็เจอในไม่กี่วินาที
วาง PDF ลงใน ChatGPT/Claude/Gemini หน้าเว็บ LLM ส่วนใหญ่รับข้อความล้วนได้ดีกว่า PDF มาก: วาง .txt แล้วถามได้เลย
เปรียบเทียบเอกสารสองเวอร์ชัน ดึงทั้งสอง PDF รัน diff แล้วดูว่าอะไรเปลี่ยนไปบ้างอย่างแม่นยำ
การประมวลผลล่วงหน้าสำหรับ NLP / สคริปต์ การวิเคราะห์อารมณ์ การดึงเอนทิตี การสรุป — ทุกอย่างรับข้อความ ไม่ใช่ PDF
การเข้าถึง แปลงเป็นข้อความแล้ววางลงในโปรแกรมแก้ไขที่รองรับโปรแกรมอ่านหน้าจอ

ความเป็นส่วนตัวและความปลอดภัย

สัญญา สลิปเงินเดือน ประวัติการรักษา รายงานภายใน — เอกสาร ประเภทที่ผู้คนอยากดึงข้อความออกมามากที่สุด มักเป็นเอกสารที่ พวกเขาไม่อยากให้อยู่บนเซิร์ฟเวอร์ของคนแปลกหน้ามากที่สุดเช่นกัน เครื่องมือ PDF เป็นข้อความออนไลน์ส่วนใหญ่จะอัปโหลดไฟล์ ดึงข้อความบนเซิร์ฟเวอร์ของตน แล้วส่งไฟล์ .txt กลับมา imisspdf ทำงานเดียวกันนี้ด้วย PDF.js ที่ทำงาน ภายในแท็บของคุณ ไม่มีการอัปโหลด ไม่มีบัญชี ไม่มีโควตารายวัน ดู บทวิเคราะห์ ความเป็นส่วนตัวของ iLovePDF ของเรา เพื่อดูว่าโมเดลการอัปโหลด มาตรฐานเป็นอย่างไรจริง ๆ

คำถามที่พบบ่อย

PDF ที่สแกนมาเป็นภาพของหน้ากระดาษ ไม่ใช่ข้อความ จึงไม่มีชั้นข้อความให้ดึงออกมา ตัวอักษรที่คุณเห็นเป็นเพียงพิกเซลเท่านั้น ให้นำ PDF ไปผ่านเครื่องมือ OCR ของเราก่อน เครื่องมือนี้จะเพิ่มชั้นข้อความทับลงบนภาพ หลังจากนั้น pdf-to-text จึงจะดึงคำออกมาได้ ถ้า PDF สร้างขึ้นจากการถ่ายภาพหรือสแกนกระดาษ การทำ OCR คือขั้นตอนที่ขาดไปเสมอ

ไม่ ผลลัพธ์เป็นข้อความล้วนแบบ UTF-8 ไม่มีตัวหนา ตัวเอียง ขนาดฟอนต์ หรือสี บรรทัดจาก PDF ต้นฉบับจะถูกเก็บไว้ แต่เลย์เอาต์แบบหลายคอลัมน์จะถูกทำให้แบนเป็นลำดับการอ่านทีละคอลัมน์ ถ้าคุณต้องการรักษารูปแบบไว้ ให้ใช้ PDF เป็น Word แทน ซึ่งจะคงหัวข้อและสไตล์ในบรรทัดเอาไว้

ทำได้ดีที่สุดเท่าที่จะเป็นไปได้ ตารางจะกลายเป็นบรรทัดที่คั่นด้วยแท็บคร่าว ๆ ตามตำแหน่งคอลัมน์เดิมใน PDF โดยทั่วไปพออ่านได้แต่ไม่ได้จัดแนวตรงกันอย่างสมบูรณ์ ส่วนบทความหลายคอลัมน์จะถูกดึงทีละคอลัมน์จากบนลงล่าง หากต้องการดึงตารางอย่างแม่นยำ ให้ใช้ PDF เป็น Excel

ไม่ PDF.js จะแยกวิเคราะห์ไฟล์ภายในแท็บเบราว์เซอร์ของคุณ ดึงข้อความด้วย getTextContent() แล้วเขียนผลลัพธ์ลงใน Blob เพื่อดาวน์โหลดมายังคอมพิวเตอร์ของคุณ ไม่มีอะไรวิ่งผ่านเครือข่าย คุณตรวจสอบได้ด้วยการรันเครื่องมือนี้ขณะออฟไลน์ ก็ยังใช้งานได้อยู่

ไม่ได้โดยตรง PDF ที่เข้ารหัสไว้ไม่สามารถแยกวิเคราะห์ได้หากไม่มีรหัสผ่าน ให้นำไฟล์ไปผ่านเครื่องมือ ปลดล็อก PDF ของเราก่อน (โดยใส่รหัสผ่าน) แล้วจึงนำ PDF ที่ปลดล็อกแล้วมาที่นี่ เราปฏิเสธ PDF ที่เข้ารหัสอย่างชัดเจนพร้อมข้อความแจ้งที่เป็นมิตร แทนที่จะส่งไฟล์เปล่ากลับไปเงียบ ๆ

เคล็ดลับให้ได้ผลลัพธ์ที่ดีที่สุด

ถ้าไฟล์มาจากเครื่องสแกนหรือกล้อง ให้ทำ OCR ก่อน PDF ที่สแกนมาไม่มีชั้นข้อความให้ดึงออกมา
เลือก «เครื่องหมายแบ่งหน้า» สำหรับการอ่านโดยมนุษย์ ตัวคั่นเริ่มต้นช่วยให้หาได้ง่ายว่าหน้าหนึ่งจบตรงไหนและหน้าถัดไปเริ่มตรงไหน
ใช้อักขระขึ้นหน้าใหม่สำหรับเครื่องพิมพ์/เครื่องมือเก่าแบบ ASCII ถ้าคุณจะป้อน .txt ไปยังสิ่งที่เก่าแก่ อักขระ \f คือการแบ่งหน้าแบบดั้งเดิม
PDF หลายคอลัมน์ต้องการต้นฉบับที่สะอาด ถ้าสองคอลัมน์ปนกัน PDF ต้นทางอาจเข้ารหัสข้อความไว้ผิดลำดับ — ลองเปิดใน Acrobat แล้วบันทึกใหม่
ปลดล็อก PDF ที่เข้ารหัสก่อน เราไม่ส่งข้อความเปล่ากลับไปเงียบ ๆ — ใช้ ปลดล็อก PDF แล้วกลับมา

เครื่องมือ PDF ที่เกี่ยวข้อง

TXT เป็น PDF — ทำกลับกัน: แปลงข้อความล้วนกลับเป็น PDF ที่จัดรูปแบบแล้ว
PDF เป็น Word — คงหัวข้อและสไตล์ในบรรทัดไว้ ไม่ใช่แค่คำเปล่า ๆ
OCR PDF — ทำให้ PDF ที่สแกนมาดึงข้อความได้ก่อน
สรุป PDF — ให้ LLM อ่าน PDF แล้วสรุปประเด็นสำคัญให้คุณ

เครื่องมือ

โซลูชัน

บริษัท

ผลิตภัณฑ์

PDF เป็นข้อความ

เลือกไฟล์ PDF

Your file is ready

วิธีแปลง PDF เป็นข้อความ

เลือกไฟล์ PDF

เลือกตัวคั่น

ดาวน์โหลด .txt

เครื่องมือ PDF ที่เกี่ยวข้อง

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

«PDF เป็นข้อความ» คืออะไร

PDF เป็นข้อความทำงานในเบราว์เซอร์ของคุณอย่างไร

กรณีใช้งานที่พบบ่อย

ความเป็นส่วนตัวและความปลอดภัย

คำถามที่พบบ่อย

เคล็ดลับให้ได้ผลลัพธ์ที่ดีที่สุด

เครื่องมือ PDF ที่เกี่ยวข้อง