Trang chủ›Công cụ›PDF sang văn bản

PDF sang văn bản

Trích xuất văn bản từ PDF ra một tệp .txt. 100% trong trình duyệt của bạn — không có gì được tải lên.

Chọn một tệp PDF

hoặc kéo thả một tệp PDF vào đây

100% in-browser No upload No signup

Cách chuyển PDF sang văn bản

Ba bước. Mọi thứ chạy cục bộ.

Chọn một tệp PDF

Kéo thả hoặc chọn một tệp PDF. Tệp được đọc cục bộ, không tải lên.

Chọn dấu phân tách

Cách đánh dấu các ngắt trang trong kết quả. Mặc định là các dấu dễ đọc.

Tải xuống tệp .txt

Tệp văn bản thuần UTF-8 mở được trong mọi trình soạn thảo.

Tiếp tục nào

Công cụ PDF liên quan

PNG to PDF

Convert PNG images to PDF with transparency support.

«PDF sang văn bản» là gì?

Chuyển một PDF sang văn bản nghĩa là rút gọn tài liệu PDF về phần chữ thô của nó: không phông chữ, không hình ảnh, không bố cục. Kết quả là một tệp .txt ở định dạng UTF-8 mở được trong mọi trình soạn thảo, mọi hệ điều hành, mọi thập kỷ. Đó là định dạng được ưa chuộng khi bạn cần dùng grep để tìm trong một tài liệu, dán nó vào một chatbot, đưa vào một script, hoặc đơn giản là lưu trữ lại nội dung mà PDF chứa trong tệp nhỏ nhất có thể.

Văn bản trong một PDF thông thường được lưu dưới dạng một chuỗi ký tự có vị trí. Công cụ này đọc lại các ký tự đó, gom chúng thành các dòng theo tọa độ Y, sắp xếp các dòng từ trên xuống dưới, sắp xếp các phần tử từ trái sang phải trong mỗi dòng, rồi ghi kết quả thành một chuỗi UTF-8 duy nhất với từng trang nối tiếp nhau.

Cách PDF sang văn bản hoạt động trong trình duyệt của bạn

Khi bạn kéo thả một PDF, trình duyệt của bạn đọc nó vào bộ nhớ. Chúng tôi giao các byte cho PDF.js, công cụ PDF mã nguồn mở của Mozilla. Với mỗi trang, chúng tôi gọi getTextContent(), hàm này trả về từng phần tử văn bản cùng với vị trí của nó. Chúng tôi gom các phần tử thành các dòng, sắp xếp chúng theo thứ tự đọc, rồi nối chúng thành một chuỗi duy nhất. Không có bước OCR nào: phần văn bản vốn đã nằm trong PDF dưới dạng văn bản được trích xuất trực tiếp. Nếu PDF là một ảnh được quét, lớp văn bản trống rỗng và không có gì được trích ra (trong trường hợp đó, hãy dùng OCR trước).

Kết quả được ghi vào một Blob và cung cấp dưới dạng tải xuống. Không có gì được tải lên. Toàn bộ quy trình — phân tích, trích xuất, đóng gói — chạy ngay trong thẻ trình duyệt của bạn. Bạn có thể chạy nó khi ngoại tuyến và nó vẫn hoạt động.

Các trường hợp sử dụng phổ biến

Lưu trữ có thể tìm kiếm cho một thư mục PDF. Trích xuất văn bản từ mỗi PDF, lưu tệp .txt bên cạnh nó, và giờ grep tìm được mọi thứ trong vài giây.
Dán một PDF vào ChatGPT/Claude/Gemini. Hầu hết các giao diện web của LLM tiếp nhận văn bản thuần tốt hơn nhiều so với PDF: dán tệp .txt rồi đặt câu hỏi.
So sánh hai phiên bản của một tài liệu. Trích xuất cả hai PDF, chạy diff và xem chính xác điều gì đã thay đổi.
Tiền xử lý cho NLP / script. Phân tích cảm xúc, trích xuất thực thể, tóm tắt — tất cả đều nhận văn bản, không phải PDF.
Khả năng tiếp cận. Chuyển sang văn bản rồi dán vào một trình soạn thảo tương thích với trình đọc màn hình.

Quyền riêng tư và bảo mật

Hợp đồng, bảng lương, hồ sơ y tế, báo cáo nội bộ — chính những loại tài liệu mà người ta muốn trích xuất văn bản nhất lại là những loại họ ít muốn đặt lên máy chủ của người lạ nhất. Hầu hết các công cụ trực tuyến PDF sang văn bản đều tải tệp lên, trích xuất văn bản trên máy chủ của họ rồi trả về một tệp .txt. imisspdf làm đúng công việc đó với PDF.js chạy ngay trong thẻ của bạn. Không tải lên, không tài khoản, không giới hạn hằng ngày. Hãy xem bài đánh giá quyền riêng tư của chúng tôi về iLovePDF để thấy mô hình tải lên tiêu chuẩn thực sự là như thế nào.

Câu hỏi thường gặp

PDF được quét là hình ảnh của các trang, không phải văn bản. Không có lớp văn bản nào để trích xuất — những chữ bạn nhìn thấy chỉ là điểm ảnh. Hãy chạy PDF qua công cụ OCR của chúng tôi trước; nó thêm một lớp văn bản phủ lên hình ảnh, sau đó pdf-to-text mới có thể trích xuất được các từ. Nếu PDF được tạo bằng cách chụp ảnh hoặc quét giấy, OCR luôn là bước còn thiếu.

Không. Kết quả là văn bản thuần UTF-8 — không có in đậm, in nghiêng, cỡ chữ hay màu sắc. Các dòng từ PDF nguồn được giữ lại, nhưng bố cục nhiều cột bị làm phẳng thành thứ tự đọc, lần lượt từng cột một. Nếu bạn cần giữ nguyên định dạng, hãy dùng PDF sang Word, công cụ này giữ lại tiêu đề và kiểu chữ trong dòng.

Ở mức cố gắng tốt nhất. Bảng trở thành các dòng kiểu phân tách bằng tab dựa trên vị trí cột gốc trong PDF — thường dễ đọc nhưng không căn chỉnh hoàn hảo. Bài viết nhiều cột được trích xuất lần lượt từng cột, từ trên xuống dưới. Để trích xuất bảng chính xác, hãy dùng PDF sang Excel.

Không. PDF.js phân tích tệp ngay trong thẻ trình duyệt của bạn, trích xuất văn bản bằng getTextContent(), rồi ghi kết quả vào một Blob để tải xuống máy tính của bạn. Không có gì đi qua mạng. Bạn có thể kiểm chứng bằng cách chạy công cụ khi ngoại tuyến — nó vẫn hoạt động.

Không trực tiếp được. PDF được mã hóa không thể phân tích nếu không có mật khẩu. Hãy chạy tệp qua công cụ Mở khóa PDF của chúng tôi trước (cung cấp mật khẩu), rồi mang PDF đã mở khóa đến đây. Chúng tôi từ chối PDF được mã hóa một cách rõ ràng kèm thông báo lỗi thân thiện, thay vì âm thầm trả về một tệp trống.

Mẹo để có kết quả tốt nhất

Nếu tệp đến từ máy quét hoặc máy ảnh, hãy chạy OCR trước. PDF được quét không có lớp văn bản để trích xuất.
Chọn «Dấu trang» để đọc cho người. Dấu phân tách mặc định giúp dễ tìm chỗ một trang kết thúc và trang tiếp theo bắt đầu.
Dùng ký tự ngắt trang cho máy in/công cụ cũ chạy ASCII. Nếu bạn sẽ đưa tệp .txt vào một thứ gì đó cũ, ký tự \f là dấu ngắt trang truyền thống.
PDF nhiều cột cần một tệp nguồn sạch. Nếu hai cột bị trộn vào nhau, PDF bên dưới có lẽ mã hóa văn bản sai thứ tự — thử mở nó trong Acrobat rồi lưu lại.
Hãy mở khóa PDF được mã hóa trước. Chúng tôi từ chối âm thầm trả về văn bản trống — hãy Mở khóa PDF rồi quay lại.

Công cụ PDF liên quan

TXT sang PDF — điều ngược lại: chuyển văn bản thuần trở lại thành một PDF có định dạng.
PDF sang Word — giữ lại tiêu đề và kiểu chữ trong dòng, không chỉ riêng các từ.
OCR PDF — làm cho một PDF được quét có thể trích xuất văn bản trước đã.
Tóm tắt PDF — để một LLM đọc PDF và đưa cho bạn các điểm chính.

Công cụ

Giải pháp

Công ty

Sản phẩm

PDF sang văn bản

Chọn một tệp PDF

Your file is ready

Cách chuyển PDF sang văn bản

Chọn một tệp PDF

Chọn dấu phân tách

Tải xuống tệp .txt

Công cụ PDF liên quan

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

«PDF sang văn bản» là gì?

Cách PDF sang văn bản hoạt động trong trình duyệt của bạn

Các trường hợp sử dụng phổ biến

Quyền riêng tư và bảo mật

Câu hỏi thường gặp

Mẹo để có kết quả tốt nhất

Công cụ PDF liên quan