PDF sang văn bản
Trích xuất văn bản từ PDF ra một tệp .txt. 100% trong trình duyệt của bạn — không có gì được tải lên.
Chọn một tệp PDF
hoặc kéo thả một tệp PDF vào đây
—
Your file is ready
Processed entirely in your browser — the file never left your device.
Cách chuyển PDF sang văn bản
Ba bước. Mọi thứ chạy cục bộ.
Chọn một tệp PDF
Kéo thả hoặc chọn một tệp PDF. Tệp được đọc cục bộ, không tải lên.
Chọn dấu phân tách
Cách đánh dấu các ngắt trang trong kết quả. Mặc định là các dấu dễ đọc.
Tải xuống tệp .txt
Tệp văn bản thuần UTF-8 mở được trong mọi trình soạn thảo.
«PDF sang văn bản» là gì?
Chuyển một PDF sang văn bản nghĩa là rút gọn tài liệu PDF về phần chữ thô của nó: không phông chữ, không hình ảnh, không bố cục. Kết quả là một tệp .txt ở định dạng UTF-8 mở được trong mọi trình soạn thảo, mọi hệ điều hành, mọi thập kỷ. Đó là định dạng được ưa chuộng khi bạn cần dùng grep để tìm trong một tài liệu, dán nó vào một chatbot, đưa vào một script, hoặc đơn giản là lưu trữ lại nội dung mà PDF chứa trong tệp nhỏ nhất có thể.
Văn bản trong một PDF thông thường được lưu dưới dạng một chuỗi ký tự có vị trí. Công cụ này đọc lại các ký tự đó, gom chúng thành các dòng theo tọa độ Y, sắp xếp các dòng từ trên xuống dưới, sắp xếp các phần tử từ trái sang phải trong mỗi dòng, rồi ghi kết quả thành một chuỗi UTF-8 duy nhất với từng trang nối tiếp nhau.
Cách PDF sang văn bản hoạt động trong trình duyệt của bạn
Khi bạn kéo thả một PDF, trình duyệt của bạn đọc nó vào bộ nhớ. Chúng tôi giao các
byte cho
PDF.js,
công cụ PDF mã nguồn mở của Mozilla. Với mỗi trang, chúng tôi gọi
getTextContent(), hàm này trả về từng phần tử văn bản cùng với
vị trí của nó. Chúng tôi gom các phần tử thành các dòng, sắp xếp chúng theo thứ tự
đọc, rồi nối chúng thành một chuỗi duy nhất. Không có bước OCR nào:
phần văn bản vốn đã nằm trong PDF dưới dạng văn bản được trích xuất trực tiếp. Nếu
PDF là một ảnh được quét, lớp văn bản trống rỗng và không có gì
được trích ra (trong trường hợp đó, hãy dùng OCR trước).
Kết quả được ghi vào một Blob và cung cấp dưới dạng tải xuống. Không có gì được tải lên. Toàn bộ quy trình — phân tích, trích xuất, đóng gói — chạy ngay trong thẻ trình duyệt của bạn. Bạn có thể chạy nó khi ngoại tuyến và nó vẫn hoạt động.
Các trường hợp sử dụng phổ biến
- Lưu trữ có thể tìm kiếm cho một thư mục PDF. Trích xuất văn bản từ mỗi PDF, lưu tệp .txt bên cạnh nó, và giờ grep tìm được mọi thứ trong vài giây.
- Dán một PDF vào ChatGPT/Claude/Gemini. Hầu hết các giao diện web của LLM tiếp nhận văn bản thuần tốt hơn nhiều so với PDF: dán tệp .txt rồi đặt câu hỏi.
- So sánh hai phiên bản của một tài liệu. Trích xuất cả hai PDF, chạy
diffvà xem chính xác điều gì đã thay đổi. - Tiền xử lý cho NLP / script. Phân tích cảm xúc, trích xuất thực thể, tóm tắt — tất cả đều nhận văn bản, không phải PDF.
- Khả năng tiếp cận. Chuyển sang văn bản rồi dán vào một trình soạn thảo tương thích với trình đọc màn hình.
Quyền riêng tư và bảo mật
Hợp đồng, bảng lương, hồ sơ y tế, báo cáo nội bộ — chính những loại tài liệu mà người ta muốn trích xuất văn bản nhất lại là những loại họ ít muốn đặt lên máy chủ của người lạ nhất. Hầu hết các công cụ trực tuyến PDF sang văn bản đều tải tệp lên, trích xuất văn bản trên máy chủ của họ rồi trả về một tệp .txt. imisspdf làm đúng công việc đó với PDF.js chạy ngay trong thẻ của bạn. Không tải lên, không tài khoản, không giới hạn hằng ngày. Hãy xem bài đánh giá quyền riêng tư của chúng tôi về iLovePDF để thấy mô hình tải lên tiêu chuẩn thực sự là như thế nào.
Câu hỏi thường gặp
PDF được quét là hình ảnh của các trang, không phải văn bản. Không có lớp văn bản nào để trích xuất — những chữ bạn nhìn thấy chỉ là điểm ảnh. Hãy chạy PDF qua công cụ OCR của chúng tôi trước; nó thêm một lớp văn bản phủ lên hình ảnh, sau đó pdf-to-text mới có thể trích xuất được các từ. Nếu PDF được tạo bằng cách chụp ảnh hoặc quét giấy, OCR luôn là bước còn thiếu.
Không. Kết quả là văn bản thuần UTF-8 — không có in đậm, in nghiêng, cỡ chữ hay màu sắc. Các dòng từ PDF nguồn được giữ lại, nhưng bố cục nhiều cột bị làm phẳng thành thứ tự đọc, lần lượt từng cột một. Nếu bạn cần giữ nguyên định dạng, hãy dùng PDF sang Word, công cụ này giữ lại tiêu đề và kiểu chữ trong dòng.
Ở mức cố gắng tốt nhất. Bảng trở thành các dòng kiểu phân tách bằng tab dựa trên vị trí cột gốc trong PDF — thường dễ đọc nhưng không căn chỉnh hoàn hảo. Bài viết nhiều cột được trích xuất lần lượt từng cột, từ trên xuống dưới. Để trích xuất bảng chính xác, hãy dùng PDF sang Excel.
Không. PDF.js phân tích tệp ngay trong thẻ trình duyệt của bạn, trích xuất văn bản bằng getTextContent(), rồi ghi kết quả vào một Blob để tải xuống máy tính của bạn. Không có gì đi qua mạng. Bạn có thể kiểm chứng bằng cách chạy công cụ khi ngoại tuyến — nó vẫn hoạt động.
Không trực tiếp được. PDF được mã hóa không thể phân tích nếu không có mật khẩu. Hãy chạy tệp qua công cụ Mở khóa PDF của chúng tôi trước (cung cấp mật khẩu), rồi mang PDF đã mở khóa đến đây. Chúng tôi từ chối PDF được mã hóa một cách rõ ràng kèm thông báo lỗi thân thiện, thay vì âm thầm trả về một tệp trống.
Mẹo để có kết quả tốt nhất
- Nếu tệp đến từ máy quét hoặc máy ảnh, hãy chạy OCR trước. PDF được quét không có lớp văn bản để trích xuất.
- Chọn «Dấu trang» để đọc cho người. Dấu phân tách mặc định giúp dễ tìm chỗ một trang kết thúc và trang tiếp theo bắt đầu.
- Dùng ký tự ngắt trang cho máy in/công cụ cũ chạy ASCII. Nếu bạn sẽ đưa tệp .txt vào một thứ gì đó cũ, ký tự \f là dấu ngắt trang truyền thống.
- PDF nhiều cột cần một tệp nguồn sạch. Nếu hai cột bị trộn vào nhau, PDF bên dưới có lẽ mã hóa văn bản sai thứ tự — thử mở nó trong Acrobat rồi lưu lại.
- Hãy mở khóa PDF được mã hóa trước. Chúng tôi từ chối âm thầm trả về văn bản trống — hãy Mở khóa PDF rồi quay lại.
Công cụ PDF liên quan
- TXT sang PDF — điều ngược lại: chuyển văn bản thuần trở lại thành một PDF có định dạng.
- PDF sang Word — giữ lại tiêu đề và kiểu chữ trong dòng, không chỉ riêng các từ.
- OCR PDF — làm cho một PDF được quét có thể trích xuất văn bản trước đã.
- Tóm tắt PDF — để một LLM đọc PDF và đưa cho bạn các điểm chính.