首页›工具›PDF转文本

PDF转文本

将 PDF 中的文本提取为 .txt 文件。100% 在你的浏览器中完成——不会上传任何内容。

选择一个 PDF

或将一个 PDF 拖放到这里

100% in-browser No upload No signup

—

页面分隔符

正在提取文本…

Your file is ready

output.pdf · —

Processed entirely in your browser — the file never left your device.

如何将 PDF 转换为文本

三个步骤。一切都在本地运行。

选择一个 PDF

拖放或选择一个 PDF。它在本地读取，不会上传。

选择分隔符

如何在结果中标记换页。默认使用可读的页面标记。

下载 .txt

UTF-8 纯文本文件，可在任何编辑器中打开。

继续

什么是“PDF 转文本”？

将 PDF 转换为文本，意味着把一个 PDF 文档精简为它的原始文字：没有字体、没有图像、没有版式。结果是一个 UTF-8 的 .txt 文件，可在任何编辑器、任何操作系统、任何年代打开。当你需要用 grep 在文档中搜索、把内容粘贴进聊天机器人、喂给一个脚本，或者只是想用尽可能小的文件归档 PDF 的内容时，它就是首选格式。

普通 PDF 中的文本是作为一串带定位的字符存储的。本工具会重新读取这些字符，按 Y 坐标把它们归并成行，将行从上到下排序，在每一行内将元素从左到右排序，然后把结果写成一个 UTF-8 字符串，一页接着一页。

PDF 转文本在你的浏览器中如何工作

当你拖入一个 PDF 时，你的浏览器会将其读入内存。我们把这些字节交给 PDF.js， Mozilla 的开源 PDF 引擎。对每一页我们都会调用 getTextContent()，它会返回每个文本元素及其位置。我们把这些元素归并成行，按阅读顺序排序，再拼接成一个字符串。没有 OCR 步骤：已经以文本形式存在于 PDF 中的文字会被直接提取。如果该 PDF 是一张扫描图像，文本层就是空的，什么也提不出来（这种情况请先用 OCR）。

结果会写入一个 Blob 并作为下载提供。不会上传任何内容。整个流程——解析、提取、打包——都在你的浏览器标签页中运行。你可以离线运行它，它依然有效。

常见使用场景

把一个 PDF 文件夹变成可搜索的归档。提取每个 PDF 的文本，把 .txt 保存在它旁边，现在 grep 几秒内就能找到任何内容。
把 PDF 粘贴进 ChatGPT/Claude/Gemini。大多数 LLM 的网页界面对纯文本的接受度远高于 PDF：粘贴 .txt 然后提问。
比较一份文档的两个版本。提取两个 PDF，运行 diff，准确看出改了什么。
为 NLP / 脚本做预处理。情感分析、实体抽取、摘要——都接受文本，而不是 PDF。
无障碍。转换为文本，然后粘贴进支持屏幕阅读器的编辑器。

隐私与安全

合同、工资单、病历、内部报告——人们最想从中提取文本的那类文档，恰恰是他们最不希望出现在陌生人服务器上的文档。大多数在线 PDF 转文本工具会上传文件，在它们的服务器上提取文本，然后交付一个 .txt。imisspdf 用在你标签页中运行的 PDF.js 完成同样的工作。没有上传、没有账户、没有每日限制。查看我们对 iLovePDF 的隐私评测，看看标准上传模型实际是什么样子。

常见问题

扫描得到的 PDF 是页面的图像，而不是文本。没有可供提取的文本层——你看到的文字只是像素。请先用我们的 OCR 工具处理该 PDF；它会在图像上叠加一个文本层，之后 pdf-to-text 才能提取出文字。如果这个 PDF 是通过拍照或扫描纸张创建的，那么 OCR 始终是缺失的那一步。

不会。输出的是纯 UTF-8 文本——没有粗体、斜体、字号或颜色。源 PDF 中的换行会被保留，但多栏版式会被展平为按阅读顺序排列、一次一栏。如果你需要保留格式，请改用 PDF 转 Word，它会保留标题和行内样式。

尽力而为。表格会根据 PDF 中原始的栏位置变成近似制表符分隔的行——通常可读，但不会完美对齐。多栏文章会按从上到下、一次一栏的方式提取。如需精确的表格提取，请使用 PDF 转 Excel。

不会。PDF.js 在你的浏览器标签页中解析文件，使用 getTextContent() 提取文本，并把结果写入一个下载到你电脑的 Blob。没有任何内容经过网络传输。你可以在离线状态下运行该工具来验证这一点——它依然有效。

无法直接提取。加密的 PDF 在没有密码的情况下无法解析。请先用我们的解锁 PDF 工具处理该文件（提供密码），然后把解锁后的 PDF 拿到这里。我们会用一条友好的错误提示明确拒绝加密的 PDF，而不是悄无声息地返回一个空文件。

获得最佳效果的技巧

如果文件来自扫描仪或相机，请先运行 OCR。扫描得到的 PDF 没有可供提取的文本层。
供人阅读时选择“页面标记”。默认分隔符让你更容易找到一页在哪里结束、下一页从哪里开始。
面向使用 ASCII 的老旧打印机/工具时用换页符。如果你要把 .txt 接入某个老旧系统，\f 字符就是传统的换页符。
多栏 PDF 需要干净的源文件。如果两栏相互混在一起，底层 PDF 很可能把文本编码成了乱序——试着用 Acrobat 打开它并重新保存。
先解锁加密的 PDF。我们拒绝悄无声息地返回空文本——先用解锁 PDF，然后回来。

工具

解决方案

公司

产品

PDF转文本

选择一个 PDF

Your file is ready

如何将 PDF 转换为文本

选择一个 PDF

选择分隔符

下载 .txt

相关 PDF 工具

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

什么是“PDF 转文本”？

PDF 转文本在你的浏览器中如何工作

常见使用场景

隐私与安全

常见问题

获得最佳效果的技巧

相关 PDF 工具