如何将 PDF 转换为文本
三个步骤。一切都在本地运行。
选择一个 PDF
拖放或选择一个 PDF。它在本地读取,不会上传。
选择分隔符
如何在结果中标记换页。默认使用可读的页面标记。
下载 .txt
UTF-8 纯文本文件,可在任何编辑器中打开。
什么是“PDF 转文本”?
将 PDF 转换为文本,意味着把一个 PDF 文档精简为它的原始文字:没有字体、 没有图像、没有版式。结果是一个 UTF-8 的 .txt 文件,可在任何编辑器、 任何操作系统、任何年代打开。当你需要用 grep 在文档中搜索、把内容粘贴 进聊天机器人、喂给一个脚本,或者只是想用尽可能小的文件归档 PDF 的 内容时,它就是首选格式。
普通 PDF 中的文本是作为一串带定位的字符存储的。本工具会重新读取这些 字符,按 Y 坐标把它们归并成行,将行从上到下排序,在每一行内将元素 从左到右排序,然后把结果写成一个 UTF-8 字符串,一页接着一页。
PDF 转文本在你的浏览器中如何工作
当你拖入一个 PDF 时,你的浏览器会将其读入内存。我们把这些字节交给
PDF.js,
Mozilla 的开源 PDF 引擎。对每一页我们都会调用
getTextContent(),它会返回每个文本元素及其位置。我们把
这些元素归并成行,按阅读顺序排序,再拼接成一个字符串。没有 OCR 步骤:
已经以文本形式存在于 PDF 中的文字会被直接提取。如果该 PDF 是一张扫描
图像,文本层就是空的,什么也提不出来(这种情况请先用 OCR)。
结果会写入一个 Blob 并作为下载提供。不会上传任何内容。整个流程——解析、 提取、打包——都在你的浏览器标签页中运行。你可以离线运行它,它依然 有效。
常见使用场景
- 把一个 PDF 文件夹变成可搜索的归档。提取每个 PDF 的文本,把 .txt 保存在它旁边,现在 grep 几秒内就能找到任何内容。
- 把 PDF 粘贴进 ChatGPT/Claude/Gemini。大多数 LLM 的网页界面对纯文本的接受度远高于 PDF:粘贴 .txt 然后提问。
- 比较一份文档的两个版本。提取两个 PDF,运行
diff,准确看出改了什么。 - 为 NLP / 脚本做预处理。情感分析、实体抽取、摘要——都接受文本,而不是 PDF。
- 无障碍。转换为文本,然后粘贴进支持屏幕阅读器的编辑器。
隐私与安全
合同、工资单、病历、内部报告——人们最想从中提取文本的那类文档,恰恰 是他们最不希望出现在陌生人服务器上的文档。大多数在线 PDF 转文本工具 会上传文件,在它们的服务器上提取文本,然后交付一个 .txt。imisspdf 用 在你标签页中运行的 PDF.js 完成同样的工作。没有上传、没有账户、没有 每日限制。查看 我们对 iLovePDF 的隐私评测,看看标准上传模型实际是什么样子。
常见问题
扫描得到的 PDF 是页面的图像,而不是文本。没有可供提取的文本层——你看到的文字只是像素。请先用我们的 OCR 工具处理该 PDF;它会在图像上叠加一个文本层,之后 pdf-to-text 才能提取出文字。如果这个 PDF 是通过拍照或扫描纸张创建的,那么 OCR 始终是缺失的那一步。
不会。输出的是纯 UTF-8 文本——没有粗体、斜体、字号或颜色。源 PDF 中的换行会被保留,但多栏版式会被展平为按阅读顺序排列、一次一栏。如果你需要保留格式,请改用 PDF 转 Word,它会保留标题和行内样式。
尽力而为。表格会根据 PDF 中原始的栏位置变成近似制表符分隔的行——通常可读,但不会完美对齐。多栏文章会按从上到下、一次一栏的方式提取。如需精确的表格提取,请使用 PDF 转 Excel。
不会。PDF.js 在你的浏览器标签页中解析文件,使用 getTextContent() 提取文本,并把结果写入一个下载到你电脑的 Blob。没有任何内容经过网络传输。你可以在离线状态下运行该工具来验证这一点——它依然有效。
无法直接提取。加密的 PDF 在没有密码的情况下无法解析。请先用我们的解锁 PDF 工具处理该文件(提供密码),然后把解锁后的 PDF 拿到这里。我们会用一条友好的错误提示明确拒绝加密的 PDF,而不是悄无声息地返回一个空文件。
获得最佳效果的技巧
- 如果文件来自扫描仪或相机,请先运行 OCR。扫描得到的 PDF 没有可供提取的文本层。
- 供人阅读时选择“页面标记”。默认分隔符让你更容易找到一页在哪里结束、下一页从哪里开始。
- 面向使用 ASCII 的老旧打印机/工具时用换页符。如果你要把 .txt 接入某个老旧系统,\f 字符就是传统的换页符。
- 多栏 PDF 需要干净的源文件。如果两栏相互混在一起,底层 PDF 很可能把文本编码成了乱序——试着用 Acrobat 打开它并重新保存。
- 先解锁加密的 PDF。我们拒绝悄无声息地返回空文本——先用解锁 PDF,然后回来。
相关 PDF 工具
- TXT 转 PDF — 反向操作:把纯文本重新转换为带格式的 PDF。
- PDF 转 Word — 保留标题和行内样式,而不仅仅是文字。
- OCR PDF — 先让一个扫描的 PDF 变得可提取文本。
- 总结 PDF — 让 LLM 阅读 PDF 并给出要点。