Инструменты
Merge PDF Split PDF Compress PDF Все инструменты PDF →
Решения
For Business For Education For Developers
Компания
О нас Блог Press Контакты
Продукт
Цены Возможности Вопросы и ответы Security

PDF в текст

Извлеките текст из PDF в файл .txt. 100% в вашем браузере — ничего не загружается.

Выберите PDF

или перетащите PDF сюда

100% in-browser No upload No signup

Как конвертировать PDF в текст

Три шага. Всё выполняется локально.

1

Выберите PDF

Перетащите или выберите PDF. Он читается локально, без загрузки.

2

Выберите разделитель

Как отмечать разрывы страниц в результате. По умолчанию — читаемые маркеры.

3

Скачайте .txt

Простой текстовый файл UTF-8, который открывается в любом редакторе.

Что такое «PDF в текст»?

Конвертировать PDF в текст означает свести документ PDF к его исходным словам: без шрифтов, без изображений, без макета. Результат — файл .txt в UTF-8, который открывается в любом редакторе, на любой ОС, в любое десятилетие. Это формат на выбор, когда вам нужно искать grep'ом по документу, вставить его в чат-бот, скормить скрипту или просто заархивировать содержимое PDF в наименьшем возможном файле.

Текст обычного PDF хранится как последовательность позиционированных символов. Этот инструмент перечитывает эти символы, группирует их в строки по координате Y, упорядочивает строки сверху вниз, упорядочивает элементы слева направо внутри каждой строки и записывает результат как одну строку UTF-8, страница за страницей.

Как PDF в текст работает в вашем браузере

Когда вы перетаскиваете PDF, ваш браузер читает его в память. Мы передаём байты в PDF.js, движок PDF с открытым исходным кодом от Mozilla. Для каждой страницы мы вызываем getTextContent(), который возвращает каждый текстовый элемент с его позицией. Мы группируем элементы в строки, упорядочиваем их в порядке чтения и объединяем в одну строку. Шага OCR нет: текст, который уже есть в PDF как текст, извлекается напрямую. Если PDF — это отсканированное изображение, текстовый слой пуст и ничего не выходит (в этом случае сначала используйте OCR).

Результат записывается в Blob и предлагается для скачивания. Ничего не загружается. Весь конвейер — разбор, извлечение, упаковка — выполняется внутри вкладки вашего браузера. Вы можете запустить его офлайн, и он всё равно работает.

Типичные сценарии использования

  • Поисковый архив папки с PDF. Извлеките текст из каждого PDF, сохраните .txt рядом, и теперь grep находит что угодно за секунды.
  • Вставить PDF в ChatGPT/Claude/Gemini. Большинство веб-интерфейсов LLM принимают простой текст гораздо лучше, чем PDF: вставьте .txt и спрашивайте.
  • Сравнить две версии документа. Извлеките оба PDF, запустите diff и посмотрите, что именно изменилось.
  • Предобработка для NLP / скриптов. Анализ тональности, извлечение сущностей, реферирование — всё это принимает текст, а не PDF.
  • Доступность. Конвертируйте в текст и вставьте в редактор с поддержкой программ чтения с экрана.

Приватность и безопасность

Договоры, расчётные листки, медицинские карты, внутренние отчёты — тип документов, из которых люди чаще всего хотят извлечь текст, это как раз те, которые меньше всего хочется держать на чужом сервере. Большинство онлайн-инструментов PDF в текст загружают файл, извлекают текст на своём сервере и выдают .txt. imisspdf делает ту же работу с PDF.js, выполняясь внутри вашей вкладки. Нет ни загрузки, ни аккаунта, ни дневного лимита. Посмотрите наш обзор приватности iLovePDF, чтобы увидеть, как на самом деле выглядит стандартная модель с загрузкой.

Часто задаваемые вопросы

Отсканированные PDF — это изображения страниц, а не текст. Извлекать нечего — слова, которые вы видите, это просто пиксели. Сначала прогоните PDF через наш инструмент OCR; он добавляет текстовый слой поверх изображения, после чего pdf-to-text сможет извлечь слова. Если PDF создан фотографированием или сканированием бумаги, OCR — это всегда недостающий шаг.

Нет. На выходе — обычный текст в UTF-8: без жирного, курсива, размеров шрифта и цветов. Строки исходного PDF сохраняются, но многоколоночные макеты сводятся в порядок чтения по одной колонке за раз. Если вам нужно сохранить форматирование, используйте вместо этого PDF в Word, который сохраняет заголовки и встроенные стили.

По мере возможности. Таблицы превращаются в строки, разделённые подобием табуляции, на основе исходных позиций колонок в PDF — обычно читаемо, но не идеально выровнено. Многоколоночные статьи извлекаются по одной колонке за раз, сверху вниз. Для точного извлечения таблиц используйте PDF в Excel.

Нет. PDF.js разбирает файл внутри вкладки вашего браузера, извлекает текст с помощью getTextContent() и записывает результат в Blob, который скачивается на ваш компьютер. Ничего не уходит в сеть. Это можно проверить, запустив инструмент офлайн — он всё равно работает.

Не напрямую. Зашифрованные PDF нельзя разобрать без пароля. Сначала прогоните файл через наш инструмент «Разблокировать PDF» (укажите пароль), затем принесите разблокированный PDF сюда. Мы явно отклоняем зашифрованные PDF с дружелюбным сообщением об ошибке, а не молча возвращаем пустой файл.

Советы для лучших результатов

  • Если файл из сканера или камеры, сначала запустите OCR. У отсканированных PDF нет текстового слоя для извлечения.
  • Выберите «Маркеры страниц» для чтения человеком. Разделитель по умолчанию упрощает поиск того, где заканчивается одна страница и начинается следующая.
  • Используйте перевод страницы для старых принтеров/инструментов на ASCII. Если вы будете передавать .txt во что-то старое, символ \f — это традиционный разрыв страницы.
  • Многоколоночным PDF нужен чистый исходник. Если две колонки перемешиваются, в исходном PDF текст, вероятно, закодирован не по порядку — попробуйте открыть его в Acrobat и пересохранить.
  • Сначала разблокируйте зашифрованные PDF. Мы не возвращаем пустой текст молча — «Разблокировать PDF» и возвращайтесь.

Связанные инструменты PDF

 Русский
Get unlimited PDF tools + AI features
Start free trial →