PDF para texto
Extraia o texto de um PDF para um arquivo .txt. 100% no seu navegador — nada é enviado.
Selecione um PDF
ou solte um PDF aqui
—
Your file is ready
Processed entirely in your browser — the file never left your device.
Como converter PDF para texto
Três passos. Tudo roda localmente.
Escolha um PDF
Solte ou selecione um PDF. Ele é lido localmente — sem envio.
Escolha o separador
Como marcar as quebras de página na saída. O padrão são marcadores legíveis.
Baixe o .txt
Arquivo de texto simples em UTF-8 que abre em qualquer editor.
O que é «PDF para texto»?
Converter um PDF para texto significa reduzir um documento PDF às suas palavras simples: sem fontes, sem imagens, sem layout. O resultado é um arquivo .txt em UTF-8 que abre em qualquer editor, qualquer sistema operacional, qualquer década. É o formato de escolha quando você precisa fazer grep em um documento, colá-lo em um chatbot, alimentar um script ou simplesmente arquivar o que o PDF dizia no menor arquivo possível.
O texto em um PDF normal é armazenado como uma sequência de caracteres posicionados. Esta ferramenta lê esses caracteres de volta, agrupa-os em linhas pela coordenada Y, ordena as linhas de cima para baixo, ordena os itens da esquerda para a direita dentro de cada linha e grava o resultado como uma única string UTF-8 com uma página após a outra.
Como o PDF para texto funciona no seu navegador
Quando você solta um PDF, seu navegador o lê na memória. Entregamos os
bytes ao
PDF.js,
o motor PDF de código aberto da Mozilla. Para cada página chamamos
getTextContent(), que retorna cada item de texto com sua
posição. Agrupamos os itens em linhas, ordenamos na ordem de
leitura e concatenamos em uma única string. Não há etapa de OCR —
o texto que já está no PDF como texto é extraído diretamente. Se
o PDF for uma imagem digitalizada, a camada de texto está vazia e nada
sai (nesse caso, use o OCR primeiro).
O resultado é gravado em um Blob e oferecido como download. Nada é enviado. Toda a pipeline — análise, extração, empacotamento — roda dentro da aba do seu navegador. Você pode executá-la offline e ela continua funcionando.
Casos de uso comuns
- Arquivo pesquisável de uma pasta de PDFs. Extraia o texto de cada PDF, salve o .txt ao lado dele e agora o grep encontra qualquer coisa em segundos.
- Colar um PDF no ChatGPT/Claude/Gemini. A maioria das interfaces web de LLM aceita texto simples muito melhor que PDFs — cole o .txt e pergunte.
- Comparar duas versões de um documento. Extraia os dois PDFs, execute o
diffe veja exatamente o que mudou. - Pré-processamento para PLN / scripts. Análise de sentimento, extração de entidades, sumarização — todos recebem texto, não PDF.
- Acessibilidade. Converta para texto e cole em um editor compatível com leitores de tela.
Privacidade e segurança
Contratos, holerites, registros médicos, relatórios internos — o tipo de documento do qual as pessoas mais querem extrair texto é exatamente o que elas menos querem deixar no servidor de um estranho. A maioria das ferramentas on-line de PDF para texto envia o arquivo, extrai o texto no servidor delas e entrega um .txt. O imisspdf faz o mesmo trabalho com o PDF.js rodando dentro da sua aba. Não há envio, conta nem limite diário. Veja nossa análise de privacidade do iLovePDF para ver como o modelo de envio padrão realmente funciona.
Perguntas frequentes
PDFs digitalizados são imagens de páginas, não texto. Não há camada de texto para extrair — as palavras que você vê são apenas pixels. Passe primeiro o PDF pela nossa ferramenta de OCR; ela adiciona uma camada de texto sobre a imagem e, depois disso, o PDF para texto consegue extrair as palavras. Se o PDF foi criado fotografando ou digitalizando papel, o OCR é sempre a etapa que falta.
Não. A saída é texto simples em UTF-8 — sem negrito, itálico, tamanhos de fonte ou cores. As linhas do PDF de origem são mantidas, mas layouts de várias colunas são achatados na ordem de leitura, uma coluna de cada vez. Se você precisa preservar a formatação, use o PDF para Word, que mantém títulos e estilo em linha.
De melhor esforço. As tabelas viram linhas separadas por tabulações com base nas posições originais das colunas no PDF — geralmente legíveis, mas não perfeitamente alinhadas. Artigos de várias colunas são extraídos uma coluna de cada vez, de cima para baixo. Para extração precisa de tabelas, use o PDF para Excel.
Não. O PDF.js processa o arquivo dentro da aba do seu navegador, extrai o texto usando getTextContent() e grava o resultado em um Blob que é baixado para o seu computador. Nada trafega pela rede. Você pode verificar isso executando a ferramenta offline — ela continua funcionando.
Não diretamente. PDFs criptografados não podem ser processados sem a senha. Passe primeiro o arquivo pela nossa ferramenta Desbloquear PDF (informe a senha) e depois traga aqui o PDF desbloqueado. Recusamos PDFs criptografados de forma explícita com um erro claro em vez de devolver silenciosamente um arquivo vazio.
Dicas para melhores resultados
- Se o arquivo veio de um scanner ou câmera, execute o OCR primeiro. PDFs digitalizados não têm camada de texto para extrair.
- Escolha «Marcadores de página» para leitura humana. O separador padrão facilita encontrar onde uma página termina e a próxima começa.
- Use o avanço de página para impressoras/ferramentas antigas em ASCII. Se você está canalizando o .txt para algo antigo, o caractere \f é a quebra de página tradicional.
- PDFs de várias colunas precisam de uma origem limpa. Se duas colunas se misturam, o PDF subjacente provavelmente codifica o texto fora de ordem — tente abri-lo no Acrobat e salvá-lo novamente.
- Desbloqueie primeiro os PDFs criptografados. Nos recusamos a devolver texto vazio silenciosamente — Desbloquear PDF e depois volte.
Ferramentas PDF relacionadas
- TXT para PDF — o inverso: transforme texto simples de volta em um PDF formatado.
- PDF para Word — preserva os títulos e o estilo em linha, não apenas as palavras.
- OCR PDF — torne um PDF digitalizado extraível como texto primeiro.
- Resumir PDF — deixe um LLM ler o PDF e te dar os pontos principais.