Inicio›Herramientas›PDF a texto

PDF a texto

Extrae el texto de un PDF a un archivo .txt. 100% en tu navegador — no se sube nada.

Selecciona un PDF

o arrastra un PDF aquí

100% in-browser No upload No signup

—

Separador de páginas

Extrayendo texto…

Your file is ready

output.pdf · —

Processed entirely in your browser — the file never left your device.

Cómo convertir PDF a texto

Tres pasos. Todo se ejecuta de forma local.

Elige un PDF

Arrastra o selecciona un PDF. Se lee de forma local, sin subida.

Elige el separador

Cómo marcar los saltos de página en el resultado. Por defecto, marcadores legibles.

Descarga el .txt

Archivo de texto plano UTF-8 que se abre en cualquier editor.

Sigue adelante

Herramientas PDF relacionadas

PNG to PDF

Convert PNG images to PDF with transparency support.

¿Qué es «PDF a texto»?

Convertir un PDF a texto significa reducir un documento PDF a sus palabras en bruto: sin fuentes, sin imágenes, sin diseño. El resultado es un archivo .txt en UTF-8 que se abre en cualquier editor, cualquier sistema operativo, cualquier década. Es el formato de elección cuando necesitas buscar con grep en un documento, pegarlo en un chatbot, alimentar un script o simplemente archivar lo que decía el PDF en el archivo más pequeño posible.

El texto de un PDF normal se almacena como una secuencia de caracteres posicionados. Esta herramienta vuelve a leer esos caracteres, los agrupa en líneas por la coordenada Y, ordena las líneas de arriba abajo, ordena los elementos de izquierda a derecha dentro de cada línea y escribe el resultado como una sola cadena UTF-8 con una página tras otra.

Cómo funciona PDF a texto en tu navegador

Cuando arrastras un PDF, tu navegador lo lee en memoria. Entregamos los bytes a PDF.js, el motor PDF de código abierto de Mozilla. Para cada página llamamos a getTextContent(), que devuelve cada elemento de texto con su posición. Agrupamos los elementos en líneas, las ordenamos en orden de lectura y las concatenamos en una sola cadena. No hay paso de OCR: el texto que ya está en el PDF como texto se extrae directamente. Si el PDF es una imagen escaneada, la capa de texto está vacía y no sale nada (en ese caso, usa primero OCR).

El resultado se escribe en un Blob y se ofrece como descarga. No se sube nada. Toda la canalización —análisis, extracción, empaquetado— se ejecuta dentro de la pestaña de tu navegador. Puedes ejecutarla sin conexión y sigue funcionando.

Casos de uso habituales

Archivo buscable de una carpeta de PDF. Extrae el texto de cada PDF, guarda el .txt junto a él y ahora grep encuentra cualquier cosa en segundos.
Pegar un PDF en ChatGPT/Claude/Gemini. La mayoría de las interfaces web de LLM aceptan el texto plano mucho mejor que los PDF: pega el .txt y pregunta.
Comparar dos versiones de un documento. Extrae ambos PDF, ejecuta diff y mira exactamente qué cambió.
Preprocesamiento para PLN / scripts. Análisis de sentimiento, extracción de entidades, resumen — todos toman texto, no PDF.
Accesibilidad. Convierte a texto y pégalo en un editor compatible con lectores de pantalla.

Privacidad y seguridad

Contratos, nóminas, historiales médicos, informes internos — el tipo de documentos del que la gente más quiere extraer texto son justo los que menos quiere que estén en el servidor de un desconocido. La mayoría de las herramientas en línea de PDF a texto suben el archivo, extraen el texto en su servidor y entregan un .txt. imisspdf hace el mismo trabajo con PDF.js ejecutándose dentro de tu pestaña. No hay subida, ni cuenta, ni límite diario. Consulta nuestra reseña de privacidad de iLovePDF para ver cómo es realmente el modelo de subida estándar.

Preguntas frecuentes

Los PDF escaneados son imágenes de páginas, no texto. No hay capa de texto que extraer: las palabras que ves son solo píxeles. Pasa primero el PDF por nuestra herramienta OCR; añade una capa de texto sobre la imagen, y después PDF a texto puede extraer las palabras. Si el PDF se creó fotografiando o escaneando papel, el OCR es siempre el paso que falta.

No. El resultado es texto plano UTF-8: sin negrita, cursiva, tamaños de fuente ni colores. Se mantienen las líneas del PDF de origen, pero los diseños de varias columnas se aplanan en orden de lectura, una columna cada vez. Si necesitas conservar el formato, usa PDF a Word, que mantiene los títulos y el estilo en línea.

De mejor esfuerzo. Las tablas se convierten en líneas tipo separadas por tabulaciones según las posiciones originales de las columnas en el PDF: suelen ser legibles, pero no quedan perfectamente alineadas. Los artículos de varias columnas se extraen de una columna a la vez, de arriba abajo. Para una extracción precisa de tablas, usa PDF a Excel.

No. PDF.js analiza el archivo dentro de la pestaña de tu navegador, extrae el texto con getTextContent() y escribe el resultado en un Blob que se descarga a tu ordenador. Nada cruza la red. Puedes comprobarlo ejecutando la herramienta sin conexión: sigue funcionando.

No directamente. Los PDF cifrados no se pueden analizar sin la contraseña. Pasa primero el archivo por nuestra herramienta Desbloquear PDF (introduce la contraseña) y luego trae aquí el PDF desbloqueado. Rechazamos los PDF cifrados de forma explícita con un error claro en lugar de devolver en silencio un archivo vacío.

Consejos para obtener los mejores resultados

Si el archivo viene de un escáner o cámara, ejecuta primero OCR. Los PDF escaneados no tienen capa de texto que extraer.
Elige «Marcadores de página» para lectura humana. El separador por defecto facilita encontrar dónde termina una página y empieza la siguiente.
Usa el salto de página para impresoras/herramientas antiguas en ASCII. Si vas a canalizar el .txt a algo antiguo, el carácter \f es el salto de página tradicional.
Los PDF de varias columnas necesitan un origen limpio. Si dos columnas se mezclan entre sí, el PDF subyacente probablemente codifica el texto fuera de orden — prueba a abrirlo en Acrobat y volver a guardarlo.
Desbloquea primero los PDF cifrados. Nos negamos a devolver texto vacío en silencio — Desbloquear PDF y vuelve.

Herramientas PDF relacionadas

TXT a PDF — lo contrario: convierte texto plano de nuevo en un PDF con formato.
PDF a Word — conserva los títulos y el estilo en línea, no solo las palabras.
OCR PDF — haz que un PDF escaneado permita extraer texto primero.
Resumir PDF — deja que un LLM lea el PDF y te dé los puntos clave.

Herramientas

Soluciones

Empresa

Producto

PDF a texto

Selecciona un PDF

Your file is ready

Cómo convertir PDF a texto

Elige un PDF

Elige el separador

Descarga el .txt

Herramientas PDF relacionadas

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

¿Qué es «PDF a texto»?

Cómo funciona PDF a texto en tu navegador

Casos de uso habituales

Privacidad y seguridad

Preguntas frecuentes

Consejos para obtener los mejores resultados

Herramientas PDF relacionadas