Come convertire un PDF in testo
Tre passaggi. Tutto avviene in locale.
Scegli un PDF
Trascina o seleziona un PDF. Viene letto in locale, senza caricamento.
Scegli il separatore
Come segnare i salti di pagina nel risultato. Per impostazione predefinita, marcatori leggibili.
Scarica il .txt
File di testo semplice UTF-8 che si apre in qualsiasi editor.
Che cos'è "PDF in testo"?
Convertire un PDF in testo significa ridurre un documento PDF alle sue parole grezze: senza font, senza immagini, senza layout. Il risultato è un file .txt in UTF-8 che si apre in qualsiasi editor, qualsiasi sistema operativo, qualsiasi decennio. È il formato ideale quando devi cercare con grep in un documento, incollarlo in un chatbot, alimentare uno script o semplicemente archiviare ciò che diceva il PDF nel file più piccolo possibile.
Il testo di un PDF normale viene memorizzato come una sequenza di caratteri posizionati. Questo strumento rilegge quei caratteri, li raggruppa in righe per coordinata Y, ordina le righe dall'alto verso il basso, ordina gli elementi da sinistra a destra all'interno di ogni riga e scrive il risultato come un'unica stringa UTF-8 con una pagina dopo l'altra.
Come funziona PDF in testo nel tuo browser
Quando trascini un PDF, il tuo browser lo legge in memoria. Consegniamo i
byte a
PDF.js,
il motore PDF open source di Mozilla. Per ogni pagina chiamiamo
getTextContent(), che restituisce ogni elemento di testo con la sua
posizione. Raggruppiamo gli elementi in righe, le ordiniamo nell'ordine
di lettura e le concateniamo in un'unica stringa. Non c'è alcun passaggio di OCR:
il testo già presente nel PDF come testo viene estratto direttamente. Se
il PDF è un'immagine scansionata, il livello di testo è vuoto e non esce
nulla (in quel caso, usa prima l'OCR).
Il risultato viene scritto in un Blob e offerto come download. Nulla viene caricato. L'intera pipeline — analisi, estrazione, impacchettamento — viene eseguita all'interno della scheda del tuo browser. Puoi eseguirla offline e funziona comunque.
Casi d'uso comuni
- Archivio ricercabile di una cartella di PDF. Estrai il testo da ogni PDF, salva il .txt accanto ad esso e ora grep trova qualsiasi cosa in pochi secondi.
- Incollare un PDF in ChatGPT/Claude/Gemini. La maggior parte delle interfacce web degli LLM accetta il testo semplice molto meglio dei PDF: incolla il .txt e fai la tua domanda.
- Confrontare due versioni di un documento. Estrai entrambi i PDF, esegui
diffe vedi esattamente cosa è cambiato. - Pre-elaborazione per NLP / script. Analisi del sentiment, estrazione di entità, riassunto — tutti prendono testo, non PDF.
- Accessibilità. Converti in testo e incollalo in un editor compatibile con i lettori di schermo.
Privacy e sicurezza
Contratti, buste paga, cartelle cliniche, report interni — il tipo di documenti da cui si vuole più spesso estrarre testo sono proprio quelli che si vuole meno far finire sul server di uno sconosciuto. La maggior parte degli strumenti online da PDF a testo carica il file, estrae il testo sul proprio server e restituisce un .txt. imisspdf svolge lo stesso lavoro con PDF.js eseguito all'interno della tua scheda. Nessun caricamento, nessun account, nessun limite giornaliero. Leggi la nostra recensione sulla privacy di iLovePDF per vedere com'è davvero il consueto modello basato sul caricamento.
Domande frequenti
I PDF scansionati sono immagini di pagine, non testo. Non c'è alcun livello di testo da estrarre: le parole che vedi sono solo pixel. Passa prima il PDF attraverso il nostro strumento OCR; aggiunge un livello di testo sopra l'immagine, dopodiché pdf-to-text può estrarre le parole. Se il PDF è stato creato fotografando o scansionando carta, l'OCR è sempre il passaggio mancante.
No. Il risultato è testo semplice UTF-8: niente grassetto, corsivo, dimensioni dei caratteri o colori. Le righe del PDF di origine vengono mantenute, ma i layout multicolonna vengono appiattiti nell'ordine di lettura, una colonna alla volta. Se hai bisogno di conservare la formattazione, usa invece PDF in Word, che mantiene titoli e stili in linea.
Risultato ottimale possibile. Le tabelle diventano righe con valori separati da tabulazioni in base alle posizioni originali delle colonne nel PDF: di solito leggibili ma non perfettamente allineate. Gli articoli multicolonna vengono estratti una colonna alla volta, dall'alto verso il basso. Per un'estrazione accurata delle tabelle, usa PDF in Excel.
No. PDF.js analizza il file all'interno della scheda del tuo browser, estrae il testo usando getTextContent() e scrive il risultato in un Blob che viene scaricato sul tuo computer. Nulla attraversa la rete. Puoi verificarlo eseguendo lo strumento offline: funziona comunque.
Non direttamente. I PDF crittografati non possono essere analizzati senza la password. Passa prima il file attraverso il nostro strumento Sblocca PDF (fornisci la password), poi porta qui il PDF sbloccato. Rifiutiamo esplicitamente i PDF crittografati con un messaggio di errore chiaro invece di restituire silenziosamente un file vuoto.
Consigli per ottenere i risultati migliori
- Se il file proviene da uno scanner o da una fotocamera, esegui prima l'OCR. I PDF scansionati non hanno alcun livello di testo da estrarre.
- Scegli "Marcatori di pagina" per la lettura umana. Il separatore predefinito rende facile trovare dove finisce una pagina e inizia la successiva.
- Usa l'avanzamento pagina per stampanti/strumenti datati in ASCII. Se invii il .txt a qualcosa di datato, il carattere \f è il salto pagina tradizionale.
- I PDF multicolonna richiedono un'origine pulita. Se due colonne si mescolano tra loro, il PDF sottostante probabilmente codifica il testo in ordine errato — prova ad aprirlo in Acrobat e a salvarlo di nuovo.
- Sblocca prima i PDF crittografati. Ci rifiutiamo di restituire silenziosamente testo vuoto — Sblocca PDF e torna qui.
Strumenti PDF correlati
- TXT in PDF — l'operazione inversa: converte il testo semplice di nuovo in un PDF formattato.
- PDF in Word — conserva i titoli e lo stile in linea, non solo le parole.
- OCR PDF — rendi prima estraibile il testo di un PDF scansionato.
- Riassumi PDF — lascia che un LLM legga il PDF e ti dia i punti chiave.