Outils
Merge PDF Split PDF Compress PDF Tous les outils →
Solutions
For Business For Education For Developers
Entreprise
À propos Blog Press Contact
Produit
Tarifs Fonctionnalités FAQ Security
AccueilOutilsPDF en texte

PDF en texte

Extrayez le texte d’un PDF vers un fichier .txt. 100 % dans votre navigateur — rien n’est téléversé.

Sélectionnez un PDF

ou déposez un PDF ici

100% in-browser No upload No signup

Comment convertir un PDF en texte

Trois étapes. Tout s’exécute localement.

1

Choisissez un PDF

Déposez ou sélectionnez un PDF. Il est lu localement, sans téléversement.

2

Choisissez le séparateur

Comment marquer les sauts de page dans le résultat. Par défaut, des repères lisibles.

3

Téléchargez le .txt

Un fichier texte brut UTF-8 qui s’ouvre dans n’importe quel éditeur.

Qu’est-ce que « PDF en texte » ?

Convertir un PDF en texte signifie réduire un document PDF à ses mots bruts : sans polices, sans images, sans mise en page. Le résultat est un fichier .txt en UTF-8 qui s’ouvre dans n’importe quel éditeur, n’importe quel système, n’importe quelle décennie. C’est le format de choix quand vous devez chercher avec grep dans un document, le coller dans un agent conversationnel, l’injecter dans un script ou simplement archiver ce que disait le PDF dans le plus petit fichier possible.

Le texte d’un PDF normal est stocké comme une suite de caractères positionnés. Cet outil relit ces caractères, les regroupe en lignes selon la coordonnée Y, ordonne les lignes de haut en bas, ordonne les éléments de gauche à droite à l’intérieur de chaque ligne, et écrit le résultat sous forme d’une seule chaîne UTF-8 avec une page après l’autre.

Comment fonctionne PDF en texte dans votre navigateur

Quand vous déposez un PDF, votre navigateur le lit en mémoire. Nous remettons les octets à PDF.js, le moteur PDF open source de Mozilla. Pour chaque page, nous appelons getTextContent(), qui renvoie chaque élément de texte avec sa position. Nous regroupons les éléments en lignes, les ordonnons dans l’ordre de lecture et les concaténons en une seule chaîne. Il n’y a pas d’étape d’OCR : le texte déjà présent dans le PDF en tant que texte est extrait directement. Si le PDF est une image scannée, la couche de texte est vide et rien ne sort (dans ce cas, utilisez d’abord l’OCR).

Le résultat est écrit dans un Blob et proposé au téléchargement. Rien n’est téléversé. Toute la chaîne — analyse, extraction, empaquetage — s’exécute dans l’onglet de votre navigateur. Vous pouvez la lancer hors ligne et elle fonctionne toujours.

Cas d’usage courants

  • Archive consultable d’un dossier de PDF. Extrayez le texte de chaque PDF, enregistrez le .txt à côté, et désormais grep trouve n’importe quoi en quelques secondes.
  • Coller un PDF dans ChatGPT/Claude/Gemini. La plupart des interfaces web de LLM acceptent bien mieux le texte brut que les PDF : collez le .txt et posez votre question.
  • Comparer deux versions d’un document. Extrayez les deux PDF, lancez diff et voyez exactement ce qui a changé.
  • Prétraitement pour le TAL / les scripts. Analyse de sentiment, extraction d’entités, résumé — tout cela prend du texte, pas des PDF.
  • Accessibilité. Convertissez en texte et collez-le dans un éditeur compatible avec les lecteurs d’écran.

Confidentialité et sécurité

Contrats, bulletins de paie, dossiers médicaux, rapports internes — le type de documents dont les gens veulent le plus extraire le texte sont justement ceux qu’ils veulent le moins voir sur le serveur d’un inconnu. La plupart des outils en ligne de PDF en texte téléversent le fichier, en extraient le texte sur leur serveur et livrent un .txt. imisspdf fait le même travail avec PDF.js exécuté dans votre onglet. Pas de téléversement, pas de compte, pas de limite quotidienne. Consultez notre analyse de confidentialité d’iLovePDF pour voir à quoi ressemble vraiment le modèle de téléversement standard.

Questions fréquentes

Les PDF scannés sont des images de pages, pas du texte. Il n’y a pas de couche de texte à extraire — les mots que vous voyez ne sont que des pixels. Passez d’abord le PDF dans notre outil OCR ; il ajoute une couche de texte par-dessus l’image, après quoi PDF en texte peut extraire les mots. Si le PDF a été créé en photographiant ou en numérisant du papier, l’OCR est toujours l’étape manquante.

Non. La sortie est du texte brut UTF-8 — pas de gras, d’italique, de tailles de police ni de couleurs. Les lignes du PDF source sont conservées, mais les mises en page multicolonnes sont aplaties dans l’ordre de lecture, une colonne à la fois. Si vous devez conserver la mise en forme, utilisez plutôt PDF en Word, qui garde les titres et le style en ligne.

Au mieux. Les tableaux deviennent des lignes plus ou moins séparées par des tabulations, d’après les positions de colonnes d’origine dans le PDF — généralement lisibles mais pas parfaitement alignées. Les articles multicolonnes sont extraits une colonne à la fois, de haut en bas. Pour une extraction de tableaux précise, utilisez PDF en Excel.

Non. PDF.js analyse le fichier dans l’onglet de votre navigateur, extrait le texte avec getTextContent(), et écrit le résultat dans un Blob qui se télécharge sur votre ordinateur. Rien ne traverse le réseau. Vous pouvez le vérifier en lançant l’outil hors ligne — il fonctionne toujours.

Pas directement. Les PDF chiffrés ne peuvent pas être analysés sans le mot de passe. Passez d’abord le fichier dans notre outil Déverrouiller PDF (en fournissant le mot de passe), puis amenez ici le PDF déverrouillé. Nous refusons explicitement les PDF chiffrés avec un message clair plutôt que de renvoyer silencieusement un fichier vide.

Conseils pour de meilleurs résultats

  • Si le fichier vient d’un scanner ou d’un appareil photo, lancez d’abord l’OCR. Les PDF scannés n’ont pas de couche de texte à extraire.
  • Choisissez « Repères de page » pour la lecture humaine. Le séparateur par défaut facilite le repérage de la fin d’une page et du début de la suivante.
  • Utilisez le saut de page pour les imprimantes/outils anciens en ASCII. Si vous comptez injecter le .txt dans quelque chose d’ancien, le caractère \f est le saut de page traditionnel.
  • Les PDF multicolonnes nécessitent une source propre. Si deux colonnes se mélangent, le PDF sous-jacent encode probablement le texte dans le désordre — essayez de l’ouvrir dans Acrobat et de le réenregistrer.
  • Déverrouillez d’abord les PDF chiffrés. Nous refusons de renvoyer silencieusement un texte vide — passez par Déverrouiller PDF et revenez.

Outils PDF associés

 Français
Get unlimited PDF tools + AI features
Start free trial →