PDF in Text
Extrahiere den Text aus einem PDF in eine .txt-Datei. 100% in deinem Browser — nichts wird hochgeladen.
Wähle ein PDF
oder ziehe ein PDF hierher
—
Your file is ready
Processed entirely in your browser — the file never left your device.
So wandelst du PDF in Text um
Drei Schritte. Alles läuft lokal ab.
Wähle ein PDF
Ziehe oder wähle ein PDF. Es wird lokal gelesen, ohne Hochladen.
Wähle das Trennzeichen
Wie die Seitenumbrüche im Ergebnis markiert werden. Standard sind lesbare Markierungen.
Lade die .txt herunter
Eine reine UTF-8-Textdatei, die sich in jedem Editor öffnen lässt.
Was bedeutet „PDF in Text“?
Ein PDF in Text umzuwandeln bedeutet, ein PDF-Dokument auf seine reinen Wörter zu reduzieren: ohne Schriftarten, ohne Bilder, ohne Layout. Das Ergebnis ist eine .txt-Datei in UTF-8, die sich in jedem Editor, auf jedem Betriebssystem, in jedem Jahrzehnt öffnen lässt. Es ist das Format der Wahl, wenn du ein Dokument mit grep durchsuchen, es in einen Chatbot einfügen, an ein Skript übergeben oder einfach das, was im PDF stand, in der kleinstmöglichen Datei archivieren möchtest.
Der Text eines normalen PDFs wird als Folge positionierter Zeichen gespeichert. Dieses Werkzeug liest diese Zeichen erneut ein, gruppiert sie anhand der Y-Koordinate zu Zeilen, sortiert die Zeilen von oben nach unten, ordnet die Elemente innerhalb jeder Zeile von links nach rechts und schreibt das Ergebnis als eine einzige UTF-8-Zeichenkette, eine Seite nach der anderen.
So funktioniert PDF in Text in deinem Browser
Wenn du ein PDF hineinziehst, liest dein Browser es in den Speicher. Wir
übergeben die Bytes an
PDF.js,
Mozillas quelloffene PDF-Engine. Für jede Seite rufen wir
getTextContent() auf, das jedes Textelement mit seiner
Position zurückgibt. Wir gruppieren die Elemente zu Zeilen, sortieren sie
in Leserichtung und fügen sie zu einer einzigen Zeichenkette zusammen. Es
gibt keinen OCR-Schritt: Text, der bereits als Text im PDF vorliegt, wird
direkt extrahiert. Ist das PDF ein gescanntes Bild, ist die Textebene
leer und es kommt nichts heraus (nutze in dem Fall zuerst OCR).
Das Ergebnis wird in einen Blob geschrieben und als Download angeboten. Es wird nichts hochgeladen. Die gesamte Pipeline – Analyse, Extraktion, Verpacken – läuft im Tab deines Browsers. Du kannst sie offline ausführen und sie funktioniert trotzdem.
Häufige Anwendungsfälle
- Durchsuchbares Archiv eines PDF-Ordners. Extrahiere den Text aus jedem PDF, speichere die .txt daneben, und nun findet grep alles in Sekunden.
- Ein PDF in ChatGPT/Claude/Gemini einfügen. Die meisten LLM-Weboberflächen verarbeiten reinen Text viel besser als PDFs: Füge die .txt ein und stelle deine Frage.
- Zwei Versionen eines Dokuments vergleichen. Extrahiere beide PDFs, führe
diffaus und sieh genau, was sich geändert hat. - Vorverarbeitung für NLP / Skripte. Stimmungsanalyse, Entitätsextraktion, Zusammenfassung – alle nehmen Text, kein PDF.
- Barrierefreiheit. Wandle in Text um und füge ihn in einen Editor ein, der mit Screenreadern kompatibel ist.
Datenschutz und Sicherheit
Verträge, Gehaltsabrechnungen, Krankenakten, interne Berichte – genau die Art von Dokumenten, aus denen Menschen am liebsten Text extrahieren, sind die, die sie am wenigsten auf dem Server eines Fremden haben möchten. Die meisten Online-Werkzeuge für PDF in Text laden die Datei hoch, extrahieren den Text auf ihrem Server und liefern eine .txt. imisspdf erledigt dieselbe Arbeit mit PDF.js, das in deinem Tab läuft. Es gibt kein Hochladen, kein Konto, kein tägliches Limit. Sieh dir unsere Datenschutz-Rezension zu iLovePDF an, um zu sehen, wie das übliche Upload-Modell wirklich aussieht.
Häufig gestellte Fragen
Gescannte PDFs sind Bilder von Seiten, kein Text. Es gibt keine Textebene zum Extrahieren – die Wörter, die du siehst, sind nur Pixel. Lass das PDF zuerst durch unser OCR-Werkzeug laufen; es fügt über dem Bild eine Textebene hinzu, danach kann PDF in Text die Wörter extrahieren. Wenn das PDF durch Abfotografieren oder Scannen von Papier entstanden ist, ist OCR immer der fehlende Schritt.
Nein. Das Ergebnis ist reiner UTF-8-Text – ohne Fett, Kursiv, Schriftgrößen oder Farben. Die Zeilen aus dem Quell-PDF bleiben erhalten, aber mehrspaltige Layouts werden in Leserichtung Spalte für Spalte abgeflacht. Wenn du die Formatierung erhalten musst, nutze stattdessen PDF in Word, das Überschriften und Inline-Stile beibehält.
Nach bestem Bemühen. Tabellen werden anhand der ursprünglichen Spaltenpositionen im PDF in tabulatorartig getrennte Zeilen umgewandelt – meist lesbar, aber nicht perfekt ausgerichtet. Mehrspaltige Artikel werden Spalte für Spalte von oben nach unten extrahiert. Für eine genaue Tabellenextraktion nutze PDF in Excel.
Nein. PDF.js analysiert die Datei in deinem Browser-Tab, extrahiert den Text mit getTextContent() und schreibt das Ergebnis in einen Blob, der auf deinen Computer heruntergeladen wird. Nichts verlässt das Netzwerk. Du kannst das überprüfen, indem du das Werkzeug offline ausführst – es funktioniert trotzdem.
Nicht direkt. Verschlüsselte PDFs lassen sich ohne Passwort nicht analysieren. Lass die Datei zuerst durch unser Werkzeug PDF entsperren laufen (gib das Passwort ein) und bringe dann das entsperrte PDF hierher. Wir lehnen verschlüsselte PDFs ausdrücklich mit einer freundlichen Fehlermeldung ab, statt im Stillen eine leere Datei zurückzugeben.
Tipps für die besten Ergebnisse
- Stammt die Datei von einem Scanner oder einer Kamera, führe zuerst OCR aus. Gescannte PDFs haben keine Textebene zum Extrahieren.
- Wähle „Seitenmarkierungen“ zum Lesen durch Menschen. Das Standard-Trennzeichen macht es leicht zu erkennen, wo eine Seite endet und die nächste beginnt.
- Nutze den Seitenvorschub für alte Drucker/ASCII-Werkzeuge. Wenn du die .txt an etwas Altes übergibst, ist das \f-Zeichen der klassische Seitenumbruch.
- Mehrspaltige PDFs brauchen eine saubere Quelle. Vermischen sich zwei Spalten, kodiert das zugrunde liegende PDF den Text wahrscheinlich in falscher Reihenfolge – versuche, es in Acrobat zu öffnen und neu zu speichern.
- Entsperre verschlüsselte PDFs zuerst. Wir weigern uns, im Stillen leeren Text zurückzugeben – nutze PDF entsperren und komm wieder.
Verwandte PDF-Werkzeuge
- TXT in PDF — das Gegenteil: wandelt reinen Text wieder in ein formatiertes PDF um.
- PDF in Word — behält Überschriften und Inline-Stile bei, nicht nur die Wörter.
- PDF OCR — macht ein gescanntes PDF zuerst extrahierbar.
- PDF zusammenfassen — lass ein LLM das PDF lesen und dir die Kernpunkte geben.