Beranda›Alat›PDF ke Teks

PDF ke Teks

Ekstrak teks dari PDF ke berkas .txt. 100% di peramban Anda — tidak ada yang diunggah.

Pilih sebuah PDF

atau jatuhkan satu PDF di sini

100% in-browser No upload No signup

—

Pemisah halaman

Mengekstrak teks…

Your file is ready

output.pdf · —

Processed entirely in your browser — the file never left your device.

Cara mengubah PDF ke teks

Tiga langkah. Semuanya berjalan secara lokal.

Pilih sebuah PDF

Jatuhkan atau pilih satu PDF. Berkas dibaca secara lokal — tanpa unggah.

Pilih pemisah

Cara menandai pergantian halaman pada keluaran. Bawaannya penanda yang mudah dibaca.

Unduh .txt

Berkas teks polos UTF-8 yang bisa dibuka di setiap editor.

Lanjutkan

Alat PDF terkait

PNG to PDF

Convert PNG images to PDF with transparency support.

Apa itu «PDF ke Teks»?

Mengubah PDF ke teks berarti menyederhanakan dokumen PDF menjadi kata-kata polosnya — tanpa fon, tanpa gambar, tanpa tata letak. Hasilnya berupa berkas .txt UTF-8 yang bisa dibuka di setiap editor, setiap sistem operasi, setiap dekade. Inilah format pilihan saat Anda perlu mencari (grep) sebuah dokumen, menempelkannya ke chatbot, mengumpankannya ke skrip, atau sekadar mengarsipkan isi PDF dalam berkas sekecil mungkin.

Teks pada PDF normal disimpan sebagai serangkaian karakter berposisi. Alat ini membaca kembali karakter-karakter itu, mengelompokkannya menjadi baris berdasarkan koordinat Y, mengurutkan baris dari atas ke bawah, mengurutkan item dari kiri ke kanan dalam tiap baris, lalu menulis hasilnya sebagai satu string UTF-8 dengan halaman demi halaman.

Cara kerja PDF ke Teks di peramban Anda

Saat Anda menjatuhkan PDF, peramban Anda membacanya ke memori. Kami menyerahkan bita itu ke PDF.js, mesin PDF sumber terbuka dari Mozilla. Untuk tiap halaman kami memanggil getTextContent(), yang mengembalikan tiap item teks beserta posisinya. Kami mengelompokkan item menjadi baris, mengurutkannya dalam urutan baca, lalu menggabungkannya menjadi satu string. Tidak ada langkah OCR — teks yang sudah ada di PDF sebagai teks diekstrak secara langsung. Jika PDF berupa gambar hasil pindai, lapisan teksnya kosong dan tidak ada yang keluar (dalam kasus itu, pakai OCR lebih dulu).

Hasilnya ditulis ke sebuah Blob dan ditawarkan untuk diunduh. Tidak ada yang diunggah. Seluruh alur — penguraian, ekstraksi, pengemasan — berjalan di dalam tab peramban Anda. Anda bisa menjalankannya offline dan ia tetap berfungsi.

Contoh penggunaan umum

Arsip yang bisa dicari dari satu folder PDF. Ekstrak teks dari tiap PDF, simpan .txt di sebelahnya, dan kini grep menemukan apa pun dalam hitungan detik.
Menempelkan PDF ke ChatGPT/Claude/Gemini. Sebagian besar antarmuka web LLM menerima teks polos jauh lebih mulus daripada PDF — tempel .txt-nya lalu bertanya.
Membandingkan dua versi dokumen. Ekstrak kedua PDF, jalankan diff, dan lihat persis apa yang berubah.
Prapemrosesan untuk NLP / skrip. Analisis sentimen, ekstraksi entitas bernama, perangkuman — semuanya menerima teks, bukan PDF.
Aksesibilitas. Ubah ke teks, tempelkan ke editor yang ramah pembaca layar.

Privasi & keamanan

Kontrak, slip gaji, rekam medis, laporan internal — jenis dokumen yang paling ingin diekstrak teksnya justru dokumen yang paling tidak ingin tersimpan di server orang asing. Sebagian besar alat PDF-ke-teks daring mengunggah berkas, mengekstrak teks di server mereka, lalu mengirimkan .txt. imisspdf melakukan pekerjaan yang sama dengan PDF.js yang berjalan di dalam tab Anda. Tidak ada unggahan, tidak perlu akun, tidak ada batas harian. Lihat ulasan privasi iLovePDF kami untuk melihat seperti apa sebenarnya model unggah standar itu.

Pertanyaan yang sering diajukan

PDF hasil pindai adalah gambar halaman, bukan teks. Tidak ada lapisan teks untuk diekstrak — kata-kata yang Anda lihat hanyalah piksel. Jalankan dulu PDF lewat alat OCR kami; alat itu menambahkan lapisan teks di atas gambar, setelah itu PDF ke teks bisa mengekstrak kata-katanya. Jika PDF dibuat dengan memotret atau memindai kertas, OCR selalu menjadi langkah yang hilang.

Tidak. Keluarannya berupa teks polos UTF-8 — tanpa tebal, miring, ukuran fon, atau warna. Baris dari PDF sumber dipertahankan, tetapi tata letak berkolom banyak diratakan menjadi urutan baca satu kolom demi satu kolom. Jika Anda perlu mempertahankan format, pakai PDF ke Word, yang menjaga judul dan gaya sebaris.

Upaya terbaik. Tabel menjadi baris bergaya pemisah-tab berdasarkan posisi kolom asli di PDF — biasanya terbaca tetapi tidak sejajar sempurna. Artikel berkolom banyak diekstrak satu kolom demi satu kolom, dari atas ke bawah. Untuk ekstraksi tabel yang akurat, pakai PDF ke Excel.

Tidak. PDF.js mengurai berkas di dalam tab peramban Anda, mengekstrak teks memakai getTextContent(), lalu menuliskan hasilnya ke sebuah Blob yang terunduh ke komputer Anda. Tidak ada yang melintasi jaringan. Anda bisa membuktikannya dengan menjalankan alat ini saat offline — ia tetap berfungsi.

Tidak secara langsung. PDF terenkripsi tidak bisa diurai tanpa kata sandinya. Jalankan dulu berkas lewat alat Buka Kunci PDF kami (masukkan kata sandinya), lalu bawa PDF yang sudah terbuka ke sini. Kami menolak PDF terenkripsi secara eksplisit dengan galat yang ramah, alih-alih diam-diam mengembalikan berkas kosong.

Tips untuk hasil terbaik

Jika berkas berasal dari pemindai atau kamera, jalankan OCR lebih dulu. PDF hasil pindai tidak punya lapisan teks untuk diekstrak.
Pilih «Penanda halaman» untuk dibaca manusia. Pemisah bawaan memudahkan menemukan di mana satu halaman berakhir dan halaman berikutnya dimulai.
Pakai ganti halaman untuk pencetak/alat lawas ASCII. Jika Anda menyalurkan .txt ke sesuatu yang lawas, karakter \f adalah pemisah halaman tradisional.
PDF berkolom banyak butuh sumber yang bersih. Jika dua kolom saling bercampur, PDF dasarnya kemungkinan menyandikan teks secara tidak berurutan — coba buka di Acrobat lalu simpan ulang.
Buka kunci PDF terenkripsi lebih dulu. Kami menolak diam-diam mengembalikan teks kosong — Buka Kunci PDF, lalu kembali ke sini.

Alat PDF terkait

TXT to PDF — kebalikannya: ubah teks polos kembali menjadi PDF berformat.
PDF to Word — mempertahankan judul dan gaya sebaris, bukan hanya kata-katanya.
OCR PDF — buat PDF hasil pindai bisa diekstrak teksnya lebih dulu.
Summarize PDF — biarkan LLM membaca PDF dan memberi Anda poin-poin pentingnya.

Alat

Solusi

Perusahaan

Produk

PDF ke Teks

Pilih sebuah PDF

Your file is ready

Cara mengubah PDF ke teks

Pilih sebuah PDF

Pilih pemisah

Unduh .txt

Alat PDF terkait

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

Apa itu «PDF ke Teks»?

Cara kerja PDF ke Teks di peramban Anda

Contoh penggunaan umum

Privasi & keamanan

Pertanyaan yang sering diajukan

Tips untuk hasil terbaik

Alat PDF terkait