Cara mengubah PDF ke teks
Tiga langkah. Semuanya berjalan secara lokal.
Pilih sebuah PDF
Jatuhkan atau pilih satu PDF. Berkas dibaca secara lokal — tanpa unggah.
Pilih pemisah
Cara menandai pergantian halaman pada keluaran. Bawaannya penanda yang mudah dibaca.
Unduh .txt
Berkas teks polos UTF-8 yang bisa dibuka di setiap editor.
Apa itu «PDF ke Teks»?
Mengubah PDF ke teks berarti menyederhanakan dokumen PDF menjadi kata-kata polosnya — tanpa fon, tanpa gambar, tanpa tata letak. Hasilnya berupa berkas .txt UTF-8 yang bisa dibuka di setiap editor, setiap sistem operasi, setiap dekade. Inilah format pilihan saat Anda perlu mencari (grep) sebuah dokumen, menempelkannya ke chatbot, mengumpankannya ke skrip, atau sekadar mengarsipkan isi PDF dalam berkas sekecil mungkin.
Teks pada PDF normal disimpan sebagai serangkaian karakter berposisi. Alat ini membaca kembali karakter-karakter itu, mengelompokkannya menjadi baris berdasarkan koordinat Y, mengurutkan baris dari atas ke bawah, mengurutkan item dari kiri ke kanan dalam tiap baris, lalu menulis hasilnya sebagai satu string UTF-8 dengan halaman demi halaman.
Cara kerja PDF ke Teks di peramban Anda
Saat Anda menjatuhkan PDF, peramban Anda membacanya ke memori. Kami menyerahkan
bita itu ke
PDF.js,
mesin PDF sumber terbuka dari Mozilla. Untuk tiap halaman kami memanggil
getTextContent(), yang mengembalikan tiap item teks beserta
posisinya. Kami mengelompokkan item menjadi baris, mengurutkannya dalam urutan
baca, lalu menggabungkannya menjadi satu string. Tidak ada langkah OCR —
teks yang sudah ada di PDF sebagai teks diekstrak secara langsung. Jika
PDF berupa gambar hasil pindai, lapisan teksnya kosong dan tidak ada yang
keluar (dalam kasus itu, pakai OCR lebih dulu).
Hasilnya ditulis ke sebuah Blob dan ditawarkan untuk diunduh. Tidak ada yang diunggah. Seluruh alur — penguraian, ekstraksi, pengemasan — berjalan di dalam tab peramban Anda. Anda bisa menjalankannya offline dan ia tetap berfungsi.
Contoh penggunaan umum
- Arsip yang bisa dicari dari satu folder PDF. Ekstrak teks dari tiap PDF, simpan .txt di sebelahnya, dan kini grep menemukan apa pun dalam hitungan detik.
- Menempelkan PDF ke ChatGPT/Claude/Gemini. Sebagian besar antarmuka web LLM menerima teks polos jauh lebih mulus daripada PDF — tempel .txt-nya lalu bertanya.
- Membandingkan dua versi dokumen. Ekstrak kedua PDF, jalankan
diff, dan lihat persis apa yang berubah. - Prapemrosesan untuk NLP / skrip. Analisis sentimen, ekstraksi entitas bernama, perangkuman — semuanya menerima teks, bukan PDF.
- Aksesibilitas. Ubah ke teks, tempelkan ke editor yang ramah pembaca layar.
Privasi & keamanan
Kontrak, slip gaji, rekam medis, laporan internal — jenis dokumen yang paling ingin diekstrak teksnya justru dokumen yang paling tidak ingin tersimpan di server orang asing. Sebagian besar alat PDF-ke-teks daring mengunggah berkas, mengekstrak teks di server mereka, lalu mengirimkan .txt. imisspdf melakukan pekerjaan yang sama dengan PDF.js yang berjalan di dalam tab Anda. Tidak ada unggahan, tidak perlu akun, tidak ada batas harian. Lihat ulasan privasi iLovePDF kami untuk melihat seperti apa sebenarnya model unggah standar itu.
Pertanyaan yang sering diajukan
PDF hasil pindai adalah gambar halaman, bukan teks. Tidak ada lapisan teks untuk diekstrak — kata-kata yang Anda lihat hanyalah piksel. Jalankan dulu PDF lewat alat OCR kami; alat itu menambahkan lapisan teks di atas gambar, setelah itu PDF ke teks bisa mengekstrak kata-katanya. Jika PDF dibuat dengan memotret atau memindai kertas, OCR selalu menjadi langkah yang hilang.
Tidak. Keluarannya berupa teks polos UTF-8 — tanpa tebal, miring, ukuran fon, atau warna. Baris dari PDF sumber dipertahankan, tetapi tata letak berkolom banyak diratakan menjadi urutan baca satu kolom demi satu kolom. Jika Anda perlu mempertahankan format, pakai PDF ke Word, yang menjaga judul dan gaya sebaris.
Upaya terbaik. Tabel menjadi baris bergaya pemisah-tab berdasarkan posisi kolom asli di PDF — biasanya terbaca tetapi tidak sejajar sempurna. Artikel berkolom banyak diekstrak satu kolom demi satu kolom, dari atas ke bawah. Untuk ekstraksi tabel yang akurat, pakai PDF ke Excel.
Tidak. PDF.js mengurai berkas di dalam tab peramban Anda, mengekstrak teks memakai getTextContent(), lalu menuliskan hasilnya ke sebuah Blob yang terunduh ke komputer Anda. Tidak ada yang melintasi jaringan. Anda bisa membuktikannya dengan menjalankan alat ini saat offline — ia tetap berfungsi.
Tidak secara langsung. PDF terenkripsi tidak bisa diurai tanpa kata sandinya. Jalankan dulu berkas lewat alat Buka Kunci PDF kami (masukkan kata sandinya), lalu bawa PDF yang sudah terbuka ke sini. Kami menolak PDF terenkripsi secara eksplisit dengan galat yang ramah, alih-alih diam-diam mengembalikan berkas kosong.
Tips untuk hasil terbaik
- Jika berkas berasal dari pemindai atau kamera, jalankan OCR lebih dulu. PDF hasil pindai tidak punya lapisan teks untuk diekstrak.
- Pilih «Penanda halaman» untuk dibaca manusia. Pemisah bawaan memudahkan menemukan di mana satu halaman berakhir dan halaman berikutnya dimulai.
- Pakai ganti halaman untuk pencetak/alat lawas ASCII. Jika Anda menyalurkan .txt ke sesuatu yang lawas, karakter \f adalah pemisah halaman tradisional.
- PDF berkolom banyak butuh sumber yang bersih. Jika dua kolom saling bercampur, PDF dasarnya kemungkinan menyandikan teks secara tidak berurutan — coba buka di Acrobat lalu simpan ulang.
- Buka kunci PDF terenkripsi lebih dulu. Kami menolak diam-diam mengembalikan teks kosong — Buka Kunci PDF, lalu kembali ke sini.
Alat PDF terkait
- TXT to PDF — kebalikannya: ubah teks polos kembali menjadi PDF berformat.
- PDF to Word — mempertahankan judul dan gaya sebaris, bukan hanya kata-katanya.
- OCR PDF — buat PDF hasil pindai bisa diekstrak teksnya lebih dulu.
- Summarize PDF — biarkan LLM membaca PDF dan memberi Anda poin-poin pentingnya.