PDF'den Metne
Bir PDF'nin metnini bir .txt dosyasına çıkarın. %100 tarayıcınızda — hiçbir şey yüklenmez.
Bir PDF seçin
veya bir PDF'yi buraya bırakın
—
Your file is ready
Processed entirely in your browser — the file never left your device.
PDF'den metne nasıl dönüştürülür
Üç adım. Her şey yerel olarak çalışır.
Bir PDF seçin
Bir PDF'yi sürükleyin veya seçin. Yerel olarak okunur, yükleme yok.
Ayırıcıyı seçin
Sonuçta sayfa sonları nasıl işaretlensin. Varsayılan olarak okunabilir işaretler.
.txt'yi indirin
Herhangi bir düzenleyicide açılan UTF-8 düz metin dosyası.
"PDF'den Metne" nedir?
Bir PDF'yi metne dönüştürmek, bir PDF belgesini ham kelimelerine indirgemek demektir: yazı tipleri yok, görüntüler yok, düzen yok. Sonuç, herhangi bir düzenleyicide, herhangi bir işletim sisteminde, herhangi bir on yılda açılan UTF-8 bir .txt dosyasıdır. Bir belgede grep ile arama yapmanız, onu bir sohbet botuna yapıştırmanız, bir betiği beslemeniz ya da yalnızca PDF'nin ne söylediğini mümkün olan en küçük dosyada arşivlemeniz gerektiğinde tercih edilen biçimdir.
Normal bir PDF'deki metin, konumlandırılmış bir karakter dizisi olarak saklanır. Bu araç bu karakterleri tekrar okur, onları Y koordinatına göre satırlar hâlinde gruplar, satırları yukarıdan aşağıya sıralar, her satırın içindeki öğeleri soldan sağa sıralar ve sonucu, sayfa sayfa tek bir UTF-8 dizesi olarak yazar.
Tarayıcınızda PDF'den metne nasıl çalışır
Bir PDF'yi sürüklediğinizde, tarayıcınız onu belleğe okur. Baytları
PDF.js
motoruna, yani Mozilla'nın açık kaynaklı PDF motoruna teslim ederiz. Her
sayfa için
getTextContent() çağırırız; bu, her metin öğesini konumuyla
birlikte döndürür. Öğeleri satırlar hâlinde gruplar, onları okuma
sırasına göre sıralar ve tek bir dizede birleştiririz. OCR adımı yoktur:
PDF'de zaten metin olarak bulunan metin doğrudan çıkarılır. PDF taranmış
bir görüntüyse, metin katmanı boştur ve hiçbir şey çıkmaz (bu durumda
önce OCR kullanın).
Sonuç bir Blob'a yazılır ve indirme olarak sunulur. Hiçbir şey yüklenmez. Tüm boru hattı — ayrıştırma, çıkarma, paketleme — tarayıcı sekmenizin içinde çalışır. Onu çevrimdışı çalıştırabilirsiniz ve yine de çalışır.
Yaygın kullanım örnekleri
- Bir PDF klasörünün aranabilir arşivi. Her PDF'den metni çıkarın, .txt'yi yanına kaydedin ve artık grep her şeyi saniyeler içinde bulsun.
- Bir PDF'yi ChatGPT/Claude/Gemini'ye yapıştırma. Çoğu LLM web arayüzü düz metni PDF'lerden çok daha iyi kabul eder: .txt'yi yapıştırın ve sorun.
- Bir belgenin iki sürümünü karşılaştırma. Her iki PDF'yi çıkarın,
diffçalıştırın ve tam olarak neyin değiştiğini görün. - NLP / betikler için ön işleme. Duygu analizi, varlık çıkarımı, özetleme — hepsi PDF değil metin alır.
- Erişilebilirlik. Metne dönüştürün ve onu ekran okuyucu uyumlu bir düzenleyiciye yapıştırın.
Gizlilik ve güvenlik
Sözleşmeler, bordrolar, tıbbi kayıtlar, dahili raporlar — insanların metin çıkarmak istediği belge türleri, tam da bir yabancının sunucusunda olmasını en az istedikleri belgelerdir. Çoğu çevrimiçi PDF'den metne aracı dosyayı yükler, metni sunucularında çıkarır ve bir .txt verir. imisspdf, aynı işi sekmenizde çalışan PDF.js ile yapar. Yükleme yok, hesap yok, günlük sınır yok. Standart yükleme modelinin gerçekte nasıl olduğunu görmek için iLovePDF gizlilik incelememize bakın.
Sık sorulan sorular
Taranmış PDF'ler sayfaların görüntüleridir, metin değildir. Çıkarılacak bir metin katmanı yoktur — gördüğünüz kelimeler sadece piksellerdir. PDF'yi önce OCR aracımızdan geçirin; görüntünün üzerine bir metin katmanı ekler, ardından PDF'den metne onu çıkarabilir. PDF kâğıdı fotoğraflayarak veya tarayarak oluşturulduysa, eksik adım her zaman OCR'dir.
Hayır. Çıktı düz UTF-8 metindir — kalın, italik, yazı tipi boyutu veya renk yoktur. Kaynak PDF'deki satırlar korunur, ancak çok sütunlu düzenler okuma sırasına göre tek seferde bir sütun olacak şekilde düzleştirilir. Biçimlendirmenin korunması gerekiyorsa, başlıkları ve satır içi stili koruyan PDF'den Word'e aracını kullanın.
Elden gelenin en iyisi. Tablolar, PDF'deki orijinal sütun konumlarına göre sekmeyle ayrılmış gibi satırlara dönüşür — genellikle okunabilir ama tam olarak hizalı değildir. Çok sütunlu makaleler yukarıdan aşağıya, tek seferde bir sütun olarak çıkarılır. Doğru tablo çıkarımı için PDF'den Excel'e aracını kullanın.
Hayır. PDF.js dosyayı tarayıcı sekmenizde ayrıştırır, metni getTextContent() ile çıkarır ve sonucu bilgisayarınıza inen bir Blob'a yazar. Hiçbir şey ağdan geçmez. Bunu aracı çevrimdışı çalıştırarak doğrulayabilirsiniz — yine de çalışır.
Doğrudan değil. Şifreli PDF'ler parola olmadan ayrıştırılamaz. Dosyayı önce Kilit Açma PDF aracımızdan geçirin (parolayı girin), ardından kilidi açılmış PDF'yi buraya getirin. Şifreli PDF'leri sessizce boş bir dosya döndürmek yerine açıkça dostça bir hatayla reddederiz.
En iyi sonuçlar için ipuçları
- Dosya bir tarayıcı veya kameradan geliyorsa önce OCR çalıştırın. Taranmış PDF'lerin çıkarılacak bir metin katmanı yoktur.
- İnsan okuması için "Sayfa işaretleri"ni seçin. Varsayılan ayırıcı, bir sayfanın nerede bitip diğerinin nerede başladığını bulmayı kolaylaştırır.
- Eski ASCII yazıcılar/araçlar için sayfa atlama karakterini kullanın. .txt'yi eski bir şeye aktaracaksanız, \f karakteri geleneksel sayfa sonudur.
- Çok sütunlu PDF'ler temiz bir kaynak gerektirir. İki sütun birbirine karışıyorsa, alttaki PDF metni muhtemelen sırasız kodluyordur — onu Acrobat'ta açıp tekrar kaydetmeyi deneyin.
- Şifreli PDF'lerin önce kilidini açın. Sessizce boş metin döndürmeyi reddederiz — Kilit Açma PDF ve geri dönün.
İlgili PDF araçları
- TXT'den PDF'e — tersi: düz metni tekrar biçimlendirilmiş bir PDF'ye dönüştürür.
- PDF'den Word'e — yalnızca kelimeleri değil, başlıkları ve satır içi stili korur.
- OCR PDF — önce taranmış bir PDF'nin metin çıkarmasına izin verin.
- PDF'yi özetle — bir LLM PDF'yi okusun ve size önemli noktaları versin.