PDF को टेक्स्ट में कैसे बदलें
तीन चरण। सब कुछ स्थानीय रूप से चलता है।
एक PDF चुनें
एक PDF खींचें या चुनें। इसे स्थानीय रूप से पढ़ा जाता है, बिना अपलोड।
विभाजक चुनें
परिणाम में पेज ब्रेक को कैसे चिह्नित करें। डिफ़ॉल्ट रूप से, पठनीय मार्कर।
.txt डाउनलोड करें
सादा UTF-8 टेक्स्ट फ़ाइल जो किसी भी संपादक में खुलती है।
"PDF से टेक्स्ट" क्या है?
PDF को टेक्स्ट में बदलने का मतलब है एक PDF दस्तावेज़ को उसके कच्चे शब्दों तक सीमित करना: कोई फ़ॉन्ट नहीं, कोई छवि नहीं, कोई लेआउट नहीं। परिणाम एक UTF-8 .txt फ़ाइल है जो किसी भी संपादक, किसी भी ऑपरेटिंग सिस्टम, किसी भी दशक में खुलती है। यह पसंदीदा फ़ॉर्मैट है जब आपको किसी दस्तावेज़ में grep खोज करनी हो, इसे किसी चैटबॉट में पेस्ट करना हो, किसी स्क्रिप्ट को फ़ीड करना हो, या बस PDF में जो लिखा था उसे सबसे छोटी संभव फ़ाइल में संग्रहित करना हो।
सामान्य PDF का टेक्स्ट स्थित वर्णों के अनुक्रम के रूप में संग्रहित होता है। यह टूल उन वर्णों को फिर से पढ़ता है, उन्हें Y निर्देशांक द्वारा पंक्तियों में समूहित करता है, पंक्तियों को ऊपर से नीचे क्रमबद्ध करता है, हर पंक्ति के भीतर आइटम को बाएँ से दाएँ क्रमबद्ध करता है, और परिणाम को एक ही UTF-8 स्ट्रिंग के रूप में एक पन्ने के बाद दूसरे पन्ने के साथ लिखता है।
आपके ब्राउज़र में PDF से टेक्स्ट कैसे काम करता है
जब आप एक PDF खींचते हैं, तो आपका ब्राउज़र इसे मेमोरी में पढ़ता है। हम
बाइट्स को
PDF.js
को सौंपते हैं, मोज़िला का ओपन-सोर्स PDF इंजन। हर पन्ने के लिए हम
getTextContent() कॉल करते हैं, जो हर टेक्स्ट आइटम को उसकी
स्थिति के साथ लौटाता है। हम आइटम को पंक्तियों में समूहित करते हैं, उन्हें
पढ़ने के क्रम में क्रमबद्ध करते हैं और उन्हें एक ही स्ट्रिंग में जोड़ते
हैं। कोई OCR चरण नहीं है: जो टेक्स्ट पहले से PDF में टेक्स्ट के रूप में है
वह सीधे निकाला जाता है। अगर PDF एक स्कैन की गई छवि है, तो टेक्स्ट लेयर खाली
है और कुछ नहीं निकलता (उस स्थिति में, पहले OCR का उपयोग करें)।
परिणाम एक Blob में लिखा जाता है और डाउनलोड के रूप में पेश किया जाता है। कुछ भी अपलोड नहीं होता। पूरी प्रक्रिया — पार्सिंग, निष्कर्षण, पैकेजिंग — आपके ब्राउज़र टैब के अंदर चलती है। आप इसे ऑफ़लाइन चला सकते हैं और यह तब भी काम करता है।
सामान्य उपयोग के मामले
- किसी PDF फ़ोल्डर का खोजने योग्य संग्रह। हर PDF से टेक्स्ट निकालें, .txt को उसके बगल में सहेजें और अब grep कुछ ही सेकंड में कुछ भी ढूँढ लेता है।
- किसी PDF को ChatGPT/Claude/Gemini में पेस्ट करना। अधिकांश LLM वेब इंटरफ़ेस PDF की तुलना में सादे टेक्स्ट को बहुत बेहतर स्वीकार करते हैं: .txt पेस्ट करें और पूछें।
- किसी दस्तावेज़ के दो संस्करणों की तुलना करना। दोनों PDF निकालें,
diffचलाएँ और देखें कि वास्तव में क्या बदला। - NLP / स्क्रिप्ट के लिए प्रीप्रोसेसिंग। भावना विश्लेषण, इकाई निष्कर्षण, सारांश — सभी टेक्स्ट लेते हैं, PDF नहीं।
- सुलभता। टेक्स्ट में बदलें और इसे स्क्रीन रीडर के अनुकूल संपादक में पेस्ट करें।
गोपनीयता और सुरक्षा
अनुबंध, वेतन पर्चियाँ, चिकित्सा रिकॉर्ड, आंतरिक रिपोर्ट — जिस तरह के दस्तावेज़ों से लोग सबसे ज़्यादा टेक्स्ट निकालना चाहते हैं वे ठीक वही हैं जिन्हें वे किसी अजनबी के सर्वर पर सबसे कम रखना चाहते हैं। अधिकांश ऑनलाइन PDF-से-टेक्स्ट टूल फ़ाइल अपलोड करते हैं, अपने सर्वर पर टेक्स्ट निकालते हैं और एक .txt देते हैं। imisspdf वही काम PDF.js के साथ करता है जो आपके टैब के अंदर चलता है। कोई अपलोड नहीं, कोई अकाउंट नहीं, कोई दैनिक सीमा नहीं। यह देखने के लिए कि मानक अपलोड मॉडल वास्तव में कैसा है, iLovePDF की हमारी गोपनीयता समीक्षा देखें।
अक्सर पूछे जाने वाले प्रश्न
स्कैन की गई PDF पन्नों की छवियाँ होती हैं, टेक्स्ट नहीं। निकालने के लिए कोई टेक्स्ट लेयर नहीं होती — जो शब्द आप देखते हैं वे बस पिक्सेल हैं। PDF को पहले हमारे OCR टूल से चलाएँ; यह छवि के ऊपर एक टेक्स्ट लेयर जोड़ता है, जिसके बाद pdf-to-text शब्दों को निकाल सकता है। अगर PDF कागज़ की फ़ोटो खींचकर या स्कैन करके बनाई गई थी, तो OCR हमेशा गायब कदम होता है।
नहीं। आउटपुट सादा UTF-8 टेक्स्ट है — कोई बोल्ड, इटैलिक, फ़ॉन्ट आकार या रंग नहीं। स्रोत PDF की पंक्तियाँ रखी जाती हैं, लेकिन बहु-स्तंभ लेआउट को एक बार में एक स्तंभ के रूप में पढ़ने के क्रम में समतल कर दिया जाता है। अगर आपको फ़ॉर्मैटिंग सुरक्षित चाहिए, तो इसके बजाय PDF से Word का उपयोग करें, जो शीर्षक और इनलाइन स्टाइलिंग रखता है।
यथासंभव सर्वोत्तम। टेबल PDF में मूल स्तंभ स्थितियों के आधार पर टैब-सेपरेटेड जैसी पंक्तियाँ बन जाती हैं — आमतौर पर पठनीय लेकिन पूरी तरह संरेखित नहीं। बहु-स्तंभ लेख एक बार में एक स्तंभ, ऊपर से नीचे निकाले जाते हैं। सटीक टेबल निष्कर्षण के लिए, PDF से Excel का उपयोग करें।
नहीं। PDF.js फ़ाइल को आपके ब्राउज़र टैब के अंदर पार्स करता है, getTextContent() का उपयोग करके टेक्स्ट निकालता है, और परिणाम को एक Blob में लिखता है जो आपके कंप्यूटर पर डाउनलोड हो जाता है। कुछ भी नेटवर्क पार नहीं करता। आप टूल को ऑफ़लाइन चलाकर इसकी पुष्टि कर सकते हैं — यह तब भी काम करता है।
सीधे नहीं। एन्क्रिप्टेड PDF को पासवर्ड के बिना पार्स नहीं किया जा सकता। फ़ाइल को पहले हमारे Unlock PDF टूल से चलाएँ (पासवर्ड दें), फिर अनलॉक की गई PDF यहाँ लाएँ। हम एन्क्रिप्टेड PDF को चुपचाप खाली फ़ाइल लौटाने के बजाय एक मित्रवत त्रुटि के साथ स्पष्ट रूप से अस्वीकार करते हैं।
सर्वोत्तम परिणाम पाने के सुझाव
- अगर फ़ाइल किसी स्कैनर या कैमरे से आई है, तो पहले OCR चलाएँ। स्कैन की गई PDF में निकालने के लिए कोई टेक्स्ट लेयर नहीं होती।
- मानव पठन के लिए "पन्ना मार्कर" चुनें। डिफ़ॉल्ट विभाजक यह ढूँढना आसान बनाता है कि एक पन्ना कहाँ खत्म होता है और अगला कहाँ शुरू होता है।
- पुराने ASCII प्रिंटर/टूल के लिए पेज ब्रेक का उपयोग करें। अगर आप .txt को किसी पुराने सिस्टम में फ़ीड करने वाले हैं, तो \f वर्ण पारंपरिक पेज ब्रेक है।
- बहु-स्तंभ PDF को एक साफ़ स्रोत चाहिए। अगर दो स्तंभ आपस में मिल जाते हैं, तो अंतर्निहित PDF संभवतः टेक्स्ट को क्रम से बाहर एनकोड करता है — इसे Acrobat में खोलकर फिर से सहेजने की कोशिश करें।
- एन्क्रिप्टेड PDF को पहले अनलॉक करें। हम चुपचाप खाली टेक्स्ट लौटाने से इनकार करते हैं — Unlock PDF करें और वापस आएँ।
संबंधित PDF टूल
- TXT से PDF — इसके विपरीत: सादे टेक्स्ट को वापस एक फ़ॉर्मैट किए गए PDF में बदलें।
- PDF से Word — केवल शब्द नहीं, शीर्षक और इनलाइन स्टाइल भी रखता है।
- OCR PDF — किसी स्कैन की गई PDF को पहले टेक्स्ट निकालने योग्य बनाएँ।
- PDF सारांश — किसी LLM को PDF पढ़ने दें और आपको मुख्य बिंदु दे।