टूल्स
Merge PDF Split PDF Compress PDF सभी PDF टूल्स →
समाधान
For Business For Education For Developers
कंपनी
हमारे बारे में ब्लॉग Press संपर्क
उत्पाद
मूल्य विशेषताएँ सामान्य प्रश्न Security
होमटूल्सPDF से टेक्स्ट

PDF से टेक्स्ट

PDF से टेक्स्ट निकालकर एक .txt फ़ाइल में लाएँ। 100% आपके ब्राउज़र में — कुछ भी अपलोड नहीं होता।

एक PDF चुनें

या यहाँ एक PDF खींचें

100% in-browser No upload No signup

PDF को टेक्स्ट में कैसे बदलें

तीन चरण। सब कुछ स्थानीय रूप से चलता है।

1

एक PDF चुनें

एक PDF खींचें या चुनें। इसे स्थानीय रूप से पढ़ा जाता है, बिना अपलोड।

2

विभाजक चुनें

परिणाम में पेज ब्रेक को कैसे चिह्नित करें। डिफ़ॉल्ट रूप से, पठनीय मार्कर।

3

.txt डाउनलोड करें

सादा UTF-8 टेक्स्ट फ़ाइल जो किसी भी संपादक में खुलती है।

"PDF से टेक्स्ट" क्या है?

PDF को टेक्स्ट में बदलने का मतलब है एक PDF दस्तावेज़ को उसके कच्चे शब्दों तक सीमित करना: कोई फ़ॉन्ट नहीं, कोई छवि नहीं, कोई लेआउट नहीं। परिणाम एक UTF-8 .txt फ़ाइल है जो किसी भी संपादक, किसी भी ऑपरेटिंग सिस्टम, किसी भी दशक में खुलती है। यह पसंदीदा फ़ॉर्मैट है जब आपको किसी दस्तावेज़ में grep खोज करनी हो, इसे किसी चैटबॉट में पेस्ट करना हो, किसी स्क्रिप्ट को फ़ीड करना हो, या बस PDF में जो लिखा था उसे सबसे छोटी संभव फ़ाइल में संग्रहित करना हो।

सामान्य PDF का टेक्स्ट स्थित वर्णों के अनुक्रम के रूप में संग्रहित होता है। यह टूल उन वर्णों को फिर से पढ़ता है, उन्हें Y निर्देशांक द्वारा पंक्तियों में समूहित करता है, पंक्तियों को ऊपर से नीचे क्रमबद्ध करता है, हर पंक्ति के भीतर आइटम को बाएँ से दाएँ क्रमबद्ध करता है, और परिणाम को एक ही UTF-8 स्ट्रिंग के रूप में एक पन्ने के बाद दूसरे पन्ने के साथ लिखता है।

आपके ब्राउज़र में PDF से टेक्स्ट कैसे काम करता है

जब आप एक PDF खींचते हैं, तो आपका ब्राउज़र इसे मेमोरी में पढ़ता है। हम बाइट्स को PDF.js को सौंपते हैं, मोज़िला का ओपन-सोर्स PDF इंजन। हर पन्ने के लिए हम getTextContent() कॉल करते हैं, जो हर टेक्स्ट आइटम को उसकी स्थिति के साथ लौटाता है। हम आइटम को पंक्तियों में समूहित करते हैं, उन्हें पढ़ने के क्रम में क्रमबद्ध करते हैं और उन्हें एक ही स्ट्रिंग में जोड़ते हैं। कोई OCR चरण नहीं है: जो टेक्स्ट पहले से PDF में टेक्स्ट के रूप में है वह सीधे निकाला जाता है। अगर PDF एक स्कैन की गई छवि है, तो टेक्स्ट लेयर खाली है और कुछ नहीं निकलता (उस स्थिति में, पहले OCR का उपयोग करें)।

परिणाम एक Blob में लिखा जाता है और डाउनलोड के रूप में पेश किया जाता है। कुछ भी अपलोड नहीं होता। पूरी प्रक्रिया — पार्सिंग, निष्कर्षण, पैकेजिंग — आपके ब्राउज़र टैब के अंदर चलती है। आप इसे ऑफ़लाइन चला सकते हैं और यह तब भी काम करता है।

सामान्य उपयोग के मामले

  • किसी PDF फ़ोल्डर का खोजने योग्य संग्रह। हर PDF से टेक्स्ट निकालें, .txt को उसके बगल में सहेजें और अब grep कुछ ही सेकंड में कुछ भी ढूँढ लेता है।
  • किसी PDF को ChatGPT/Claude/Gemini में पेस्ट करना। अधिकांश LLM वेब इंटरफ़ेस PDF की तुलना में सादे टेक्स्ट को बहुत बेहतर स्वीकार करते हैं: .txt पेस्ट करें और पूछें।
  • किसी दस्तावेज़ के दो संस्करणों की तुलना करना। दोनों PDF निकालें, diff चलाएँ और देखें कि वास्तव में क्या बदला।
  • NLP / स्क्रिप्ट के लिए प्रीप्रोसेसिंग। भावना विश्लेषण, इकाई निष्कर्षण, सारांश — सभी टेक्स्ट लेते हैं, PDF नहीं।
  • सुलभता। टेक्स्ट में बदलें और इसे स्क्रीन रीडर के अनुकूल संपादक में पेस्ट करें।

गोपनीयता और सुरक्षा

अनुबंध, वेतन पर्चियाँ, चिकित्सा रिकॉर्ड, आंतरिक रिपोर्ट — जिस तरह के दस्तावेज़ों से लोग सबसे ज़्यादा टेक्स्ट निकालना चाहते हैं वे ठीक वही हैं जिन्हें वे किसी अजनबी के सर्वर पर सबसे कम रखना चाहते हैं। अधिकांश ऑनलाइन PDF-से-टेक्स्ट टूल फ़ाइल अपलोड करते हैं, अपने सर्वर पर टेक्स्ट निकालते हैं और एक .txt देते हैं। imisspdf वही काम PDF.js के साथ करता है जो आपके टैब के अंदर चलता है। कोई अपलोड नहीं, कोई अकाउंट नहीं, कोई दैनिक सीमा नहीं। यह देखने के लिए कि मानक अपलोड मॉडल वास्तव में कैसा है, iLovePDF की हमारी गोपनीयता समीक्षा देखें।

अक्सर पूछे जाने वाले प्रश्न

स्कैन की गई PDF पन्नों की छवियाँ होती हैं, टेक्स्ट नहीं। निकालने के लिए कोई टेक्स्ट लेयर नहीं होती — जो शब्द आप देखते हैं वे बस पिक्सेल हैं। PDF को पहले हमारे OCR टूल से चलाएँ; यह छवि के ऊपर एक टेक्स्ट लेयर जोड़ता है, जिसके बाद pdf-to-text शब्दों को निकाल सकता है। अगर PDF कागज़ की फ़ोटो खींचकर या स्कैन करके बनाई गई थी, तो OCR हमेशा गायब कदम होता है।

नहीं। आउटपुट सादा UTF-8 टेक्स्ट है — कोई बोल्ड, इटैलिक, फ़ॉन्ट आकार या रंग नहीं। स्रोत PDF की पंक्तियाँ रखी जाती हैं, लेकिन बहु-स्तंभ लेआउट को एक बार में एक स्तंभ के रूप में पढ़ने के क्रम में समतल कर दिया जाता है। अगर आपको फ़ॉर्मैटिंग सुरक्षित चाहिए, तो इसके बजाय PDF से Word का उपयोग करें, जो शीर्षक और इनलाइन स्टाइलिंग रखता है।

यथासंभव सर्वोत्तम। टेबल PDF में मूल स्तंभ स्थितियों के आधार पर टैब-सेपरेटेड जैसी पंक्तियाँ बन जाती हैं — आमतौर पर पठनीय लेकिन पूरी तरह संरेखित नहीं। बहु-स्तंभ लेख एक बार में एक स्तंभ, ऊपर से नीचे निकाले जाते हैं। सटीक टेबल निष्कर्षण के लिए, PDF से Excel का उपयोग करें।

नहीं। PDF.js फ़ाइल को आपके ब्राउज़र टैब के अंदर पार्स करता है, getTextContent() का उपयोग करके टेक्स्ट निकालता है, और परिणाम को एक Blob में लिखता है जो आपके कंप्यूटर पर डाउनलोड हो जाता है। कुछ भी नेटवर्क पार नहीं करता। आप टूल को ऑफ़लाइन चलाकर इसकी पुष्टि कर सकते हैं — यह तब भी काम करता है।

सीधे नहीं। एन्क्रिप्टेड PDF को पासवर्ड के बिना पार्स नहीं किया जा सकता। फ़ाइल को पहले हमारे Unlock PDF टूल से चलाएँ (पासवर्ड दें), फिर अनलॉक की गई PDF यहाँ लाएँ। हम एन्क्रिप्टेड PDF को चुपचाप खाली फ़ाइल लौटाने के बजाय एक मित्रवत त्रुटि के साथ स्पष्ट रूप से अस्वीकार करते हैं।

सर्वोत्तम परिणाम पाने के सुझाव

  • अगर फ़ाइल किसी स्कैनर या कैमरे से आई है, तो पहले OCR चलाएँ। स्कैन की गई PDF में निकालने के लिए कोई टेक्स्ट लेयर नहीं होती।
  • मानव पठन के लिए "पन्ना मार्कर" चुनें। डिफ़ॉल्ट विभाजक यह ढूँढना आसान बनाता है कि एक पन्ना कहाँ खत्म होता है और अगला कहाँ शुरू होता है।
  • पुराने ASCII प्रिंटर/टूल के लिए पेज ब्रेक का उपयोग करें। अगर आप .txt को किसी पुराने सिस्टम में फ़ीड करने वाले हैं, तो \f वर्ण पारंपरिक पेज ब्रेक है।
  • बहु-स्तंभ PDF को एक साफ़ स्रोत चाहिए। अगर दो स्तंभ आपस में मिल जाते हैं, तो अंतर्निहित PDF संभवतः टेक्स्ट को क्रम से बाहर एनकोड करता है — इसे Acrobat में खोलकर फिर से सहेजने की कोशिश करें।
  • एन्क्रिप्टेड PDF को पहले अनलॉक करें। हम चुपचाप खाली टेक्स्ट लौटाने से इनकार करते हैं — Unlock PDF करें और वापस आएँ।

संबंधित PDF टूल

 हिन्दी
Get unlimited PDF tools + AI features
Start free trial →