الأدوات
Merge PDF Split PDF Compress PDF كل أدوات PDF →
الحلول
For Business For Education For Developers
الشركة
من نحن المدونة Press تواصل
المنتج
الأسعار المزايا الأسئلة الشائعة Security
الرئيسيةالأدواتPDF إلى نص

PDF إلى نص

استخرج النص من ملف PDF إلى ملف .txt. 100% في متصفحك — لا يُرفع أي شيء.

اختر ملف PDF

أو أفلِت ملف PDF هنا

100% in-browser No upload No signup

كيفية تحويل PDF إلى نص

ثلاث خطوات. كل شيء يعمل محليًا.

1

اختر ملف PDF

أفلِت أو اختر ملف PDF. يُقرأ محليًا، بلا رفع.

2

اختر الفاصل

كيفية تمييز فواصل الصفحات في الناتج. افتراضيًا، علامات مقروءة.

3

نزّل ملف .txt

ملف نص عادي بترميز UTF-8 يُفتح في أي محرّر.

ما المقصود بـ «PDF إلى نص»؟

تحويل ملف PDF إلى نص يعني اختزال مستند PDF إلى كلماته الخام: بلا خطوط، بلا صور، بلا تخطيط. الناتج ملف .txt بترميز UTF-8 يُفتح في أي محرّر، وأي نظام تشغيل، وأي عقد. إنها الصيغة المُفضّلة عندما تحتاج إلى البحث بـ grep في مستند، أو لصقه في روبوت محادثة، أو تغذية برنامج نصي، أو ببساطة أرشفة ما قاله ملف PDF في أصغر ملف ممكن.

يُخزَّن النص في ملف PDF عادي على هيئة سلسلة من المحارف المُموضَعة. تعيد هذه الأداة قراءة تلك المحارف، وتجمّعها في أسطر حسب الإحداثي Y، وترتّب الأسطر من الأعلى إلى الأسفل، وترتّب العناصر من اليسار إلى اليمين داخل كل سطر، وتكتب الناتج كسلسلة UTF-8 واحدة صفحةً تلو الأخرى.

كيف يعمل PDF إلى نص في متصفحك

عندما تُفلِت ملف PDF، يقرأه متصفحك في الذاكرة. نسلّم البايتات إلى PDF.js، محرك PDF مفتوح المصدر من Mozilla. لكل صفحة نستدعي getTextContent()، التي تُرجِع كل عنصر نصي مع موضعه. نجمّع العناصر في أسطر، ونرتّبها بترتيب القراءة، ونوصلها في سلسلة واحدة. لا توجد خطوة OCR: النص الموجود بالفعل في ملف PDF كنص يُستخرج مباشرةً. وإذا كان ملف PDF صورة ممسوحة ضوئيًا، فإن الطبقة النصية فارغة ولا يخرج أي شيء (في هذه الحالة، استخدم OCR أولًا).

تُكتب النتيجة في كائن Blob وتُعرض كتنزيل. لا يُرفع أي شيء. تعمل كامل سلسلة المعالجة —التحليل، الاستخراج، التجميع— داخل علامة تبويب متصفحك. يمكنك تشغيلها دون اتصال بالإنترنت وستظل تعمل.

حالات الاستخدام الشائعة

  • أرشيف قابل للبحث لمجلد ملفات PDF. استخرج نص كل ملف PDF، واحفظ ملف .txt بجانبه، والآن يجد grep أي شيء خلال ثوانٍ.
  • لصق ملف PDF في ChatGPT/Claude/Gemini. تقبل معظم واجهات الويب لنماذج اللغة الكبيرة النص العادي أفضل بكثير من ملفات PDF: الصق ملف .txt واسأل.
  • مقارنة نسختين من مستند. استخرج كلا الملفين، شغّل diff وانظر بالضبط ما الذي تغيّر.
  • المعالجة المسبقة لمعالجة اللغة الطبيعية / البرامج النصية. تحليل المشاعر، استخراج الكيانات، التلخيص — جميعها تأخذ نصًا، لا ملف PDF.
  • إمكانية الوصول. حوّل إلى نص والصقه في محرّر متوافق مع قارئات الشاشة.

الخصوصية والأمان

العقود، وكشوف الرواتب، والسجلات الطبية، والتقارير الداخلية — نوع المستندات التي يرغب الناس أكثر في استخراج النص منها هي بالضبط تلك التي يرغبون أقل في وجودها على خادم شخص غريب. تقوم معظم أدوات PDF إلى نص عبر الإنترنت برفع الملف، واستخراج النص على خادمها، وتسليم ملف .txt. تؤدي imisspdf العمل نفسه عبر PDF.js الذي يعمل داخل علامة تبويبك. لا يوجد رفع، ولا حساب، ولا حد يومي. اطّلع على مراجعتنا لخصوصية iLovePDF لترى كيف يبدو نموذج الرفع القياسي فعليًا.

الأسئلة الشائعة

ملفات PDF الممسوحة ضوئيًا هي صور للصفحات، وليست نصًا. لا توجد طبقة نصية لاستخراجها — الكلمات التي تراها مجرد بكسلات. مرّر ملف PDF عبر أداة التعرّف الضوئي على الحروف (OCR) أولًا؛ فهي تضيف طبقة نصية فوق الصورة، وبعدها يمكن لأداة PDF إلى نص استخراج الكلمات. إذا أُنشئ ملف PDF بتصوير ورق أو مسحه ضوئيًا، فإن OCR هو دائمًا الخطوة المفقودة.

لا. الناتج نص عادي بترميز UTF-8 — بلا خط عريض أو مائل أو أحجام خطوط أو ألوان. تُحفظ الأسطر من ملف PDF المصدر، لكن التخطيطات متعددة الأعمدة تُسطَّح إلى ترتيب القراءة عمودًا تلو الآخر. إذا كنت بحاجة إلى الحفاظ على التنسيق، فاستخدم PDF إلى Word بدلًا من ذلك، فهي تحافظ على العناوين والتنسيق المضمّن.

بأفضل جهد ممكن. تتحوّل الجداول إلى أسطر شبيهة بالمفصولة بعلامات جدولة بناءً على مواضع الأعمدة الأصلية في ملف PDF — عادةً ما تكون مقروءة لكنها ليست محاذاة تمامًا. تُستخرج المقالات متعددة الأعمدة عمودًا تلو الآخر من الأعلى إلى الأسفل. وللاستخراج الدقيق للجداول، استخدم PDF إلى Excel.

لا. يحلّل PDF.js الملف داخل علامة تبويب متصفحك، ويستخرج النص باستخدام getTextContent()، ويكتب النتيجة في كائن Blob يُنزَّل إلى حاسوبك. لا شيء يعبر الشبكة. يمكنك التحقق من ذلك بتشغيل الأداة دون اتصال بالإنترنت — ستظل تعمل.

ليس مباشرةً. لا يمكن تحليل ملفات PDF المشفّرة دون كلمة المرور. مرّر الملف أولًا عبر أداة فتح قفل PDF لدينا (أدخِل كلمة المرور)، ثم أحضِر ملف PDF المفتوح إلى هنا. نرفض ملفات PDF المشفّرة صراحةً برسالة خطأ واضحة بدلًا من إعادة ملف فارغ بصمت.

نصائح للحصول على أفضل النتائج

  • إذا أتى الملف من ماسح ضوئي أو كاميرا، شغّل OCR أولًا. ملفات PDF الممسوحة ضوئيًا لا تملك طبقة نصية لاستخراجها.
  • اختر «علامات الصفحات» للقراءة البشرية. يسهّل الفاصل الافتراضي العثور على المكان الذي تنتهي فيه صفحة وتبدأ التالية.
  • استخدم تغذية النموذج للطابعات/الأدوات القديمة بترميز ASCII. إذا كنت ستمرّر ملف .txt إلى شيء قديم، فإن محرف \f هو فاصل الصفحات التقليدي.
  • تحتاج ملفات PDF متعددة الأعمدة إلى مصدر نظيف. إذا اختلط عمودان ببعضهما، فعلى الأرجح يرمّز ملف PDF الأساسي النص خارج الترتيب — جرّب فتحه في Acrobat وإعادة حفظه.
  • افتح قفل ملفات PDF المشفّرة أولًا. نرفض إعادة نص فارغ بصمت — افتح قفل PDF وعُد.

أدوات PDF ذات صلة

 العربية
Get unlimited PDF tools + AI features
Start free trial →