ツール
Merge PDF Split PDF Compress PDF すべての PDF ツール →
ソリューション
For Business For Education For Developers
会社情報
私たちについて ブログ Press お問い合わせ
製品
料金 機能 よくある質問 Security
ホームツールPDFをテキストに変換

PDFをテキストに変換

PDFのテキストを.txtファイルに抽出します。100%ブラウザ内——何もアップロードされません。

PDFを選択

またはここにPDFをドロップ

100% in-browser No upload No signup

PDFをテキストに変換する方法

3ステップ。すべてローカルで動作します。

1

PDFを選択

PDFをドラッグまたは選択します。ローカルで読み込まれ、アップロードはありません。

2

区切りを選ぶ

結果内で改ページをどう示すか。既定は読みやすいマーカーです。

3

.txtをダウンロード

どのエディタでも開けるUTF-8のプレーンテキストファイル。

「PDFをテキストに変換」とは?

PDFをテキストに変換するとは、PDF文書をその生の言葉だけにまで削ぎ落とす ことです:フォントなし、画像なし、レイアウトなし。結果はUTF-8の.txt ファイルで、どのエディタ、どのOS、どの時代でも開けます。文書をgrepで 検索したいとき、チャットボットに貼り付けたいとき、スクリプトに渡したい とき、あるいは単にPDFの内容を可能な限り小さいファイルで保存しておきたい ときに選ぶ形式です。

通常のPDFのテキストは、位置情報を持つ文字の並びとして保存されています。 このツールはそれらの文字を読み直し、Y座標で行にまとめ、行を上から下へ 並べ、各行の中の要素を左から右へ並べ、結果を1ページずつ続く1つの UTF-8文字列として書き出します。

ブラウザ内でのPDFからテキストへの仕組み

PDFをドラッグすると、ブラウザはそれをメモリに読み込みます。当サイトは そのバイト列を PDF.js ——Mozillaのオープンソースのpdfエンジン——に渡します。各ページについて getTextContent() を呼び出すと、各テキスト要素がその位置と ともに返されます。要素を行にまとめ、読み順に並べ、1つの文字列に連結 します。OCRの工程はありません:すでにPDF内にテキストとして存在するもの が直接抽出されます。PDFがスキャンした画像の場合は、テキスト層が空で 何も出力されません(その場合はまずOCRを使ってください)。

結果はBlobに書き出され、ダウンロードとして提供されます。何もアップ ロードされません。パイプライン全体——解析、抽出、パッケージ化——が ブラウザのタブ内で動作します。オフラインで実行しても、そのまま動作 します。

よくある使い方

  • PDFフォルダの検索可能なアーカイブ。 各PDFのテキストを抽出し、.txtをその隣に保存すれば、grepで何でも数秒で見つかります。
  • PDFをChatGPT/Claude/Geminiに貼り付ける。 ほとんどのLLMのウェブインターフェースは、PDFよりプレーンテキストのほうがはるかにうまく扱えます:.txtを貼り付けて質問しましょう。
  • 2つの版の文書を比較する。 両方のPDFを抽出し、diff を実行して、何が変わったかを正確に確認します。
  • 自然言語処理/スクリプトの前処理。 感情分析、固有表現抽出、要約——どれもPDFではなくテキストを取ります。
  • アクセシビリティ。 テキストに変換し、スクリーンリーダー対応のエディタに貼り付けます。

プライバシーとセキュリティ

契約書、給与明細、診療記録、社内報告書——人がテキストを最も抽出したい 種類の文書は、まさに見知らぬ人のサーバーに置きたくないものです。 オンラインのPDFをテキストに変換するツールの多くは、ファイルをアップ ロードし、サーバーでテキストを抽出して.txtを返します。imisspdfは、同じ 作業をタブ内で動作するPDF.jsで行います。アップロードも、アカウントも、 1日あたりの上限もありません。一般的なアップロード型のモデルが実際に どのようなものかについては iLovePDFの プライバシーレビューをご覧ください。

よくある質問

スキャンしたPDFはページの画像であって、テキストではありません。抽出すべきテキスト層がなく、見えている文字は単なるピクセルです。まず当サイトのOCRツールにPDFを通してください。画像の上にテキスト層を追加するので、その後はpdf-to-textで文字を抽出できます。PDFが紙の撮影やスキャンで作られたものなら、OCRがいつも欠けている工程です。

いいえ。出力はプレーンなUTF-8テキストです——太字、斜体、文字サイズ、色はありません。元のPDFの行は保たれますが、複数段組みのレイアウトは1段ずつ読み順に平坦化されます。書式を保持する必要がある場合は、見出しやインラインの装飾を保つPDFをWordに変換をお使いください。

可能な範囲で対応します。表は元のPDF内の列位置に基づいてタブ区切りに近い行になります——通常は読めますが、完全には揃いません。複数段組みの記事は1段ずつ上から下へ抽出されます。正確な表の抽出には、PDFをExcelに変換をお使いください。

いいえ。PDF.jsがブラウザのタブ内でファイルを解析し、getTextContent()でテキストを抽出し、その結果をパソコンにダウンロードされるBlobに書き出します。ネットワークを通るものは何もありません。オフラインでツールを実行すれば確認できます——それでも動作します。

直接はできません。暗号化されたPDFはパスワードなしでは解析できません。まず当サイトのPDFのロック解除ツールにファイルを通し(パスワードを入力)、ロックを解除したPDFをここに持ってきてください。当サイトは暗号化されたPDFを明示的に拒否し、黙って空のファイルを返すのではなく、わかりやすいエラーを表示します。

最良の結果を得るためのコツ

  • ファイルがスキャナーやカメラ由来なら、まずOCRを実行する。 スキャンしたPDFには抽出すべきテキスト層がありません。
  • 人が読むなら「ページマーカー」を選ぶ。 既定の区切りは、あるページがどこで終わり次のページがどこで始まるかを見つけやすくします。
  • 古いASCIIのプリンターやツールには改ページを使う。 .txtを古いものに渡すなら、\f文字が伝統的な改ページです。
  • 複数段組みのPDFにはきれいな元ファイルが必要です。 2つの段が互いに混ざる場合、元のPDFがテキストを順序外で符号化している可能性が高いです——Acrobatで開いて保存し直してみてください。
  • 暗号化されたPDFはまずロックを解除する。 当サイトは黙って空のテキストを返すことはしません——PDFのロック解除に通してから戻ってきてください。

関連するPDFツール

 日本語
Get unlimited PDF tools + AI features
Start free trial →