PDFをテキストに変換する方法
3ステップ。すべてローカルで動作します。
PDFを選択
PDFをドラッグまたは選択します。ローカルで読み込まれ、アップロードはありません。
区切りを選ぶ
結果内で改ページをどう示すか。既定は読みやすいマーカーです。
.txtをダウンロード
どのエディタでも開けるUTF-8のプレーンテキストファイル。
「PDFをテキストに変換」とは?
PDFをテキストに変換するとは、PDF文書をその生の言葉だけにまで削ぎ落とす ことです:フォントなし、画像なし、レイアウトなし。結果はUTF-8の.txt ファイルで、どのエディタ、どのOS、どの時代でも開けます。文書をgrepで 検索したいとき、チャットボットに貼り付けたいとき、スクリプトに渡したい とき、あるいは単にPDFの内容を可能な限り小さいファイルで保存しておきたい ときに選ぶ形式です。
通常のPDFのテキストは、位置情報を持つ文字の並びとして保存されています。 このツールはそれらの文字を読み直し、Y座標で行にまとめ、行を上から下へ 並べ、各行の中の要素を左から右へ並べ、結果を1ページずつ続く1つの UTF-8文字列として書き出します。
ブラウザ内でのPDFからテキストへの仕組み
PDFをドラッグすると、ブラウザはそれをメモリに読み込みます。当サイトは
そのバイト列を
PDF.js
——Mozillaのオープンソースのpdfエンジン——に渡します。各ページについて
getTextContent() を呼び出すと、各テキスト要素がその位置と
ともに返されます。要素を行にまとめ、読み順に並べ、1つの文字列に連結
します。OCRの工程はありません:すでにPDF内にテキストとして存在するもの
が直接抽出されます。PDFがスキャンした画像の場合は、テキスト層が空で
何も出力されません(その場合はまずOCRを使ってください)。
結果はBlobに書き出され、ダウンロードとして提供されます。何もアップ ロードされません。パイプライン全体——解析、抽出、パッケージ化——が ブラウザのタブ内で動作します。オフラインで実行しても、そのまま動作 します。
よくある使い方
- PDFフォルダの検索可能なアーカイブ。 各PDFのテキストを抽出し、.txtをその隣に保存すれば、grepで何でも数秒で見つかります。
- PDFをChatGPT/Claude/Geminiに貼り付ける。 ほとんどのLLMのウェブインターフェースは、PDFよりプレーンテキストのほうがはるかにうまく扱えます:.txtを貼り付けて質問しましょう。
- 2つの版の文書を比較する。 両方のPDFを抽出し、
diffを実行して、何が変わったかを正確に確認します。 - 自然言語処理/スクリプトの前処理。 感情分析、固有表現抽出、要約——どれもPDFではなくテキストを取ります。
- アクセシビリティ。 テキストに変換し、スクリーンリーダー対応のエディタに貼り付けます。
プライバシーとセキュリティ
契約書、給与明細、診療記録、社内報告書——人がテキストを最も抽出したい 種類の文書は、まさに見知らぬ人のサーバーに置きたくないものです。 オンラインのPDFをテキストに変換するツールの多くは、ファイルをアップ ロードし、サーバーでテキストを抽出して.txtを返します。imisspdfは、同じ 作業をタブ内で動作するPDF.jsで行います。アップロードも、アカウントも、 1日あたりの上限もありません。一般的なアップロード型のモデルが実際に どのようなものかについては iLovePDFの プライバシーレビューをご覧ください。
よくある質問
スキャンしたPDFはページの画像であって、テキストではありません。抽出すべきテキスト層がなく、見えている文字は単なるピクセルです。まず当サイトのOCRツールにPDFを通してください。画像の上にテキスト層を追加するので、その後はpdf-to-textで文字を抽出できます。PDFが紙の撮影やスキャンで作られたものなら、OCRがいつも欠けている工程です。
いいえ。出力はプレーンなUTF-8テキストです——太字、斜体、文字サイズ、色はありません。元のPDFの行は保たれますが、複数段組みのレイアウトは1段ずつ読み順に平坦化されます。書式を保持する必要がある場合は、見出しやインラインの装飾を保つPDFをWordに変換をお使いください。
可能な範囲で対応します。表は元のPDF内の列位置に基づいてタブ区切りに近い行になります——通常は読めますが、完全には揃いません。複数段組みの記事は1段ずつ上から下へ抽出されます。正確な表の抽出には、PDFをExcelに変換をお使いください。
いいえ。PDF.jsがブラウザのタブ内でファイルを解析し、getTextContent()でテキストを抽出し、その結果をパソコンにダウンロードされるBlobに書き出します。ネットワークを通るものは何もありません。オフラインでツールを実行すれば確認できます——それでも動作します。
直接はできません。暗号化されたPDFはパスワードなしでは解析できません。まず当サイトのPDFのロック解除ツールにファイルを通し(パスワードを入力)、ロックを解除したPDFをここに持ってきてください。当サイトは暗号化されたPDFを明示的に拒否し、黙って空のファイルを返すのではなく、わかりやすいエラーを表示します。
最良の結果を得るためのコツ
- ファイルがスキャナーやカメラ由来なら、まずOCRを実行する。 スキャンしたPDFには抽出すべきテキスト層がありません。
- 人が読むなら「ページマーカー」を選ぶ。 既定の区切りは、あるページがどこで終わり次のページがどこで始まるかを見つけやすくします。
- 古いASCIIのプリンターやツールには改ページを使う。 .txtを古いものに渡すなら、\f文字が伝統的な改ページです。
- 複数段組みのPDFにはきれいな元ファイルが必要です。 2つの段が互いに混ざる場合、元のPDFがテキストを順序外で符号化している可能性が高いです——Acrobatで開いて保存し直してみてください。
- 暗号化されたPDFはまずロックを解除する。 当サイトは黙って空のテキストを返すことはしません——PDFのロック解除に通してから戻ってきてください。
関連するPDFツール
- TXTをPDFに変換 — その逆:プレーンテキストを書式付きのPDFに戻します。
- PDFをWordに変換 — 言葉だけでなく、見出しやインラインの装飾も保ちます。
- PDFをOCR — まずスキャンしたPDFからテキストを抽出できるようにします。
- PDFを要約 — LLMにPDFを読ませて要点をまとめてもらいます。