ホーム›ツール›PDFをテキストに変換

PDFをテキストに変換

PDFのテキストを.txtファイルに抽出します。100%ブラウザ内——何もアップロードされません。

PDFを選択

またはここにPDFをドロップ

100% in-browser No upload No signup

PDFをテキストに変換する方法

3ステップ。すべてローカルで動作します。

PDFを選択

PDFをドラッグまたは選択します。ローカルで読み込まれ、アップロードはありません。

区切りを選ぶ

結果内で改ページをどう示すか。既定は読みやすいマーカーです。

.txtをダウンロード

どのエディタでも開けるUTF-8のプレーンテキストファイル。

次に進む

「PDFをテキストに変換」とは？

PDFをテキストに変換するとは、PDF文書をその生の言葉だけにまで削ぎ落とすことです：フォントなし、画像なし、レイアウトなし。結果はUTF-8の.txt ファイルで、どのエディタ、どのOS、どの時代でも開けます。文書をgrepで検索したいとき、チャットボットに貼り付けたいとき、スクリプトに渡したいとき、あるいは単にPDFの内容を可能な限り小さいファイルで保存しておきたいときに選ぶ形式です。

通常のPDFのテキストは、位置情報を持つ文字の並びとして保存されています。このツールはそれらの文字を読み直し、Y座標で行にまとめ、行を上から下へ並べ、各行の中の要素を左から右へ並べ、結果を1ページずつ続く1つの UTF-8文字列として書き出します。

ブラウザ内でのPDFからテキストへの仕組み

PDFをドラッグすると、ブラウザはそれをメモリに読み込みます。当サイトはそのバイト列を PDF.js ——Mozillaのオープンソースのpdfエンジン——に渡します。各ページについて getTextContent() を呼び出すと、各テキスト要素がその位置とともに返されます。要素を行にまとめ、読み順に並べ、1つの文字列に連結します。OCRの工程はありません：すでにPDF内にテキストとして存在するものが直接抽出されます。PDFがスキャンした画像の場合は、テキスト層が空で何も出力されません（その場合はまずOCRを使ってください）。

結果はBlobに書き出され、ダウンロードとして提供されます。何もアップロードされません。パイプライン全体——解析、抽出、パッケージ化——がブラウザのタブ内で動作します。オフラインで実行しても、そのまま動作します。

よくある使い方

PDFフォルダの検索可能なアーカイブ。 各PDFのテキストを抽出し、.txtをその隣に保存すれば、grepで何でも数秒で見つかります。
PDFをChatGPT/Claude/Geminiに貼り付ける。 ほとんどのLLMのウェブインターフェースは、PDFよりプレーンテキストのほうがはるかにうまく扱えます：.txtを貼り付けて質問しましょう。
2つの版の文書を比較する。 両方のPDFを抽出し、diff を実行して、何が変わったかを正確に確認します。
自然言語処理／スクリプトの前処理。 感情分析、固有表現抽出、要約——どれもPDFではなくテキストを取ります。
アクセシビリティ。 テキストに変換し、スクリーンリーダー対応のエディタに貼り付けます。

プライバシーとセキュリティ

契約書、給与明細、診療記録、社内報告書——人がテキストを最も抽出したい種類の文書は、まさに見知らぬ人のサーバーに置きたくないものです。オンラインのPDFをテキストに変換するツールの多くは、ファイルをアップロードし、サーバーでテキストを抽出して.txtを返します。imisspdfは、同じ作業をタブ内で動作するPDF.jsで行います。アップロードも、アカウントも、 1日あたりの上限もありません。一般的なアップロード型のモデルが実際にどのようなものかについては iLovePDFのプライバシーレビューをご覧ください。

よくある質問

スキャンしたPDFはページの画像であって、テキストではありません。抽出すべきテキスト層がなく、見えている文字は単なるピクセルです。まず当サイトのOCRツールにPDFを通してください。画像の上にテキスト層を追加するので、その後はpdf-to-textで文字を抽出できます。PDFが紙の撮影やスキャンで作られたものなら、OCRがいつも欠けている工程です。

いいえ。出力はプレーンなUTF-8テキストです——太字、斜体、文字サイズ、色はありません。元のPDFの行は保たれますが、複数段組みのレイアウトは1段ずつ読み順に平坦化されます。書式を保持する必要がある場合は、見出しやインラインの装飾を保つPDFをWordに変換をお使いください。

可能な範囲で対応します。表は元のPDF内の列位置に基づいてタブ区切りに近い行になります——通常は読めますが、完全には揃いません。複数段組みの記事は1段ずつ上から下へ抽出されます。正確な表の抽出には、PDFをExcelに変換をお使いください。

いいえ。PDF.jsがブラウザのタブ内でファイルを解析し、getTextContent()でテキストを抽出し、その結果をパソコンにダウンロードされるBlobに書き出します。ネットワークを通るものは何もありません。オフラインでツールを実行すれば確認できます——それでも動作します。

直接はできません。暗号化されたPDFはパスワードなしでは解析できません。まず当サイトのPDFのロック解除ツールにファイルを通し（パスワードを入力）、ロックを解除したPDFをここに持ってきてください。当サイトは暗号化されたPDFを明示的に拒否し、黙って空のファイルを返すのではなく、わかりやすいエラーを表示します。

最良の結果を得るためのコツ

ファイルがスキャナーやカメラ由来なら、まずOCRを実行する。 スキャンしたPDFには抽出すべきテキスト層がありません。
人が読むなら「ページマーカー」を選ぶ。 既定の区切りは、あるページがどこで終わり次のページがどこで始まるかを見つけやすくします。
古いASCIIのプリンターやツールには改ページを使う。 .txtを古いものに渡すなら、\f文字が伝統的な改ページです。
複数段組みのPDFにはきれいな元ファイルが必要です。 2つの段が互いに混ざる場合、元のPDFがテキストを順序外で符号化している可能性が高いです——Acrobatで開いて保存し直してみてください。
暗号化されたPDFはまずロックを解除する。 当サイトは黙って空のテキストを返すことはしません——PDFのロック解除に通してから戻ってきてください。

ツール

ソリューション

会社情報

製品

PDFをテキストに変換

PDFを選択

Your file is ready

PDFをテキストに変換する方法

PDFを選択

区切りを選ぶ

.txtをダウンロード

関連するPDFツール

TIFF to PDF

XPS to PDF

HEIC to PDF

PNG to PDF

「PDFをテキストに変換」とは？

ブラウザ内でのPDFからテキストへの仕組み

よくある使い方

プライバシーとセキュリティ

よくある質問

最良の結果を得るためのコツ

関連するPDFツール