PDF를 텍스트로 변환하는 방법
세 단계. 모두 로컬에서 실행됩니다.
PDF 선택
PDF를 끌어다 놓거나 선택하세요. 업로드 없이 로컬에서 읽힙니다.
구분자 선택
결과에서 페이지 구분을 표시하는 방법. 기본값은 읽기 쉬운 표시입니다.
.txt 다운로드
어떤 편집기에서도 열리는 UTF-8 일반 텍스트 파일.
"PDF를 텍스트로"란 무엇인가요?
PDF를 텍스트로 변환한다는 것은 PDF 문서를 가공되지 않은 단어로 줄이는 것을 의미합니다: 글꼴도, 이미지도, 레이아웃도 없습니다. 결과는 어떤 편집기, 어떤 운영체제, 어떤 시대에서도 열리는 UTF-8 .txt 파일입니다. 문서를 grep으로 검색하거나, 챗봇에 붙여넣거나, 스크립트에 입력하거나, 단지 PDF에 담긴 내용을 가능한 한 가장 작은 파일로 보관해야 할 때 선택하는 형식입니다.
일반적인 PDF의 텍스트는 위치가 지정된 문자의 시퀀스로 저장됩니다. 이 도구는 그 문자를 다시 읽어, Y 좌표로 줄로 묶고, 줄을 위에서 아래로 정렬하고, 각 줄 안의 항목을 왼쪽에서 오른쪽으로 정렬한 다음, 페이지를 차례로 이어 하나의 UTF-8 문자열로 기록합니다.
PDF를 텍스트로 변환하는 작업이 브라우저에서 작동하는 방식
PDF를 끌어다 놓으면 브라우저가 메모리로 읽어들입니다. 우리는 그
바이트를
PDF.js,
즉 Mozilla의 오픈 소스 PDF 엔진에 넘깁니다. 각 페이지마다
getTextContent()를 호출하는데, 이는 각 텍스트 항목을
위치와 함께 반환합니다. 우리는 항목을 줄로 묶고, 읽기 순서로 정렬한
다음, 하나의 문자열로 이어 붙입니다. OCR 단계는 없습니다: 이미 PDF에
텍스트로 들어 있는 텍스트가 직접 추출됩니다. PDF가 스캔한 이미지라면
텍스트 레이어가 비어 있어 아무것도 나오지 않습니다(그 경우 먼저 OCR을
사용하세요).
결과는 Blob에 기록되어 다운로드로 제공됩니다. 아무것도 업로드되지 않습니다. 전체 파이프라인 — 구문 분석, 추출, 패키징 — 이 브라우저 탭 안에서 실행됩니다. 오프라인으로 실행해도 계속 작동합니다.
일반적인 사용 사례
- PDF 폴더의 검색 가능한 아카이브. 각 PDF에서 텍스트를 추출하여 옆에 .txt로 저장하면, 이제 grep이 무엇이든 몇 초 만에 찾아냅니다.
- PDF를 ChatGPT/Claude/Gemini에 붙여넣기. 대부분의 LLM 웹 인터페이스는 PDF보다 일반 텍스트를 훨씬 잘 받아들입니다 — .txt를 붙여넣고 물어보세요.
- 문서의 두 버전 비교. 두 PDF를 모두 추출하고
diff를 실행하여 무엇이 바뀌었는지 정확히 확인하세요. - NLP / 스크립트를 위한 전처리. 감성 분석, 개체 추출, 요약 — 모두 PDF가 아니라 텍스트를 받습니다.
- 접근성. 텍스트로 변환하여 스크린 리더를 지원하는 편집기에 붙여넣으세요.
개인정보 보호 및 보안
계약서, 급여명세서, 진료 기록, 내부 보고서 — 사람들이 가장 텍스트를 추출하고 싶어 하는 종류의 문서가 바로 낯선 사람의 서버에 두기 가장 꺼려지는 문서입니다. 대부분의 온라인 PDF-텍스트 변환 도구는 파일을 업로드하고, 서버에서 텍스트를 추출한 다음 .txt를 전달합니다. imisspdf는 탭 안에서 실행되는 PDF.js로 동일한 작업을 수행합니다. 업로드도, 계정도, 일일 제한도 없습니다. 표준 업로드 모델이 실제로 어떤지는 iLovePDF 개인정보 보호 리뷰를 참고하세요.
자주 묻는 질문
스캔한 PDF는 텍스트가 아니라 페이지 이미지입니다. 추출할 텍스트 레이어가 없습니다 — 보이는 글자는 그저 픽셀일 뿐입니다. 먼저 PDF를 OCR 도구에 통과시키세요. OCR이 이미지 위에 텍스트 레이어를 추가하면, 그 후 pdf-to-text가 단어를 추출할 수 있습니다. PDF가 종이를 촬영하거나 스캔하여 만들어졌다면 OCR이 항상 빠진 단계입니다.
아니요. 출력은 일반 UTF-8 텍스트입니다 — 굵게, 기울임꼴, 글꼴 크기, 색상이 없습니다. 원본 PDF의 줄은 유지되지만, 다단 레이아웃은 한 번에 한 단씩 읽기 순서로 평탄화됩니다. 서식 보존이 필요하다면 대신 PDF를 Word로 변환을 사용하세요. 제목과 인라인 스타일이 유지됩니다.
최선을 다해 처리합니다. 표는 PDF의 원래 열 위치를 기준으로 탭으로 구분된 듯한 줄이 됩니다 — 대개 읽을 수는 있지만 완벽하게 정렬되지는 않습니다. 다단 기사는 위에서 아래로 한 번에 한 단씩 추출됩니다. 정확한 표 추출이 필요하다면 PDF를 Excel로 변환을 사용하세요.
아니요. PDF.js가 브라우저 탭 안에서 파일을 구문 분석하고, getTextContent()로 텍스트를 추출한 뒤, 결과를 컴퓨터로 다운로드되는 Blob에 기록합니다. 네트워크를 통과하는 것은 없습니다. 오프라인 상태에서 도구를 실행하여 이를 확인할 수 있습니다 — 그래도 작동합니다.
직접은 안 됩니다. 암호화된 PDF는 비밀번호 없이 구문 분석할 수 없습니다. 먼저 파일을 PDF 잠금 해제 도구에 통과시킨 다음(비밀번호 입력), 잠금이 해제된 PDF를 여기로 가져오세요. 우리는 암호화된 PDF를 조용히 빈 파일로 반환하는 대신 친절한 오류 메시지로 명시적으로 거부합니다.
최상의 결과를 얻기 위한 팁
- 파일이 스캐너나 카메라에서 왔다면 먼저 OCR을 실행하세요. 스캔한 PDF에는 추출할 텍스트 레이어가 없습니다.
- 사람이 읽으려면 "페이지 표시"를 선택하세요. 기본 구분자는 한 페이지가 끝나고 다음 페이지가 시작되는 지점을 쉽게 찾게 해줍니다.
- 오래된 ASCII 프린터/도구에는 폼 피드를 사용하세요. .txt를 오래된 무언가로 넘긴다면 \f 문자가 전통적인 페이지 나누기입니다.
- 다단 PDF는 깨끗한 원본이 필요합니다. 두 단이 서로 섞인다면 기반 PDF가 텍스트를 순서에 어긋나게 인코딩했을 가능성이 큽니다 — Acrobat에서 열고 다시 저장해 보세요.
- 암호화된 PDF는 먼저 잠금을 해제하세요. 우리는 조용히 빈 텍스트를 반환하지 않습니다 — PDF 잠금 해제를 거쳐 다시 오세요.
관련 PDF 도구
- TXT를 PDF로 변환 — 그 반대: 일반 텍스트를 다시 서식 있는 PDF로 변환합니다.
- PDF를 Word로 변환 — 단어뿐 아니라 제목과 인라인 스타일을 보존합니다.
- PDF OCR — 먼저 스캔한 PDF에서 텍스트를 추출할 수 있게 만듭니다.
- PDF 요약 — LLM이 PDF를 읽고 핵심을 알려주게 하세요.