텍스트 추출기
PDF, Word, Excel, CSV, HWP, HWPX 문서에서 텍스트를 추출합니다.
문서 파일 업로드
클릭하여 파일을 선택하거나 여기에 끌어다 놓으세요
지원 형식: PDF, DOCX, XLSX, CSV, HWP, HWPX
최대 파일 크기: 10MB

텍스트 추출기 안내
텍스트 추출기란?
텍스트 추출기는 다양한 문서 파일에서 텍스트를 추출하여 일반 텍스트(TXT) 또는 마크다운(MD) 형식으로 변환해주는 도구입니다.
■ 지원하는 파일 형식
• PDF — 디지털 PDF 문서의 텍스트 및 테이블 추출
• DOCX — Microsoft Word 문서의 단락과 표 추출
• XLSX — Microsoft Excel 통합문서의 모든 시트 데이터 추출
• CSV — 쉼표로 구분된 텍스트 파일 (UTF-8, CP949, EUC-KR 자동 감지)
• HWPX — 한컴오피스 한글 문서 (XML 기반 최신 형식)
• HWP — 한컴오피스 한글 문서 (바이너리 기반 구형 형식)
업무 중 문서에서 텍스트만 필요한 경우가 자주 있습니다. 예를 들어 PDF 보고서의 내용을 다른 문서에 붙여넣거나, Excel 데이터를 텍스트로 변환하거나, 한글 문서의 내용을 마크다운으로 정리하는 작업 등이 있습니다.
이 도구를 사용하면 별도의 프로그램 설치 없이 웹 브라우저에서 간편하게 텍스트를 추출할 수 있습니다. 추출된 텍스트는 화면에서 바로 확인하고, 클립보드에 복사하거나 파일로 다운로드할 수 있습니다.
사용 방법
■ 파일 업로드
업로드 영역을 클릭하여 파일 선택 대화상자에서 문서를 선택하거나, 파일을 직접 끌어다 놓아 업로드합니다. 지원되는 확장자(.pdf, .docx, .xlsx, .csv, .hwpx, .hwp)의 파일만 업로드 가능합니다.
■ 출력 형식 선택
두 가지 출력 형식을 제공합니다:
① 텍스트 — 순수 텍스트 형식으로 추출합니다. 표(테이블)는 탭으로 구분된 형태로 출력됩니다. 간단히 내용만 필요할 때 적합합니다.
② 마크다운 — 마크다운 형식으로 추출합니다. 표는 파이프(|) 구분 마크다운 테이블로 변환되어 구조가 보존됩니다. Notion, Obsidian 등 마크다운 편집기에 붙여넣을 때 유용합니다.
■ 텍스트 추출
'텍스트 추출' 버튼을 클릭하면 서버에서 문서를 분석합니다. 파일 크기와 복잡도에 따라 수 초가 소요될 수 있습니다.
■ 결과 확인 및 저장
추출 완료 후 미리보기 영역에서 내용을 확인합니다. '복사' 버튼으로 클립보드에 복사하거나, '다운로드' 버튼으로 파일을 저장할 수 있습니다. 텍스트 형식이면 .txt, 마크다운 형식이면 .md 파일로 다운로드됩니다.
■ 주의사항
• 업로드된 파일은 텍스트 추출 후 서버에서 즉시 삭제됩니다.
• 스캔한 이미지만 포함된 PDF는 텍스트를 추출할 수 없습니다(OCR 미지원).
지원 형식별 추출 방식
■ PDF 추출
PyMuPDF 라이브러리를 사용하여 페이지별로 텍스트를 추출합니다. 마크다운 모드에서는 두 단계의 테이블 감지가 작동합니다:
• 1단계 — 구조화된 테이블: PDF 내부의 명시적 테이블 구조를 감지합니다.
• 2단계 — 비정형 테이블: 텍스트의 좌표(x, y 위치)를 분석하여 시각적으로 정렬된 데이터를 테이블로 인식합니다. Y좌표 클러스터링과 X좌표 열 감지 알고리즘을 사용합니다.
■ DOCX 추출
python-docx 라이브러리로 문서의 단락(paragraph)과 표(table)를 순서대로 추출합니다. 마크다운 모드에서 표는 파이프 구분 형식으로 변환됩니다.
■ XLSX 추출
openpyxl 라이브러리로 통합문서의 모든 시트를 읽습니다. 읽기 전용 모드로 처리하여 메모리를 효율적으로 사용합니다. 마크다운 모드에서 여러 시트가 있으면 각 시트명이 소제목으로 표시됩니다.
■ CSV 추출
Python 표준 라이브러리의 csv 모듈을 사용합니다. 인코딩은 UTF-8 → CP949 → EUC-KR 순서로 자동 감지됩니다. 한국어가 포함된 CSV 파일도 정상 처리됩니다.
■ HWPX 추출
python-hwpx 라이브러리로 최신 XML 기반 한글 문서의 텍스트를 추출합니다. 한컴오피스 설치 없이 처리 가능합니다.
■ HWP 추출
pyhwp 라이브러리로 구형 바이너리 한글 파일을 처리합니다. HWP5 형식을 UTF-8 텍스트로 변환합니다.
알아두면 좋은 팁
■ 스프레드시트는 마크다운 형식 추천
Excel(.xlsx)이나 CSV 파일처럼 표 구조의 데이터를 추출할 때는 마크다운 형식을 선택하세요. 테이블 구조가 보존되어 가독성이 훨씬 좋습니다. 텍스트 형식으로 추출하면 탭 구분만 되어 구조를 파악하기 어려울 수 있습니다.
■ PDF 테이블 추출 활용
PDF 내 표 데이터가 필요하다면 마크다운 형식을 선택하세요. 좌표 기반 비정형 테이블 감지 기능이 도형+텍스트로 구성된 비표준 테이블도 인식합니다. 다만 매우 복잡한 레이아웃이나 셀 병합이 많은 표는 완벽히 재현되지 않을 수 있습니다.
■ 한글(HWP/HWPX) 문서 변환
한컴오피스가 설치되지 않은 환경에서 한글 문서의 내용을 확인하고 싶을 때 유용합니다. HWPX(최신 형식)가 HWP(구형 형식)보다 추출 정확도가 높으므로, 가능하면 HWPX 형식을 사용하세요.
■ 스캔 PDF 확인 방법
PDF에서 텍스트가 전혀 추출되지 않는다면 스캔 이미지로 만든 PDF일 가능성이 높습니다. 이 경우 OCR(광학 문자 인식) 소프트웨어를 사용하여 먼저 텍스트 레이어를 추가해야 합니다.
■ 대용량 파일 처리
파일이 크거나 페이지가 많은 PDF의 경우 추출에 시간이 걸릴 수 있습니다. 필요한 페이지만 별도로 추출한 후 업로드하면 더 빠르게 처리됩니다.
■ 인코딩 문제 해결
CSV 파일에서 한글이 깨지는 경우는 거의 없습니다. UTF-8, CP949, EUC-KR 인코딩을 자동으로 감지하기 때문입니다. 만약 다른 인코딩의 파일이라면 먼저 텍스트 편집기에서 UTF-8로 저장한 후 업로드하세요.