# 텍스트 추출기

> PDF, Word, Excel, CSV, HWP, HWPX 문서에서 텍스트를 추출합니다.

## 텍스트 추출기란?

텍스트 추출기는 다양한 문서 파일에서 텍스트를 추출하여 일반 텍스트(TXT) 또는 마크다운(MD) 형식으로 변환해주는 도구입니다.

■ 지원하는 파일 형식
• PDF — 디지털 PDF 문서의 텍스트 및 테이블 추출
• DOCX — Microsoft Word 문서의 단락과 표 추출
• XLSX — Microsoft Excel 통합문서의 모든 시트 데이터 추출
• CSV — 쉼표로 구분된 텍스트 파일 (UTF-8, CP949, EUC-KR 자동 감지)
• HWPX — 한컴오피스 한글 문서 (XML 기반 최신 형식)
• HWP — 한컴오피스 한글 문서 (바이너리 기반 구형 형식)

업무 중 문서에서 텍스트만 필요한 경우가 자주 있습니다. 예를 들어 PDF 보고서의 내용을 다른 문서에 붙여넣거나, Excel 데이터를 텍스트로 변환하거나, 한글 문서의 내용을 마크다운으로 정리하는 작업 등이 있습니다.

이 도구를 사용하면 별도의 프로그램 설치 없이 웹 브라우저에서 간편하게 텍스트를 추출할 수 있습니다. 추출된 텍스트는 화면에서 바로 확인하고, 클립보드에 복사하거나 파일로 다운로드할 수 있습니다.

## 사용 방법

■ 파일 업로드
업로드 영역을 클릭하여 파일 선택 대화상자에서 문서를 선택하거나, 파일을 직접 끌어다 놓아 업로드합니다. 지원되는 확장자(.pdf, .docx, .xlsx, .csv, .hwpx, .hwp)의 파일만 업로드 가능합니다.

■ 출력 형식 선택
두 가지 출력 형식을 제공합니다:

① 텍스트 — 순수 텍스트 형식으로 추출합니다. 표(테이블)는 탭으로 구분된 형태로 출력됩니다. 간단히 내용만 필요할 때 적합합니다.

② 마크다운 — 마크다운 형식으로 추출합니다. 표는 파이프(|) 구분 마크다운 테이블로 변환되어 구조가 보존됩니다. Notion, Obsidian 등 마크다운 편집기에 붙여넣을 때 유용합니다.

■ 텍스트 추출
'텍스트 추출' 버튼을 클릭하면 서버에서 문서를 분석합니다. 파일 크기와 복잡도에 따라 수 초가 소요될 수 있습니다.

■ 결과 확인 및 저장
추출 완료 후 미리보기 영역에서 내용을 확인합니다. '복사' 버튼으로 클립보드에 복사하거나, '다운로드' 버튼으로 파일을 저장할 수 있습니다. 텍스트 형식이면 .txt, 마크다운 형식이면 .md 파일로 다운로드됩니다.

■ 주의사항
• 업로드된 파일은 텍스트 추출 후 서버에서 즉시 삭제됩니다.
• 스캔한 이미지만 포함된 PDF는 텍스트를 추출할 수 없습니다(OCR 미지원).

## 지원 형식별 추출 방식

■ PDF 추출
PyMuPDF 라이브러리를 사용하여 페이지별로 텍스트를 추출합니다. 마크다운 모드에서는 두 단계의 테이블 감지가 작동합니다:
• 1단계 — 구조화된 테이블: PDF 내부의 명시적 테이블 구조를 감지합니다.
• 2단계 — 비정형 테이블: 텍스트의 좌표(x, y 위치)를 분석하여 시각적으로 정렬된 데이터를 테이블로 인식합니다. Y좌표 클러스터링과 X좌표 열 감지 알고리즘을 사용합니다.

■ DOCX 추출
python-docx 라이브러리로 문서의 단락(paragraph)과 표(table)를 순서대로 추출합니다. 마크다운 모드에서 표는 파이프 구분 형식으로 변환됩니다.

■ XLSX 추출
openpyxl 라이브러리로 통합문서의 모든 시트를 읽습니다. 읽기 전용 모드로 처리하여 메모리를 효율적으로 사용합니다. 마크다운 모드에서 여러 시트가 있으면 각 시트명이 소제목으로 표시됩니다.

■ CSV 추출
Python 표준 라이브러리의 csv 모듈을 사용합니다. 인코딩은 UTF-8 → CP949 → EUC-KR 순서로 자동 감지됩니다. 한국어가 포함된 CSV 파일도 정상 처리됩니다.

■ HWPX 추출
python-hwpx 라이브러리로 최신 XML 기반 한글 문서의 텍스트를 추출합니다. 한컴오피스 설치 없이 처리 가능합니다.

■ HWP 추출
pyhwp 라이브러리로 구형 바이너리 한글 파일을 처리합니다. HWP5 형식을 UTF-8 텍스트로 변환합니다.

## 알아두면 좋은 팁

■ 스프레드시트는 마크다운 형식 추천
Excel(.xlsx)이나 CSV 파일처럼 표 구조의 데이터를 추출할 때는 마크다운 형식을 선택하세요. 테이블 구조가 보존되어 가독성이 훨씬 좋습니다. 텍스트 형식으로 추출하면 탭 구분만 되어 구조를 파악하기 어려울 수 있습니다.

■ PDF 테이블 추출 활용
PDF 내 표 데이터가 필요하다면 마크다운 형식을 선택하세요. 좌표 기반 비정형 테이블 감지 기능이 도형+텍스트로 구성된 비표준 테이블도 인식합니다. 다만 매우 복잡한 레이아웃이나 셀 병합이 많은 표는 완벽히 재현되지 않을 수 있습니다.

■ 한글(HWP/HWPX) 문서 변환
한컴오피스가 설치되지 않은 환경에서 한글 문서의 내용을 확인하고 싶을 때 유용합니다. HWPX(최신 형식)가 HWP(구형 형식)보다 추출 정확도가 높으므로, 가능하면 HWPX 형식을 사용하세요.

■ 스캔 PDF 확인 방법
PDF에서 텍스트가 전혀 추출되지 않는다면 스캔 이미지로 만든 PDF일 가능성이 높습니다. 이 경우 OCR(광학 문자 인식) 소프트웨어를 사용하여 먼저 텍스트 레이어를 추가해야 합니다.

■ 대용량 파일 처리
파일이 크거나 페이지가 많은 PDF의 경우 추출에 시간이 걸릴 수 있습니다. 필요한 페이지만 별도로 추출한 후 업로드하면 더 빠르게 처리됩니다.

■ 인코딩 문제 해결
CSV 파일에서 한글이 깨지는 경우는 거의 없습니다. UTF-8, CP949, EUC-KR 인코딩을 자동으로 감지하기 때문입니다. 만약 다른 인코딩의 파일이라면 먼저 텍스트 편집기에서 UTF-8로 저장한 후 업로드하세요.

## 자주 묻는 질문

### Q. 스캔한 PDF에서도 텍스트를 추출할 수 있나요?

아니요, 이 도구는 디지털 텍스트가 포함된 PDF만 지원합니다. 스캔한 이미지로만 구성된 PDF에서는 텍스트를 추출할 수 없습니다. 스캔 PDF의 텍스트를 추출하려면 OCR(광학 문자 인식) 소프트웨어를 사용하여 먼저 텍스트 레이어를 추가해야 합니다. Adobe Acrobat, ABBYY FineReader 등의 OCR 도구를 활용하시거나, PDF를 디지털 형식으로 재생성한 후 이 도구를 사용하세요.

### Q. 텍스트 출력과 마크다운 출력의 차이점은 무엇인가요?

텍스트 형식은 순수 텍스트로 추출하며, 표(테이블)는 탭(Tab)으로 열을 구분합니다. 단순히 내용만 필요할 때 적합합니다. 마크다운 형식은 표를 파이프(|) 구분의 마크다운 테이블 문법으로 변환하여 구조를 보존합니다. Notion, Obsidian, GitHub 등 마크다운을 지원하는 도구에 붙여넣을 때 표가 그대로 렌더링되어 편리합니다.

### Q. 업로드한 파일은 서버에 저장되나요?

아니요, 업로드한 파일은 텍스트 추출 처리가 완료되는 즉시 서버에서 삭제됩니다. 파일은 임시 디렉토리에 고유 식별자(UUID)로 저장되며, 추출 성공 여부에 관계없이 처리 직후 자동 삭제됩니다. 추출된 텍스트 결과는 서버에 저장되지 않으며, 브라우저로 전송된 후 서버 측에서는 어떠한 데이터도 남지 않습니다.

### Q. Excel 파일에서 수식 결과가 빈 칸으로 나오는 이유는?

Excel 파일을 읽을 때 저장된 계산 결과 값(data_only 모드)을 읽습니다. 만약 셀에 수식이 있지만 Excel에서 한 번도 계산이 실행되지 않은 상태로 저장되었다면 값이 비어있을 수 있습니다. 이 경우 Excel에서 파일을 한 번 열어 저장한 후 다시 업로드하시면 정상적으로 값이 추출됩니다. LibreOffice에서 저장한 파일도 동일한 현상이 발생할 수 있습니다.

### Q. 한컴오피스(한글) 프로그램이 없어도 HWP/HWPX 파일을 처리할 수 있나요?

네, 한컴오피스 설치 없이 HWP와 HWPX 파일 모두 처리할 수 있습니다. HWPX는 XML 기반 형식이라 python-hwpx 라이브러리로 직접 파싱하며, HWP는 바이너리 형식이라 pyhwp 라이브러리로 처리합니다. 다만 HWPX 형식이 구조화된 XML 기반이므로 추출 정확도가 더 높습니다. 가능하면 한글 문서를 HWPX 형식으로 저장한 후 업로드하시는 것을 권장합니다.