Question 1

스캔한 PDF에서도 텍스트를 추출할 수 있나요?

Accepted Answer

아니요, 이 도구는 디지털 텍스트가 포함된 PDF만 지원합니다. 스캔한 이미지로만 구성된 PDF에서는 텍스트를 추출할 수 없습니다. 스캔 PDF의 텍스트를 추출하려면 OCR(광학 문자 인식) 소프트웨어를 사용하여 먼저 텍스트 레이어를 추가해야 합니다. Adobe Acrobat, ABBYY FineReader 등의 OCR 도구를 활용하시거나, PDF를 디지털 형식으로 재생성한 후 이 도구를 사용하세요.

Question 2

텍스트 출력과 마크다운 출력의 차이점은 무엇인가요?

Accepted Answer

텍스트 형식은 순수 텍스트로 추출하며, 표(테이블)는 탭(Tab)으로 열을 구분합니다. 단순히 내용만 필요할 때 적합합니다. 마크다운 형식은 표를 파이프(|) 구분의 마크다운 테이블 문법으로 변환하여 구조를 보존합니다. Notion, Obsidian, GitHub 등 마크다운을 지원하는 도구에 붙여넣을 때 표가 그대로 렌더링되어 편리합니다.

Question 3

업로드한 파일은 서버에 저장되나요?

Accepted Answer

아니요, 업로드한 파일은 텍스트 추출 처리가 완료되는 즉시 서버에서 삭제됩니다. 파일은 임시 디렉토리에 고유 식별자(UUID)로 저장되며, 추출 성공 여부에 관계없이 처리 직후 자동 삭제됩니다. 추출된 텍스트 결과는 서버에 저장되지 않으며, 브라우저로 전송된 후 서버 측에서는 어떠한 데이터도 남지 않습니다.

Question 4

Excel 파일에서 수식 결과가 빈 칸으로 나오는 이유는?

Accepted Answer

Excel 파일을 읽을 때 저장된 계산 결과 값(data_only 모드)을 읽습니다. 만약 셀에 수식이 있지만 Excel에서 한 번도 계산이 실행되지 않은 상태로 저장되었다면 값이 비어있을 수 있습니다. 이 경우 Excel에서 파일을 한 번 열어 저장한 후 다시 업로드하시면 정상적으로 값이 추출됩니다. LibreOffice에서 저장한 파일도 동일한 현상이 발생할 수 있습니다.

Question 5

한컴오피스(한글) 프로그램이 없어도 HWP/HWPX 파일을 처리할 수 있나요?

Accepted Answer

네, 한컴오피스 설치 없이 HWP와 HWPX 파일 모두 처리할 수 있습니다. HWPX는 XML 기반 형식이라 python-hwpx 라이브러리로 직접 파싱하며, HWP는 바이너리 형식이라 pyhwp 라이브러리로 처리합니다. 다만 HWPX 형식이 구조화된 XML 기반이므로 추출 정확도가 더 높습니다. 가능하면 한글 문서를 HWPX 형식으로 저장한 후 업로드하시는 것을 권장합니다.

텍스트 추출기

텍스트 추출기 안내

텍스트 추출기란?

사용 방법

지원 형식별 추출 방식

알아두면 좋은 팁

자주 묻는 질문

관련 계산기