0단계: 지금 다루는 PDF가 어느 쪽인지부터 확인합니다

도구를 고르기 전에, 지금 열려 있는 PDF가 어느 쪽 유형인지 10초만 확인해 주세요. 적절한 방법은 이 판단으로 거의 결정됩니다. "Mac에서 PDF OCR이 왜 이렇게 어렵냐"는 불만의 대부분은 잘못된 도구를 잘못된 종류의 파일에 적용해서 생깁니다.

PDF는 실용적으로 두 종류로 나뉩니다.

판별법은 단순하면서도 가장 확실합니다. 미리보기에서 PDF를 열고 Cmd+F를 누른 뒤, 화면에 또렷하게 보이는 단어(제목, 사람 이름 등)를 검색해 보세요. 미리보기가 강조 표시를 해 주면 네이티브 PDF이고, 텍스트가 이미 들어 있으니 OCR이 필요 없습니다. 단어가 분명 보이는데도 "찾을 수 없음"이 뜬다면 스캔 PDF이고, 내용을 선택·검색 가능하게 만들려면 OCR이 필요합니다.

세 번째 경우인 혼합 PDF도 자주 등장하니 짚어 둡니다. 대부분 페이지는 네이티브 텍스트지만 중간에 끼어든 몇 페이지(서명된 계약서 페이지, 스캔된 부록, 팩스 표지 등)가 이미지인 경우입니다. Cmd+F가 어떤 단어는 찾고 어떤 단어는 못 찾는 패턴이 나타납니다. 아래 방법은 모두 이 경우를 다룰 수 있고, 특히 ocrmypdf의 --skip-text 옵션은 기존 텍스트 레이어는 그대로 두고 스캔된 페이지만 OCR해 줍니다.

방법 1: 미리보기 / 메모 (이미 텍스트 레이어가 있을 때)

Cmd+F로 검색이 됐다면 다른 도구는 필요 없습니다. macOS는 오래전부터 네이티브 PDF를 잘 다뤄 왔습니다. 미리보기는 커서로 텍스트를 선택하고 복사할 수 있으며, 페이지를 가로지르는 선택도 됩니다. Spotlight는 기본적으로 PDF 안의 텍스트를 색인하므로 메뉴 바에서 곧장 계약서의 한 조항을 찾을 수 있습니다. 메모에 붙여 넣으면 깔끔하게 들어가고, Pages로 끌어다 놓으면 레이아웃도 어느 정도 보존됩니다.

네이티브 PDF에서 다른 도구를 찾고 싶어지는 유일한 상황은, 기술적으로 텍스트 레이어가 존재하지만 망가져 있는 경우입니다. 일부 오래된 PDF는 글자 매핑이 깨져서 복사·붙여넣기를 하면 깨진 글자가 나옵니다. 그럴 때는 스캔 PDF처럼 다루어 아래 방법으로 다시 OCR하는 편이 빠릅니다.

미리보기의 라이브 텍스트는 PDF에서도 쓸 수 있나요?

macOS 13 Ventura부터 Apple의 라이브 텍스트가 PDF 페이지에서도 동작합니다. 미리보기에서 스캔 PDF를 연 다음 글자 부분에 커서를 올리면 I-빔 모양으로 바뀌고 드래그로 선택·복사할 수 있습니다. 이는 정말 유용한 기능이고, "스캔본에서 한 문장만 빠르게 가져오기" 같은 상황에서 잘 작동합니다.

다만 솔직하게 짚을 한계가 두 가지 있습니다. 첫째, 라이브 텍스트는 현재 보고 있는 페이지를 대상으로 동작하므로 200페이지짜리 스캔 보고서를 일괄 처리하거나 문서 전체를 검색 가능하게 만들지는 못합니다. 둘째, 라이브 텍스트는 인식 결과를 PDF 파일에 다시 써 주지 않습니다. 문서를 닫거나 동료에게 보내거나 다른 Mac에서 열어 보면 Cmd+F는 여전히 작동하지 않습니다. 라이브 텍스트는 뷰어 측 기능이지 파일을 수정하는 기능이 아닙니다.

방법 2: 단락 단위 추출은 Cheese! OCR

저희가 만든 도구이니 솔직한 부분부터 적습니다. Cheese! OCR은 PDF 전체를 처리하는 도구가 아닙니다. 텍스트 레이어를 파일에 다시 써 주지 않고, 500페이지를 밤새 일괄 처리하지도 않습니다. 그게 필요한 분이라면 방법 3으로 바로 넘어가시기 바랍니다.

Mac에서 Cheese! OCR이 가장 빠르게 빛나는 순간은 실무에서 사실 더 자주 일어나는 다른 장면입니다. 화면에 스캔 PDF가 열려 있고, 그 안에서 단락 한 문단·인용 한 줄·표 하나·코드 조각 하나만 빼고 싶을 때입니다. 예를 들어 학술 자료를 정리하면서 1970년대에 누군가 스캔해 둔 PDF 논문에서 특정 구절을 인용하고 싶을 때, 거래처가 보낸 계약서가 스캔본인데 손해 배상 조항만 카카오톡 단톡방에 붙여 넣고 싶을 때, 외국어 PDF에서 한 단락을 통째로 번역기에 던지고 싶을 때, 또는 웹툰 캡처나 한국어 PDF에서 텍스트만 빼서 다른 곳에 옮기고 싶을 때입니다.

흐름은 다음과 같습니다.

  1. 전역 단축키(기본값 ++E)를 누릅니다.
  2. 스크린샷을 찍듯이 PDF 페이지에서 추출하고 싶은 영역을 사각형으로 드래그합니다.
  3. 인식 결과가 클립보드에 들어옵니다. 어디에든 붙여 넣으면 끝입니다.

단락 추출 용도에서 다른 방법보다 빠른 이유는 세 가지입니다. 단축키가 전역이라 앱을 전환할 필요가 없습니다. 인식이 Apple Vision 프레임워크로 기기 안에서 끝나므로 네트워크 왕복도 없고 민감한 페이지가 외부로 나갈 통로 자체가 없습니다. 결과가 곧장 클립보드에 들어가니 "텍스트 파일로 저장한 뒤 다시 열어서 복사" 같은 중간 단계가 사라집니다.

개인정보 측면은 추상적인 약속이 아닙니다. Cheese! OCR은 App Store 샌드박스에서 네트워크 권한을 전혀 요청하지 않습니다. "전송하지 않겠다는 약속"이 아니라, 운영체제 차원에서 네트워크 연결 자체가 막혀 있다는 뜻입니다. 계약서, 의료 기록, 사내 자료처럼 민감한 페이지가 섞이는 환경이라면, "이론상 네트워크에 나갈 수 있는" 도구와의 차이는 분명합니다.

판단 기준은 단순합니다. 작업 단위가 "단락"이라면 가장 빠른 길이고, 작업 단위가 "문서 한 권"이라면 다음 절로 넘어가시기 바랍니다.

방법 3: ocrmypdf로 문서 전체 OCR (무료, 오픈소스)

PDF 전체를 검색 가능하게 만들고 싶을 때 — 모든 페이지에서 선택이 되고, 모든 단어를 Cmd+F나 Spotlight로 찾을 수 있는 상태 — Mac에서 가장 좋은 무료 해법은 ocrmypdf입니다. Tesseract를 감싼 오픈소스 프로젝트이며, 기울기 보정과 노이즈 제거 같은 전처리를 끝낸 뒤 PDF 사본에 깔끔한 텍스트 레이어를 입혀 줍니다.

Homebrew가 설치되어 있다면 설치는 한 줄이면 됩니다.

brew install ocrmypdf

가장 기본적인 사용법은 인자 두 개 — 입력 파일과 출력 파일 — 만 넘기면 끝입니다.

ocrmypdf input.pdf output.pdf

영어로만 된 PDF라면 이 한 줄이면 충분합니다. 출력 파일은 시각적으로 입력과 동일하지만, 각 페이지 뒤에 보이지 않는 텍스트 레이어가 깔립니다. 이제 미리보기에서 Cmd+F가 작동하고, 복사·붙여넣기가 되며, 동료에게 보내도 상대방 쪽에서 검색이 됩니다. 원본 파일은 손대지 않습니다.

다국어·비영어 PDF

비영어 문서에는 -l(또는 --language)로 언어를 지정합니다. Tesseract는 세 글자 코드를 사용합니다.

ocrmypdf -l eng+chi_sim+jpn+kor input.pdf output.pdf

플러스로 여러 언어를 쌓을 수 있어, 영어와 한글이 섞인 학술 자료, 인용이 다국어로 걸치는 문서, 한자·영문이 함께 등장하는 비즈니스 문서에 잘 맞습니다. 해당 Tesseract 언어 데이터가 설치되어 있어야 하며, Homebrew라면 brew install tesseract-lang으로 주요 언어가 함께 설치됩니다.

실무에서 쓰게 되는 옵션

ocrmypdf의 단점은 명령줄 도구라는 점입니다. 터미널이 익숙한 분에게는 Mac에서 문서 전체 OCR을 가장 깔끔하고 빠르고 개인정보 친화적으로 처리하는 방법입니다. brew install이 외계어처럼 느껴진다면 방법 4로 가시면 됩니다.

방법 4: PDFPen Pro 같은 상용 GUI 도구

명령줄 대신 그래픽 앱으로 끝내고 싶은 분께는 Smile Software의 PDFPen Pro가 Mac의 정평 있는 선택지입니다. 스캔 PDF를 열고, OCR을 돌리고, 인식된 텍스트를 편집한 뒤 검색 가능한 파일로 저장하는 일을 일반적인 Mac 앱 인터페이스 안에서 처리합니다. 가격은 일회성 구매이며 역사적으로 100달러 안팎에서 움직여 왔습니다. 버전과 업그레이드 라이선스에 따라 변동이 있으므로, 구매 전 공식 페이지에서 현재 가격을 확인하시는 편이 좋습니다.

비슷한 제품으로 Nitro PDF Pro, Readdle의 PDF Expert(OCR이 유료 추가 기능), ABBYY FineReader for Mac(더 강력하고 더 비쌈, 연구·아카이브 용도에서 자주 채택)이 있습니다. 하는 일은 모두 비슷합니다 — PDF 열기 → OCR 클릭 → 텍스트 레이어와 함께 저장 — 그리고 모두 유료인 이유는 고객층 자체가 터미널을 열고 싶지 않은 분들이기 때문입니다.

판단 기준은 이렇습니다. 분기에 한 번 정도만 OCR한다면, ocrmypdf는 명령줄 학습 부담이 과하고, PDFPen은 어차피 편집기의 다른 기능도 같이 쓸 수 있으니 부담이 덜합니다. 일주일에 몇 번씩 OCR해야 하는 업무라면 GUI 도구가 줄여 주는 시간이 라이선스 비용을 충분히 벌어 줍니다.

Adobe Acrobat에 대해

Acrobat Pro는 역사적으로 기본값 같은 선택지였고 지금도 잘 동작합니다. 그럼에도 본문에서 앞쪽에 두지 않은 이유는 다음과 같습니다. 구독제이며(플랜에 따라 월 20달러대부터), 일부 OCR 경로는 Adobe 클라우드 서비스를 거칠 수 있고, "스캔 PDF를 검색 가능하게 만든다"는 단일 목적에 비춰 보면 무료에 로컬에서 동등 이상의 결과를 내는 ocrmypdf 대비 과합니다.

이미 양식 작성, 복잡한 편집, 회사의 컴플라이언스 요구로 Acrobat을 결제 중이라면 그쪽 OCR로 충분하고 다른 도구가 필요 없습니다. OCR만을 위해 Acrobat 구독을 새로 시작할지 고민 중이라면 권하지 않습니다. ocrmypdf나 PDFPen Pro로 더 적은 비용에 같은 일이 됩니다.

판단 매트릭스

지금까지 내용을 한 표로 정리하면 다음과 같습니다.

방법 적합한 상황 비용 개인정보 속도
미리보기 / 메모 이미 텍스트 레이어가 있는 네이티브 PDF OS 기본, 무료 완전 로컬 즉시
Cheese! OCR 스캔 PDF에서 단락·인용·표 추출 $5.99 일회 구매 온디바이스, 네트워크 권한 0 건당 몇 초
ocrmypdf 문서 전체 검색 가능화, 일괄 처리 무료, 오픈소스 완전 로컬 느린 편(전체 처리)
PDFPen Pro 류 터미널 없이 전체 OCR 약 $100+ 일회(변동) 완전 로컬 ocrmypdf와 비슷
Adobe Acrobat Pro 이미 다른 용도로 결제 중 월 $20부터 혼합(일부 클라우드) 비슷

한 단락으로 정리하는 선택법

먼저 Cmd+F부터 시도해 봅니다. 검색이 되면 미리보기에서 끝. 검색이 안 되면 필요한 게 단락인지 문서 전체인지 자문해 봅니다. 단락이면 Cheese! OCR. 문서 전체이고 터미널이 익숙하면 ocrmypdf. 문서 전체이고 GUI를 원하면 PDFPen Pro. 이미 Acrobat을 결제 중이면 Acrobat. OCR만을 위해 Acrobat을 새로 결제할까 망설이는 중이라면 — 하지 않으시는 편이 낫습니다.

대부분은 결국 이 중 하나가 아니라 둘을 함께 씁니다. ocrmypdf로 한 달에 한 번 보관용 일괄 처리를 돌리고, 매일 발생하는 "이 PDF에서 한 단락만 가져오기" 작업에는 스크린샷 OCR을 쓰는 식이죠. 또는 큰 작업에는 PDFPen, 가끔 한 번씩 발생하는 일에는 라이브 텍스트, 이런 조합이 흔합니다. 이 카테고리들은 경쟁이 아니라 보완 관계입니다.

각 방법에 대한 더 구체적인 궁금증이 있으시다면, 자주 받는 질문을 아래 FAQ에 정리해 두었습니다.