日本語 OCR の難しさ
2026 年の今、英語の OCR 精度はすでに頭打ちに近い水準まで来ています。難しいのはここから先で、日本語のように「漢字・ひらがな・カタカナを混ぜながら、横書きと縦書きを併用する」言語は、汎用 OCR にとって今でも挑戦が多い領域です。具体的には次のような点があります。
- 漢字の字種が多く、似た字形を取り違えると意味が大きく変わる(例:「未」と「末」、「土」と「士」)。
- ひらがな・カタカナ・漢字・英数字の 4 種類が同じ行に混在する。
- 新聞や雑誌、文庫本では縦書き、Web やオフィス文書では横書きと、版面の方向が混在する。
- 漫画の擬音、駅看板の意匠ロゴ、商品パッケージのデザイン書体など、文字とイラストが一体化する場面が多い。
- 業務文書では PDF・Word・Excel のスクリーンショットが日常的に飛び交う。
幸い、Apple Vision はこの領域にかなり力を入れていて、macOS 13 以降の日本語 OCR は実用レベルに到達しています。それでも「すべて読める」わけではありません。本記事では、日本語特有のシーンごとに、Live Text で済む場面、別のツールが要る場面、そして専門ツールが必要な場面を整理していきます。
macOS Live Text の日本語対応状況
Apple の公式仕様では、macOS 13 Ventura 時点で Live Text は英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語(簡体・繁体)、日本語に対応しました。macOS 14 Sonoma で韓国語・ウクライナ語・タイ語が追加され、現行の macOS 15 系列では合計 14 言語ほどがサポート対象になっています。
日本語ユーザーにとって特に便利なのは、Apple Vision が「言語を選ばせない」設計になっている点です。漢字・ひらがな・カタカナ・英数字が混ざった文章を、いちいち「これは日本語です」と教えなくても 1 回の認識でまとめて読めます。たとえば社内 Slack に貼られた「来週の MTG は 14:00〜です。詳細は Notion を参照」のような画像でも、英数字込みでひと続きのテキストとして取り出せます。
使い方も難しくはありません。
- 写真アプリで画像を開き、文字部分にカーソルを合わせると I 字カーソルになり、選択・コピーが可能になります。
- プレビューで画像や PDF を開いた場合も同じく直接選択できます。
- Safari でページ内画像を右クリックすると「画像内のテキストをコピー」が出ます。
- Cmd+Shift+5 でスクリーンショットを撮ると、サムネールから Live Text を呼び出せます。
Live Text が苦手な場面
Live Text は「Apple 純正のサーフェスに乗っている文字」が一番得意です。逆に、日本語ユーザーが日々の業務で出会う場面の半分以上は、純正アプリの外で起きています。
他社アプリのウィンドウ内(LINE・Slack・Notion・Zoom・Teams)
LINE で送られてきた長文スクリーンショット、Slack に貼られた業務マニュアルの画像、Notion のページに埋め込まれた図、Zoom や Teams で共有された資料スライド——いずれも Live Text のホット領域から外れます。一度スクリーンショットを撮り、写真かプレビューで開いてから選択する、という手順が必要です。これは 1 日に 10 回以上やると確実に煩わしくなります。
ここがグローバルホットキー型の OCR ツールが効く一番の理由です。Slack や LINE のウィンドウの上から直接 OCR をかけられれば、保存と再オープンの 2 ステップが消えます。
複数段組のスキャン PDF と論文
日本語の業務報告書、白書、学会誌、紀要、医学論文には 2 段組や 3 段組の PDF が珍しくありません。文字レイヤーが入っているネイティブ PDF はそもそも OCR が要らず、コピーで済みます。問題はスキャン PDF で、Live Text は画像順に文字を読むため、左段の 1 行目→右段の 1 行目→左段の 2 行目……と読み順が崩れた結果が返ってきます。
実用的な対処法は、ページ全体ではなく、段単位で範囲指定して OCR をかけることです。Cheese! OCR は矩形でドラッグ選択するので、左段だけ→右段だけと順に取れば、貼り付けた段階できれいに連続したテキストになります。
縦書き活字(古い文庫本・写本・新聞)
現代の小説や雑誌の縦書きは、行間が整っていれば Live Text で実用レベルに認識できます。問題が出やすいのは次のような版面です。
- 戦前の活字本、復刻本、戦後すぐの新聞——字形・約物・段組のスタイルが現代と異なります。
- ルビ(振り仮名)が密集する古典の教科書——本文とルビの分離が崩れることがあります。
- 装飾的な見出しや、文字とイラストが重なる雑誌のレイアウト。
このあたりは Apple Vision の訓練データの分布から外れる領域なので、汎用 OCR では下書き止まりと割り切るのが現実的です。古文書を本格的に扱う場合は国立国会図書館の NDLOCR など専用ツールが先を行っています。
漫画とコミック
これも正直に書いておきますが、漫画は OCR にとって難所です。きれいな吹き出しの中の写植は問題なく読めますが、次の要素は精度が落ちます。
- 擬音(ドカーン、ザァァ など)の手描き文字。背景イラストに溶け込んでいたり、不規則に変形していたりします。
- コマ外のキャプションや作家のメモ書き。
- 背景のロゴ、看板、新聞紙面など、絵として描かれた文字。
漫画の翻訳支援や読書記録のためにセリフだけ取り出したい、という用途であれば、吹き出しは Apple Vision で十分実用です。擬音まで完全に拾いたい場合は、人の手による補完が前提になります。
業務文書のスキャンと社内ナレッジ
請求書、契約書、見積書、議事録のスキャン、社内ナレッジに保存された画像化された手順書——日本のオフィスで一番件数の多い OCR シーンです。Live Text でも実用ですが、たいてい「対象が業務アプリの中にある」ので、ホットキー型のほうが手数が少なくて済みます。Cheese! OCR の履歴があると、過去にスキャンした請求書番号や型番を後から検索で取り出せるのも、業務利用では地味に効きます。
Cheese! OCR が日本語をどう扱うか
はじめにフェアに書いておくと、Cheese! OCR は Apple Vision を呼び出しているだけなので、同じ画像に対する認識精度は Live Text と同じです。Vision より上の精度を目指して別のモデルを動かしているわけではありません。差は精度ではなく、ワークフローと運用にあります。
具体的にどう違うかをまとめると次のとおりです。
- グローバルホットキー:デフォルトは ⇧⌘E(変更可)。LINE・Slack・Zoom・ブラウザ動画の一時停止画面など、どのアプリの上からでも矩形ドラッグで OCR できます。
- 多言語デフォルト:英語・簡体中国語・日本語・韓国語の 4 言語が初期状態で有効。日本語と英語が混ざったメールスクショでも設定なしで一発で読めます。
- 履歴の検索:メニューバーから過去に OCR したテキストを全文検索できます。1 週間前にスクショから抜いた製品コードや会議メモを探すときに重宝します。
- 完全オンデバイス:Mac App Store のサンドボックス情報からも確認できますが、ネットワーク権限を一切持たないアプリです。社内文書、医療関係の書類、契約書など、機密性の高い画像でも安心して使えます。
具体シーン別の実用ノウハウ
漫画と Webコミック
外国語学習や翻訳資料作成のために漫画のセリフをテキスト化したい、という用途は意外と多いです。実用的な進め方は、コマ単位で吹き出しを矩形選択することです。1 ページまるごと OCR にかけると、擬音や看板文字が混じって順序が崩れがちですが、吹き出し単位で取れば人物のセリフだけきれいに並びます。擬音まで欲しい場合は別途手で書き起こすか、漫画専用の OCR ツールを併用してください。
ビジネス文書のスキャン
日本のオフィスで一番ありがちな PDF パターンは「複合機でスキャンされた A4 横の画像 PDF」です。これは文字レイヤーが入っていないので、コピー操作だけでは取り出せません。プレビューで開いてから Live Text 経由でも取れますが、内容を抜きながら他のアプリ(業務システム、Notion の議事録、Slack の引用)に貼っていく場合は、ホットキーから直接 OCR したほうがテンポが良くなります。
金額や型番が並ぶ表の場合、行ごとに範囲指定すると貼り付け先での整形が楽になります。表全体を一度に OCR すると、列の境界がスペースに変わるため、後から手で整える手間が増えやすいからです。
駅看板・店頭ポスター・観光案内
意匠を凝らした駅名標、観光地の案内板、店頭の手書き POP——いわゆる「街の中の文字」も日本語 OCR の典型シーンです。一般的な駅看板(ゴシック体のフルサイズ)は問題なく読めます。崩した手書き、書道風のロゴ、夜間で背景と文字のコントラストが低い写真は精度が落ちます。撮影時に「真正面・しっかりした明るさ・余分な背景を入れない」を意識すると、認識結果が安定します。
学術 PDF と政府刊行物
論文・白書・統計資料は段組と図表が多く、ページ全体 OCR には向きません。実用的な手順は次のとおりです。
- まずネイティブ PDF か画像 PDF かを判定する(プレビューで Cmd+A してテキストが選択できればネイティブ)。
- ネイティブなら OCR は不要、コピーで済ませる。
- 画像 PDF の場合、本文を段単位で OCR する。脚注・図キャプションは別個に取る。
- 図中の数式や記号は、汎用 OCR ではなく Mathpix のような数式専門ツールに任せる。
Web 上の日本語コンテンツ(X・note・はてな)
X(旧 Twitter)の長文画像投稿、note のサムネに埋め込まれた一節、はてなブログ記事のキャプチャ——これらは Web の中にあるとはいえ、ブラウザ内に画像として表示されているので Live Text のショートカットメニューから取れます。ただし、ブラウザのフルウィンドウから複数段の画像を順に取り出す場合は、矩形で連続して切り出せるホットキー型のほうが圧倒的に早いです。
使い分けの目安
- Live Text を使う:Photos・プレビュー・Safari・メモなど純正アプリの中にある文字。ここでは Live Text が一番手数が少なく、第三者ツールと同じ Apple Vision の結果が返ります。
- Cheese! OCR のようなグローバルホットキー型 OCR を使う:LINE・Slack・Zoom・Notion・YouTube の一時停止画面など、純正アプリの外にある文字。精度は同じで、手順が短くなる分だけ速くなります。
- 専門 OCR を使う:戦前の活字本、写本、漫画の擬音まで完全に拾いたい場合、複雑な数式。汎用 OCR は下書き止まりだと考えて、最初から専門ツールに切り替えるのが堅実です。
多くの日本語ユーザーが日々遭遇する OCR シーン——Slack や LINE の画像、業務スキャン、Web 上の引用画像、駅看板のメモ書き——のほとんどは、最初の 2 つの組み合わせで足ります。Live Text で土台がしっかりしているおかげで、残るのはどう楽に呼び出すか、という設計の話に集約されます。