中文 OCR 的特殊难点
英文 OCR 早就不是新鲜话题了,2026 年真正考验工具的,是中文这种字符密集、字形复杂、版式多样的语言。中文 OCR 有几个常被忽略的难点:常用字就有三千多个,识别错误一个字往往让整句话意思走样;繁简两套字形并行使用,简繁转换又因地区习惯不同而存在歧义;中英、中日韩混排很常见;竖排还在古籍、部分港台出版物里活着;公众号长图、表情包、艺术字这些中文互联网特色场景,识别难度也都不低。
好消息是 Apple 在 Vision 框架上对中文投入了不少精力,从 macOS 13 起,简繁中文都已经是 Live Text 的一等公民。坏消息是“一等公民”不代表“都识别得了”,它仍有几个识别会明显掉链子的场景。这篇文章就把中文 OCR 在 Mac 上的全景写清楚:哪些场景系统自带就够,哪些需要换一套工具,哪些干脆得人工校对。
macOS 实况文本对中文的支持
Apple 官方在 macOS 14 Sonoma 的 Live Text 语言列表里,中文(简体)和中文(繁体)都是独立训练的语种。两者都是从 macOS 13 Ventura 起原生支持,无需任何额外下载或开关。
Apple Vision 一个相当好用的特性是:你不需要事先告诉它“这段是中文”。框架内部跑了语言检测,一次识别里就能把简体、繁体、英文、数字、符号正确切分开。比如一张知乎截图里,中文段落里偶尔夹一个 ChatGPT、一个 GPU、一个百分号——识别结果是干净的。这点比那些“先选择源语言”的传统 OCR 要省心得多。
使用方式上也没什么神秘的:
- 在 Photos 里查看一张照片,把鼠标悬停到中文文字上,光标变成 I 形即可拖选复制;
- 在 Preview 打开图片或扫描 PDF,同样可以直接选;
- 在 Safari 看到一张含中文的网页图片,右键“复制图中文字”可用;
- 使用 Cmd+Shift+5 截图后,截图浮层里会出现实况文本按钮,可以就地识别。
实况文本的局限:四个常见中文场景
实况文本在 Apple 自家应用里跑得很顺,跨出去就是另一回事。下面这四类是我们听用户反馈最频繁的痛点。
第三方 App 里的图片:微信、知乎、B 站、钉钉、飞书
微信公众号截图、知乎长图、小红书图文笔记、B 站弹幕截屏、钉钉群里的图、飞书会议纪要里的截图——这些都没法直接用 Live Text。Live Text 只在 Apple 自家应用里激活,第三方 App 的画面要先截图、再到 Preview 里打开、再选文字。三步操作,一天来个十几次就很烦。
这是全局快捷键 OCR 真正能省事的地方:在微信窗口里直接 ⇧⌘E 拉一个矩形,公众号那段引文就在剪贴板里了,不需要先存图。
多列扫描的学术 PDF 与外刊翻译
中文学术期刊、外刊中文版(《经济学人》《纽约客》中文摘要、各类高校学报)很多是双栏甚至三栏排版。如果是原生 PDF(含文字层),Mac 直接复制就行;但扫描版 PDF 是按图像顺序识别的,结果就是“第一栏第一行 → 第二栏第一行 → 第一栏第二行……”交错读出,复制出来根本没法用。
这类情况我们的实操建议是:不要整页 OCR,按列分别框选。Cheese! OCR 是矩形拖选,正好适合这种用法——一列拉一次,按顺序粘到笔记里,比整页识别再手动重排省事得多。
公众号长图、海报、艺术字
公众号文章经常会塞进一张长图,把好几段文字排成图片发出来;海报、活动宣传图、表情包里的字也是同类情况。这些通常不是问题,但有两类会掉准确率:
- 艺术字、变形字、加投影描边的标题字——识别会断字或错字;
- 底图复杂、文字与背景对比度低的场景——识别会丢字或串字。
对一般阅读级使用,这种识别质量已经够用;要做出版级别的转录,还是要逐句校对。
扫描古籍、刻本、繁体老版书
这是 Apple Vision 比较明显的短板。现代重排的古籍(中华书局、上海古籍这种新版印刷体)识别效果接近现代书;但影印本、刻本、清末民国的铅印老书、手抄本,准确率会明显下降。原因不复杂:模型训练语料以现代印刷体为主,刻本字体、版式(双行小字、夹注、句读符号)都不在训练分布里。
我们的建议:
- 现代点校本:Apple Vision 直接识别可用;
- 影印古籍:识别只能当作粗稿,必须人工校对。专业古籍数字化项目(如 CBETA、各家高校的“中华字库”项目)才是研究级别的工具;
- 遇到生僻字、异体字、不常见的繁体字形——识别错的概率比识别对的高。
Cheese! OCR 怎么处理中文
先把话说在前面:Cheese! OCR 用的就是 Apple Vision。在同一张图上,它的识别结果不会比实况文本更准,也不会更差。我们没有自己另跑一套 OCR 模型。差别全在工作流。
具体差在哪儿:
- 全局快捷键:默认 ⇧⌘E(可改),任何 App 任何窗口下按下都能拉框识别。微信、Notion、Zoom、B 站浏览器播放页都不用先截图。
- 多语言默认开启:英文、简中、日文、韩文四种识别默认都打开,第一次识别一段简繁混排、中日混排不需要去设置里改。
- 历史记录可搜索:菜单栏点开就是过去识别过的所有文字,可以按内容搜索。比如上周 OCR 过一段文献的引用,今天忘了出处,搜个关键词就能找回原始截图。
- 本地运行、不联网:100% 设备端识别,App Store 沙盒清单可查 App 没有任何网络权限。识别公司内部资料、合同截图、医院报告时这点很重要——不会有截图被上传的可能性,因为根本没有上传通道。
对中文用户而言,最常被反馈“值这个价”的体验是:跨 App 时再也不用先存图。微信里看到一段公众号引文,知乎里看到一段长答案,Zoom 里讲师投屏放了一页 PDF——以前都得先截图、命名、找 Preview,现在 ⇧⌘E 拉一下就走了。
具体场景实战
学术 PDF 与外刊扫描件
这是研究生最常遇到的场景。处理思路:
- 先判断是“原生 PDF”还是“扫描 PDF”。在 Preview 里能直接 Cmd+A 选中文字的就是原生,复制即可,不需要 OCR;
- 扫描版才需要 OCR。多列排版按列拉框,单列直接整段拉;
- 引用页码、脚注分开拉框,避免被夹进正文影响顺序;
- 有图、有公式的页面,先把正文识别完,公式部分通常需要专门工具(Mathpix 或 LaTeX OCR),不要指望通用 OCR 能识别复杂数学公式。
微信公众号截图与知乎长图
处理思路是按段拉。一篇被截成几段图的公众号文章,逐段 ⇧⌘E 拉框识别,文字累积到剪贴板历史里再粘到笔记。比起“整张图一次识别”,这样段落顺序更稳,也方便挑出引用句。如果文章里夹有图表标注、二维码等,跳过即可。
繁简转换
Cheese! OCR 识别的是图上原本的文字——简体出简体,繁体出繁体,混排出混排。如果你需要统一成简体或繁体,识别完以后过一遍 OpenCC、Mac 上的「繁简转换」服务、或编辑器自带的简繁转换插件即可。我们刻意没把简繁转换做进 OCR 流程:转换涉及地区差异(“计算机/電腦/電腦”三地用法不同),混进识别结果反而失控。
古籍与刻本
把识别当成第一遍粗稿。现代点校本走 Cheese! OCR 没问题;影印本要么找专业古籍 OCR 工具,要么人工录入。如果你只是想把扫描古籍里的某一段引文敲进论文,先 OCR 再校对仍然比纯手敲快——但要心理上做好“每行都需要看一眼”的准备。
中英混排
这是 Apple Vision 表现最稳的场景之一。一段中文里混 ChatGPT、GPU、PDF、URL,识别结果是连贯的一行。最容易出问题的是:英文字母被设计成像中文偏旁的艺术字、或者反过来,这种艺术字混排里偶尔会有一两个字识别成对方语种。出现这种情况时,肉眼校一下就好。
到底怎么选:决策小结
- 用实况文本:当目标文字已经在 Photos、Preview、Safari、备忘录里时,最方便。不用装任何东西,识别结果与第三方工具一致。
- 用 Cheese! OCR 这类全局快捷键 OCR:当文字在微信、知乎、Notion、Zoom、B 站播放页、第三方 PDF 阅读器等地方时,可以省下“先截图再开 Preview”的两三步。同样的 Apple Vision 精度,差别在工作流。
- 找专业工具:扫描古籍、刻本、复杂数学公式、设计字体的艺术字。通用 OCR 在这里只能做粗稿,别期望它代替专家。
大部分中文 Mac 用户在日常工作里遇到的 OCR 场景——公众号长图、知乎截图、扫描合同、学术 PDF、外刊文摘、微信群聊截图——都落在前两类的交集。系统自带的 Live Text 把基础打得很扎实,剩下的差距,是工作流的差距。