中文 OCR 的特殊难点

英文 OCR 早就不是新鲜话题了,2026 年真正考验工具的,是中文这种字符密集、字形复杂、版式多样的语言。中文 OCR 有几个常被忽略的难点:常用字就有三千多个,识别错误一个字往往让整句话意思走样;繁简两套字形并行使用,简繁转换又因地区习惯不同而存在歧义;中英、中日韩混排很常见;竖排还在古籍、部分港台出版物里活着;公众号长图、表情包、艺术字这些中文互联网特色场景,识别难度也都不低。

好消息是 Apple 在 Vision 框架上对中文投入了不少精力,从 macOS 13 起,简繁中文都已经是 Live Text 的一等公民。坏消息是“一等公民”不代表“都识别得了”,它仍有几个识别会明显掉链子的场景。这篇文章就把中文 OCR 在 Mac 上的全景写清楚:哪些场景系统自带就够,哪些需要换一套工具,哪些干脆得人工校对。

macOS 实况文本对中文的支持

Apple 官方在 macOS 14 Sonoma 的 Live Text 语言列表里,中文(简体)和中文(繁体)都是独立训练的语种。两者都是从 macOS 13 Ventura 起原生支持,无需任何额外下载或开关。

Apple Vision 一个相当好用的特性是:你不需要事先告诉它“这段是中文”。框架内部跑了语言检测,一次识别里就能把简体、繁体、英文、数字、符号正确切分开。比如一张知乎截图里,中文段落里偶尔夹一个 ChatGPT、一个 GPU、一个百分号——识别结果是干净的。这点比那些“先选择源语言”的传统 OCR 要省心得多。

使用方式上也没什么神秘的:

实况文本的局限:四个常见中文场景

实况文本在 Apple 自家应用里跑得很顺,跨出去就是另一回事。下面这四类是我们听用户反馈最频繁的痛点。

第三方 App 里的图片:微信、知乎、B 站、钉钉、飞书

微信公众号截图、知乎长图、小红书图文笔记、B 站弹幕截屏、钉钉群里的图、飞书会议纪要里的截图——这些都没法直接用 Live Text。Live Text 只在 Apple 自家应用里激活,第三方 App 的画面要先截图、再到 Preview 里打开、再选文字。三步操作,一天来个十几次就很烦。

这是全局快捷键 OCR 真正能省事的地方:在微信窗口里直接 ⇧⌘E 拉一个矩形,公众号那段引文就在剪贴板里了,不需要先存图。

多列扫描的学术 PDF 与外刊翻译

中文学术期刊、外刊中文版(《经济学人》《纽约客》中文摘要、各类高校学报)很多是双栏甚至三栏排版。如果是原生 PDF(含文字层),Mac 直接复制就行;但扫描版 PDF 是按图像顺序识别的,结果就是“第一栏第一行 → 第二栏第一行 → 第一栏第二行……”交错读出,复制出来根本没法用。

这类情况我们的实操建议是:不要整页 OCR,按列分别框选。Cheese! OCR 是矩形拖选,正好适合这种用法——一列拉一次,按顺序粘到笔记里,比整页识别再手动重排省事得多。

公众号长图、海报、艺术字

公众号文章经常会塞进一张长图,把好几段文字排成图片发出来;海报、活动宣传图、表情包里的字也是同类情况。这些通常不是问题,但有两类会掉准确率:

对一般阅读级使用,这种识别质量已经够用;要做出版级别的转录,还是要逐句校对。

扫描古籍、刻本、繁体老版书

这是 Apple Vision 比较明显的短板。现代重排的古籍(中华书局、上海古籍这种新版印刷体)识别效果接近现代书;但影印本、刻本、清末民国的铅印老书、手抄本,准确率会明显下降。原因不复杂:模型训练语料以现代印刷体为主,刻本字体、版式(双行小字、夹注、句读符号)都不在训练分布里。

我们的建议:

Cheese! OCR 怎么处理中文

先把话说在前面:Cheese! OCR 用的就是 Apple Vision。在同一张图上,它的识别结果不会比实况文本更准,也不会更差。我们没有自己另跑一套 OCR 模型。差别全在工作流。

具体差在哪儿:

对中文用户而言,最常被反馈“值这个价”的体验是:跨 App 时再也不用先存图。微信里看到一段公众号引文,知乎里看到一段长答案,Zoom 里讲师投屏放了一页 PDF——以前都得先截图、命名、找 Preview,现在 ⇧⌘E 拉一下就走了。

具体场景实战

学术 PDF 与外刊扫描件

这是研究生最常遇到的场景。处理思路:

微信公众号截图与知乎长图

处理思路是按段拉。一篇被截成几段图的公众号文章,逐段 ⇧⌘E 拉框识别,文字累积到剪贴板历史里再粘到笔记。比起“整张图一次识别”,这样段落顺序更稳,也方便挑出引用句。如果文章里夹有图表标注、二维码等,跳过即可。

繁简转换

Cheese! OCR 识别的是图上原本的文字——简体出简体,繁体出繁体,混排出混排。如果你需要统一成简体或繁体,识别完以后过一遍 OpenCC、Mac 上的「繁简转换」服务、或编辑器自带的简繁转换插件即可。我们刻意没把简繁转换做进 OCR 流程:转换涉及地区差异(“计算机/電腦/電腦”三地用法不同),混进识别结果反而失控。

古籍与刻本

把识别当成第一遍粗稿。现代点校本走 Cheese! OCR 没问题;影印本要么找专业古籍 OCR 工具,要么人工录入。如果你只是想把扫描古籍里的某一段引文敲进论文,先 OCR 再校对仍然比纯手敲快——但要心理上做好“每行都需要看一眼”的准备。

中英混排

这是 Apple Vision 表现最稳的场景之一。一段中文里混 ChatGPT、GPU、PDF、URL,识别结果是连贯的一行。最容易出问题的是:英文字母被设计成像中文偏旁的艺术字、或者反过来,这种艺术字混排里偶尔会有一两个字识别成对方语种。出现这种情况时,肉眼校一下就好。

到底怎么选:决策小结

大部分中文 Mac 用户在日常工作里遇到的 OCR 场景——公众号长图、知乎截图、扫描合同、学术 PDF、外刊文摘、微信群聊截图——都落在前两类的交集。系统自带的 Live Text 把基础打得很扎实,剩下的差距,是工作流的差距。