Netflix、爱奇艺这类平台的字幕能 OCR 吗？

理论上 OCR 引擎能识别截屏里的任何像素，但 Netflix、Disney+、Apple TV 这类受 DRM 保护的播放器会把视频画面渲染到受保护的图层里，截屏出来通常是一片黑。更干净的做法是用平台自带的字幕功能，或者通过浏览器扩展把字幕轨道导出来。

对直播视频管用吗？

管用，但请先暂停。直播画面里运动模糊和半截字会拖累识别准确率。空格键暂停一下，等编解码器稳定到一个干净的关键帧，再按下 OCR 快捷键。

滚动文字、动画字幕怎么办？

手动暂停在文字完全显示出来的那一帧。对于代码会自动滚动的教程视频，建议用 IINA 这种支持逐帧步进的播放器，停在代码最清晰的那一帧再 OCR。

Cheese! OCR 会录像吗？

不会。Cheese! OCR 只捕获你框选区域的静态截图，不录视频、不连续抓帧、不上传任何东西。每一次 OCR 都是你按下快捷键时主动触发的单帧识别。

为什么腾讯会议、Zoom 录像截屏出来是黑屏？

部分会议录像启用了屏幕捕获保护，尤其是开启了水印或防外传设置时。macOS 会尊重这个保护标志位，把那一帧渲染成黑色。这不是 OCR 工具能解决的问题——通常需要联系会议主持人，要一份未加保护的录像或直接拿到原始演示文稿。

如何在 Mac 上从视频中复制文字（教程、会议、任何场景）

为什么从视频里复制文字这么麻烦

很多人下意识会去试三连击、Cmd+C、Cmd+V，然后才反应过来：视频不是网页。屏幕上看到的"文字"其实是画面的一部分，是从 H.264 或 HEVC 解码出来的一连串位图。终端里的命令、PPT 上的要点、视频底部的角标，全是画上去的，不是文字。

这件事比普通截图识字更棘手，原因有三个：

压缩损失。视频编码会丢掉高频细节来省码率。在静态截图上很清晰的文字边缘，到了视频帧里会糊掉，尤其是在低码率流或者 720p 源被播放器拉伸到 Retina 屏幕的时候。
运动模糊。就算你打算暂停，有时也会差一帧。编解码器还在关键帧之间，文字一抹就花了。
DRM 保护。Netflix、Disney+、部分腾讯会议录像、某些企业培训平台会把视频渲染到受保护的图层。macOS 尊重这个保护位，截图回来就是一块黑色矩形。

这三个问题 OCR 引擎都解决不了——它们不在 OCR 这一步，而在视频送到屏幕的方式上。好消息是：日常需求里的大多数场景，比如 B 站的编程教程、网易云课堂的录播、飞书会议的回放、内部的 Loom 演示，画面都是正常渲染、正常截图的。关键是：暂停在对的那一帧之后，要选对工具。

先试实况文本（顺便搞清楚它能用在哪里）

如果视频是在 Safari 里播放的，Apple 的实况文本是最省事的路：

暂停视频。
在画面上点右键。
选择"显示实况文本"（菜单项在系统识别到可选文字时才会出现）。
框选你要的文字，复制。

这能成的原因是 Safari 基于 WebKit，Apple 把 WebKit 和 Vision 框架做了深度集成。一旦暂停，WebKit 就把当前画面作为一张静态图交给系统，Vision 在其上做识别，播放器叠加一层可选层。无需额外应用，无需记快捷键。

但有一个细节绝大多数文章都没讲清楚：实况文本对视频画面的支持仅限 Safari。Apple 没把这个钩子开放给其他浏览器，而 Chrome、Firefox 走的 GPU 合成路径会绕开实况文本要检查的图层。截至 macOS Sonoma 和 Sequoia，在 Chrome、Firefox、Brave、Arc、Edge 中暂停视频，都没有"显示实况文本"这个选项。Mac 版 Chrome 能对普通图片做实况文本，但对 video 元素的当前帧不行。

实况文本不奏效的地方

一旦走出 Safari，视频画面上的实况文本就消失了。从我们的实际使用看，这覆盖了相当一部分常见场景：

Chrome、Firefox、Brave、Arc、Edge。大多数人用 Chrome 看教程和直播——视频画面上的实况文本就不工作。右键菜单只是浏览器自己的菜单。
Mac 原生播放器。VLC、IINA、MPV、QuickTime Player 都用自己的渲染管线。实况文本伸不进去。
腾讯会议、Zoom、Microsoft Teams、飞书会议、钉钉视频。哪怕画面看起来很正常，会议客户端用的是定制渲染层。实况文本不可用。
B 站客户端、爱奇艺客户端、优酷客户端、腾讯视频客户端。桌面端原生应用走自己的播放管线，实况文本同样不参与。Web 端在 Safari 里偶尔可以，看具体页面实现。
受 DRM 保护的视频服务。Netflix、Apple TV+、HBO Max、Amazon Prime Video。截屏出来就是黑屏——就算换个 OCR 工具，也没东西可识。

这并不是要否定实况文本。在它覆盖的范围里——照片、预览、备忘录、Safari 的图片和视频——它是一项相当出色的系统能力。它只是不适合"教程在 Chrome、录像在腾讯会议、PPT 在 B 站"这种现实情况。

真正能跨场景搞定的工作流

我们自己日常在用、也是 Cheese! OCR 围绕设计的工作流，是把 OCR 看作一个系统层操作，而不是某个浏览器的功能：

暂停视频。按空格。让播放器停一下。
按下 OCR 快捷键。Cheese! OCR 默认是 ⇧⌘E。屏幕变暗，出现十字光标。
框选包含文字的区域。教程里的终端窗口、PPT 上的某条要点、网课里的板书——按需框选。
粘贴。识别出来的文字已经在剪贴板里。Cmd+V 到笔记、代码编辑器、微信对话框，都行。

这套流程不挑播放器，因为 Cheese! OCR 不去问浏览器、video 元素或者会议客户端"你在显示什么"。它通过 macOS 屏幕捕获 API 直接从显示输出抓像素，然后在本地用 Apple Vision 做识别。从操作系统的视角看，这跟 ⇧⌘4 是同一类操作——只要东西在屏幕上画出来了、又没有被 DRM 主动遮掉，都能截下来识别。

有两个实操层面的好处值得一提。第一，全程本地。Apple Vision 完全在你的 Mac 上跑，截下来的画面不离开本机，Cheese! OCR 没有任何网络权限。读机密会议录像或者尚未发布的课程材料时，这点比平时更重要。第二，有历史记录。Cheese! OCR 把最近的识别结果保存在一个可搜索的列表里。如果你从一段教程里连抓四段代码截图，不会因为抓最新的一段就丢掉前面三段。

真实使用场景

编程教程

B 站、网易云课堂、慕课网、Udemy、Coursera。讲师在屏幕上敲一段代码，你想原样拿到自己的编辑器里、又懒得重打。暂停、OCR、粘贴。现代 Apple Vision 在主流编程字体的录屏上识别得相当稳，通常只需要修一下缩进，偶尔在低码率流里把 l 和 1 改一下。

网课 PPT

录播里讲师在念一张 PPT，上面有一条定义、一条公式、一段引文。这一页停 20 秒就翻篇了。暂停、框选 PPT 区域、OCR、走人。比拖回去再暂停再重打要快得多。

会议聊天面板

录播会议里的聊天框里经常有最有价值的提问——主持人当场回答了，但没有重复一遍问题。把聊天面板 OCR 出来，问题原文就有了。

带要点的演讲视频

B 站上的技术分享、内部全员会回放、年会主题视频。讲者啪啦啪啦过完一页五条要点的 PPT。你想把这五条记进会议笔记。OCR、粘贴，搞定。

同事录的腾讯会议、飞书、Loom 演示

同事录了个演示，告诉你某个工具怎么配置，画面里有命令行片段。录像在 Chrome 或者 Loom 桌面端。实况文本帮不上忙。全局热键 OCR 工具就能。

真正能提升效率的小技巧

用 IINA 做逐帧步进。IINA 是一款基于 MPV 的开源 Mac 播放器，做工很精致。方向键支持逐帧前进。当你要的文字在屏幕上闪一下不到一秒时，用 IINA 可以精准停在文字最清晰的那一帧再 OCR。

挑高分辨率的那一帧暂停。如果一段教程在讲师全身镜头和录屏特写之间切来切去，要 OCR 就 OCR 录屏特写——同样的代码在全身镜头里太小了，编解码器留不住细节。

文字太小先放大网页再暂停。大多数浏览器对 B 站、YouTube 这类网页播放器都支持 Cmd+加号。放大一档常常能把 12px 字幕拉到 18px，识别准确率有明显提升。

用 OCR 历史拼接多帧。较长的代码段经常一帧塞不下。逐帧捕获，Cheese! OCR 会把每一次识别都留在可搜索列表里，最后到编辑器里把片段拼起来即可，不会丢中间结果。

有现成字幕就别 OCR。如果视频带字幕、你又只关心台词，字幕一定比 OCR 烧录字幕更准。视频画面 OCR 适合的是字幕里没有的内容——代码、PPT 要点、聊天面板、屏幕共享文档——而不是替代字幕本身。

用之前需要知道的几个限制

视频画面 OCR 好用，但也不是万能。几条诚实的限制：

压缩越狠，OCR 效果越差。把 1080p 录屏压成 480p 流，小号汉字的笔画会丢，O 和 0 也容易混。能选高清就选高清。
极小字号需要先放大。13 寸 Retina 上播放 10px 字，OCR 会很吃力。先把网页或者播放器放大再暂停。
动画字幕要等动画完成再停。如果一个角标用半秒钟滑入，要等动画完整结束的那一帧再暂停，不要在它还在动的时候停。
DRM 黑屏不是 OCR 能救的。截屏出来是黑色矩形，就没有任何 OCR 工具能挽回。要解决得拿到一份未加保护的内容。

这些都不是致命问题，无非是和普通截图识字一样的取舍——只是因为视频被压缩了两次（一次编解码，一次播放器缩放），上述问题被略微放大。只要主动暂停在干净的一帧上，现代 Apple Vision 在主流教程录屏上的识别准确率，已经稳定到可以省掉重打这一步。

一句话总结：视频本质就是一连串图片，所以只要你能截到一张干净的图，OCR 就能用。先暂停、再截屏、再 OCR。剩下的，就是根据当前播放器选对工具。

如何在 Mac 上从视频中复制文字（教程、会议、任何场景）

为什么从视频里复制文字这么麻烦

先试实况文本（顺便搞清楚它能用在哪里）

实况文本不奏效的地方

真正能跨场景搞定的工作流

真实使用场景

编程教程

网课 PPT

会议聊天面板

带要点的演讲视频

同事录的腾讯会议、飞书、Loom 演示

真正能提升效率的小技巧

用之前需要知道的几个限制

常见问题

试试 Cheese! OCR

为什么从视频里复制文字这么麻烦

先试实况文本（顺便搞清楚它能用在哪里）

实况文本不奏效的地方

真正能跨场景搞定的工作流

真实使用场景

编程教程

网课 PPT

会议聊天面板

带要点的演讲视频

同事录的腾讯会议、飞书、Loom 演示

真正能提升效率的小技巧

用之前需要知道的几个限制

常见问题

试试 Cheese! OCR

相关文章

Cheese! OCR vs macOS 实况文本：什么时候系统自带的不够用

如何在 Mac 上从截图中提取文字（三种方法对比）

如何在 Mac 上 OCR 识别 PDF（2026）：原生版、扫描版、混合版完整指南