被 AI 操作浏览器各种概念绕晕了？这篇一次讲清楚

这两年，AI 最重要的变化，不是"更会聊天"了，而是：AI 开始会"动手"了。

以前你问 AI"帮我订张机票"，它只能告诉你去哪个网站、怎么填写信息、哪个航班更便宜——但自己什么都干不了。

现在，越来越多 AI 已经能自己打开网页、搜索信息、填写表单、点击按钮，把整件事做完。

这背后，是一个巨大的行业变化：AI 正在学会"使用浏览器"。

浏览器是今天互联网最重要的入口。无论是小红书、Gmail、飞书、淘宝后台，本质上几乎都是网页系统。所以谁能让 AI 学会操作浏览器，谁就可能真正让 AI 从"聊天工具"变成"数字员工"。

今天 AI 操控浏览器这件事，在业内有个专门术语叫 browser use，已经是衡量 AI 应用水平的关键指标。现实场景里，它能做的事情已经非常广泛：

内容创作：自媒体选题调研、抓取热文、多平台自动发布
数据采集：行业数据收集、科研信息检索
日常办公：自动填写表单、办理报名、抢票订购
信息聚合：跟踪行业动态、跨平台内容整合

你可能在网上见过各种说法——Playwright、CDP、Browser Use、Extension、Computer Use……看起来很乱。

其实整个行业归根结底只有两种大思路。理解了这两种，你基本就看懂了整个 Browser Agent 行业。

第一种思路：AI 直接"进入浏览器内部"

普通人用浏览器，是用眼睛看页面、找按钮、再用鼠标点击。但 AI 不需要这样。它可以直接知道按钮在哪里、输入框是什么、页面结构长什么样——相当于 AI 拿到了浏览器后台权限，所以操作起来会快得离谱。

这一派里，目前行业里主要有这几种方案：

浏览器插件（Extension）

这是现在越来越火的路线。你可以理解成 AI 直接"住进了浏览器里"，就像广告拦截插件、沉浸式翻译一样。安装后，AI 就能知道当前网页是什么、页面内容是什么、哪个按钮能点击，甚至能读取你的 Cookie 和登录状态。

这个方案最大的优点是：非常像真实用户。因为 AI 运行在你的真实浏览器里，很多网站根本察觉不出这是 AI 在操作，风险最低。Claude 的 Computer Use 功能、CodeX 等产品都走了这条路。

CDP（浏览器调试协议）

这个名字听起来陌生，但你每天都能接触到——你在 Chrome 里按 F12 打开的"开发者工具"，背后就是 CDP。它本来是 Chrome 给开发者调试网页用的，后来大家发现它几乎等于"浏览器管理员权限"：可以点击网页、输入文字、获取页面内容、控制标签页……

于是 AI Agent 行业大量基于 CDP 来控制浏览器，控制能力极强，速度也很快。

但问题也很明显：太像机器人了。 CDP 会留下不可隐藏的自动化标记，小红书、抖音、Twitter 这类平台风控一旦发现，就会触发验证码、限流、封号。

另外还有一个细节：Chrome 从 136 版本起已经封禁了直接连接用户本地浏览器数据的方式，所以用 CDP 最好新建一个独立的用户环境，和日常账号分开，安全性更高。

Playwright 类框架

很多人以为 Playwright 是一种新浏览器技术，其实它更像"更容易控制浏览器的工具箱"。因为原始 CDP 太复杂，Playwright 把复杂操作封装成了"点击、输入、打开网页"这样的简单动作，上手门槛低很多。

现在大量 AI Agent 工具底层都在用类似思路，国内的 Kimi、CLA 等工具配合 Playwright 使用也是常见组合。但 Playwright 本质上还是基于 CDP，同样存在被平台识别为自动化操作的风险。

WebDriver（Selenium）

这是更老的一个方案，Selenium 就是典型代表。它通过浏览器的标准协议来控制浏览器，跨浏览器兼容性好，但性能比 CDP 差不少，功能也更有限。现在用得越来越少，主要是一些老项目在维护。

第二种思路：AI 像人一样"看屏幕"

这就是最近特别火的 Computer Use 路线。

和前面那一派最大的区别是：它不读取浏览器内部结构，而是真的截图、分析屏幕、判断按钮位置、再移动鼠标点击。就像一个人在远程操控电脑。

这个思路有一个特别重要的意义：AI 不再依赖浏览器本身了。 只要是人能操作的界面，理论上 AI 都能操作——不只是网页，还包括 Excel、Photoshop、老旧的 ERP 系统，甚至那些没有任何 API 接口的企业软件。因为现实世界里大量系统没有 API、没有开放接口，但人类能用，AI 理论上也能用。

第一次看到 Computer Use 演示时，很多人都会震撼——它真的太像一个真人在远程控制电脑。

但问题也很明显：慢，而且贵。 因为每一步都要截图、上传、识别、推理，再操作，视觉 AI 本身非常耗算力。另外它还容易找错按钮、点错地方，页面稍有变化就可能"迷路"，无法处理结构化数据。所以现在行业里形成了一个共识：纯视觉控制不是最终答案。

风控这件事，比技术本身更难

整个行业现在最大的难题，不是 AI 能不能控制浏览器，而是：AI 怎样才能"像真人一样"控制浏览器，不被平台识别。

平台检测自动化操作，主要看这几个维度：

浏览器指纹：你的浏览器版本、安装的插件、字体列表等信息，正常用户和自动化工具有很大差异
行为模式：点击速度是否太均匀、鼠标轨迹是否太"机械"
账号环境：这个账号有没有正常的历史数据、是否是全新环境

所以选方案时，优先级大概是这样：插件方案隐蔽性最强（没有 CDP 标记，运行在真实用户环境里）；其次是 CDP 新建独立 Profile（和日常账号隔离）。

未来的 AI 浏览器长什么样？

答案其实已经很清晰了：混合模式。

能直接控制浏览器的时候，用插件、CDP、Playwright——快、成本低、自动化能力强；遇到复杂界面、老系统、没有 API 的情况，再切换成 Computer Use，因为它更像真人、泛化能力更强。

所以未来真正强大的 AI Agent，既会"程序级控制浏览器"，又会"像人一样操作电脑"。整个行业正在从"对话式 AI"进入"行动式 AI"时代，浏览器操作就是 AI 伸向现实世界的那只"手"。

一句话总结：

AI 操控浏览器有两条大路——"进入浏览器内部"的那条快、准、但容易被识别；"像人一样看屏幕"的那条什么都能操作、但慢而贵。现实里，最好的方案是两者结合，而如何绕过平台风控，才是这个行业真正的技术难点。

ai-coding-invisible-work codex-chrome-extension