当浏览器成为 AI 的下一个战场，谁会被淘汰？

时间：2025-08-20

来源：互联网

在手机上看

手机扫描阅读

AI 的未来在于能自主导航网页的代理。各大科技公司纷纷投入浏览器代理的开发，旨在自动化网页任务、提升生产力。本文探讨其应用场景、当前挑战，以及 Web3 原生方案带来的机遇。本文源自Mario Chow、Figo，@IOSG 所着文章，由BlockBeats 整理、编译及撰稿。
（前情提要：OpenAI Sam Altman：我有兴趣收购 Google Chrome！参赛市占最大浏览器争夺战）
（背景补充：Perplexity 开价 345 亿美元收购 Chrome 浏览器，AI 搜寻引擎小兵战巨人）

本文目录

谁将赢得 AI 浏览器之战？
- OpenAI – Agent 模式
- Anthropic – Claude 的「Computer Use」
- Perplexity – Comet
- 日常网页自动化
- 架构不匹配
- 信任与安全顾虑
- 面向链上操作的原生代理型浏览器
- 可验证与可信的代理执行
- 去中心化的结构化资料网路
- 面向代理的网页标準 (前瞻)
过去 12 个月，网页浏览器与自动化的关係发生了剧烈变化。几乎所有大型科技公司都在争相建构自主的浏览器代理 (browser agent)。从 2024 年底开始这一趋势愈发明显：OpenAI 在 1 月推出了 Agent 模式，Anthropic 为 Claude 模型发布了「电脑使用」功能，Google DeepMind 推出了 Project Mariner，Opera 宣布了代理型浏览器 Neon，而 Perplexity AI 则推出了 Comet 浏览器。讯号十分明确：AI 的未来在于能够自主导航网页的代理。
这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人，而是机器与数位环境互动方式的根本转变。浏览器代理是一类能够「看」网页并採取行动的 AI 系统：点击连结、填写表单、滚动页面、输入文字：就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值，因为它能自动化那些目前仍需要人工操作，或传统脚本过于複杂而无法完成的任务。
▲ GIF 演示：AI 浏览器代理的实际操作：遵循指令，导航到目标资料集页面，自动截图并提取所需资料。

几乎所有大型科技公司 (以及一些新创公司) 都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个专案：
OpenAI – Agent 模式
OpenAI 的 Agent 模式 (前身名为 Operator，2025 年 1 月推出) 是一种自带浏览器的 AI 代理。Operator 能够处理各种重複性的线上任务：例如填写网页表单、订购杂货、安排会议：全部透过人类常用的标準网页介面完成。
▲ AI 代理像专业助理一样安排会议：检查日曆、寻找可用时间段、建立活动、发送确认，并为你生成 .ics 文件。
Anthropic – Claude 的「Computer Use」
2024 年底，Anthropic 为 Claude 3.5 引入了全新的「Computer Use (电脑使用)」功能，赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看萤幕、移动游标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版，开发者可以让 Claude 自动导航网站和应用程式。Anthropic 将其定位为一种实验性功能，主要目标是实现网页上的多步骤工作流自动化。

Perplexity – Comet
AI 新创公司 Perplexity (以问答引擎闻名) 在 2025 年中期推出了 Comet 浏览器，作为 Chrome 的 AI 驱动替代品。Comet 的核心是内建在网址列 (omnibox) 中的对话式 AI 搜寻引擎，能够提供即时问答和摘要，而不是传统的搜寻连结。
此外，Comet 还内建 Comet Assistant，这是一个驻留在侧边栏的代理，可以跨网站自动执行日常任务。例如，它可以总结你打开的邮件、安排会议、管理浏览器分页，或代表你浏览并抓取网页资讯。
透过侧边栏介面让代理能够感知当前网页内容，Comet 旨在将浏览与 AI 助手无缝融合。
在前文中，我们已经回顾了各大科技公司 (OpenAI、Anthropic、Perplexity 等) 如何透过不同的产品形态为浏览器代理 (browser agents) 注入功能。为了更直观地理解它们的价值，我们可以进一步看看在真实场景中，这些能力如何被应用到日常生活和企业工作流程中。
日常网页自动化
# 电商与个人购物
一个非常实用的场景是将购物与预订任务委託给代理。代理可以根据固定清单自动填充你的线上购物车并下单，也可以在多个零售商之间寻找最低价，并代你完成结帐流程。

对于旅行，你可以让 AI 执行这样的任务：「帮我预订下个月去东京的航班 (票价低于 800 美元)，再订一家有免费 Wi-Fi 的饭店。」代理会处理整个流程：搜索航班、比较选项、填写乘客资讯、完成饭店预订，全部透过航空公司与饭店网站完成。这种自动化水平远远超越了现有的旅游机器人：它不仅仅是推荐，而是直接执行购买。
# 提升办公效率
代理能够自动化许多人们在浏览器中进行的重複性业务操作。例如，整理电子邮件并提取待办事项，或在多个日曆中检查空档并自动安排会议。Perplexity 的 Comet 助手已经可以透过网页介面总结你的收件匣内容，或为你新增日程。代理还可以在获得你的授权后，登入 SaaS 工具产生常规报告、更新电子试算表，或提交表单。想像一个 HR 代理，能够自动登入不同的招聘网站发布职位；或一个销售代理，可以更新 CRM 系统的潜在客户资料。这些日常琐碎工作本来会耗费大量员工时间，但 AI 可以透过自动化网页表单和页面操作完成。

除了单一任务，代理还能串联起跨多个网路系统的完整工作流程。所有这些步骤都需要在不同的网页介面中操作，而这正是 browser agent 的强项。代理可以登入各种仪表板进行故障排除，甚至编排流程，例如为新员工完成入职操作 (在多个 SaaS 网站上创建帐号)。本质上，任何目前需要点开多个网站完成的多步骤操作，都可以交由代理执行。
儘管潜力巨大，但今天的浏览器代理距离完美仍有很大差距。目前的实现揭示出了一些长期存在的技术和基础设施难题：
架构不匹配
现代网路是为人类操作的浏览器而设计的，并且随着时间的推移逐渐演变为主动抵御自动化。资料常常埋藏在为视觉展示优化的 HTML/CSS 中，被互动手势 (滑鼠悬停、滑动) 所限制，或者只能透过未公开的 API 存取。
在此基础上，反爬虫与反诈欺系统又人为增加了额外屏障。这些工具结合了 IP 信誉、浏览器指纹、JavaScript 挑战回馈以及行为分析 (例如滑鼠移动的随机性、打字节奏、停留时间)。矛盾的是，AI 代理表现得越「完美」、效率越高：比如瞬间填表、从不出错，就越容易被辨识为恶意自动化。这可能导致硬性失败：例如 OpenAI 或 Google 的代理可能顺利完成结帐前的所有步骤，但最终却被 CAPTCHA 或二次安全过滤拦下。
人类优化的介面与对机器人不友善的防御层叠加在一起，迫使代理採取脆弱的「人机模仿」策略。这种方法极易失效，成功率低 (如果没有人工干预，完整交易的完成率仍不足三分之一)。
信任与安全顾虑
要让代理获得完全控制，通常需要存取敏感资讯：登入凭证、Cookies、双因素认证令牌，甚至支付资讯。这带来了用户与企业都能理解的担忧：
· 如果代理出错或被恶意网站欺骗怎么办？
· 如果代理同意了某个服务条款或执行了某笔交易，谁该负责？

基于这些风险，目前的系统普遍採取谨慎态度：
· Google 的 Mariner 不会输入信用卡资讯或同意服务条款，而是交还给用户。
· OpenAI 的 Operator 会提示用户接管登入或 CAPTCHA 挑战。
· Anthropic 的 Claude 驱动的代理可能直接拒绝登入，理由是安全考量。
结果是：AI 与人类之间频繁的停顿与交接，削弱了无缝自动化的体验。
儘管存在这些障碍，进展仍在快速推进。OpenAI、Google、Anthropic 等公司在每一轮迭代中都吸取失败经验。随着需求的增长，很可能会出现一种「共同演化」：网站在有利的场景下变得更友善于代理，而代理也会不断提升对人类行为的模仿能力，以绕过现有屏障。
当下的浏览器代理正临两种截然不同的现实：一方面是 Web2 的敌对环境，反爬虫与安全防御无处不在；另一方面是 Web3 的开放环境，自动化反而常常受到鼓励。这种差异决定了各类解决方案的方向。
下面的解决方案大致分为两类：一类帮助代理绕过 Web2 的敌对环境，另一类则是原生于 Web3 的方案。
虽然浏览器代理面临的挑战依旧显着，但新的专案正不断涌现，试图直接解决这些问题。加密货币与去中心化金融 (DeFi) 生态正在成为天然的试验场，因为它开放、可编程、且对自动化不那么敌视。开放的 API、智慧合约与链上透明性，消除了许多 Web2 世界常见的摩擦点。
以下是四类解决方案，每一类都在应对当下的一项或多项核心局限：
面向链上操作的原生代理型浏览器
这些浏览器从零开始就是为自主代理驱动而设计的，并且与区块链协议深度整合。与传统的 Chrome 浏览器不同，后者若要进行链上操作自动化需要额外依赖 Selenium、Playwright 或钱包外挂；而原生代理型浏览器则直接给予 API 和可信的执行路径，供代理调用。
在去中心化金融中，交易的有效性依赖的是加密签名，而不是用户是否「像人类」。因此在链上环境中，代理可以绕过 Web2 世界常见的 CAPTCHA、诈欺检测分数和设备指纹检查。然而，如果这些浏览器指向像 Amazon 这样的 Web2 网站，它们并不能绕过相关的防御机制，在那种场景下依然会触发正常的反机器人措施。
代理型浏览器的价值并不是能神奇地存取所有网站，而是在于：
· 原生区块链整合：内建钱包与签名支援，无需再透过 MetaMask 弹窗或解析 dApp 前端的 DOM。
· 自动化优先设计：提供稳定的高层指令，能直接对应为协议操作。
· 安全模型：精细化的权限控制与沙盒，确保私钥在自动化过程中安全。
· 效能优化：能够并行执行多个链上调用，而无需浏览器渲染或 UI 延迟。

# 案例：Donut
Donut 将区块链资料与操作作为一等公民进行整合。用户 (或其代理) 可以悬停查看代币的即时风险指标，或直接输入自然语言指令如「/swap 100 USDC to SOL」。透过跳过 Web2 的敌对摩擦点，Donut 让代理能在 DeFi 中全速运行，提升流动性、套利与市场效率。
可验证与可信的代理执行
让代理获得敏感权限风险很大。相关解决方案使用可信执行环境 (TEEs) 或零知识证明 (ZKPs) 来在执行前加密确认代理的预期行为，使用户与对手方在不暴露私钥或凭证的前提下验证代理动作。
# 案例：Phala Network
Phala 使用 TEEs (如 Intel SGX) 来隔离与保护执行环境，从而避免 Phala 营运方或攻击者窥探或篡改代理逻辑与资料。TEE 就像一个硬体加持的「安全密室」，保证了机密性 (外部无法看到) 与完整性 (外部无法修改)。
对于浏览器代理，这意味着它可以登入、持有会话权杖，或处理支付资讯，而这些敏感资料永远不会离开安全密室。即便使用者机器、作业系统或网路被攻破，也无法洩露。这直接缓解了代理应用落地的最大障碍之一：对敏感凭证与操作的信任问题。
去中心化的结构化资料网路
现代的反机器人侦测系统不仅检查请求是否「过快」或「自动化」，还会结合 IP 信誉、浏览器指纹、JavaScript 挑战回馈与行为分析 (例如游标移动、打字节奏、会话历史)。那些来自资料中心 IP 或完全可重複的浏览环境的代理很容易被辨识。
为了解决这一问题，这类网路不再抓取为人类优化的网页，而是直接收集并提供机器可读的资料，或者透过真实的人类浏览环境代理流量。这种方式绕过了传统爬虫在解析与反爬环节的脆弱性，能为代理提供更乾净、更可靠的输入。
透过将代理流量代理到这些真实世界的会话，分散式网路 (distribution network) 让 AI 代理可以像人一样存取网页内容，而不会立即触发封锁。
# 案例
· Grass：去中心化资料 /DePIN 网路，用户共享闲置的住宅频宽，从而为公共网页资料收集与模型训练提供代理友善、地理多样化的存取管道。
· WootzApp：支援加密货币支付的开源行动浏览器，带有后台代理与零知识身分；它将 AI/ 资料任务「游戏化」推向消费者。
· Sixpence：分散式浏览器网路，透过全球贡献者的浏览，为 AI 代理路由流量。
不过这并非完整解决方案。行为检测 (滑鼠 / 滚动轨迹)、帐户层级的限制 (KYC、帐号年龄)以及指纹一致性检查依然可能触发封锁。因此，分散式网路最好被视作基础的隐匿层，必须与模仿人类的执行策略结合才能发挥最大效果。
面向代理的网页标準 (前瞻)
目前，越来越多的技术社群和组织正在探索：如果未来网路用户不仅是人，还有自动化代理 (agent)，网站该如何安全、合规地与它们打交道？
这推动了一些新兴标準和机制的讨论，目标是让网站能够明确表示「我允许可信代理存取」，并且提供一个安全的通道来完成互动，而不是像今天这样预设把代理当作「机器人攻击」来拦截。
· 「Agent Allowed」标籤：就像搜寻引擎遵守的 robots.txt 一样，未来网页可能会在程式码中加一个标籤，告诉浏览器代理「这里可以安全存取」。比如说，如果你用代理订机票，网站就不会跳出一堆验证码 (CAPTCHA)，而是直接提供一个认证后的介面。
· 认证代理的 API 网关：网站可以为经过验证的代理开放专门的入口，就像「快速通道」。代理不需要模拟人类点击、输入，而是走一条更稳定的 API 路径完成下单、支付或资料查询。
· W3C 的讨论：全球资讯网协会 (W3C) 已经在研究如何为「受管自动化」制定标準化通道。这意味着，未来我们可能会有一套全球通用的规则，让可信代理能被网站辨识和接纳，同时保持安全和可追究责任。
虽然这些探索都还在早期，但一旦落地，就可能极大改善人类↔代理↔网站之间的关係。想像一下：不再需要代理拼命模仿人类滑鼠移动来「骗过」风控，而是光明正大地透过一个「官方允许」的通道完成任务。
在这条路线上，加密原生的基础设施可能会率先起步。因为链上应用天生就依赖开放 API 和智慧合约，对自动化是友善的。相比之下，传统 Web2 平台可能还会继续谨慎防守，尤其是依赖广告或反诈欺体系的公司。但随着用户和企业逐渐接受自动化带来的效率提升，这些标準化尝试很可能会成为推动整个网路迈向「代理优先架构」的关键催化剂。
浏览器代理正在从最初的简单对话工具，演化为能够完成複杂线上工作流程的自主系统。这一转变反映了一个更广泛的趋势：将自动化直接嵌入用户与网路互动的核心介面中。虽然生产力提升的潜力巨大，但挑战同样严峻，包括如何突破根深蒂固的反机器人机制，以及如何确保安全性、信任与负责任的使用方式。
在短期内，代理的推理能力提升、速度更快、与现有服务的更紧密整合，以及分散式网路的进步，可能会逐步提高可靠性。从长期来看，我们或许会在那些自动化对服务提供方与用户双方都有利的场景中，看到「代理友善」标準的逐步落地。不过，这一转变将不会是均匀的：在如 DeFi 这样的自动化友善环境中，採用速度会更快；而在严重依赖用户互动控制的 Web2 平台，接受程度会更慢。
未来，科技公司的竞争将越来越集中在以下几个方面：其代理在现实世界限制下的导航能力如何、能否安全地整合到关键工作流程中，以及能否在多样化的线上环境中稳定交付结果。至于这一切是否最终会重塑「浏览器之战」，取决于的并非单纯的技术实力，而是能否建立信任、对齐激励，并在日常使用中展现出切实的价值。
原文连结
?相关报导?
预测市场Kalshi数据：60%人赌注Gemini打败ChatGPT，成为2025最佳AI LLM
苹果考虑「弃用Google浏览器」升级Safari引入AI搜寻，Alphabet股价狂泻7.5%
Google的野心：从 AI 算力资料中心到 Crypto 稳定币

当浏览器成为 AI 的下一个战场，谁会被淘汰？

OpenAI – Agent 模式

Anthropic – Claude 的「Computer Use」

Perplexity – Comet

日常网页自动化

架构不匹配

信任与安全顾虑

面向链上操作的原生代理型浏览器

可验证与可信的代理执行

去中心化的结构化资料网路

面向代理的网页标準 (前瞻)

?相关报导?

今日更新

热门下载