+ -

当浏览器成为 AI 的下一个战场,谁会被淘汰?

时间:2025-08-20

来源:互联网

在手机上看
手机扫描阅读

AI 的未来在于能自主导航网页的代理。各大科技公司纷纷投入浏览器代理的开发,旨在自动化网页任务、提升生产力。本文探讨其应用场景、当前挑战,以及 Web3 原生方案带来的机遇。本文源自Mario Chow、Figo,@IOSG 所着文章,由BlockBeats 整理、编译及撰稿。
(前情提要:OpenAI Sam Altman:我有兴趣收购 Google Chrome!参赛市占最大浏览器争夺战
(背景补充:Perplexity 开价 345 亿美元收购 Chrome 浏览器,AI 搜寻引擎小兵战巨人

本文目录

  • 谁将赢得 AI 浏览器之战?
    • OpenAI – Agent 模式
    • Anthropic – Claude 的「Computer Use」
    • Perplexity – Comet
    • 日常网页自动化
    • 架构不匹配
    • 信任与安全顾虑
    • 面向链上操作的原生代理型浏览器
    • 可验证与可信的代理执行
    • 去中心化的结构化资料网路
    • 面向代理的网页标準 (前瞻)

     

    去 12 个月,网页浏览器与自动化的关係发生了剧烈变化。几乎所有大型科技公司都在争相建构自主的浏览器代理 (browser agent)。从 2024 年底开始这一趋势愈发明显:OpenAI 在 1 月推出了 Agent 模式,Anthropic 为 Claude 模型发布了「电脑使用」功能,Google DeepMind 推出了 Project Mariner,Opera 宣布了代理型浏览器 Neon,而 Perplexity AI 则推出了 Comet 浏览器。讯号十分明确:AI 的未来在于能够自主导航网页的代理。

    这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人,而是机器与数位环境互动方式的根本转变。浏览器代理是一类能够「看」网页并採取行动的 AI 系统:点击连结、填写表单、滚动页面、输入文字:就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值,因为它能自动化那些目前仍需要人工操作,或传统脚本过于複杂而无法完成的任务。

    ▲ GIF 演示:AI 浏览器代理的实际操作:遵循指令,导航到目标资料集页面,自动截图并提取所需资料。

     

     

    几乎所有大型科技公司 (以及一些新创公司) 都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个专案:

    OpenAI – Agent 模式

    OpenAI 的 Agent 模式 (前身名为 Operator,2025 年 1 月推出) 是一种自带浏览器的 AI 代理。Operator 能够处理各种重複性的线上任务:例如填写网页表单、订购杂货、安排会议:全部透过人类常用的标準网页介面完成。

    ▲ AI 代理像专业助理一样安排会议:检查日曆、寻找可用时间段、建立活动、发送确认,并为你生成 .ics 文件。

    Anthropic – Claude 的「Computer Use」

    2024 年底,Anthropic 为 Claude 3.5 引入了全新的「Computer Use (电脑使用)」功能,赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看萤幕、移动游标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版,开发者可以让 Claude 自动导航网站和应用程式。Anthropic 将其定位为一种实验性功能,主要目标是实现网页上的多步骤工作流自动化。

     

    Perplexity – Comet

    AI 新创公司 Perplexity (以问答引擎闻名) 在 2025 年中期推出了 Comet 浏览器,作为 Chrome 的 AI 驱动替代品。Comet 的核心是内建在网址列 (omnibox) 中的对话式 AI 搜寻引擎,能够提供即时问答和摘要,而不是传统的搜寻连结。

    此外,Comet 还内建 Comet Assistant,这是一个驻留在侧边栏的代理,可以跨网站自动执行日常任务。例如,它可以总结你打开的邮件、安排会议、管理浏览器分页,或代表你浏览并抓取网页资讯。

    透过侧边栏介面让代理能够感知当前网页内容,Comet 旨在将浏览与 AI 助手无缝融合。

    在前文中,我们已经回顾了各大科技公司 (OpenAI、Anthropic、Perplexity 等) 如何透过不同的产品形态为浏览器代理 (browser agents) 注入功能。为了更直观地理解它们的价值,我们可以进一步看看在真实场景中,这些能力如何被应用到日常生活和企业工作流程中。

    日常网页自动化

    # 电商与个人购物

    一个非常实用的场景是将购物与预订任务委託给代理。代理可以根据固定清单自动填充你的线上购物车并下单,也可以在多个零售商之间寻找最低价,并代你完成结帐流程。

     

    对于旅行,你可以让 AI 执行这样的任务:「帮我预订下个月去东京的航班 (票价低于 800 美元),再订一家有免费 Wi-Fi 的饭店。」代理会处理整个流程:搜索航班、比较选项、填写乘客资讯、完成饭店预订,全部透过航空公司与饭店网站完成。这种自动化水平远远超越了现有的旅游机器人:它不仅仅是推荐,而是直接执行购买。

    # 提升办公效率

    代理能够自动化许多人们在浏览器中进行的重複性业务操作。例如,整理电子邮件并提取待办事项,或在多个日曆中检查空档并自动安排会议。Perplexity 的 Comet 助手已经可以透过网页介面总结你的收件匣内容,或为你新增日程。代理还可以在获得你的授权后,登入 SaaS 工具产生常规报告、更新电子试算表,或提交表单。想像一个 HR 代理,能够自动登入不同的招聘网站发布职位;或一个销售代理,可以更新 CRM 系统的潜在客户资料。这些日常琐碎工作本来会耗费大量员工时间,但 AI 可以透过自动化网页表单和页面操作完成。

     

    除了单一任务,代理还能串联起跨多个网路系统的完整工作流程。所有这些步骤都需要在不同的网页介面中操作,而这正是 browser agent 的强项。代理可以登入各种仪表板进行故障排除,甚至编排流程,例如为新员工完成入职操作 (在多个 SaaS 网站上创建帐号)。本质上,任何目前需要点开多个网站完成的多步骤操作,都可以交由代理执行。

    儘管潜力巨大,但今天的浏览器代理距离完美仍有很大差距。目前的实现揭示出了一些长期存在的技术和基础设施难题:

    架构不匹配

    现代网路是为人类操作的浏览器而设计的,并且随着时间的推移逐渐演变为主动抵御自动化。资料常常埋藏在为视觉展示优化的 HTML/CSS 中,被互动手势 (滑鼠悬停、滑动) 所限制,或者只能透过未公开的 API 存取。

    在此基础上,反爬虫与反诈欺系统又人为增加了额外屏障。这些工具结合了 IP 信誉、浏览器指纹、JavaScript 挑战回馈以及行为分析 (例如滑鼠移动的随机性、打字节奏、停留时间)。矛盾的是,AI 代理表现得越「完美」、效率越高:比如瞬间填表、从不出错,就越容易被辨识为恶意自动化。这可能导致硬性失败:例如 OpenAI 或 Google 的代理可能顺利完成结帐前的所有步骤,但最终却被 CAPTCHA 或二次安全过滤拦下。

    人类优化的介面与对机器人不友善的防御层叠加在一起,迫使代理採取脆弱的「人机模仿」策略。这种方法极易失效,成功率低 (如果没有人工干预,完整交易的完成率仍不足三分之一)。

    信任与安全顾虑

    要让代理获得完全控制,通常需要存取敏感资讯:登入凭证、Cookies、双因素认证令牌,甚至支付资讯。这带来了用户与企业都能理解的担忧:

    · 如果代理出错或被恶意网站欺骗怎么办?

    · 如果代理同意了某个服务条款或执行了某笔交易,谁该负责?

     

    基于这些风险,目前的系统普遍採取谨慎态度:

    · Google 的 Mariner 不会输入信用卡资讯或同意服务条款,而是交还给用户。

    · OpenAI 的 Operator 会提示用户接管登入或 CAPTCHA 挑战。

    · Anthropic 的 Claude 驱动的代理可能直接拒绝登入,理由是安全考量。

    结果是:AI 与人类之间频繁的停顿与交接,削弱了无缝自动化的体验。

    儘管存在这些障碍,进展仍在快速推进。OpenAI、Google、Anthropic 等公司在每一轮迭代中都吸取失败经验。随着需求的增长,很可能会出现一种「共同演化」:网站在有利的场景下变得更友善于代理,而代理也会不断提升对人类行为的模仿能力,以绕过现有屏障。

    当下的浏览器代理正临两种截然不同的现实:一方面是 Web2 的敌对环境,反爬虫与安全防御无处不在;另一方面是 Web3 的开放环境,自动化反而常常受到鼓励。这种差异决定了各类解决方案的方向。

    下面的解决方案大致分为两类:一类帮助代理绕过 Web2 的敌对环境,另一类则是原生于 Web3 的方案。

    虽然浏览器代理面临的挑战依旧显着,但新的专案正不断涌现,试图直接解决这些问题。加密货币与去中心化金融 (DeFi) 生态正在成为天然的试验场,因为它开放、可编程、且对自动化不那么敌视。开放的 API、智慧合约与链上透明性,消除了许多 Web2 世界常见的摩擦点。

    以下是四类解决方案,每一类都在应对当下的一项或多项核心局限:

    面向链上操作的原生代理型浏览器

    这些浏览器从零开始就是为自主代理驱动而设计的,并且与区块链协议深度整合。与传统的 Chrome 浏览器不同,后者若要进行链上操作自动化需要额外依赖 Selenium、Playwright 或钱包外挂;而原生代理型浏览器则直接给予 API 和可信的执行路径,供代理调用。

    在去中心化金融中,交易的有效性依赖的是加密签名,而不是用户是否「像人类」。因此在链上环境中,代理可以绕过 Web2 世界常见的 CAPTCHA、诈欺检测分数和设备指纹检查。然而,如果这些浏览器指向像 Amazon 这样的 Web2 网站,它们并不能绕过相关的防御机制,在那种场景下依然会触发正常的反机器人措施。

    代理型浏览器的价值并不是能神奇地存取所有网站,而是在于:

    · 原生区块链整合:内建钱包与签名支援,无需再透过 MetaMask 弹窗或解析 dApp 前端的 DOM。

    · 自动化优先设计:提供稳定的高层指令,能直接对应为协议操作。

    · 安全模型:精细化的权限控制与沙盒,确保私钥在自动化过程中安全。

    · 效能优化:能够并行执行多个链上调用,而无需浏览器渲染或 UI 延迟。

     

    # 案例:Donut

    Donut 将区块链资料与操作作为一等公民进行整合。用户 (或其代理) 可以悬停查看代币的即时风险指标,或直接输入自然语言指令如「/swap 100 USDC to SOL」。透过跳过 Web2 的敌对摩擦点,Donut 让代理能在 DeFi 中全速运行,提升流动性、套利与市场效率。

    可验证与可信的代理执行

    让代理获得敏感权限风险很大。相关解决方案使用可信执行环境 (TEEs) 或零知识证明 (ZKPs) 来在执行前加密确认代理的预期行为,使用户与对手方在不暴露私钥或凭证的前提下验证代理动作。

    # 案例:Phala Network

    Phala 使用 TEEs (如 Intel SGX) 来隔离与保护执行环境,从而避免 Phala 营运方或攻击者窥探或篡改代理逻辑与资料。TEE 就像一个硬体加持的「安全密室」,保证了机密性 (外部无法看到) 与完整性 (外部无法修改)。

    对于浏览器代理,这意味着它可以登入、持有会话权杖,或处理支付资讯,而这些敏感资料永远不会离开安全密室。即便使用者机器、作业系统或网路被攻破,也无法洩露。这直接缓解了代理应用落地的最大障碍之一:对敏感凭证与操作的信任问题。

    去中心化的结构化资料网路

    现代的反机器人侦测系统不仅检查请求是否「过快」或「自动化」,还会结合 IP 信誉、浏览器指纹、JavaScript 挑战回馈与行为分析 (例如游标移动、打字节奏、会话历史)。那些来自资料中心 IP 或完全可重複的浏览环境的代理很容易被辨识。

    为了解决这一问题,这类网路不再抓取为人类优化的网页,而是直接收集并提供机器可读的资料,或者透过真实的人类浏览环境代理流量。这种方式绕过了传统爬虫在解析与反爬环节的脆弱性,能为代理提供更乾净、更可靠的输入。

    透过将代理流量代理到这些真实世界的会话,分散式网路 (distribution network) 让 AI 代理可以像人一样存取网页内容,而不会立即触发封锁。

    # 案例

    · Grass:去中心化资料 /DePIN 网路,用户共享闲置的住宅频宽,从而为公共网页资料收集与模型训练提供代理友善、地理多样化的存取管道。

    · WootzApp:支援加密货币支付的开源行动浏览器,带有后台代理与零知识身分;它将 AI/ 资料任务「游戏化」推向消费者。

    · Sixpence:分散式浏览器网路,透过全球贡献者的浏览,为 AI 代理路由流量。

    不过这并非完整解决方案。行为检测 (滑鼠 / 滚动轨迹)、帐户层级的限制 (KYC、帐号年龄)以及指纹一致性检查依然可能触发封锁。因此,分散式网路最好被视作基础的隐匿层,必须与模仿人类的执行策略结合才能发挥最大效果。

    面向代理的网页标準 (前瞻)

    目前,越来越多的技术社群和组织正在探索:如果未来网路用户不仅是人,还有自动化代理 (agent),网站该如何安全、合规地与它们打交道?

    这推动了一些新兴标準和机制的讨论,目标是让网站能够明确表示「我允许可信代理存取」,并且提供一个安全的通道来完成互动,而不是像今天这样预设把代理当作「机器人攻击」来拦截。

    · 「Agent Allowed」标籤:就像搜寻引擎遵守的 robots.txt 一样,未来网页可能会在程式码中加一个标籤,告诉浏览器代理「这里可以安全存取」。比如说,如果你用代理订机票,网站就不会跳出一堆验证码 (CAPTCHA),而是直接提供一个认证后的介面。

    · 认证代理的 API 网关:网站可以为经过验证的代理开放专门的入口,就像「快速通道」。代理不需要模拟人类点击、输入,而是走一条更稳定的 API 路径完成下单、支付或资料查询。

    · W3C 的讨论:全球资讯网协会 (W3C) 已经在研究如何为「受管自动化」制定标準化通道。这意味着,未来我们可能会有一套全球通用的规则,让可信代理能被网站辨识和接纳,同时保持安全和可追究责任。

    虽然这些探索都还在早期,但一旦落地,就可能极大改善人类↔代理↔网站之间的关係。想像一下:不再需要代理拼命模仿人类滑鼠移动来「骗过」风控,而是光明正大地透过一个「官方允许」的通道完成任务。

    在这条路线上,加密原生的基础设施可能会率先起步。因为链上应用天生就依赖开放 API 和智慧合约,对自动化是友善的。相比之下,传统 Web2 平台可能还会继续谨慎防守,尤其是依赖广告或反诈欺体系的公司。但随着用户和企业逐渐接受自动化带来的效率提升,这些标準化尝试很可能会成为推动整个网路迈向「代理优先架构」的关键催化剂。

    浏览器代理正在从最初的简单对话工具,演化为能够完成複杂线上工作流程的自主系统。这一转变反映了一个更广泛的趋势:将自动化直接嵌入用户与网路互动的核心介面中。虽然生产力提升的潜力巨大,但挑战同样严峻,包括如何突破根深蒂固的反机器人机制,以及如何确保安全性、信任与负责任的使用方式。

    在短期内,代理的推理能力提升、速度更快、与现有服务的更紧密整合,以及分散式网路的进步,可能会逐步提高可靠性。从长期来看,我们或许会在那些自动化对服务提供方与用户双方都有利的场景中,看到「代理友善」标準的逐步落地。不过,这一转变将不会是均匀的:在如 DeFi 这样的自动化友善环境中,採用速度会更快;而在严重依赖用户互动控制的 Web2 平台,接受程度会更慢。

    未来,科技公司的竞争将越来越集中在以下几个方面:其代理在现实世界限制下的导航能力如何、能否安全地整合到关键工作流程中,以及能否在多样化的线上环境中稳定交付结果。至于这一切是否最终会重塑「浏览器之战」,取决于的并非单纯的技术实力,而是能否建立信任、对齐激励,并在日常使用中展现出切实的价值。

    原文连结

    ?相关报导?

    预测市场Kalshi数据:60%人赌注Gemini打败ChatGPT,成为2025最佳AI LLM

    苹果考虑「弃用Google浏览器」升级Safari引入AI搜寻 ,Alphabet股价狂泻7.5%

    Google的野心:从 AI 算力资料中心到 Crypto 稳定币

热门下载

更多