当浏览器成为 AI 的下一个战场,谁会被淘汰?
时间:2025-08-20
来源:互联网
AI 的未来在于能自主导航网页的代理。各大科技公司纷纷投入浏览器代理的开发,旨在自动化网页任务、提升生产力。本文探讨其应用场景、当前挑战,以及 Web3 原生方案带来的机遇。本文源自Mario Chow、Figo,@IOSG 所着文章,由BlockBeats 整理、编译及撰稿。
(前情提要:OpenAI Sam Altman:我有兴趣收购 Google Chrome!参赛市占最大浏览器争夺战 )
(背景补充:Perplexity 开价 345 亿美元收购 Chrome 浏览器,AI 搜寻引擎小兵战巨人 )
本文目录
- 谁将赢得 AI 浏览器之战?
- OpenAI – Agent 模式
- Anthropic – Claude 的「Computer Use」
- Perplexity – Comet
- 日常网页自动化
- 架构不匹配
- 信任与安全顾虑
- 面向链上操作的原生代理型浏览器
- 可验证与可信的代理执行
- 去中心化的结构化资料网路
- 面向代理的网页标準 (前瞻)
过去 12 个月,网页浏览器与自动化的关係发生了剧烈变化。几乎所有大型科技公司都在争相建构自主的浏览器代理 (browser agent)。从 2024 年底开始这一趋势愈发明显:OpenAI 在 1 月推出了 Agent 模式,Anthropic 为 Claude 模型发布了「电脑使用」功能,Google DeepMind 推出了 Project Mariner,Opera 宣布了代理型浏览器 Neon,而 Perplexity AI 则推出了 Comet 浏览器。讯号十分明确:AI 的未来在于能够自主导航网页的代理。
这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人,而是机器与数位环境互动方式的根本转变。浏览器代理是一类能够「看」网页并採取行动的 AI 系统:点击连结、填写表单、滚动页面、输入文字:就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值,因为它能自动化那些目前仍需要人工操作,或传统脚本过于複杂而无法完成的任务。
▲ GIF 演示:AI 浏览器代理的实际操作:遵循指令,导航到目标资料集页面,自动截图并提取所需资料。
几乎所有大型科技公司 (以及一些新创公司) 都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个专案:
OpenAI – Agent 模式
OpenAI 的 Agent 模式 (前身名为 Operator,2025 年 1 月推出) 是一种自带浏览器的 AI 代理。Operator 能够处理各种重複性的线上任务:例如填写网页表单、订购杂货、安排会议:全部透过人类常用的标準网页介面完成。
▲ AI 代理像专业助理一样安排会议:检查日曆、寻找可用时间段、建立活动、发送确认,并为你生成 .ics 文件。
Anthropic – Claude 的「Computer Use」
2024 年底,Anthropic 为 Claude 3.5 引入了全新的「Computer Use (电脑使用)」功能,赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看萤幕、移动游标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版,开发者可以让 Claude 自动导航网站和应用程式。Anthropic 将其定位为一种实验性功能,主要目标是实现网页上的多步骤工作流自动化。
Perplexity – Comet
AI 新创公司 Perplexity (以问答引擎闻名) 在 2025 年中期推出了 Comet 浏览器,作为 Chrome 的 AI 驱动替代品。Comet 的核心是内建在网址列 (omnibox) 中的对话式 AI 搜寻引擎,能够提供即时问答和摘要,而不是传统的搜寻连结。
此外,Comet 还内建 Comet Assistant,这是一个驻留在侧边栏的代理,可以跨网站自动执行日常任务。例如,它可以总结你打开的邮件、安排会议、管理浏览器分页,或代表你浏览并抓取网页资讯。
透过侧边栏介面让代理能够感知当前网页内容,Comet 旨在将浏览与 AI 助手无缝融合。
在前文中,我们已经回顾了各大科技公司 (OpenAI、Anthropic、Perplexity 等) 如何透过不同的产品形态为浏览器代理 (browser agents) 注入功能。为了更直观地理解它们的价值,我们可以进一步看看在真实场景中,这些能力如何被应用到日常生活和企业工作流程中。
日常网页自动化
# 电商与个人购物
一个非常实用的场景是将购物与预订任务委託给代理。代理可以根据固定清单自动填充你的线上购物车并下单,也可以在多个零售商之间寻找最低价,并代你完成结帐流程。
对于旅行,你可以让 AI 执行这样的任务:「帮我预订下个月去东京的航班 (票价低于 800 美元),再订一家有免费 Wi-Fi 的饭店。」代理会处理整个流程:搜索航班、比较选项、填写乘客资讯、完成饭店预订,全部透过航空公司与饭店网站完成。这种自动化水平远远超越了现有的旅游机器人:它不仅仅是推荐,而是直接执行购买。
# 提升办公效率
代理能够自动化许多人们在浏览器中进行的重複性业务操作。例如,整理电子邮件并提取待办事项,或在多个日曆中检查空档并自动安排会议。Perplexity 的 Comet 助手已经可以透过网页介面总结你的收件匣内容,或为你新增日程。代理还可以在获得你的授权后,登入 SaaS 工具产生常规报告、更新电子试算表,或提交表单。想像一个 HR 代理,能够自动登入不同的招聘网站发布职位;或一个销售代理,可以更新 CRM 系统的潜在客户资料。这些日常琐碎工作本来会耗费大量员工时间,但 AI 可以透过自动化网页表单和页面操作完成。
除了单一任务,代理还能串联起跨多个网路系统的完整工作流程。所有这些步骤都需要在不同的网页介面中操作,而这正是 browser agent 的强项。代理可以登入各种仪表板进行故障排除,甚至编排流程,例如为新员工完成入职操作 (在多个 SaaS 网站上创建帐号)。本质上,任何目前需要点开多个网站完成的多步骤操作,都可以交由代理执行。
儘管潜力巨大,但今天的浏览器代理距离完美仍有很大差距。目前的实现揭示出了一些长期存在的技术和基础设施难题:
架构不匹配
现代网路是为人类操作的浏览器而设计的,并且随着时间的推移逐渐演变为主动抵御自动化。资料常常埋藏在为视觉展示优化的 HTML/CSS 中,被互动手势 (滑鼠悬停、滑动) 所限制,或者只能透过未公开的 API 存取。
在此基础上,反爬虫与反诈欺系统又人为增加了额外屏障。这些工具结合了 IP 信誉、浏览器指纹、JavaScript 挑战回馈以及行为分析 (例如滑鼠移动的随机性、打字节奏、停留时间)。矛盾的是,AI 代理表现得越「完美」、效率越高:比如瞬间填表、从不出错,就越容易被辨识为恶意自动化。这可能导致硬性失败:例如 OpenAI 或 Google 的代理可能顺利完成结帐前的所有步骤,但最终却被 CAPTCHA 或二次安全过滤拦下。
人类优化的介面与对机器人不友善的防御层叠加在一起,迫使代理採取脆弱的「人机模仿」策略。这种方法极易失效,成功率低 (如果没有人工干预,完整交易的完成率仍不足三分之一)。
信任与安全顾虑
要让代理获得完全控制,通常需要存取敏感资讯:登入凭证、Cookies、双因素认证令牌,甚至支付资讯。这带来了用户与企业都能理解的担忧:
· 如果代理出错或被恶意网站欺骗怎么办?
· 如果代理同意了某个服务条款或执行了某笔交易,谁该负责?
基于这些风险,目前的系统普遍採取谨慎态度:
· Google 的 Mariner 不会输入信用卡资讯或同意服务条款,而是交还给用户。
· OpenAI 的 Operator 会提示用户接管登入或 CAPTCHA 挑战。
· Anthropic 的 Claude 驱动的代理可能直接拒绝登入,理由是安全考量。
结果是:AI 与人类之间频繁的停顿与交接,削弱了无缝自动化的体验。
儘管存在这些障碍,进展仍在快速推进。OpenAI、Google、Anthropic 等公司在每一轮迭代中都吸取失败经验。随着需求的增长,很可能会出现一种「共同演化」:网站在有利的场景下变得更友善于代理,而代理也会不断提升对人类行为的模仿能力,以绕过现有屏障。
当下的浏览器代理正临两种截然不同的现实:一方面是 Web2 的敌对环境,反爬虫与安全防御无处不在;另一方面是 Web3 的开放环境,自动化反而常常受到鼓励。这种差异决定了各类解决方案的方向。
下面的解决方案大致分为两类:一类帮助代理绕过 Web2 的敌对环境,另一类则是原生于 Web3 的方案。
虽然浏览器代理面临的挑战依旧显着,但新的专案正不断涌现,试图直接解决这些问题。加密货币与去中心化金融 (DeFi) 生态正在成为天然的试验场,因为它开放、可编程、且对自动化不那么敌视。开放的 API、智慧合约与链上透明性,消除了许多 Web2 世界常见的摩擦点。
以下是四类解决方案,每一类都在应对当下的一项或多项核心局限:
面向链上操作的原生代理型浏览器
这些浏览器从零开始就是为自主代理驱动而设计的,并且与区块链协议深度整合。与传统的 Chrome 浏览器不同,后者若要进行链上操作自动化需要额外依赖 Selenium、Playwright 或钱包外挂;而原生代理型浏览器则直接给予 API 和可信的执行路径,供代理调用。
在去中心化金融中,交易的有效性依赖的是加密签名,而不是用户是否「像人类」。因此在链上环境中,代理可以绕过 Web2 世界常见的 CAPTCHA、诈欺检测分数和设备指纹检查。然而,如果这些浏览器指向像 Amazon 这样的 Web2 网站,它们并不能绕过相关的防御机制,在那种场景下依然会触发正常的反机器人措施。
代理型浏览器的价值并不是能神奇地存取所有网站,而是在于:
· 原生区块链整合:内建钱包与签名支援,无需再透过 MetaMask 弹窗或解析 dApp 前端的 DOM。
· 自动化优先设计:提供稳定的高层指令,能直接对应为协议操作。
· 安全模型:精细化的权限控制与沙盒,确保私钥在自动化过程中安全。
· 效能优化:能够并行执行多个链上调用,而无需浏览器渲染或 UI 延迟。
# 案例:Donut
Donut 将区块链资料与操作作为一等公民进行整合。用户 (或其代理) 可以悬停查看代币的即时风险指标,或直接输入自然语言指令如「/swap 100 USDC to SOL」。透过跳过 Web2 的敌对摩擦点,Donut 让代理能在 DeFi 中全速运行,提升流动性、套利与市场效率。
可验证与可信的代理执行
让代理获得敏感权限风险很大。相关解决方案使用可信执行环境 (TEEs) 或零知识证明 (ZKPs) 来在执行前加密确认代理的预期行为,使用户与对手方在不暴露私钥或凭证的前提下验证代理动作。
# 案例:Phala Network
Phala 使用 TEEs (如 Intel SGX) 来隔离与保护执行环境,从而避免 Phala 营运方或攻击者窥探或篡改代理逻辑与资料。TEE 就像一个硬体加持的「安全密室」,保证了机密性 (外部无法看到) 与完整性 (外部无法修改)。
对于浏览器代理,这意味着它可以登入、持有会话权杖,或处理支付资讯,而这些敏感资料永远不会离开安全密室。即便使用者机器、作业系统或网路被攻破,也无法洩露。这直接缓解了代理应用落地的最大障碍之一:对敏感凭证与操作的信任问题。
去中心化的结构化资料网路
现代的反机器人侦测系统不仅检查请求是否「过快」或「自动化」,还会结合 IP 信誉、浏览器指纹、JavaScript 挑战回馈与行为分析 (例如游标移动、打字节奏、会话历史)。那些来自资料中心 IP 或完全可重複的浏览环境的代理很容易被辨识。
为了解决这一问题,这类网路不再抓取为人类优化的网页,而是直接收集并提供机器可读的资料,或者透过真实的人类浏览环境代理流量。这种方式绕过了传统爬虫在解析与反爬环节的脆弱性,能为代理提供更乾净、更可靠的输入。
透过将代理流量代理到这些真实世界的会话,分散式网路 (distribution network) 让 AI 代理可以像人一样存取网页内容,而不会立即触发封锁。
# 案例
· Grass:去中心化资料 /DePIN 网路,用户共享闲置的住宅频宽,从而为公共网页资料收集与模型训练提供代理友善、地理多样化的存取管道。
· WootzApp:支援加密货币支付的开源行动浏览器,带有后台代理与零知识身分;它将 AI/ 资料任务「游戏化」推向消费者。
· Sixpence:分散式浏览器网路,透过全球贡献者的浏览,为 AI 代理路由流量。
不过这并非完整解决方案。行为检测 (滑鼠 / 滚动轨迹)、帐户层级的限制 (KYC、帐号年龄)以及指纹一致性检查依然可能触发封锁。因此,分散式网路最好被视作基础的隐匿层,必须与模仿人类的执行策略结合才能发挥最大效果。
面向代理的网页标準 (前瞻)
目前,越来越多的技术社群和组织正在探索:如果未来网路用户不仅是人,还有自动化代理 (agent),网站该如何安全、合规地与它们打交道?
这推动了一些新兴标準和机制的讨论,目标是让网站能够明确表示「我允许可信代理存取」,并且提供一个安全的通道来完成互动,而不是像今天这样预设把代理当作「机器人攻击」来拦截。
· 「Agent Allowed」标籤:就像搜寻引擎遵守的 robots.txt 一样,未来网页可能会在程式码中加一个标籤,告诉浏览器代理「这里可以安全存取」。比如说,如果你用代理订机票,网站就不会跳出一堆验证码 (CAPTCHA),而是直接提供一个认证后的介面。
· 认证代理的 API 网关:网站可以为经过验证的代理开放专门的入口,就像「快速通道」。代理不需要模拟人类点击、输入,而是走一条更稳定的 API 路径完成下单、支付或资料查询。
· W3C 的讨论:全球资讯网协会 (W3C) 已经在研究如何为「受管自动化」制定标準化通道。这意味着,未来我们可能会有一套全球通用的规则,让可信代理能被网站辨识和接纳,同时保持安全和可追究责任。
虽然这些探索都还在早期,但一旦落地,就可能极大改善人类↔代理↔网站之间的关係。想像一下:不再需要代理拼命模仿人类滑鼠移动来「骗过」风控,而是光明正大地透过一个「官方允许」的通道完成任务。
在这条路线上,加密原生的基础设施可能会率先起步。因为链上应用天生就依赖开放 API 和智慧合约,对自动化是友善的。相比之下,传统 Web2 平台可能还会继续谨慎防守,尤其是依赖广告或反诈欺体系的公司。但随着用户和企业逐渐接受自动化带来的效率提升,这些标準化尝试很可能会成为推动整个网路迈向「代理优先架构」的关键催化剂。
浏览器代理正在从最初的简单对话工具,演化为能够完成複杂线上工作流程的自主系统。这一转变反映了一个更广泛的趋势:将自动化直接嵌入用户与网路互动的核心介面中。虽然生产力提升的潜力巨大,但挑战同样严峻,包括如何突破根深蒂固的反机器人机制,以及如何确保安全性、信任与负责任的使用方式。
在短期内,代理的推理能力提升、速度更快、与现有服务的更紧密整合,以及分散式网路的进步,可能会逐步提高可靠性。从长期来看,我们或许会在那些自动化对服务提供方与用户双方都有利的场景中,看到「代理友善」标準的逐步落地。不过,这一转变将不会是均匀的:在如 DeFi 这样的自动化友善环境中,採用速度会更快;而在严重依赖用户互动控制的 Web2 平台,接受程度会更慢。
未来,科技公司的竞争将越来越集中在以下几个方面:其代理在现实世界限制下的导航能力如何、能否安全地整合到关键工作流程中,以及能否在多样化的线上环境中稳定交付结果。至于这一切是否最终会重塑「浏览器之战」,取决于的并非单纯的技术实力,而是能否建立信任、对齐激励,并在日常使用中展现出切实的价值。
原文连结
?相关报导?
预测市场Kalshi数据:60%人赌注Gemini打败ChatGPT,成为2025最佳AI LLM
苹果考虑「弃用Google浏览器」升级Safari引入AI搜寻 ,Alphabet股价狂泻7.5%
Google的野心:从 AI 算力资料中心到 Crypto 稳定币
-
《重返未来1999》无线电小姐角色资料 无线电小姐介绍 时间:2023-04-14
-
前摇过长是什么意思? 时间:2022-08-15
-
腹黑是什么意思? 时间:2022-04-24
-
炸鸡配大屁是什么意思? 时间:2022-04-24
-
捏麻麻滴/捏麻麻地是什么意思? 时间:2022-04-24
-
原耽女孩是什么意思? 时间:2022-04-24
今日更新
-
什么是CDN CDN的作用和工作原理 CDN的好处和应用场景
阅读:18
-
冒险之星通用礼包兑换码2025最新
阅读:18
-
仙遇奕剑灵宠怎么搭配比较好
阅读:18
-
冒险之星英雄角色装备搭配推荐
阅读:18
-
灵兽大冒险各门派法宝选择推荐
阅读:18
-
冒险之星英雄强度排名推荐
阅读:18
-
猫猫钓游记全部鱼种类钓鱼鱼饵
阅读:18
-
Linux查看系统启动项命令详解
阅读:18
-
无限暖暖奇迹之冠巅峰赛8月下搭配推荐
阅读:18
-
剑网3梦回稻香21个结局流程达成方式攻略
阅读:18