2026 年银行 Agentic AI 指数：衡量自主性

TL;DR. 一个六维指数，用于评估银行的 agentic AI 准备度：自主性层级、治理、监管证据、经济性、组织准备度和全球一致性。

Points clés

本指数为何存在. Evident AI Index 利用数以百万计的公开数据点，从人才、创新、领导力与透明度四个方面对全球 50 家银行排名。它是金融服务业 AI 成熟度最受信赖的外部基准。它在设计上不去做的，是为那套使代理式 AI 能够安全地针对实时银行 API 部署的具体工程与治理架构打分。Stanford AI Index 追踪研究产出、技术性能与社会影响。它不去做的，是把 OSWorld…
2026 年代理式 AI 成熟度全景. 2026 年 Cambridge CCAF 报告——这是金融服务业 AI 领域规模最大的全球研究，与 BIS、IMF、WEF 和世界银行合作，覆盖 151 个司法辖区的 628 家机构——为本指数提供了统计基础。.
六维指数架构. 本指数从六个维度对代理式 AI 准备度打分。每个维度都有一套四级成熟度量表。一家银行的指数得分，是其各维度得分按监管重要性加权后的乘积。加权框架以 SR 11-7、SS1/23、EU AI Act 附件三义务以及 FSB 稳健实践类别为校准基准。.
综合指数得分. 六个维度的得分按以下监管重要性加权合成为一个综合指数：.

银行业的代理式 AI 已经从实验阶段跨入运营基础设施。2026 年的问题不再是要不要部署——52% 的金融机构已经部署——而是行业能否以衡量资本、信贷与流动性的同等严谨程度去衡量自己所构建的东西。本指数就是这套衡量框架（Cambridge CCAF, 2026）。

执行摘要 / 核心要点

自主性是新的资本充足率。 正如 Basel 为金融韧性设定了可衡量的标准，行业现在也需要一套针对自主决策的可衡量标准。本指数是首个跨维度框架，将代理式 AI 准备度——涵盖治理、技术架构、监管证据、经济回报与组织成熟度——作为单一运营模型进行打分。

52% 的采用率掩盖了仅 14% 的变革率。 Cambridge CCAF 对 151 个司法辖区 628 家机构开展的 2026 年调查发现，尽管五分之四的金融机构部署了 AI，仅有 14% 表示它正在变革自身的竞争地位。落差在于治理，而非技术。

OSWorld 66.3% 是可靠性的上限，而非下限。 Stanford HAI 的 2026 年基准显示，AI 智能体完成了 66.3% 的结构化企业任务（Stanford HAI, 2026）。三次串联的工具调用按此比率复合后，端到端成功率仅为 29%。在这一可靠性水平下，针对实时支付系统的无监督执行难以辩护。

FSB 已经表态。 2026 年 6 月 10 日，金融稳定理事会（FSB）发布了首个用于治理金融服务业代理式 AI 的运营框架（FSB, 2026）——12 项稳健实践，覆盖董事会问责、生命周期管理与「AI 监控 AI」架构。意见征询于 2026 年 7 月 22 日截止。

EU AI Act 的执法时钟正在走动。 附件三（Annex III）下的高风险 AI 系统义务于 2026 年 8 月 2 日生效（EU AI Act 指引, 2026）。运行欧盟代理式 AI 却缺乏按智能体的审计日志身份、书面化的撤权流程以及董事会层面证据的金融机构，已经欠下合规债务。

JP Morgan 已经点名了年份。 首席分析官 Derek Waldron 于 2026 年 6 月 9 日向 CNBC 确认，该行将在 2026 年内部署可长时间运行的自主智能体（CNBC, 2026）——能够独立运行一到两小时。这一披露改变了每一家以其为对标对象的机构的竞争格局。

本指数对六个维度打分。 自主性等级、治理架构、监管证据、经济问责、组织准备度与全球监管对齐。它们共同把 AI 项目从一组分散举措转化为一项可衡量的能力。

本指数为何存在

Evident AI Index 利用数以百万计的公开数据点，从人才、创新、领导力与透明度四个方面对全球 50 家银行排名。它是金融服务业 AI 成熟度最受信赖的外部基准。它在设计上不去做的，是为那套使代理式 AI 能够安全地针对实时银行 API 部署的具体工程与治理架构打分。Stanford AI Index 追踪研究产出、技术性能与社会影响。它不去做的，是把 OSWorld 任务完成百分比转化为面向财资主管、首席风险官或模型验证团队的一套可操作的指令集。

本指数填补这一空白。它汲取了 Stanford 框架的可衡量纪律、Evident 指数的竞争语境，以及 SR 11-7、SS1/23、EU AI Act、FSB 稳健实践与新加坡 IMDA 代理式 AI 模型治理框架的监管具体性——并将其转化为一套董事会可据以行动的六维打分模型。

现实的触发点在于，代理式 AI 已经从一场规划对话转变为一道审计考题。当 JP Morgan 的首席分析官宣布同年部署可长时间运行的自主智能体，当 DBS 把智能体控制平面嵌入信贷备忘录编制与客户服务，当 FSB 指示执行金融交易的智能体须满足「在超过阈值金额时进行人工审批或双重授权、限制智能体对支付系统的访问、并保留每一笔智能体交易的审计追踪」——无法为自身姿态打分的机构，将会发现是监管机构在替它打分。

2026 年代理式 AI 成熟度全景

数据揭示了什么

2026 年 Cambridge CCAF 报告——这是金融服务业 AI 领域规模最大的全球研究，与 BIS、IMF、WEF 和世界银行合作，覆盖 151 个司法辖区的 628 家机构——为本指数提供了统计基础。

信号	发现	来源
AI 活跃采用	81% 的金融机构在某种程度上部署了 AI	Cambridge CCAF
代理式 AI 采用	52% 已在试点或部署能够持续执行多步自主行动的代理式系统	Cambridge CCAF
变革率	仅 14% 表示 AI 正在重新定义其竞争优势	Cambridge CCAF
衡量难度	55% 的业界机构与 63% 的监管机构难以衡量 AI 部署的价值；大型金融机构这一比例高达 76%	Cambridge CCAF
盈利能力	仅 40% 报告 AI 带来盈利能力提升；43% 报告没有变化	Cambridge CCAF
人工监督的丧失	51% 将人工监督的丧失列为首要风险	Cambridge CCAF
代理式用例	2026 年第一季度新增银行 AI 用例中有 31% 为代理式应用——创历史新高，高于 2025 年第四季度的 15%	Evident Insights
治理落差	在 2,000 名技术领导者中，77% 表示 AI 采用正在超越治理能力；2025 年平均每家企业发生 54 起 AI 智能体事故	IBM
智能体蔓延	企业预计到 2027 年平均部署 1,661 个 AI 智能体；仅 11% 表示已充分准备	IBM
McKinsey 利润池风险	代理式 AI 可使银行运营成本降低 20%，但若商业模式不作调整，到 2030 年可能侵蚀全球高达 1,700 亿美元的利润池	McKinsey

这些数字精确地界定了问题：采用领先于治理、生产力提升可见、变革罕见，而衡量落差最大之处恰恰是监管利害最高之处——大型金融机构。

竞争者在何处划界

Evident AI Index 2025 将 JP Morgan Chase 列为第一（得分：79），其后依次为 Capital One（78.1）、RBC（58.4）、CommBank Australia（53.9）和 Morgan Stanley（52.2）。该指数衡量四项能力支柱——人才、创新、领导力、透明度——而非运营层面的智能体架构。这造成了一道结构性落差：一家银行可以在创新披露上得高分，同时却部署着没有紧急关停开关、没有 WORM 审计日志、没有 OPA 策略闸门的智能体。本指数正是为了让这道落差变得可见。

Deloitte 的 2026 技术趋势报告指出，仅有 11% 的机构在生产环境中运行代理式 AI。McKinsey 发现，即便技术能力快速提升，也仅有约三分之一的机构在代理式 AI 控制方面达到治理成熟度三级或以上。CCG Catalyst 的调查数据显示，93% 的 AI 相关支出流向技术基础设施，仅 7% 流向人员、人才、培训、变革管理与治理——这一比例使规模化在结构上不可能实现。

Evident Venture Tracker 的 2026 年第一季度数据指出，Anthropic 是被引用最多的供应商，而由专业化厂商构成的长尾占全部部署的 68%，主要面向信贷、反洗钱与财资领域的特定工作流用例。供给侧已经成熟。治理侧尚未。

六维指数架构

本指数从六个维度对代理式 AI 准备度打分。每个维度都有一套四级成熟度量表。一家银行的指数得分，是其各维度得分按监管重要性加权后的乘积。加权框架以 SR 11-7、SS1/23、EU AI Act 附件三义务以及 FSB 稳健实践类别为校准基准。

维度一：自主性等级覆盖

衡量什么： 每一个生产环境中的代理式工作流是否都在一套界定明确的自主性阶梯上完成分级，是否没有任何工作流在未经书面例外的情况下越过其许可等级运行——以及该等级划分是否不仅界定任务边界，还界定法律问责边界。

自主性阶梯仍是基础构件。从 Level 0（观察与只读）到 Level 4（带强制检查点的多工具编排）的五个等级，界定的是智能体的权限边界，而非模型的复杂程度。同一底层 LLM 可以处于任一等级；差异在于其外层封装。Level 5——无检查点的自我编排执行——在 2026 年的生产银行环境中不应存在。OSWorld 66.3% 的任务完成率会复合：三次串联调用，各为 66%，产生 29% 的端到端成功率。五次串联则产生 13%。

新加坡 IMDA 代理式 AI 模型治理框架于 2026 年 1 月 22 日在达沃斯发布，是全球首个明确针对自主智能体的治理框架（IMDA, 2026），定义了四个对应概念：主体层级（谁可以指示智能体）、任务边界（智能体被授权做什么）、最小足迹（智能体不应积累超出即时需求的权限）以及可解释性（推理路径必须可追溯）。这四点直接对应于自主性等级模型。

委托代理问题与意图的法律归属。 IMDA 框架引入了一个纯工程规范容易低估的维度：当 AI 智能体作为某一法人实体的代理人行事——执行一笔支付、批准一项授信额度调整、提交一份监管申报——它便产生了一个意图的法律归属问题。智能体是凭谁的授权行事？当智能体偏离其提示词约束时，由谁承担责任？当智能体在一条含糊指令的两种有效但不同的解释之间作出选择时，意图应归属于谁？

对于 Level 3 与 Level 4 工作流——智能体在既定参数内自主执行重大行动——等级定义不仅须明确技术任务边界，还须明确法律问责边界：一名授权该工作流的具名人类主体、一份书面化的授权工具（董事会决议、授权委托或经签署的授权书）、智能体行为约束机构的条件，以及偏离提示词约束触发自动撤销、升级与事故记录的条件。缺少这些，自主性等级分类便只是一件工程产物，无法经受法律质疑、监管检查，或与某个因智能体误读条件指令而导致资金被动的交易对手发生的争议。

成熟度等级	具体表现	指数得分
Level 1 — 未分级	没有正式分类法；智能体被非正式地称为「助手」或「副驾」；没有等级文档	0–24
Level 2 — 已分级、未验证	已贴上等级标签；没有正式验证封装层是否落实所声明的等级；Level 5 工作流可能存在而未被发现	25–49
Level 3 — 已分级且受控	所有生产工作流标注为 Level 0–4；Level 5 在合同上被禁止；可供 MRM 审查的季度等级审计产物齐备	50–74
Level 4 — 已分级、受控且证据就绪	完整的等级登记册；持续的漂移监控；任何等级重新分类都触发新的 MRM 验证；审计人员可按需重建任一工作流的等级划分	75–100

维度二：治理架构

衡量什么： 五组件的智能体控制平面是否在生产环境中得到完整工程实现并投入运行——而非仅写在一份政策文件里。

FSB 2026 年 6 月咨询明确指出，既有的治理框架并非为这样的系统设计：它们会「在没有逐步人工监督的情况下进行规划、采取多步行动并与外部系统交互」。五组件控制平面把这一观察转化为一份工程清单：

组件一：身份与权限。 每个智能体精确映射到一个服务账户，配以权限范围限定在最小 API 面的 OAuth client_credentials 令牌。冻卡智能体的令牌可以调用带金额上限的 POST /accounts/{id}/freeze；它无法调用托管、财资或交易领域的任何接口。服务账户密钥按既定周期轮换。长期有效的凭证是生产部署中最常见的控制平面失效。FSB 明确建议「对智能体及其子智能体实行最小权限，并采用动态身份与访问管理，根据行为与上下文实时授予、变更或撤销权限，而非沿用为人类用户设置的静态配置」。

组件二：确定性护栏机制。 每一次 LLM 工具调用在抵达生产 API 之前，都先经过一个语义路由器（NeMo Guardrails、LangChain Guardrails 或同类工具）。该路由器对照一份有限的允许清单对意图进行分类，并拒绝清单之外的调用。随后由一个 JSON-schema 校验器检查载荷。带 amount: 0 的 pacs.008 是模型失效，而非一笔合法交易。发往某个未为发起客户分部预先批准国家的电汇也是如此。

组件三：策略即代码。 Open Policy Agent（或同类工具）位于校验器与 API 之间。策略在 Git 中进行版本管理；拒绝决定被记录在案；在既有平台中为微服务间调用把关的同一策略引擎，也为智能体工具调用把关。EU AI Office 2026 年 5 月关于第 12 条审计日志的指引要求，高风险 AI 系统的日志条目须将行动归属到具体的智能体实例，而非仅归属到某项部署或某个 API 凭证。共用同一凭证的多智能体部署无法通过这项检验。

组件四：审计完整性。 不可篡改的 WORM 存储——S3 Object Lock、Azure Blob 不可变性，或一个账本式数据库。每一次调用都记录：时间戳、智能体 ID、服务账户 ID、系统提示词哈希、检索到的上下文、LLM 提供方加模型加版本、原始 LLM 输出、解析后的工具调用、OPA 决定、API 响应、下游影响，以及在适用情况下的审批人 UID。记录在写入时即加密签名。2026 年 5 月发布的 EU AI Act 第 12 条澄清，将按智能体身份点名为一项具体的缺口；运行多个共用同一凭证的智能体实例的机构被明确认定为不合规。

组件五：紧急关停开关与「AI 监控 AI」。 一个经过测试的红色按钮 API，能在 60 秒内取消某一权限类别内所有进行中的智能体调用。经过测试这个词承载着分量。未经测试的紧急关停开关只是一种政策愿望。

在紧急关停开关之上，维度二在最高成熟度等级须强制要求 「AI 监控 AI」（AI-monitoring-AI，AMI）架构——理由是算术。IBM 的数据将到 2027 年企业平均智能体规模置于 1,661 个（IBM, 2026）。FSB 明确承认，对单个智能体决策的持续人工监控在规模化后会变得在物理上不可能，并建议以能在性能指标被突破或智能体行为漂移时向人类发出告警的 AI 系统来补充人工监督。一名人类合规官无法监控 1,661 个以机器速度同时执行决策的并发智能体。假定他们能够做到的控制模型，将在智能体群体首次发生相关性行为偏移时失效——一次模型更新悄然地同时改变数十个工作流的输出分布。

AMI 层并非人工监督的替代品；它是使人工监督在规模化下可付诸行动的检测机制。其三项强制功能为：漂移检测（对同一等级、同一类型智能体的输出分布进行统计监控，在人类能够察觉之前就标记出超过既定 sigma 阈值的偏离）；跨智能体相关性告警（识别多个智能体何时开始以一种昨天尚不存在的、方向一致的模式执行——即维度六所述羊群动态的早期信号）；以及异常预升级（在紧急关停开关成为唯一剩余选项之前，向人类决策者生成一份带上下文与可逆性评估的结构化告警）。FSB 在稳健实践第 9 项中明确建议采用 AMI 架构。一家在维度二达到成熟度 Level 4 却没有运行中 AMI 层的机构，并不处于 Level 4。

成熟度等级	具体表现	指数得分
Level 1 — 临时应对	部分组件存在但无文档；没有正式的控制平面负责人；没有紧急关停开关测试记录	0–24
Level 2 — 已书面化	五个组件均有文档；存在实现缺口；紧急关停开关存在但未经测试；WORM 日志不完整	25–49
Level 3 — 已投入运行	五个组件均在生产环境运行；紧急关停开关每季度测试；Level-3+ 工作流的 WORM 日志完整；OPA 策略纳入版本控制	50–74
Level 4 — 证据就绪	控制平面持续生成经加密签名的证据；按智能体身份满足 EU AI Act 第 12 条；紧急关停开关测试结果即为审计产物；漂移检测自动化	75–100

维度三：监管证据完整性

衡量什么： 机构能否按需为 SR 11-7、SS1/23、EU AI Act、DORA、FSB 以及适用的国家级框架，提供一份完整的、按工作流编制的监管证据包。

美联储已多次澄清，SR 11-7 适用于任何「输入到输出」的决策系统，无论机构是否将底层 LLM 归类为模型。PRA 的 SS1/23 适用范围更广。EU AI Act 附件三的高风险分类覆盖了金融服务业大多数 LLM 用例——信用评分、欺诈检测、客户适当性、保险定价。欧盟范围系统须在 2026 年 8 月 2 日前实现完全合规，德国、法国与荷兰已确认在 2026 年第三季度开展监管审查。IOSCO 资本市场 AI 使用监管工具箱于 2026 年 5 月 25 日定稿，覆盖从传统 ML 到 GenAI 再到代理式 AI 的完整 AI 生命周期——并明确指出，规划能力、长期记忆与外部工具访问会在相互关联的系统间制造涌现行为与级联失效的风险。

应用于智能体的三道防线模型：

第一道防线（模型所有者）： 记录预期用途、训练与评估数据血缘、系统提示词模式、工具调用允许清单、紧急关停开关测试结果。负责生产环境中的漂移监控。负责银行专属的留出评估集——这是大多数机构投入不足的工作。
第二道防线（MRM 团队）： 在投产前验证智能体。验证报告涵盖供应商评估分数（MMLU、HumanEval——有用但不充分）、银行专属评估分数、提示词注入红队结果、偏见与公平性分析，以及一份量化的剩余风险声明。
第三道防线（内部审计）： 对照一组生产决策样本，检验控制平面闸门与审计日志的完整性。2027 年的审计周期将与 2025 年大不相同；应据此安排预算。

新加坡代理式 AI 模型治理框架（MGF）要求金融机构从四个维度评估智能体：约束智能体自主性与访问、在既定检查点确立人类问责、落实包括基线测试在内的技术控制，以及通过透明度赋予终端用户责任。MAS 于 2026 年 3 月发布的 AI 风险管理工具箱——在 Project MindForge 下与 24 家机构共同开发——是目前可获得的、在操作层面最为详尽的国家级指引。

成熟度等级	具体表现	指数得分
Level 1 — 合规意识	已识别监管义务；未产出工作流层面的证据；SR 11-7 模型卡缺失或不完整	0–24
Level 2 — 时点验证	已完成投产前验证；证据存在于部署日期；没有持续监控；没有按工作流的证据更新节奏	25–49
Level 3 — 持续证据	按工作流维护模型卡；持续评估套件每周重跑；EU AI Act 第 12 条按智能体日志投入运行；FSB 稳健实践类别映射至内部控制	50–74
Level 4 — 检查就绪	完整的监管证据包可按工作流随需调取；三道防线验证记录保持最新；银行专属评估套件比供应商发布周期更快地捕捉模型更新引发的回退；MAS MGF 四维映射已完成	75–100

维度四：经济问责

衡量什么： 机构是否以工作流层面的单位经济学、而非项目层面的生产力宣称，来衡量代理式 AI 的回报。

McKinsey 的分析指出，代理式 AI 可使银行运营成本降低 15–20%（McKinsey, 2026）——相当于营业利润的 9–15%——但其中大部分收益会在竞争中被抹去。更持久的竞争优势在于那些建立起衡量基础设施的机构：当模型与工作流改进出现时，它们能比对手更快行动。Cambridge CCAF 关于 76% 的大型金融机构无法衡量 AI 部署价值的发现，不是一个数据质量问题。它是一个问责架构问题：项目在组合层面立项与汇报，导致无法把价值或失败追溯到单个工作流。

四项能经受 CFO 对话的单位经济学指标：

每笔已完成决策的成本，含失败决策的撤销与修复成本。一个把 BSA 官员时间削减 40%、却产生 12% 误报申报的 SAR 起草智能体，摧毁了价值，而非创造了价值。这正是 Deloitte 的发现——93% 的 AI 支出流向基础设施、仅 7% 流向人员与治理——所导致无法衡量的指标：机构无法计算一项它们未曾部署检测手段的治理失效的撤销成本。

避免的人工触点，在扣除由控制平面监督与例外处理新产生的触点后计算。要点不是把人类注意力降到最低；而是把它重新导向更高杠杆的决策。

撤销率——智能体执行的行动在 24 小时内被回滚的百分比。撤销率高于 2% 的 Level-3 工作流是一个可靠性问题。高于 5% 则是一个控制平面问题。这个数字应按工作流而非按项目追踪。组合层面的平均值会掩盖那个将引发下一条审计发现的离群值。

审计追踪完整性——能从 WORM 日志完整重建全过程来源的决策百分比。在 Level-3 与 Level-4 工作流上应为 100%。任何低于此值都是一项政策失效。

银行业代理式 AI 市场的增长速度使这套衡量基础设施变得迫切。Newgen 的 2026 银行业趋势报告预测，代理式 AI 市场将从 21 亿美元增长到 2034 年的 810 亿美元。McKinsey 的情景建模指出，最可能的结果——一个 30% 概率的情景——是 AI 智能体实现约 20:1 的智能体对人类比例，并带来 15–20% 的成本削减。先行者相对于行动迟缓者可能拉开 4 个百分点的 ROTE 差距。这一利差是真实的，但只有在工作流层面追踪单位经济学，它才可衡量、可辩护。

成熟度等级	具体表现	指数得分
Level 1 — 预算层面汇报	追踪 AI 支出；没有工作流层面单位经济学；生产力宣称未对照运营基线验证	0–24
Level 2 — 汇总指标	提供项目层面的生产力与成本指标；撤销率未按工作流追踪；CFO 汇报依赖于「省下的人头」	25–49
Level 3 — 工作流层面追踪	按工作流追踪每笔已完成决策的成本；监控撤销率；在扣除控制平面开销后计算避免的人工触点	50–74
Level 4 — 完整经济问责	四项单位经济学指标均按工作流追踪；撤销率高于 2% 触发自动工作流审查；审计追踪完整性作为仪表盘指标每季度报送董事会	75–100

维度五：组织准备度

衡量什么： 机构是否具备规模化部署并持续运营代理式 AI（而不只是试点）所需的人才、跨职能治理、董事会层面汇报与文化。

Cambridge CCAF 的发现很精确：劳动力准备度对 AI 盈利能力的预测力是技术采购的四倍。劳动力高度准备的机构报告 23% 的 AI 盈利能力；不具备的机构报告 6%。在所有机构中，仅 10% 称其劳动力已准备就绪。金融科技公司达到「变革」阶段的频率是传统金融机构的三倍——19% 对 6%——尽管其中许多每年在 AI 上的支出不到 1 万美元。差异化来自架构，而非预算。

McKinsey 描述了银行面对代理式 AI 的三种战略姿态：观望、通过成为智能体界面背后的产品供应商来适应，或竞争以掌握直接的客户关系。多数银行默认采取第一种姿态，却把自己描述为在追求第三种。这场战略对话必须明确，而董事会正是它必须落地之处。

FSB 稳健实践第 1 项直接处理董事会问责：董事会对 AI 治理负有最终责任，须设定风险偏好，并确保问责结构清晰。EU AI Act 第 5 条执法与 DORA 第 5 条董事会责任条款，把这一原则转化为个人责任。IOSCO 2026 年 5 月的监管工具箱指出：「AI 系统不再是孤立的项目。它们是核心运营基础设施，需要持续验证、董事会层面的治理，以及随时可供检查的监管证据。」

代理式 AI 的董事会汇报框架，应按工作流涵盖四个数字：自主性等级、审计追踪完整性、撤销率与每笔决策净成本。再加上一份前五项剩余风险清单。政策文件式的幻灯片不能替代。

成熟度等级	具体表现	指数得分
Level 1 — 知晓	董事会知晓 AI 项目；没有针对智能体的治理；缺少首席 AI 官岗位；未组建跨职能治理委员会	0–24
Level 2 — 结构成形	设立专门的 AI 治理职能；界定问责结构；起草 AI 风险偏好声明；劳动力 AI 素养项目处于萌芽	25–49
Level 3 — 治理投入运行	董事会按季度收到带按工作流指标的代理式 AI 仪表盘；跨职能模型风险委员会覆盖智能体；对照基准追踪劳动力准备度；MRM 团队扩展至每季度验证 20+ 个智能体	50–74
Level 4 — 治理成为竞争优势	董事会证据包满足 FSB 稳健实践 1–4 与 DORA 第 5 条个人责任要求；MRM 团队每季度验证 50+ 个智能体；持续治理改进的文化记入年度报告；机构对 FSB 咨询作出回应	75–100

维度六：全球监管对齐

衡量什么： 机构的代理式 AI 运营模型是否与其主要经营司法辖区适用的四大监管框架对齐——以及这种对齐是有证据支撑的，而非仅作声称。

代理式 AI 的监管格局在 2026 年上半年已经定型。如今有四套框架在运营层面具有实质意义：

美国（SR 11-7 / OCC Bulletin 2025-26）。 美联储的模型风险管理指引适用于任何基于 LLM 的决策工作流。OCC 已为社区银行发布专门的模型风险管理指引，强调比例原则——「比例适度不等于可以缺位」。三道防线模型完全适用。

英国（PRA SS1/23 / FCA）。 PRA 的 SS1/23 模型风险管理原则范围足够广，可涵盖所有基于 LLM 的智能体。英国监管当局正在制定针对代理式 AI 的具体预期。FCA 是为金融服务业 AI 治理发布补充指引的国家级当局之一。

欧盟（EU AI Act / DORA）。 附件三高风险 AI 系统义务自 2026 年 8 月 2 日起生效。要求包括结构化风险管理（第 9 条）、数据治理（第 10 条）、透明度（第 13 条）、人工监督（第 14 条）以及按智能体审计日志（第 12 条）。DORA 第 5 条董事会责任条款适用于包括代理式 AI 在内的运营韧性。EU AI Office 2026 年 5 月的指引强制要求审计日志中具备按智能体的加密身份。不合规者面临最高 3,500 万欧元或全球营业额 7% 的罚款。

亚太（MAS / IMDA / 区域监管机构）。 新加坡 IMDA 于 2026 年 1 月 22 日在达沃斯发布了全球首个代理式 AI 模型治理框架。MAS 于 2026 年 3 月在 Project MindForge 下发布其 AI 风险管理工具箱，由 24 家金融机构共同开发。该框架涵盖范围与 AI 监督、AI 风险管理、AI 生命周期管理以及组织赋能要素。MAS 拟议的正式《AI 风险管理指引》预计于 2026 年定稿，将从自愿性的 FEAT 原则转向带合规含义的监管预期。澳大利亚 ASIC 于 2026 年 5 月发出公开信，要求针对前沿 AI 威胁加强网络安全。

FSB（全球、跨司法辖区）。 FSB 2026 年 6 月咨询——首个将代理式 AI 视为在运营层面有别于其他系统的全球框架——为代理式系统识别出六种监督模式，并建议对高自主性工作流采取「人在指挥」（human-in-command），随着智能体群体增长采取「AI 在环」（AI-in-the-loop）监控，以及对执行超过阈值金额金融交易的智能体实行人工审批或双重授权。意见征询于 2026 年 7 月 22 日截止；最终报告将于 2026 年 10 月提交 G20 财长。

成熟度等级	具体表现	指数得分
Level 1 — 司法辖区清单	已按司法辖区识别适用框架；没有工作流层面映射；对前 AI 时代框架的「类比式合规」	0–24
Level 2 — 框架映射	每个生产代理式工作流均映射至适用框架；已识别缺口；已起草整改计划	25–49
Level 3 — 有证据的合规	已按工作流针对适用框架产出证据包；EU AI Act 第 12 条按智能体日志完整；FSB 稳健实践 5–10 映射至内部控制；新加坡 MGF 四维映射已完成	50–74
Level 4 — 主动的监管参与	机构参与 FSB、IOSCO 与国家监管机构的咨询；监管情报融入智能体部署生命周期；监管证据由运营管线自动生成，而非事后拼凑	75–100

综合指数得分

六个维度的得分按以下监管重要性加权合成为一个综合指数：

维度	权重	理由
治理架构	25%	最高权重：当模型失效时，控制平面是唯一能安全失效的环节
监管证据完整性	20%	对 8 月 2 日 EU AI Act 截止日期与持续监管就绪至关重要
自主性等级覆盖	15%	略有下调，以反映等级分类虽属基础，如今已是门槛性预期而非差异化因素
经济问责	15%	对照 McKinsey 的利润池与 ROTE 差距情景，对 CFO/ROI 对齐至关重要
组织准备度	10%	精简处理：结构性治理虽属必要，但在一级机构中日益成为标配
全球监管对齐	15%	上调：必须切实考虑 DORA 第三方 ICT 集中度风险、跨境智能体执行以及系统性羊群风险的打分

综合得分低于 50，意味着机构无法向 SR 11-7 检查人员、PRA 现场审查或 EU AI Act 监管评估为其当前代理式 AI 姿态辩护。得分在 50–74 之间，意味着控制存在但尚未持续或证据就绪。得分在 75–100 之间，意味着治理是一项竞争资产，而非一项合规成本。

值得追踪的当前信号

信号	对银行意味着什么	来源
52% 代理式 AI 采用率	治理已逾期；处于规模化或变革阶段的机构需要的是控制平面，而非又一个试点	Cambridge CCAF
66.3% OSWorld 任务成功率	结构化工具使用上每三次有一次失败；针对客户资金 API 的无监督执行无法支撑	Stanford HAI
31% 的新增银行 AI 用例为代理式	2026 年第一季度增长最快的类别；治理基础设施正进一步落后于部署	Evident Insights
FSB 2026 年 6 月稳健实践	首个将代理式 AI 视为在运营层面有别于其他系统的全球框架；目前不具约束力，2026 年 10 月作为 G20 交付物	FSB
EU AI Act 2026 年 8 月 2 日截止日期	附件三全部义务生效；德国、法国、荷兰已确认在 2026 年第三季度开展监管审查	EU AI Office
JP Morgan 可长时间运行的智能体：2026 年	同年部署运行 1–2 小时的自主智能体，改变了每一家 G-SIB 与区域银行的竞争对标	CNBC
IBM：到 2027 年 1,661 个智能体	若不在 2026 年加以应对，企业智能体蔓延将是 2027 年的治理挑战；仅 11% 称已准备就绪	IBM
新加坡 MGF 代理式 AI：2026 年 1 月	全球首个专门针对代理式 AI 的治理框架；四个概念（主体层级、任务边界、最小足迹、可解释性）普遍适用	IMDA
IOSCO 监管工具箱：2026 年 5 月	涵盖包括代理式 AI 在内的完整 AI 生命周期；明确点名涌现行为与级联失效风险	IOSCO
McKinsey：4 个百分点 ROTE 差距	AI 先行者相对落后者可能拉开 4 个百分点的 ROTE 优势；捕捉这一差距的衡量基础设施是工作流层面的单位经济学	McKinsey

这对不同机构类型意味着什么

全球系统重要性银行（G-SIBs）

G-SIBs 面临最艰难的治理挑战——并非因为技术更复杂，而是因为规模与司法辖区会放大每一道缺口。一家在 15 个监管司法辖区、30 条业务线上运行 200 个生产智能体的 G-SIB，同时拥有 200 个潜在的 SR 11-7 发现、200 个潜在的 EU AI Act 审计日志失效，以及 200 个潜在的 FSB 稳健实践缺口。投资优先级不是又一个试点。它是中央控制平面、统一的审计日志基础设施，以及一支能够每季度验证 50 个以上智能体的 MRM 团队。

JP Morgan 在 2026 年部署可长时间运行自主智能体的宣布——DBS 在信贷备忘录编制与客户服务中的智能体控制平面——BNP Paribas 达成其 2025 年 AI 目标并开始按季度进行 ROI 汇报——这些都是每一家 G-SIB 董事会都应据以对标的竞争数据点。机构层面的问题不是要不要部署；而是控制平面能否以与智能体群体相同的速率扩展。

FSB 明确警告，对少数几家云、硬件与基础模型提供方的依赖会带来集中度风险——并指出，共享的模型与数据可能把机构推向相关性行为，在下行期放大羊群效应与顺周期性。一家把 80% 代理式基础设施来源于两家基础模型供应商的 G-SIB，正在构筑一种它将不得不向自身风险团队与监管机构双双解释的系统性相关性。

系统性羊群效应与顺周期性：单家银行无法独力解决的架构性风险。 Evident Insights 2026 年第一季度用例追踪指出，如今 68% 的银行代理式部署使用由专业化供应商构成的长尾——而其中大多数构建于相同的底层前沿模型之上，主要是 Anthropic 的 Claude。这造就了一种结构性羊群脆弱性，它与银行在云基础设施或支付通道上已经管理的集中度风险有着实质性的不同。

机制如下。一家银行的交易智能体、流动性智能体与信贷收紧智能体构建于不同的供应商平台之上。它们有不同的系统提示词、不同的工具调用模式、不同的 OPA 策略闸门。但它们共享一个相同的底层模型——相同的权重、相同的训练分布、相同的在分布性压力下涌现的行为模式。当一桩重大市场事件发生——一次主权信用事件、一次与市场共识相左的美联储沟通、一家大型银行倒闭——每一个构建于同一底层模型之上的智能体，都会通过相同的隐含特征权重去处理该事件。如果这些权重产生一种偏向避险行为的方向性倾向，多家银行的交易、流动性与信贷智能体便可能同时执行相关性的抛售、信贷收紧周期或流动性撤出——不是因为任何单家银行的智能体在故障，而是因为它们都在同一个模型之上正常运作。

IOSCO 在 2026 年 5 月的监管工具箱中明确点名了这一动态，警告规划能力、长期记忆与外部工具访问会在相互关联的系统间制造涌现行为与级联失效的风险。FSB 2026 年 6 月咨询直接处理顺周期性——指出如果 AI 智能体在相同数据上训练并使用相似模型，其行为很可能相关，从而可能放大市场波动。

在维度六中为系统性羊群韧性打分，需要三项披露与一项架构控制。三项披露：每个生产代理式工作流的底层基础模型是什么；整个智能体组合的供应商依赖图谱是什么；以及在某个既定压力情景下，机构对自身在跨机构相关性行为中所作贡献的评估是什么。一项架构控制：在高风险资产类别（交易、流动性管理、信贷）中，至少一个主要智能体须使用不同的底层模型或一个显著不同的微调变体，使得单一模型对某次压力事件的分布性反应，无法在所有代理式工作流间同时产生完全相关的结果。这就是把模型多样性作为系统性风险管理——是交易对手分散化在代理式领域的等价物。

交易银行与公司银行

回报率最高的代理式工作流是支付修复、KYC 文档抽取、财资服务、对账差异处理以及公司客户 FAQ 分流。在自主性阶梯上均为 Level-2 或受约束的 Level-3。公司客户并不在意是某个智能体执行了支付修复；他们在意的是 SLA 提升了、争议率保持平稳。要以四项单位经济学指标为先导，而非以技术能力宣称为先导。

自主财资框架——观察 → 检测 → 预测 → 准备 → 请求人工审批 → 提交经签名的载荷——是 2026 年公司财资智能体的正确架构。智能体准备好的 pain.001 载荷，经过与公司 ERP 提交相同的模式校验、欺诈评分与制裁引擎。条件性层（阈值、抵押品资格、缓冲下限）把关的是该 pain.001 是否被发出，而非它采取何种形态。那些为表达条件而自创专属载荷的财资平台，将被排除在银行可消费的路径之外。

区域银行与社区银行

McKinsey 的情景分析识别出三种可行定位：观望、作为智能体界面背后的产品供应商来适应，或为直接客户关系而竞争。未能明确作出这一选择的区域银行，将默认漂入观望姿态——并发现在那段漂移期间积累的治理债务，正是当竞争压力迫使其行动时的首要障碍。

OCC 的比例原则——「比例适度不等于可以缺位」——是区域治理的操作框架。一家区域银行不需要每季度验证 50 个智能体。它需要一名理解自主性阶梯的模型风险官、一套开箱即带 OAuth 权限范围、OPA 集成与 WORM 审计日志的供应商智能体平台实现，以及一份涵盖四项单位经济学指标的董事会汇报模板。投资在于工作流设计与操作者用户体验，而非定制的控制平面工程。

CSI 的 2026 银行业优先事项调查发现，85% 的社区银行受访者相信 AI 采用将带来显著的竞争优势，50% 将其列为 2026 年首要技术趋势。治理基础设施，正是把这 85% 的信奉者与将真正捕获价值的一小部分人区分开来的东西。

金融科技公司、PSP 与基础设施提供方

2026 年代理式 AI 供应商面对的产品问题，不是「你的平台是否比人类表现更好？」而是「你的平台是否开箱即可产出一份符合 SR 11-7 的审计追踪、一份符合 EU AI Act 第 12 条的按智能体日志，以及一套符合 FSB 稳健实践第 10 项的监督模型？」能够以书面、可测试的「是」来回答的供应商，将拿下企业级订单。不能的供应商，则将在概念验证的循环里打转，而银行 MRM 团队总能找到让验证失败的理由。

Oracle 于 2026 年 2 月推出面向银行业的企业级代理式 AI 平台。FIS 与 Mastercard 和 Visa 合作，赋能由智能体发起的商务。Microsoft 发布了面向代理式客户体验的银行业专属蓝图。Accenture 概述了前台与后台的劳动力影响。供给侧已经就绪。差异化在于把监管证据作为一项产品特性，而非事后加装的合规附件。

Evident 识别出的长尾供应商动态——如今银行 68% 的代理式 AI 部署使用超大规模云厂商之外的专业化供应商——意味着第三方 AI 供应商风险的加速，快于大多数银行采购框架的评估能力。DORA 要求对每一家 ICT 第三方提供方进行书面化的尽职调查。EU AI Act 为系统用于高风险类别的供应商叠加了额外要求。把治理外包给供应商的银行，是在外包问责——而监管记录将如实反映这一点。

企业与中小企业（非银行金融服务）

治理负担与代理式 AI 使用的风险重要性成比例，但衡量框架普遍适用。一家在应付账款、营运资本优化或财务规划与分析中部署智能体的企业，需要同一套单位经济学问责框架——每笔已完成决策的成本、撤销率、审计追踪完整性——即便其监管义务比一家系统重要性银行更轻。FSB 稳健实践被定位为适用于各类型、各规模金融机构的非约束性指引。IBM 关于企业平均每年发生 54 起 AI 智能体事故（包括数据泄露与级联系统失效）的发现，适用于整个企业版图。

对于通过代理式界面获取银行服务的中小企业——McKinsey 所描述的、消费者把 AI 智能体作为一种新银行渠道的情景——治理义务上移至提供代理式层的银行或 PSP。但中小企业自身的数据与运营完整性，取决于那套治理是否真实存在。理解管理你财务工作流的机构的指数得分，正在迅速成为一项供应商遴选标准。

董事会层面记分卡

一份有用的代理式 AI 董事会记分卡应追踪六项指标——这是把受治理项目与未受治理项目区分开来的最小集合：

自主性等级分布： 按等级（Level 0–4）统计的生产工作流数量，按季度更新。任何 Level-5 工作流都是一项须报告的发现。
控制平面完整性： 五个控制平面组件（身份、护栏机制、策略即代码、WORM 日志、紧急关停开关）均投入运行的生产工作流百分比。
审计追踪完整性： 能从不可篡改日志完整重建全过程来源的 Level-3+ 工作流调用百分比。目标：100%。
按工作流的撤销率： 智能体执行的行动在 24 小时内被回滚的百分比，按工作流追踪。告警阈值：2%。升级阈值：5%。
每笔决策净成本： 含撤销与修复成本的工作流层面单位成本，与人工基线对比。对照项目经济测算进行追踪。
监管证据时效： 各适用框架（SR 11-7、SS1/23、EU AI Act、MAS MGF）下最近一次按工作流监管证据更新的日期。任何超出证据更新节奏 90 天以上的工作流都是一项风险发现。

这六个数字把代理式 AI 从一套幻灯片转化为一个运营模型。它们也是 SR 11-7 检查人员、PRA 现场审查人员或欧盟监管当局最先会索取的数字。

本指数所弥补的缺口

三道结构性缺口把本指数与既有框架区分开来：

缺口一：既有指数衡量的是 AI 成熟度，而非代理式 AI 专属的治理。 Evident AI Index 利用公开数据，从人才、创新、领导力与透明度四个方面衡量 50 家银行。它不——也并非旨在——评估一家银行的生产代理式工作流是否具备运行中的紧急关停开关、按智能体的 WORM 审计日志或 OPA 策略闸门。一家银行可以在 Evident 指数上名列第一，同时却通不过一次 EU AI Act 第 12 条审计。

缺口二：既有监管框架处理的是「要求什么」，而非「如何为准备度打分」。 SR 11-7、SS1/23、EU AI Act、FSB 稳健实践与新加坡 MGF 各自界定了治理义务。没有任何一个提供一套跨维度的打分框架，让机构能够对照同业为自身姿态对标，或随时间衡量改进。本指数提供了这套打分框架，并以既有监管框架作为证据基础。

缺口三：项目层面的经济学掩盖了工作流层面的失败。 在项目层面汇报 AI 价值的行业惯例——「AI 节省了 X 小时合规工作」——使得在结构上不可能把一次撤销、一份误报 SAR 申报或一项无法解释的智能体行动，追溯到产生它的那个工作流。本指数的单位经济学维度要求工作流层面的问责。这正是使一场 CFO 对话可辩护、一场审计对话可经受的衡量架构。

结论

2026 年银行业的代理式 AI，是一个披着战略对话外衣的工程问题。模型是可替换的。控制平面——OAuth 权限范围、确定性语义路由、OPA 策略闸门、不可篡改的 WORM 审计日志，以及经过测试的紧急关停开关——不可替换。治理架构——三道防线验证、持续的银行专属评估套件、董事会层面的单位经济学汇报——不可替换。监管证据包——按工作流的 SR 11-7 模型卡、EU AI Act 第 12 条按智能体日志、FSB 稳健实践映射——不可替换。

到 2027 年仍能在监管机构面前保持可信的机构，是那些今天就在全部六个指数维度上得分高于 75 的机构：把每一个生产智能体在自主性阶梯上完成分级，工程实现完整的五组件控制平面，产出持续的监管证据，追踪工作流层面的单位经济学，投资于组织准备度，并主动参与正在塑造 2028 年约束性标准的 FSB、IOSCO 与国家监管机构咨询。

OSWorld 66.3% 是可靠性的上限。三次串联的工具调用按此比率产生 29% 的端到端成功率。据此规划。那些以衡量任何其他运营风险的方式去衡量智能体——靠证据，而非靠愿望——的机构，将会发现治理并非代理式 AI 的约束。它是唯一能让代理式 AI 具备竞争力的东西。

常见问题

本指数与 Evident AI Index 有何区别？ Evident AI Index 利用公开数据，从人才、创新、领导力与透明度四个方面对全球 50 家银行的 AI 成熟度进行对标。本指数为那套使代理式 AI 能够安全地针对实时银行 API 部署的具体工程与治理架构——控制平面、审计日志、自主性等级分类、监管证据包——打分。两套指数是互补的：Evident 衡量战略姿态；本指数衡量运营准备度。

谁应当使用本指数？ 全球银行、区域银行、公司银行实体以及部署代理式 AI 的金融机构中的首席运营官、首席风险官、首席 AI 官、模型风险管理负责人与董事会风险委员会。同样适用于在监管证据已成为遴选标准的银行采购流程中销售的金融科技公司、PSP 与基础设施供应商。

2026 年最低可行的治理姿态是什么？ 完整的五组件控制平面在生产环境运行；所有生产工作流分级为 Level 0–4；Level-5 工作流在合同上被禁止；Level-3+ 工作流的 WORM 审计日志完整；在 2026 年 8 月 2 日前落实 EU AI Act 第 12 条按智能体日志；FSB 稳健实践 1–4 映射至董事会问责结构；银行专属评估套件持续运行。

JP Morgan 的宣布对我的机构意味着什么？ 它意味着自主智能体部署的竞争对标，已有一家系统重要性银行在 2026 年点出了具名的时间线。它并不意味着每一家机构都应当匹配那条时间线。它意味着每一家机构都应当知道自己当前的指数得分，知道该得分与 JP Morgan 所描述的部署姿态之间的差距，并对安全弥合该差距所需的治理投资形成一个经董事会批准的判断。

代理式 AI 风险应如何向董事会汇报？ 每个工作流六项指标：自主性等级、控制平面完整性、审计追踪完整性、撤销率、每笔决策净成本与监管证据时效。再加上一份前五项剩余风险清单。略去模型卡式幻灯片与项目层面的生产力小结。

FSB 咨询现在是否产生约束性义务？ 不。FSB 明确指出这 12 项稳健实践不是约束性标准。然而，咨询于 2026 年 7 月 22 日截止，最终报告将于 2026 年 10 月提交 G20 财长。各国监管机构——美联储、PRA、BaFin、DNB、ACPR、MAS——可自行按各自的时间线把这些稳健实践纳入约束性监管预期。现在就回应咨询的机构，正是塑造「约束」具体形态的那些机构。

参考文献

最后审阅 2026-06-30。

最近审阅 2026-06-29.

Republish this article

2026 年银行 Agentic AI 指数：衡量自主性 — Sebastien Rousseau

一个六维指数，用于评估银行的 agentic AI 准备度：自主性层级、治理、监管证据、经济性、组织准备度和全球一致性。

This article is licensed under Creative Commons Attribution 4.0 International. Republication requires attribution to the canonical URL.

2026 年银行 Agentic AI 指数：衡量自主性 — Sebastien Rousseau

一个六维指数，用于评估银行的 agentic AI 准备度：自主性层级、治理、监管证据、经济性、组织准备度和全球一致性。

Originally published at https://sebastienrousseau.com/zh-hans/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER