2026 年银行智能体 AI 指数:衡量自主性、治理、可审计性与业务影响

TL;DR. 面向银行的智能体 AI 就绪度指数框架,涵盖自主性、治理、可审计性、可靠性、控制与业务价值六个维度。

核心要点

为什么 2026 年是这份指数真正落地的一年. 从聊天到有界工作流的转变,是今年银行智能体 AI 唯一值得关注的事。一个起草客户邮件的聊天机器人是可复核的;一个针对你生产卡平台调用 POST /accounts/{id}/freeze 的智能体,是可审计的证据。生产环境也跟上了这种叙事:剑桥 CCAF 的 2026 年调研显示,52% 的机构处于活跃的智能体应用阶段,23% 已进入规模化或转型成熟度(Cambridge CCAF ⧉)。"孤立试点"这条门槛,在 2025…
需要跟踪的当前信号. 按智能体被允许做什么来分级,不要按底层模型有多聪明来分级。同一个 GPT-5 / Claude 4 / Gemini 3 实例,可以坐在任何一层;真正不同的是外层封装。.
自主性阶梯. 按智能体被允许做什么来分级,不要按底层模型有多聪明来分级。同一个 GPT-5 / Claude 4 / Gemini 3 实例,可以坐在任何一层;真正不同的是外层封装。.
智能体控制平面. 控制平面是 LLM 与你的生产系统之间的工程层。五个组件,全部运行时,任何一个都不应只活在政策文件里。.

银行业的智能体 AI,如今表面是 AI 问题,本质是工程问题。模型可以替换,控制平面不能。2026 年的命题不是"要不要上"——剑桥 CCAF 的数据已经把渗透率定在了 52%——而是你银行今天跑着的那些自主系统,下个季度能不能扛得住一次 SR 11-7 现场检查。绝大多数扛不住。

执行摘要 / 关键要点

别再叫它们聊天机器人。 生产单位是一个有界工作流,带着严格的工具调用权限。真正干活的是工作流本身,不是 LLM。

OSWorld 66.3% 就是可靠性的天花板。 斯坦福 HAI 最接近企业级工具使用的基准,结构化任务的失败率仍然是三分之一。这个数字足以为激进的人在回路部署背书;但它绝不能为任何触及客户资金的无人监督执行背书。

按权限分级,不要按智能水平分级。 自主性阶梯从 L0(只读式 ISDA 条款抽取)一直到 L4(多工具支付修复并带强制检查点)。L5——无检查点的自我编排执行——在 2026 年的生产级银行业务中不应存在。

智能体控制平面是五个工程化组件,不是一份政策文件。 OAuth 范围化服务账户、确定性语义路由、Open Policy Agent 策略门、WORM 审计日志,以及经过演练的紧急关停开关。少一样,就是一条审计发现。

SR 11-7 与 PRA SS1/23 已经适用。 美联储已多次澄清,任何"输入到输出"的决策系统都在监管范围之内。还在论证 LLM 不是模型的银行,这场监管辩论在还没开口之前就已经输了。

为什么 2026 年是这份指数真正落地的一年

从聊天到有界工作流的转变,是今年银行智能体 AI 唯一值得关注的事。一个起草客户邮件的聊天机器人是可复核的;一个针对你生产卡平台调用 POST /accounts/{id}/freeze 的智能体,是可审计的证据。生产环境也跟上了这种叙事:剑桥 CCAF 的 2026 年调研显示,52% 的机构处于活跃的智能体应用阶段,23% 已进入规模化或转型成熟度(Cambridge CCAF ⧉)。"孤立试点"这条门槛,在 2025 年末某个时点已经被跨过。

伴随采用率上行,还有两件事在同步发生。

第一,监管者不再把 LLM 当作新鲜事物。美联储已经明确指出,SR 11-7 ⧉ 适用于基于 LLM 的决策流程,无论这家银行内部是否把 LLM 归类为模型。PRA 的 SS1/23 ⧉ 一向覆盖面足够宽,把它们囊括进来不成问题。欧盟《AI 法案》的高风险分类涵盖了金融服务领域绝大多数 LLM 用例。"我们不太确定它算不算"的说法,已经没有立足之地。

第二,基准的现实跟上来了。斯坦福 HAI 的 2026 年 AI 指数报告显示,OSWorld——目前最接近真实企业级工具使用的基准——准确率为 66.3%(Stanford HAI ⧉)。结构化任务里仍有三分之一在失败。这个数字给 2026 年的自主性设定了技术天花板:足够高,可以在 HITL 监督下支撑有界的 L3 部署;不够高,无法支撑任何接触客户资金 API 的无人监督执行。

银行的智能体 AI 指数,需要为基于 LLM 的决策做巴塞尔框架对资本所做的事:把"我们有控制措施"的说法,转化为每个工作流的可量化、可审计证据。

2026 年指数架构

指数层	"就绪"长什么样	就绪度指标	失败模式
自主性分级	每个生产工作流都标注为 L0–L4;生产中不存在 L5	各分级工作流占比;L3 及以上占比	生产智能体向幻觉出来的收款方 BIC 发出 `pacs.008`,因为在进入 SWIFTNet 之前没有任何静态白名单对载荷设防
API 权限划分	每个智能体映射到一个服务账户,持有最小权限的 OAuth 范围(例如 `card-freeze:write:lt-5000usd`);对接遗留核心走 MTLS	已采用最小权限的智能体占比;孤儿权限数量	智能体复用了一个超范围的服务账户,遍历了根本无权读取的账户;72 小时内被迫提交 GDPR 第 33 条事件报告
确定性护栏机制	每一个工具调用都先经过语义路由器(NeMo Guardrails / LangChain Guardrails)与 JSON Schema 校验器,再到 API	被拦截的工具调用占比;按类别统计的拒绝率	LLM 发出 `amount: 0` 的 `transfer` 调用;下游 API 没做校验;18 小时后,异时区的总账对账告警才落地
人在回路覆盖率	每一次 L3 执行都弹出带硬性超时的审批 UI;按策略禁止自动批准	审批吞吐量;走过场率(2 秒内批准的比例)	操作员在 4 分钟里点击批准了 200 条告警;一份 SAR 被填报到一名合法客户头上;一周内监管投诉到位
审计完整性	不可篡改的 WORM 日志,完整记录系统提示词 + 检索到的上下文 + LLM 输出 + 工具调用 + 工具返回 + 审批人 UID;写入时进行密码学签名	拥有完整调用链的调用占比	SR 11-7 检查员问 4421 号智能体为什么批准了一笔 480 万美元的电汇;银行只拿得出电汇回单和模型卡;拿不出提示词层面的证据;开出一条审计发现
单位经济模型	按单次完成决策的成本统计,包含回滚与修复成本;相对人工基线显示净正贡献	每次决策净成本;回滚率	边缘场景智能体的每 token 支出,反过来超过它替代掉的人工调查员成本;CFO 在三季度直接砍掉项目

需要跟踪的当前信号

信号	对银行的含义	来源
52% 活跃应用率	智能体 AI 已经走过试点阶段;机构层面的治理已经晚了	Cambridge CCAF ⧉
23% 规模化或转型阶段	已经有一部分有意义的少数派,走出了 PoC 表演阶段	Cambridge CCAF ⧉
OSWorld 66.3%	结构化工具使用上三分之一的失败率。在这一可靠性水平上,对客户资金类 API 进行无人监督执行,完全说不过去	Stanford HAI ⧉
55% 把"丧失人类监督"列为头号风险	控制设计是首要的工程问题,而不是下游的合规问题	Cambridge CCAF ⧉
76% 的大型金融机构难以衡量价值	笼统的生产力提升说辞,撑不过一次 CFO 对话。要按工作流衡量,不要按项目衡量	Cambridge CCAF ⧉

自主性阶梯

按智能体被允许做什么来分级,不要按底层模型有多聪明来分级。同一个 GPT-5 / Claude 4 / Gemini 3 实例,可以坐在任何一层;真正不同的是外层封装。

L0 —— 观察。 对日志、链路追踪或交易进行只读访问。智能体只暴露规律或异常,不在任何地方写入。示例:按通道检测 pacs.008 拒付率漂移,并告警给运营团队。
L1 —— 只读检索。 从业务系统中读取数据,产出供人消化的结构化输出。示例:从交易对手的 ISDA 主协议中抽取 CSA 条款的差异,标出与本行标准模板的偏离。智能体永远不会回写合同库。
L2 —— 起草后由人归档。 生成由人审阅后再提交的内容。示例:基于反欺诈系统告警、KYC 档案与交易追溯,起草一份可疑活动报告(SAR);BSA 合规官阅读、必要时修改,然后归档。系统底账只看到经过人工批准的版本。
L3 —— 有界执行。 调用生产 API,由外层封装强制施加硬性的、确定性的上限。示例:卡片冻结 API 调用,通过白名单策略强制施加 max-amount-at-risk: 5000 USD 的上限;若挂卡余额超过该阈值,智能体未经 L2 升级不得冻结。这个上限以策略即代码的形式存在,不是写在提示词里——提示词不是安全边界。
L4 —— 多工具编排并强制检查点。 跨多个系统执行一段序列;每一次状态变更都写入日志;每一个检查点都必须先得到人工批准,才能进行下一次工具调用。示例:支付修复工作流——从死信队列中取出失败的 pacs.008 → 通过 SWIFT KYC Registry 查到正确的收款方 → 生成修正报文 → 写入出账队列 → 由人审批重发。任一步骤未通过 Schema 校验,工作流立即停下并创建例外案件。
L5 —— 自主编排。 智能体自行规划并执行,不需要任何检查点的批准。2026 年没有任何生产级银行工作流应当处于 L5。 这不是一个成熟度断言,而是一个可靠性断言。OSWorld 的 66.3% 会在串联 API 调用上不断复合。三次工具调用每次 66%,端到端只剩 29%。五次只剩 13%。别这么干。

智能体控制平面

控制平面是 LLM 与你的生产系统之间的工程层。五个组件,全部运行时,任何一个都不应只活在政策文件里。

1. 身份与权限

每个智能体精确映射到一个服务账户。该账户持有 OAuth client_credentials 令牌,范围限定到必需的最小 API 表面。卡片冻结智能体的令牌可以以 amount-at-risk: 0..5000 usd 调用 POST /accounts/{id}/freeze;它不能为其他客户调用 GET /accounts/{id}/balance;它也不能调用托管、司库或交易板块的任何东西。服务账户密钥每周轮转;长期有效凭证是生产部署中最常见的控制平面失败模式。

2. 工具调用上的确定性护栏机制

每一次 LLM 工具调用,在触达生产 API 之前,都必须先经过一个确定性语义路由器(NeMo Guardrails、LangChain Guardrails 或对等组件)。路由器把意图分类到一个有限的白名单;落在名单之外的调用被拒绝并记录。随后由 JSON Schema 校验器审核载荷——必填字段齐全、金额在区间内、ISO 国家代码合法、收款方 BIC 在本行预批的对手方名单上。校验器应该多疑:amount: 0 的 pacs.008 是一次模型失败,不是一笔合法交易;一笔发往制裁过滤器未对发起方客户分段预批国家的电汇,同理。

3. 策略即代码

Open Policy Agent(或对等组件)位于校验器与 API 之间。策略在 Git 中做版本管理;拒绝决策一律落日志;为现有平台里微服务到微服务调用把关的同一套策略引擎,同样为智能体的工具调用把关。把智能体当作一个有专属把关方式的"特殊物种"来处理,正是六个月后平台团队没人看得懂"影子控制平面"的开端。

4. 审计日志

不可篡改的 WORM 存储——S3 Object Lock、Azure Blob 不可变性,或带账本的数据库。每一次调用都记录:时间戳、智能体 ID、服务账户 ID、系统提示词哈希、检索到的上下文、LLM 提供商加模型加版本、原始 LLM 输出、解析后的工具调用、OPA 决策、API 响应、下游影响,以及(如适用)审批人 UID。记录在写入时即完成密码学签名。这份日志正是 SR 11-7 与 SS1/23 检查员要看的东西。如果你拿不出任意一个决策的完整调用链,你就没有一个被模型风险管控住的智能体。

5. 紧急关停开关

一个红按钮 API,可以在 60 秒内取消同一权限类下的所有在飞智能体调用。每季度通过桌面演练做一次测试。紧急关停开关是你唯一的兜底:某家厂商悄无声息地发布了一个发生回归的新模型版本、出现了一种你没预料到的提示词注入路径、或是一次漂移把误报率推过你的运营阈值——只有这一道开关能把你救出来。没演练过的紧急关停开关跑不动;请把演练时间预算进去。

模型风险管理

那些还在论证"LLM 不是 SR 11-7 下的模型"的银行,这场仗已经输了。美联储已多次澄清,任何用于决策工作流的"输入到输出"系统都在监管范围内。PRA 的 SS1/23 覆盖面更宽。正确的姿态是:每一个进入生产的智能体,从第一天起就当作 SR 11-7 / SS1/23 模型来管。事后把一个已经部署的智能体追溯定义为模型,成本是事前直接按模型设计的几倍。

智能体上的三道防线:

第一道防线(模型负责人)。 记录智能体的预期用途、训练与评估数据血缘、系统提示词 Schema、工具调用白名单、紧急关停开关测试结果。负责生产环境中的漂移监控。
第二道防线(MRM 团队)。 在上生产之前完成验证。验证报告应覆盖:厂商发布的评估分数(MMLU、HumanEval、HellaSwag 有用,但不够);银行自有的评估分数(从运营样本中沉淀出来的留出评估集——这是大多数银行投入最不足的一项);提示词注入红队结果;在涉及客户影响的场景下的偏见与公平性分析;以及一份量化的剩余风险声明。
第三道防线(内部审计)。 用一批生产决策样本,测试控制平面的策略门与审计日志完整性。2027 年的审计周期会和 2025 年完全不一样;现在就把预算留出来。

持续监控比时点验证更要紧。银行自有评估套件每周复跑,能发现厂商基准不会暴露的模型更新回归。OpenAI、Anthropic、Google 的发布节奏快于你的验证节奏;要么你跑持续评估把这个差距合上,要么由一位检查员替你合上。

衡量业务影响

笼统的生产力提升说辞,撑不过一次 CFO 对话。把智能体当作其他运营变更来度量:

每次完成决策的成本,包含失败决策的回滚与修复成本。一个把 BSA 合规官时间缩短 40%、却产出 12% 误报申报的 SAR 起草智能体,是在毁灭价值,不是在创造价值。
节省的人工触点数,要扣除由控制平面监督与例外处理新增的人工触点。目的不是把人类注意力降到最低,而是把它重新分配到更高杠杆的决策上。
回滚率——智能体已执行的动作中,在 24 小时内被回滚的比例。L3 工作流上回滚率超过 2% 是可靠性问题;超过 5% 是控制平面问题。
审计调用链完整性——能从 WORM 日志完整还原溯源的决策占比。在 L3 与 L4 工作流上必须是 100%。任何低于这个值的情形,都是会在审计里暴露的策略失败。

如果一个工作流变快但变得更不可解释,这份指数必须给它扣分。考砸一次监管检查最便宜的方式,就是只优化吞吐量、把调用链丢掉。

按银行类型分别意味着什么

全球系统重要性银行

真正的难题是规模化治理:业务条线上数以百计的智能体,每一个都有自己的模型负责人,每一个都可能成为一条审计发现。该投的钱不是再做一次试点,而是中央化的控制平面、统一的审计日志基础设施,以及一支每季度能验证 50 个以上智能体的 MRM 板凳深度。没有这份产能,智能体落地的速度会快过治理的速度,而机构会在不知不觉间累积 SR 11-7 敞口。

交易银行与公司银行

ROI 最高的工作流是支付修复、KYC 文档抽取、司库服务 FAQ 拦截,以及对账差异。全部落在 L2 或有界的 L3。公司客户并不关心是不是智能体干的活;他们关心的是 SLA 改善了、争议率没上升。靠指标开路,不要靠技术开路。

区域性银行

买,不要自建。挑一家其智能体平台已具备控制平面原语——OAuth 范围化、OPA 集成、WORM 审计日志、经过演练的紧急关停开关——的厂商,然后用你自己的 MRM 框架验证它。自建一套定制控制平面是一项多年期投资,在区域规模上并不能形成差异化。请把工程产能花在工作流设计和操作员体验上。

金融科技公司、PSP 与基础设施提供商

厂商面对的产品命题不是"你的 AI 智能体是不是比人强",而是"你的平台是否开箱即用地产出 SR 11-7 合规的审计调用链"。能直接回答"是"的厂商,会拿下企业级订单。回答不上来的厂商,会一直被困在 PoC 循环里,而银行的 MRM 团队总会找到理由让验证不过。

结论

银行业 2026 年的智能体 AI 是一个工程问题。真正值得做的工作在控制平面上,不在模型里。模型可替换;OAuth 范围化、确定性语义路由、OPA 策略门、不可篡改的审计日志,以及紧急关停开关,不可替换。

在 18 个月后还能在监管面前立得住的机构,是那些从第一天起就把每个生产智能体当作 SR 11-7 / SS1/23 模型来管、银行自有评估套件持续运转、控制平面以安全失败为设计前提的机构。做不到这点的机构,会切身体会自己的 MRM 板凳深度,扛不扛得住每季度 50 多条整改发现。

把智能体当作任何一项运营变更来度量:成本、可靠性、可回滚性、证据。OSWorld 66.3% 就是你可靠性的天花板,据此排兵布阵。

常见问题

银行业的智能体 AI 是什么?

它是一个有界工作流,把 LLM 与对生产系统的工具调用、运行时护栏机制以及人在回路检查点组合在一起。真正干活的是工作流本身,不是模型。如果你听到的还是"聊天机器人"这个词,那你站错了类目。

银行应该从哪里开始?

从 L1 与 L2 工作流入手——价值可度量、下行可控:ISDA 条款抽取、SAR 起草、支付修复分流、内部知识检索、代码评审辅助、KYC 文档分类。在控制平面真正搞定 OAuth 范围化、语义路由、OPA 把关、WORM 日志,以及经过演练的紧急关停开关之前,不要碰 L3。

最大的风险是什么?

让智能体在 LLM 输出和 API 之间没有确定性护栏机制的前提下,直接对生产 API 执行操作。OSWorld 66.3% 就是给出的警告。没有外层封装的工具调用,以这个失败率撞上 SWIFT MT103 或客户资金类 API,会写出下一个监管周期的最坏头条。

SR 11-7 是否适用于基于 LLM 的智能体?

是。美联储已经澄清,任何用于决策工作流的"输入到输出"系统,都落在 SR 11-7 之下。PRA 的 SS1/23 在英国覆盖同一片地。欧盟《AI 法案》的高风险分类涵盖了金融服务的绝大多数用例。"这算不算模型"的辩论已经结束,请相应行事。

应当如何向董事会汇报智能体 AI?

每个工作流四个数字:自主性分级、审计调用链完整性、回滚率、每次决策净成本。再加一份前五大剩余风险清单。把模型卡 PPT 模板放下。

参考文献

Stanford HAI, (2026). 2026 年 AI 指数报告 ⧉。
Stanford HAI, (2026). 技术性能章节 ⧉。
剑桥替代金融研究中心, (2026). 2026 年全球金融服务 AI 报告 ⧉。
美联储, (2011). SR 11-7:模型风险管理指引 ⧉。
英国审慎监管局, (2023). 监管声明 SS1/23:银行模型风险管理原则 ⧉。
欧盟委员会, (2024). (EU) 2024/1689 号条例——AI 法案 ⧉。
NVIDIA, (2024). NeMo Guardrails 框架 ⧉。
云原生计算基金会, (2018). Open Policy Agent(OPA)⧉。

最近审阅 2026-06-03。

最近审阅 2026-07-28.

重新发布本文

2026 年银行智能体 AI 指数:衡量自主性、治理、可审计性与业务影响 — Sebastien Rousseau

面向银行的智能体 AI 就绪度指数框架,涵盖自主性、治理、可审计性、可靠性、控制与业务价值六个维度。

本文采用以下许可协议 Creative Commons Attribution 4.0 International. 重新发布需注明原始 URL 出处。

2026 年银行智能体 AI 指数:衡量自主性、治理、可审计性与业务影响 — Sebastien Rousseau

面向银行的智能体 AI 就绪度指数框架,涵盖自主性、治理、可审计性、可靠性、控制与业务价值六个维度。

Originally published at https://sebastienrousseau.com/zh-hans/2026-06-03-agentic-ai-index-banks-autonomy-governance-auditability-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER