Sebastien Rousseau

2026 年银行智能体 AI 指数:衡量自主性、治理、可审计性与业务影响

银行业的智能体 AI 表面是 AI 问题,本质是工程问题。模型可替换;OAuth 范围化的服务账户、确定性语义路由器、Open Policy Agent 控制门、WORM 审计日志,以及经过演练的紧急关停开关,不可替换。

3 min read
Banner for: 2026 年银行智能体 AI 指数:衡量自主性、治理、可审计性与业务影响

银行业的智能体 AI,如今表面是 AI 问题,本质是工程问题。模型可以替换,控制平面不能。2026 年的命题不是"要不要上"——剑桥 CCAF 的数据已经把渗透率定在了 52%——而是你银行今天跑着的那些自主系统,下个季度能不能扛得住一次 SR 11-7 现场检查。绝大多数扛不住。


执行摘要 / 关键要点

  • 别再叫它们聊天机器人。 生产单位是一个有界工作流,带着严格的工具调用权限。真正干活的是工作流本身,不是 LLM。
  • OSWorld 66.3% 就是可靠性的天花板。 斯坦福 HAI 最接近企业级工具使用的基准,结构化任务的失败率仍然是三分之一。这个数字足以为激进的人在回路部署背书;但它绝不能为任何触及客户资金的无人监督执行背书。
  • 按权限分级,不要按智能水平分级。 自主性阶梯从 L0(只读式 ISDA 条款抽取)一直到 L4(多工具支付修复并带强制检查点)。L5——无检查点的自我编排执行——在 2026 年的生产级银行业务中不应存在。
  • 智能体控制平面是五个工程化组件,不是一份政策文件。 OAuth 范围化服务账户、确定性语义路由、Open Policy Agent 策略门、WORM 审计日志,以及经过演练的紧急关停开关。少一样,就是一条审计发现。
  • SR 11-7 与 PRA SS1/23 已经适用。 美联储已多次澄清,任何"输入到输出"的决策系统都在监管范围之内。还在论证 LLM 不是模型的银行,这场监管辩论在还没开口之前就已经输了。

为什么 2026 年是这份指数真正落地的一年 #

从聊天到有界工作流的转变,是今年银行智能体 AI 唯一值得关注的事。一个起草客户邮件的聊天机器人是可复核的;一个针对你生产卡平台调用 POST /accounts/{id}/freeze 的智能体,是可审计的证据。生产环境也跟上了这种叙事:剑桥 CCAF 的 2026 年调研显示,52% 的机构处于活跃的智能体应用阶段,23% 已进入规模化或转型成熟度(Cambridge CCAF ⧉)。"孤立试点"这条门槛,在 2025 年末某个时点已经被跨过。

伴随采用率上行,还有两件事在同步发生。

第一,监管者不再把 LLM 当作新鲜事物。美联储已经明确指出,SR 11-7 ⧉ 适用于基于 LLM 的决策流程,无论这家银行内部是否把 LLM 归类为模型。PRA 的 SS1/23 ⧉ 一向覆盖面足够宽,把它们囊括进来不成问题。欧盟《AI 法案》的高风险分类涵盖了金融服务领域绝大多数 LLM 用例。"我们不太确定它算不算"的说法,已经没有立足之地。

第二,基准的现实跟上来了。斯坦福 HAI 的 2026 年 AI 指数报告显示,OSWorld——目前最接近真实企业级工具使用的基准——准确率为 66.3%(Stanford HAI ⧉)。结构化任务里仍有三分之一在失败。这个数字给 2026 年的自主性设定了技术天花板:足够高,可以在 HITL 监督下支撑有界的 L3 部署;不够高,无法支撑任何接触客户资金 API 的无人监督执行。

银行的智能体 AI 指数,需要为基于 LLM 的决策做巴塞尔框架对资本所做的事:把"我们有控制措施"的说法,转化为每个工作流的可量化、可审计证据。

2026 年指数架构 #

指数层 "就绪"长什么样 就绪度指标 失败模式
自主性分级 每个生产工作流都标注为 L0–L4;生产中不存在 L5 各分级工作流占比;L3 及以上占比 生产智能体向幻觉出来的收款方 BIC 发出 pacs.008,因为在进入 SWIFTNet 之前没有任何静态白名单对载荷设防
API 权限划分 每个智能体映射到一个服务账户,持有最小权限的 OAuth 范围(例如 card-freeze:write:lt-5000usd);对接遗留核心走 MTLS 已采用最小权限的智能体占比;孤儿权限数量 智能体复用了一个超范围的服务账户,遍历了根本无权读取的账户;72 小时内被迫提交 GDPR 第 33 条事件报告
确定性护栏机制 每一个工具调用都先经过语义路由器(NeMo Guardrails / LangChain Guardrails)与 JSON Schema 校验器,再到 API 被拦截的工具调用占比;按类别统计的拒绝率 LLM 发出 amount: 0transfer 调用;下游 API 没做校验;18 小时后,异时区的总账对账告警才落地
人在回路覆盖率 每一次 L3 执行都弹出带硬性超时的审批 UI;按策略禁止自动批准 审批吞吐量;走过场率(2 秒内批准的比例) 操作员在 4 分钟里点击批准了 200 条告警;一份 SAR 被填报到一名合法客户头上;一周内监管投诉到位
审计完整性 不可篡改的 WORM 日志,完整记录系统提示词 + 检索到的上下文 + LLM 输出 + 工具调用 + 工具返回 + 审批人 UID;写入时进行密码学签名 拥有完整调用链的调用占比 SR 11-7 检查员问 4421 号智能体为什么批准了一笔 480 万美元的电汇;银行只拿得出电汇回单和模型卡;拿不出提示词层面的证据;开出一条审计发现
单位经济模型 按单次完成决策的成本统计,包含回滚与修复成本;相对人工基线显示净正贡献 每次决策净成本;回滚率 边缘场景智能体的每 token 支出,反过来超过它替代掉的人工调查员成本;CFO 在三季度直接砍掉项目

需要跟踪的当前信号 #

信号 对银行的含义 来源
52% 活跃应用率 智能体 AI 已经走过试点阶段;机构层面的治理已经晚了 Cambridge CCAF ⧉
23% 规模化或转型阶段 已经有一部分有意义的少数派,走出了 PoC 表演阶段 Cambridge CCAF ⧉
OSWorld 66.3% 结构化工具使用上三分之一的失败率。在这一可靠性水平上,对客户资金类 API 进行无人监督执行,完全说不过去 Stanford HAI ⧉
55% 把"丧失人类监督"列为头号风险 控制设计是首要的工程问题,而不是下游的合规问题 Cambridge CCAF ⧉
76% 的大型金融机构难以衡量价值 笼统的生产力提升说辞,撑不过一次 CFO 对话。要按工作流衡量,不要按项目衡量 Cambridge CCAF ⧉

自主性阶梯 #

按智能体被允许做什么来分级,不要按底层模型有多聪明来分级。同一个 GPT-5 / Claude 4 / Gemini 3 实例,可以坐在任何一层;真正不同的是外层封装。

智能体控制平面 #

控制平面是 LLM 与你的生产系统之间的工程层。五个组件,全部运行时,任何一个都不应只活在政策文件里。

1. 身份与权限 #

每个智能体精确映射到一个服务账户。该账户持有 OAuth client_credentials 令牌,范围限定到必需的最小 API 表面。卡片冻结智能体的令牌可以以 amount-at-risk: 0..5000 usd 调用 POST /accounts/{id}/freeze;它不能为其他客户调用 GET /accounts/{id}/balance;它也不能调用托管、司库或交易板块的任何东西。服务账户密钥每周轮转;长期有效凭证是生产部署中最常见的控制平面失败模式。

2. 工具调用上的确定性护栏机制 #

每一次 LLM 工具调用,触达生产 API 之前,都必须先经过一个确定性语义路由器(NeMo Guardrails、LangChain Guardrails 或对等组件)。路由器把意图分类到一个有限的白名单;落在名单之外的调用被拒绝并记录。随后由 JSON Schema 校验器审核载荷——必填字段齐全、金额在区间内、ISO 国家代码合法、收款方 BIC 在本行预批的对手方名单上。校验器应该多疑:amount: 0pacs.008 是一次模型失败,不是一笔合法交易;一笔发往制裁过滤器未对发起方客户分段预批国家的电汇,同理。

3. 策略即代码 #

Open Policy Agent(或对等组件)位于校验器与 API 之间。策略在 Git 中做版本管理;拒绝决策一律落日志;为现有平台里微服务到微服务调用把关的同一套策略引擎,同样为智能体的工具调用把关。把智能体当作一个有专属把关方式的"特殊物种"来处理,正是六个月后平台团队没人看得懂"影子控制平面"的开端。

4. 审计日志 #

不可篡改的 WORM 存储——S3 Object Lock、Azure Blob 不可变性,或带账本的数据库。每一次调用都记录:时间戳、智能体 ID、服务账户 ID、系统提示词哈希、检索到的上下文、LLM 提供商加模型加版本、原始 LLM 输出、解析后的工具调用、OPA 决策、API 响应、下游影响,以及(如适用)审批人 UID。记录在写入时即完成密码学签名。这份日志正是 SR 11-7 与 SS1/23 检查员要看的东西。如果你拿不出任意一个决策的完整调用链,你就没有一个被模型风险管控住的智能体。

5. 紧急关停开关 #

一个红按钮 API,可以在 60 秒内取消同一权限类下的所有在飞智能体调用。每季度通过桌面演练做一次测试。紧急关停开关是你唯一的兜底:某家厂商悄无声息地发布了一个发生回归的新模型版本、出现了一种你没预料到的提示词注入路径、或是一次漂移把误报率推过你的运营阈值——只有这一道开关能把你救出来。没演练过的紧急关停开关跑不动;请把演练时间预算进去。

模型风险管理 #

那些还在论证"LLM 不是 SR 11-7 下的模型"的银行,这场仗已经输了。美联储已多次澄清,任何用于决策工作流的"输入到输出"系统都在监管范围内。PRA 的 SS1/23 覆盖面更宽。正确的姿态是:每一个进入生产的智能体,从第一天起就当作 SR 11-7 / SS1/23 模型来管。事后把一个已经部署的智能体追溯定义为模型,成本是事前直接按模型设计的几倍。

智能体上的三道防线:

持续监控比时点验证更要紧。银行自有评估套件每周复跑,能发现厂商基准不会暴露的模型更新回归。OpenAI、Anthropic、Google 的发布节奏快于你的验证节奏;要么你跑持续评估把这个差距合上,要么由一位检查员替你合上。

衡量业务影响 #

笼统的生产力提升说辞,撑不过一次 CFO 对话。把智能体当作其他运营变更来度量:

如果一个工作流变快但变得更不可解释,这份指数必须给它扣分。考砸一次监管检查最便宜的方式,就是只优化吞吐量、把调用链丢掉。

按银行类型分别意味着什么 #

全球系统重要性银行 #

真正的难题是规模化治理:业务条线上数以百计的智能体,每一个都有自己的模型负责人,每一个都可能成为一条审计发现。该投的钱不是再做一次试点,而是中央化的控制平面、统一的审计日志基础设施,以及一支每季度能验证 50 个以上智能体的 MRM 板凳深度。没有这份产能,智能体落地的速度会快过治理的速度,而机构会在不知不觉间累积 SR 11-7 敞口。

交易银行与公司银行 #

ROI 最高的工作流是支付修复、KYC 文档抽取、司库服务 FAQ 拦截,以及对账差异。全部落在 L2 或有界的 L3。公司客户并不关心是不是智能体干的活;他们关心的是 SLA 改善了、争议率没上升。靠指标开路,不要靠技术开路。

区域性银行 #

买,不要自建。挑一家其智能体平台已具备控制平面原语——OAuth 范围化、OPA 集成、WORM 审计日志、经过演练的紧急关停开关——的厂商,然后用你自己的 MRM 框架验证它。自建一套定制控制平面是一项多年期投资,在区域规模上并不能形成差异化。请把工程产能花在工作流设计和操作员体验上。

金融科技公司、PSP 与基础设施提供商 #

厂商面对的产品命题不是"你的 AI 智能体是不是比人强",而是"你的平台是否开箱即用地产出 SR 11-7 合规的审计调用链"。能直接回答"是"的厂商,会拿下企业级订单。回答不上来的厂商,会一直被困在 PoC 循环里,而银行的 MRM 团队总会找到理由让验证不过。

结论 #

银行业 2026 年的智能体 AI 是一个工程问题。真正值得做的工作在控制平面上,不在模型里。模型可替换;OAuth 范围化、确定性语义路由、OPA 策略门、不可篡改的审计日志,以及紧急关停开关,不可替换。

在 18 个月后还能在监管面前立得住的机构,是那些从第一天起就把每个生产智能体当作 SR 11-7 / SS1/23 模型来管、银行自有评估套件持续运转、控制平面以安全失败为设计前提的机构。做不到这点的机构,会切身体会自己的 MRM 板凳深度,扛不扛得住每季度 50 多条整改发现。

把智能体当作任何一项运营变更来度量:成本、可靠性、可回滚性、证据。OSWorld 66.3% 就是你可靠性的天花板,据此排兵布阵。

常见问题 #

银行业的智能体 AI 是什么?

它是一个有界工作流,把 LLM 与对生产系统的工具调用、运行时护栏机制以及人在回路检查点组合在一起。真正干活的是工作流本身,不是模型。如果你听到的还是"聊天机器人"这个词,那你站错了类目。

银行应该从哪里开始?

从 L1 与 L2 工作流入手——价值可度量、下行可控:ISDA 条款抽取、SAR 起草、支付修复分流、内部知识检索、代码评审辅助、KYC 文档分类。在控制平面真正搞定 OAuth 范围化、语义路由、OPA 把关、WORM 日志,以及经过演练的紧急关停开关之前,不要碰 L3。

最大的风险是什么?

让智能体在 LLM 输出和 API 之间没有确定性护栏机制的前提下,直接对生产 API 执行操作。OSWorld 66.3% 就是给出的警告。没有外层封装的工具调用,以这个失败率撞上 SWIFT MT103 或客户资金类 API,会写出下一个监管周期的最坏头条。

SR 11-7 是否适用于基于 LLM 的智能体?

是。美联储已经澄清,任何用于决策工作流的"输入到输出"系统,都落在 SR 11-7 之下。PRA 的 SS1/23 在英国覆盖同一片地。欧盟《AI 法案》的高风险分类涵盖了金融服务的绝大多数用例。"这算不算模型"的辩论已经结束,请相应行事。

应当如何向董事会汇报智能体 AI?

每个工作流四个数字:自主性分级、审计调用链完整性、回滚率、每次决策净成本。再加一份前五大剩余风险清单。把模型卡 PPT 模板放下。

参考文献 #

最近审阅

最近审阅 .