银行业的智能体 AI,如今表面是 AI 问题,本质是工程问题。模型可以替换,控制平面不能。2026 年的命题不是"要不要上"——剑桥 CCAF 的数据已经把渗透率定在了 52%——而是你银行今天跑着的那些自主系统,下个季度能不能扛得住一次 SR 11-7 现场检查。绝大多数扛不住。
执行摘要 / 关键要点
- 别再叫它们聊天机器人。 生产单位是一个有界工作流,带着严格的工具调用权限。真正干活的是工作流本身,不是 LLM。
- OSWorld 66.3% 就是可靠性的天花板。 斯坦福 HAI 最接近企业级工具使用的基准,结构化任务的失败率仍然是三分之一。这个数字足以为激进的人在回路部署背书;但它绝不能为任何触及客户资金的无人监督执行背书。
- 按权限分级,不要按智能水平分级。 自主性阶梯从 L0(只读式 ISDA 条款抽取)一直到 L4(多工具支付修复并带强制检查点)。L5——无检查点的自我编排执行——在 2026 年的生产级银行业务中不应存在。
- 智能体控制平面是五个工程化组件,不是一份政策文件。 OAuth 范围化服务账户、确定性语义路由、Open Policy Agent 策略门、WORM 审计日志,以及经过演练的紧急关停开关。少一样,就是一条审计发现。
- SR 11-7 与 PRA SS1/23 已经适用。 美联储已多次澄清,任何"输入到输出"的决策系统都在监管范围之内。还在论证 LLM 不是模型的银行,这场监管辩论在还没开口之前就已经输了。
为什么 2026 年是这份指数真正落地的一年 #
从聊天到有界工作流的转变,是今年银行智能体 AI 唯一值得关注的事。一个起草客户邮件的聊天机器人是可复核的;一个针对你生产卡平台调用 POST /accounts/{id}/freeze 的智能体,是可审计的证据。生产环境也跟上了这种叙事:剑桥 CCAF 的 2026 年调研显示,52% 的机构处于活跃的智能体应用阶段,23% 已进入规模化或转型成熟度(Cambridge CCAF ⧉)。"孤立试点"这条门槛,在 2025 年末某个时点已经被跨过。
伴随采用率上行,还有两件事在同步发生。
第一,监管者不再把 LLM 当作新鲜事物。美联储已经明确指出,SR 11-7 ⧉ 适用于基于 LLM 的决策流程,无论这家银行内部是否把 LLM 归类为模型。PRA 的 SS1/23 ⧉ 一向覆盖面足够宽,把它们囊括进来不成问题。欧盟《AI 法案》的高风险分类涵盖了金融服务领域绝大多数 LLM 用例。"我们不太确定它算不算"的说法,已经没有立足之地。
第二,基准的现实跟上来了。斯坦福 HAI 的 2026 年 AI 指数报告显示,OSWorld——目前最接近真实企业级工具使用的基准——准确率为 66.3%(Stanford HAI ⧉)。结构化任务里仍有三分之一在失败。这个数字给 2026 年的自主性设定了技术天花板:足够高,可以在 HITL 监督下支撑有界的 L3 部署;不够高,无法支撑任何接触客户资金 API 的无人监督执行。
银行的智能体 AI 指数,需要为基于 LLM 的决策做巴塞尔框架对资本所做的事:把"我们有控制措施"的说法,转化为每个工作流的可量化、可审计证据。
2026 年指数架构 #
| 指数层 | "就绪"长什么样 | 就绪度指标 | 失败模式 |
|---|---|---|---|
| 自主性分级 | 每个生产工作流都标注为 L0–L4;生产中不存在 L5 | 各分级工作流占比;L3 及以上占比 | 生产智能体向幻觉出来的收款方 BIC 发出 pacs.008,因为在进入 SWIFTNet 之前没有任何静态白名单对载荷设防 |
| API 权限划分 | 每个智能体映射到一个服务账户,持有最小权限的 OAuth 范围(例如 card-freeze:write:lt-5000usd);对接遗留核心走 MTLS |
已采用最小权限的智能体占比;孤儿权限数量 | 智能体复用了一个超范围的服务账户,遍历了根本无权读取的账户;72 小时内被迫提交 GDPR 第 33 条事件报告 |
| 确定性护栏机制 | 每一个工具调用都先经过语义路由器(NeMo Guardrails / LangChain Guardrails)与 JSON Schema 校验器,再到 API | 被拦截的工具调用占比;按类别统计的拒绝率 | LLM 发出 amount: 0 的 transfer 调用;下游 API 没做校验;18 小时后,异时区的总账对账告警才落地 |
| 人在回路覆盖率 | 每一次 L3 执行都弹出带硬性超时的审批 UI;按策略禁止自动批准 | 审批吞吐量;走过场率(2 秒内批准的比例) | 操作员在 4 分钟里点击批准了 200 条告警;一份 SAR 被填报到一名合法客户头上;一周内监管投诉到位 |
| 审计完整性 | 不可篡改的 WORM 日志,完整记录系统提示词 + 检索到的上下文 + LLM 输出 + 工具调用 + 工具返回 + 审批人 UID;写入时进行密码学签名 | 拥有完整调用链的调用占比 | SR 11-7 检查员问 4421 号智能体为什么批准了一笔 480 万美元的电汇;银行只拿得出电汇回单和模型卡;拿不出提示词层面的证据;开出一条审计发现 |
| 单位经济模型 | 按单次完成决策的成本统计,包含回滚与修复成本;相对人工基线显示净正贡献 | 每次决策净成本;回滚率 | 边缘场景智能体的每 token 支出,反过来超过它替代掉的人工调查员成本;CFO 在三季度直接砍掉项目 |
需要跟踪的当前信号 #
| 信号 | 对银行的含义 | 来源 |
|---|---|---|
| 52% 活跃应用率 | 智能体 AI 已经走过试点阶段;机构层面的治理已经晚了 | Cambridge CCAF ⧉ |
| 23% 规模化或转型阶段 | 已经有一部分有意义的少数派,走出了 PoC 表演阶段 | Cambridge CCAF ⧉ |
| OSWorld 66.3% | 结构化工具使用上三分之一的失败率。在这一可靠性水平上,对客户资金类 API 进行无人监督执行,完全说不过去 | Stanford HAI ⧉ |
| 55% 把"丧失人类监督"列为头号风险 | 控制设计是首要的工程问题,而不是下游的合规问题 | Cambridge CCAF ⧉ |
| 76% 的大型金融机构难以衡量价值 | 笼统的生产力提升说辞,撑不过一次 CFO 对话。要按工作流衡量,不要按项目衡量 | Cambridge CCAF ⧉ |
自主性阶梯 #
按智能体被允许做什么来分级,不要按底层模型有多聪明来分级。同一个 GPT-5 / Claude 4 / Gemini 3 实例,可以坐在任何一层;真正不同的是外层封装。
- L0 —— 观察。 对日志、链路追踪或交易进行只读访问。智能体只暴露规律或异常,不在任何地方写入。示例:按通道检测
pacs.008拒付率漂移,并告警给运营团队。 - L1 —— 只读检索。 从业务系统中读取数据,产出供人消化的结构化输出。示例:从交易对手的 ISDA 主协议中抽取 CSA 条款的差异,标出与本行标准模板的偏离。智能体永远不会回写合同库。
- L2 —— 起草后由人归档。 生成由人审阅后再提交的内容。示例:基于反欺诈系统告警、KYC 档案与交易追溯,起草一份可疑活动报告(SAR);BSA 合规官阅读、必要时修改,然后归档。系统底账只看到经过人工批准的版本。
- L3 —— 有界执行。 调用生产 API,由外层封装强制施加硬性的、确定性的上限。示例:卡片冻结 API 调用,通过白名单策略强制施加
max-amount-at-risk: 5000 USD的上限;若挂卡余额超过该阈值,智能体未经 L2 升级不得冻结。这个上限以策略即代码的形式存在,不是写在提示词里——提示词不是安全边界。 - L4 —— 多工具编排并强制检查点。 跨多个系统执行一段序列;每一次状态变更都写入日志;每一个检查点都必须先得到人工批准,才能进行下一次工具调用。示例:支付修复工作流——从死信队列中取出失败的
pacs.008→ 通过 SWIFT KYC Registry 查到正确的收款方 → 生成修正报文 → 写入出账队列 → 由人审批重发。任一步骤未通过 Schema 校验,工作流立即停下并创建例外案件。 - L5 —— 自主编排。 智能体自行规划并执行,不需要任何检查点的批准。2026 年没有任何生产级银行工作流应当处于 L5。 这不是一个成熟度断言,而是一个可靠性断言。OSWorld 的 66.3% 会在串联 API 调用上不断复合。三次工具调用每次 66%,端到端只剩 29%。五次只剩 13%。别这么干。
智能体控制平面 #
控制平面是 LLM 与你的生产系统之间的工程层。五个组件,全部运行时,任何一个都不应只活在政策文件里。
1. 身份与权限 #
每个智能体精确映射到一个服务账户。该账户持有 OAuth client_credentials 令牌,范围限定到必需的最小 API 表面。卡片冻结智能体的令牌可以以 amount-at-risk: 0..5000 usd 调用 POST /accounts/{id}/freeze;它不能为其他客户调用 GET /accounts/{id}/balance;它也不能调用托管、司库或交易板块的任何东西。服务账户密钥每周轮转;长期有效凭证是生产部署中最常见的控制平面失败模式。
2. 工具调用上的确定性护栏机制 #
每一次 LLM 工具调用,在触达生产 API 之前,都必须先经过一个确定性语义路由器(NeMo Guardrails、LangChain Guardrails 或对等组件)。路由器把意图分类到一个有限的白名单;落在名单之外的调用被拒绝并记录。随后由 JSON Schema 校验器审核载荷——必填字段齐全、金额在区间内、ISO 国家代码合法、收款方 BIC 在本行预批的对手方名单上。校验器应该多疑:amount: 0 的 pacs.008 是一次模型失败,不是一笔合法交易;一笔发往制裁过滤器未对发起方客户分段预批国家的电汇,同理。
3. 策略即代码 #
Open Policy Agent(或对等组件)位于校验器与 API 之间。策略在 Git 中做版本管理;拒绝决策一律落日志;为现有平台里微服务到微服务调用把关的同一套策略引擎,同样为智能体的工具调用把关。把智能体当作一个有专属把关方式的"特殊物种"来处理,正是六个月后平台团队没人看得懂"影子控制平面"的开端。
4. 审计日志 #
不可篡改的 WORM 存储——S3 Object Lock、Azure Blob 不可变性,或带账本的数据库。每一次调用都记录:时间戳、智能体 ID、服务账户 ID、系统提示词哈希、检索到的上下文、LLM 提供商加模型加版本、原始 LLM 输出、解析后的工具调用、OPA 决策、API 响应、下游影响,以及(如适用)审批人 UID。记录在写入时即完成密码学签名。这份日志正是 SR 11-7 与 SS1/23 检查员要看的东西。如果你拿不出任意一个决策的完整调用链,你就没有一个被模型风险管控住的智能体。
5. 紧急关停开关 #
一个红按钮 API,可以在 60 秒内取消同一权限类下的所有在飞智能体调用。每季度通过桌面演练做一次测试。紧急关停开关是你唯一的兜底:某家厂商悄无声息地发布了一个发生回归的新模型版本、出现了一种你没预料到的提示词注入路径、或是一次漂移把误报率推过你的运营阈值——只有这一道开关能把你救出来。没演练过的紧急关停开关跑不动;请把演练时间预算进去。
模型风险管理 #
那些还在论证"LLM 不是 SR 11-7 下的模型"的银行,这场仗已经输了。美联储已多次澄清,任何用于决策工作流的"输入到输出"系统都在监管范围内。PRA 的 SS1/23 覆盖面更宽。正确的姿态是:每一个进入生产的智能体,从第一天起就当作 SR 11-7 / SS1/23 模型来管。事后把一个已经部署的智能体追溯定义为模型,成本是事前直接按模型设计的几倍。
智能体上的三道防线:
- 第一道防线(模型负责人)。 记录智能体的预期用途、训练与评估数据血缘、系统提示词 Schema、工具调用白名单、紧急关停开关测试结果。负责生产环境中的漂移监控。
- 第二道防线(MRM 团队)。 在上生产之前完成验证。验证报告应覆盖:厂商发布的评估分数(MMLU、HumanEval、HellaSwag 有用,但不够);银行自有的评估分数(从运营样本中沉淀出来的留出评估集——这是大多数银行投入最不足的一项);提示词注入红队结果;在涉及客户影响的场景下的偏见与公平性分析;以及一份量化的剩余风险声明。
- 第三道防线(内部审计)。 用一批生产决策样本,测试控制平面的策略门与审计日志完整性。2027 年的审计周期会和 2025 年完全不一样;现在就把预算留出来。
持续监控比时点验证更要紧。银行自有评估套件每周复跑,能发现厂商基准不会暴露的模型更新回归。OpenAI、Anthropic、Google 的发布节奏快于你的验证节奏;要么你跑持续评估把这个差距合上,要么由一位检查员替你合上。
衡量业务影响 #
笼统的生产力提升说辞,撑不过一次 CFO 对话。把智能体当作其他运营变更来度量:
- 每次完成决策的成本,包含失败决策的回滚与修复成本。一个把 BSA 合规官时间缩短 40%、却产出 12% 误报申报的 SAR 起草智能体,是在毁灭价值,不是在创造价值。
- 节省的人工触点数,要扣除由控制平面监督与例外处理新增的人工触点。目的不是把人类注意力降到最低,而是把它重新分配到更高杠杆的决策上。
- 回滚率——智能体已执行的动作中,在 24 小时内被回滚的比例。L3 工作流上回滚率超过 2% 是可靠性问题;超过 5% 是控制平面问题。
- 审计调用链完整性——能从 WORM 日志完整还原溯源的决策占比。在 L3 与 L4 工作流上必须是 100%。任何低于这个值的情形,都是会在审计里暴露的策略失败。
如果一个工作流变快但变得更不可解释,这份指数必须给它扣分。考砸一次监管检查最便宜的方式,就是只优化吞吐量、把调用链丢掉。
按银行类型分别意味着什么 #
全球系统重要性银行 #
真正的难题是规模化治理:业务条线上数以百计的智能体,每一个都有自己的模型负责人,每一个都可能成为一条审计发现。该投的钱不是再做一次试点,而是中央化的控制平面、统一的审计日志基础设施,以及一支每季度能验证 50 个以上智能体的 MRM 板凳深度。没有这份产能,智能体落地的速度会快过治理的速度,而机构会在不知不觉间累积 SR 11-7 敞口。
交易银行与公司银行 #
ROI 最高的工作流是支付修复、KYC 文档抽取、司库服务 FAQ 拦截,以及对账差异。全部落在 L2 或有界的 L3。公司客户并不关心是不是智能体干的活;他们关心的是 SLA 改善了、争议率没上升。靠指标开路,不要靠技术开路。
区域性银行 #
买,不要自建。挑一家其智能体平台已具备控制平面原语——OAuth 范围化、OPA 集成、WORM 审计日志、经过演练的紧急关停开关——的厂商,然后用你自己的 MRM 框架验证它。自建一套定制控制平面是一项多年期投资,在区域规模上并不能形成差异化。请把工程产能花在工作流设计和操作员体验上。
金融科技公司、PSP 与基础设施提供商 #
厂商面对的产品命题不是"你的 AI 智能体是不是比人强",而是"你的平台是否开箱即用地产出 SR 11-7 合规的审计调用链"。能直接回答"是"的厂商,会拿下企业级订单。回答不上来的厂商,会一直被困在 PoC 循环里,而银行的 MRM 团队总会找到理由让验证不过。
结论 #
银行业 2026 年的智能体 AI 是一个工程问题。真正值得做的工作在控制平面上,不在模型里。模型可替换;OAuth 范围化、确定性语义路由、OPA 策略门、不可篡改的审计日志,以及紧急关停开关,不可替换。
在 18 个月后还能在监管面前立得住的机构,是那些从第一天起就把每个生产智能体当作 SR 11-7 / SS1/23 模型来管、银行自有评估套件持续运转、控制平面以安全失败为设计前提的机构。做不到这点的机构,会切身体会自己的 MRM 板凳深度,扛不扛得住每季度 50 多条整改发现。
把智能体当作任何一项运营变更来度量:成本、可靠性、可回滚性、证据。OSWorld 66.3% 就是你可靠性的天花板,据此排兵布阵。
常见问题 #
银行业的智能体 AI 是什么?
它是一个有界工作流,把 LLM 与对生产系统的工具调用、运行时护栏机制以及人在回路检查点组合在一起。真正干活的是工作流本身,不是模型。如果你听到的还是"聊天机器人"这个词,那你站错了类目。
银行应该从哪里开始?
从 L1 与 L2 工作流入手——价值可度量、下行可控:ISDA 条款抽取、SAR 起草、支付修复分流、内部知识检索、代码评审辅助、KYC 文档分类。在控制平面真正搞定 OAuth 范围化、语义路由、OPA 把关、WORM 日志,以及经过演练的紧急关停开关之前,不要碰 L3。
最大的风险是什么?
让智能体在 LLM 输出和 API 之间没有确定性护栏机制的前提下,直接对生产 API 执行操作。OSWorld 66.3% 就是给出的警告。没有外层封装的工具调用,以这个失败率撞上 SWIFT MT103 或客户资金类 API,会写出下一个监管周期的最坏头条。
SR 11-7 是否适用于基于 LLM 的智能体?
是。美联储已经澄清,任何用于决策工作流的"输入到输出"系统,都落在 SR 11-7 之下。PRA 的 SS1/23 在英国覆盖同一片地。欧盟《AI 法案》的高风险分类涵盖了金融服务的绝大多数用例。"这算不算模型"的辩论已经结束,请相应行事。
应当如何向董事会汇报智能体 AI?
每个工作流四个数字:自主性分级、审计调用链完整性、回滚率、每次决策净成本。再加一份前五大剩余风险清单。把模型卡 PPT 模板放下。
参考文献 #
- Stanford HAI, (2026). 2026 年 AI 指数报告 ⧉。
- Stanford HAI, (2026). 技术性能章节 ⧉。
- 剑桥替代金融研究中心, (2026). 2026 年全球金融服务 AI 报告 ⧉。
- 美联储, (2011). SR 11-7:模型风险管理指引 ⧉。
- 英国审慎监管局, (2023). 监管声明 SS1/23:银行模型风险管理原则 ⧉。
- 欧盟委员会, (2024). (EU) 2024/1689 号条例——AI 法案 ⧉。
- NVIDIA, (2024). NeMo Guardrails 框架 ⧉。
- 云原生计算基金会, (2018). Open Policy Agent(OPA)⧉。
最近审阅 。
最近审阅 .
