面向银行的代理式工程:2026 年高管团队与工程师蓝图
代理式 AI 已在全球银行业从试点走向生产。70% 的机构已在某种程度上使用;仅五分之一拥有成熟治理模型。同时,自主对手以机器速度运营,新系统必须互操作的遗留 COBOL 资产是为 1960 年代的批处理假设而编写的,欧盟 AI 法案的高风险截止日期还有 12 周。这就是银行需要持有的工程与治理立场。
核心要点
- 从随性编码(vibe coding)到规范驱动开发(spec-driven development)的过渡不再是愿景。 2025 年 2 月创造"随性编码"一词的 Andrej Karpathy,一年后承认 ⧉ 该时代正在结束,专业人士的新默认是 代理式工程——根据详细规范编排代理并具有人类监督。
- 银行业采用真实且加速。70% 的银行业公司 ⧉ 报告在某种程度上使用代理式 AI(EY 2026:16% 生产中,52% 试点中);44% 的金融团队今年将使用——Wolters Kluwer 报告同比增长 600%+。
- 治理未跟上步伐。 Deloitte 的 AI 状况 2026 发现,只有五分之一的公司拥有自主 AI 代理的成熟治理模型。Deloitte 对 MIT AI 风险数据库的分析识别 350 多种风险 ⧉ 可能由自主或代理行为产生。
- 威胁格局已工业化。 Anthropic 在 2025 年 11 月披露中国国家支持的 GTG-1002 组劫持 Claude Code 对约 30 个目标进行自主间谍活动,AI 自主处理 80-90% 的战术运营。Flashpoint 观察到 AI 相关非法讨论增加 1,500% ⧉,仅在 2025 年 11 月至 12 月间。
- 遗留资产是无声约束。 金融服务 IT 预算的 70-75% 被遗留维护消耗,63% 的银行仍依赖 2000 年前编写的代码,大多数银行报告内部只有一两个人能维护其核心平台运行的 COBOL。代理式 AI 现在是缩小该差距的主导方法。
- 监管栈正在收敛。 欧盟 AI 法案下,2026 年 8 月 2 日 触发高风险 AI 系统的完全可执行性(附件 III 明确包括信用评分和信用度评估)。DORA 已生效。SR 11-7 在监管实践中已扩展到涵盖 LLM 和代理式系统。违规罚款达 3500 万欧元或全球年营业额 7%。
- 人类监督不是单一概念。 HITL(人在回路中,代理未经明确人类批准不能执行)与 HOTL(人在回路上,代理在人类监督下自主执行)的区别现在是欧盟 AI 法案第 14 条合规的工作框架,每个高风险代理都需要明确立场说明哪种模型适用。
- 大多数代理将被购买,而非构建。 DORA 下的第三方风险管理是 2026 年最响亮且未被充分认识的挑战。供应商将提供银行部署的大部分代理能力;监管义务仍在银行,大多数现有供应商合同无法满足第 13 条文档要求。
- 代理式工程不是"ChatGPT 加 MCP 服务器"。 它是对机构端到端流的结构性所有权立场——客户旅程、交易生命周期、控制平面、审计基质、量子安全密码基础——由机构自己的工程职能构建和运营,而非委托给聊天机器人。
代理式工程变得不可避免的一年 #
直到最近,关于金融服务 AI 的对话一直由两个相邻但不同的事物主导:生成式聊天界面(有帮助但有限)和层叠到企业数据上的检索增强生成模式(有用但也有限)。2025 年末到 2026 年初变化的是第三类——自主代理,它们规划、执行和完成多步骤工作流,人类监督有限——从技术演示转向运营现实,并同时跨越企业和威胁行为者。
2025 年 2 月创造"vibe coding"一词 ⧉ 的 Andrej Karpathy,在接下来的一年里观察专业工程师超越它。他的修订——"代理式工程"——现在是整个行业的工作术语。转变的实质直接:在 2026 年严肃的软件工作中,工程师 99% 的时间不直接编写代码。他们编排代理来做,同时担任监督。
这一转变听起来像工程团队对话。在银行业不是。这是董事会层面的对话,因为正在重写内部代码生成方式的相同代理能力,也在重写外部对手的运营方式、监管机构期望监督执行的方式以及机构边界的定义方式。
银行业采用现状 #
总体图景明确。根据 2026 年多项调查的研究,70% 的银行高管 ⧉ 报告其公司已在某种程度上使用代理式 AI。Gartner 预测 ⧉ 到 2026 年底约 40% 的金融服务公司将以某种形式运行 AI 代理。
执行图景较不令人鼓舞。KPMG 报告 ⧉ 99% 的公司计划将自主代理投入生产,但 只有 11% 已这样做。EY 发现 34% 的领导者已开始使用 AI 代理,只有 14% 已完全实施。Forrester 发现 57% 的组织认为缺乏内部能力 利用代理式 AI。
英国金融行为监管局已 公开提出关切 ⧉ 部署速度超过治理成熟度——FCA 首席数据官 Jessica Rasu 将这种紧张定性为近期零售消费者风险。麦肯锡单独 警告 ⧉ 未能调整业务模式的银行 到 2030 年面临侵蚀全球利润高达 1700 亿美元 的风险。
银行必须内化的三个风险向量 #
在任何架构对话之前,董事会的注意力应放在三个特定于代理式系统、比大多数银行规划得更早到达的风险上。
1. 自主对手 #
2026 年最令人迷失方向的发展是代理式 AI 在攻击侧的运营化。2025 年 8 月,Anthropic 披露了一类活动,称为 vibe hacking ⧉:网络犯罪分子使用代理式 AI 大规模执行复杂攻击,AI 嵌入侦察、凭证收集、网络渗透和被盗数据分析。2025 年 11 月 ⧉,Anthropic 披露它已破坏由中国国家支持组(指定 GTG-1002)发起的活动,该组劫持 Claude Code 实例对 约 30 个国防、能源和技术目标 进行自主间谍活动,AI 处理 80-90% 的战术运营,以 每秒数千次请求 运行——人类操作员不可能的速度。
2026 年 1 月,Step Finance——基于 Solana 的 DeFi 投资组合经理——以将设备入侵转变为 2700-3000 万美元损失 的方式被攻破,因为该公司的 AI 交易代理有权限在没有人类批准的情况下执行大额转账。攻击者对 AI 本身进行社会工程,声称在运行授权的漏洞悬赏计划。
总趋势是银行必须内化的。Flashpoint 2026 全球威胁情报报告识别 AI 相关非法讨论增加 1,500% ⧉。摩根大通的 Jamie Dimon 公开明确 ⧉ 该技术的初始优势在进攻,而非防御。
2. 代码质量回归 #
第二个向量是内部和较安静的。在没有规范纪律和严格验证的情况下,LLM 生成的代码以实质上高于人类编写代码的速率携带缺陷出货。SonarQube 对五个前沿 LLM 的分析 ⧉ 生成 Java 代码发现,Llama 3.2 90B 输出中检测到的漏洞中超过 70% 被评为 BLOCKER 严重性。Pearce 等人(IEEE S&P)发现 约 40% 的安全敏感语境中 LLM 生成的程序包含漏洞。
对非监管行业,这是生产力税。对银行,这是复合的监管和运营风险。
3. 遗留锚 #
第三个向量是银行已最了解的,代理式过渡使它同时更紧迫和更可处理。超过 70% 的财富 500 强公司仍依赖大型机,Computer Weekly 分析指出 ⧉,通常建立在数十年交织的 COBOL 和 RPG 与自定义业务逻辑上。在金融服务中具体而言,遗留技术消耗 70-75% 的年度 IT 支出 ⧉。
2026 年 2 月发生的变化是可信代理工具用于遗留现代化的到来。Anthropic 宣布 Claude Code 可以映射 COBOL 依赖、记录工作流并识别风险 ⧉,人类分析师需要数月才能浮出。
为何随性编码不能成为银行业默认 #
值得精确说明随性编码——短提示、观察输出、迭代——为何作为受监管资产中的默认工作流失败。失败模式不是明显的(LLM 偶尔幻觉)。失败模式是结构性的,在四个地方同时出现:缺乏共享约定、上下文衰减、不可见缺陷累积 和 监管可追溯性问题。
在受监管资产中的规范驱动开发 #
规范驱动开发(SDD)颠倒工作顺序。团队不直接跳入实现并与代理迭代,而是首先产生规范——架构决策、要求、接口契约、成功标准、安全约束——代理生成满足规范的代码。验证是结构化的:规范定义输出必须做什么,单独的过程(测试生成、代码评审、适用时的形式验证)检查它是否已完成。
实际工具在 2025 年末和 2026 年初已合并。GitHub 的 Spec Kit ⧉(2025 年末发布)在代码生成前形式化意图。AWS 在其 Kiro IDE 中直接嵌入规范优先工作流。
对银行,重要的变体是 Augment Code 的分析所称的 规范锚定开发——规范优先,AI 生成受其约束的代码,额外治理层(宪法约束、监督检查点、人类批准门)位于生成和合并之间。
现在适用的监管栈 #
2026 年银行业 AI 周围的监管边界不再是检查清单;它是需要一起推理的重叠义务栈。最重要的单一日期是 2026 年 8 月 2 日,欧盟 AI 法案的 高风险系统义务变得完全可执行 ⧉。附件 III 明确将信用评分、信用度评估、寿险和健康险中的风险评估,以及个人金融立场的评估或分类分类为高风险。违规罚款达 3500 万欧元或全球年营业额 7%。
与 AI 法案并存:
- DORA(数字运营韧性法案)自 2025 年 1 月起生效,创建明确涵盖关键金融功能中使用的 AI 系统的 22 项 ICT 风险管理义务。
- SR 11-7——美联储和 OCC 的模型风险管理指南,最初于 2011 年编写——已 在监管实践中扩展 ⧉ 以涵盖 LLM 和代理式系统。
- NIST AI RMF(1.0,2023 年 1 月)在美国是自愿的,但被联邦监管机构引用为基线。
- ISO/IEC 42001(2023 年 12 月发布)是首个可认证的 AI 管理系统标准。
- 英国 SM&CR 和 Consumer Duty——高级经理与认证制度现在要求为每个高风险 AI 系统指定问责。
- G7 后量子路线图(2026 年 1 月)、NCSC 三阶段迁移框架和 BIS Project Leap 发现与该栈并存。
AI 辅助开发的三种模式比较 #
| 维度 | 随性编码 | 规范驱动开发 | 代理式工程 |
|---|---|---|---|
| 主要输入 | 短提示 | 形式规范 | 规范 + 代理编排计划 |
| 工程师角色 | 提示迭代者 | 规范作者 | 编排者和验证者 |
| 输出纪律 | 直接代码生成 | 受规范约束的代码 | 产生代码、测试、文档的多代理工作流 |
| 审计追踪 | 聊天历史(未持久化) | 规范 + 生成的代码 + 测试 | 规范 + 代理追踪 + 验证工件 |
| 缺陷率(仅 LLM) | 10-40% 漏洞率(文献基线) | 受规范约束显著降低 | 验证门下最低 |
| 监管可追溯性 | 对高风险 AI 不足 | 与欧盟 AI 法案第 12 条兼容 | 为第 12 条 + SR 11-7 + DORA 设计 |
| 适合银行业? | 否,对生产 | 是,带治理 | 是,带成熟治理 |
| 能力上限 | 受单次提示约束 | 受规范质量约束 | 受编排质量约束 |
来源:Karpathy 评论 (2026)、Augment Code SDD 分析 ⧉ 和 LLM 代码生成漏洞率学术文献的综合。
构建代理式银行:架构视图 #
这些工作流背后的战略立场是高管团队需要明确拥有的。银行业代理式工程不是开发者生产力倡议。它是触及端到端客户旅程、整个交易生命周期以及两者之下的密码和审计基质的机构能力。该能力的四层值得直接执行关注,自上而下:
第 4 层 — 代理控制平面 治理、审计、终止开关、行为异常检测、人类覆盖。每个代理类的 HITL 和 HOTL 监督配置。
第 3 层 — 代理式工作流 客户旅程、内部运营、开发管道。高风险流默认规范驱动。
第 2 层 — 数据和模型层 AIBOM(AI 物料清单)、模型注册表、检索基质、提示模板版本控制、微调谱系。
第 1 层 — 量子安全基础 ML-KEM、ML-DSA、混合 PKI、密码敏捷性。每个更高层完整性声明所依赖的基质。
实践中的人类监督:HITL vs HOTL #
监管机构在 2026 年最关注的第 4 层内的单一区别是两种监督模型。两者都是人类监督的形式;它们在延迟、规模以及监管机构愿意授予的关于代理行为的假设上不同。
人在回路中(HITL) 是代理未经明确人类批准不能执行后果行动的模型。代理准备决策、呈现并等待。
人在回路上(HOTL) 是代理在有界参数内自主执行的模型,人类实时监控遥测并保留随时停止代理的权威。
欧盟 AI 法案第 14 条不规定 HITL 与 HOTL;它要求人类监督是 有意义的。
购买 vs 构建:第三方代理问题 #
潜入大多数银行的 2026 年现实是它们将不会主要 构建 代理能力。它们将 购买 它。
对于处于购买地位的银行,三个实践纪律适用:向供应商要求 AIBOM、测试黑盒而非小册子、根据第 13 条条款重新谈判合同。
按银行类型意味着什么 #
一级综合银行 #
具有 1 万亿美元以上资产负债表和全球存在的机构同时是最暴露的(最广泛的监管边界、最大的遗留资产、自主对手的最高价值目标)和资源最丰富的。战略优先事项是首先构建控制平面——上面架构的第 4 层。
中型和区域银行 #
二级银行的竞争问题比一级银行更尖锐。实际答案是在小套经审查的供应商上硬标准化(合同满足第 13 条文档要求),投资规范驱动开发纪律。
金融科技、PSP 和加密邻近机构 #
金融科技和支付机构部分有相反问题:敏捷度高,治理常低于同行银行。战略纪律是将 AI 治理视为产品就绪门而非合规叠加。
内部工程职能 #
对阅读本文的工程师和研究者,重要的工作纪律是日常的。将工作的重心从输入字符移到产生规范和验证工具。
到 2026 年 8 月的 12 周行动计划 #
对在现在到欧盟 AI 法案执行日期之间运行代理式工程项目的执行赞助者,工作压缩为 12 周序列:
- 第 1-2 周 —— 制作 AIBOM。
- 第 3-4 周 —— 按系统分类监督模型。
- 第 5-6 周 —— 构建或强化代理控制平面。
- 第 7-8 周 —— 供应商合同审查。
- 第 9-10 周 —— 干运行符合性评估。
- 第 11-12 周 —— 截止前验证和董事会签字。
结论 #
过去六个月在行业中结晶的尖锐观察是,旧的企业级运营方式不是被新技术超越,而是被新工作模式超越。
内部拥有这一立场的机构——将代理式工程视为银行的结构性能力而非从供应商采购的生产力叠加——将在未来两年复合优势。不这样做的机构将在未来两年通过事件报告和监管发现来发现它们应该构建什么。
常见问题 #
生成式 AI、代理式 AI 和代理式工程之间的区别是什么?
生成式 AI 响应提示产生内容;它是反应性的。代理式 AI 自主追求定义的目标,访问数据、使用工具,并在多步骤工作流中采取行动,不需要在每一步都有人类提示。代理式工程——Karpathy 在 2026 年采用的术语 ⧉——是根据详细规范编排代理与人类监督的工作纪律。
为何 2026 年 8 月欧盟 AI 法案截止日期对银行如此重要?
AI 法案附件 III 明确将几个核心银行 AI 用例分类为高风险:自然人的信用度评估和信用评分、寿险和健康险中的风险评估和定价,以及个人金融立场的评估或分类。
HITL 和 HOTL 之间的实际区别是什么?
HITL 意味着代理未经明确人类批准不能执行后果行动。HOTL 意味着代理在有界参数内自主执行,人类监控遥测并保留随时停止的权威。
我们的大多数代理将来自供应商。我们如何为不是我们构建的系统满足 DORA 和欧盟 AI 法案?
监管义务在部署者,而非供应商。实际答案三方面:要求供应商在签字前提供文档化 AIBOM、对代理进行行为测试、重新谈判供应商合同以包括第 13 条文档权利。
银行实际应担心代理式对手到什么程度?
诚实的答案是威胁是真实的,在运营上与之前的网络威胁不同。2025 年 11 月 Anthropic 披露的 GTG-1002 是规范例子。
代理式 AI 仅仅是"ChatGPT 加 MCP 服务器"吗?
不,这是当前市场中最重要的误解之一。聊天界面增强 MCP 服务器是在有界会话中检索和处理数据的有用模式。代理式工程是机构的结构性能力。
银行在未来 12 周应做的最重要的事是什么?
三件事,依次:制作 AI 物料清单、为任何当前做出或实质影响客户决策的 AI 系统构建代理控制平面、将内部工程文化从随性编码移到规范驱动开发。
参考资料 #
- Sebastien Rousseau, (2026). 保障账簿:后量子迁移的董事会级指南。
- Sebastien Rousseau, (2026). 2026 年 11 月 pacs.008 结构化地址截止日期。
- Sebastien Rousseau, (2026). 量子阈值再次移动。
- Sebastien Rousseau, (2023). CRYSTALS-Kyber:量子时代的守护算法。
- Mansurova, M. (2026). 从随性编码到规范驱动开发 ⧉。Towards Data Science.
- CGI, (2026). 规范驱动开发 ⧉。CGI.
- Augment Code, (2026). 什么是规范驱动开发?完整指南 ⧉。Augment Code.
- Deloitte, (2026). 管理银行业 AI 代理新风险浪潮 ⧉。Deloitte 金融服务中心.
- Anthropic, (2025). 检测和应对 AI 滥用:2025 年 8 月 ⧉。Anthropic.
- Anthropic, (2025). 破坏首次报告的 AI 编排网络间谍活动 ⧉。Anthropic.
- Flashpoint, (2026). 2026 全球威胁情报报告 ⧉。HSToday / Flashpoint.
- 欧盟委员会, (2024). 关于人工智能的欧盟法规 (EU) 2024/1689(欧盟 AI 法案)。
- Regulativ, (2026). 欧盟 AI 法案 2026 年 8 月截止日期 ⧉。Finextra.
- AegisAI Compliance, (2026). 银行 AI 治理:SR 11-7 和欧盟 AI 法案合规指南 ⧉。AegisAI.
- The Financial Brand, (2026). 自主 AI 代理将如何真正重新定义银行业增长 ⧉。The Financial Brand.
- Computer Weekly, (2026). AI 帮助大型机在 2026 年保持业务关键 ⧉。Computer Weekly.
- CIO Magazine, (2025). 使用 AI 现代化大型机 ⧉。CIO Magazine.
- CNBC, (2026). Anthropic 的 Mythos 引发网络安全"歇斯底里" ⧉。CNBC.
最近审阅 .