Индекс агентного ИИ для банков в 2026 году: измерение автономии, управления, аудируемости и бизнес-эффекта

TL;DR. Индексная методика для измерения готовности банков к агентному ИИ: автономия, управление, аудируемость, надёжность, контроли и бизнес-ценность.

Ключевые выводы

Почему 2026 год — это год, когда этот индекс важен. Переход от чатов к ограниченным рабочим процессам — единственное, что имеет значение для агентного ИИ в банках в этом году.
Текущие сигналы, которые надо отслеживать. Классифицируйте агентов по тому, что им разрешено делать, а не по тому, насколько умна базовая модель.
Лестница автономии. Классифицируйте агентов по тому, что им разрешено делать, а не по тому, насколько умна базовая модель.
Контрольная плоскость агента. Контрольная плоскость — это инженерный слой между LLM и вашими промышленными системами.

Агентный ИИ в банках — это теперь инженерная задача, замаскированная под задачу про ИИ. Модель взаимозаменяема; контрольная плоскость — нет. Вызов 2026 года — это не внедрение (Cambridge CCAF оценивает его уже в 52%), а то, выдержат ли автономные системы, которые сегодня работают в вашем банке, проверку по SR 11-7 в следующем квартале. Большинство — не выдержит.

Резюме для руководства / Ключевые выводы

Перестаньте называть их чат-ботами. Промышленная единица — это ограниченный рабочий процесс со строгими разрешениями на вызов инструментов. Работа происходит внутри рабочего процесса, а не внутри LLM.

OSWorld на уровне 66,3% — это потолок надёжности. Ближайший к корпоративному использованию инструментов бенчмарк Stanford HAI по-прежнему проваливает одну из трёх структурированных задач. Это число оправдывает агрессивное развёртывание с человеком в контуре; оно не оправдывает бесконтрольное исполнение по чему-либо, что касается денег клиентов.

Классифицируйте по разрешениям, а не по интеллекту. Лестница автономии идёт от Уровня 0 (извлечение положений ISDA только на чтение) до Уровня 4 (мульти-инструментальное исправление платежей с обязательными контрольными точками). Уровня 5 — самооркестрирующего исполнения без контрольных точек — в промышленном банковском применении в 2026 году быть не должно.

Контрольная плоскость агента — это пять инженерных компонентов, а не документ политики. Служебные учётные записи с OAuth-скоупами, детерминированная семантическая маршрутизация, фильтрация через Open Policy Agent, журналирование аудита в WORM-хранилище и протестированный аварийный выключатель. Любое отсутствие — это замечание.

SR 11-7 и PRA SS1/23 уже применимы. ФРС неоднократно разъясняла, что любая система принятия решений «вход-выход» попадает в область действия. Банки, утверждающие, что LLM — это не модель, проиграли регуляторный спор ещё до того, как его начали.

Почему 2026 год — это год, когда этот индекс важен

Переход от чатов к ограниченным рабочим процессам — единственное, что имеет значение для агентного ИИ в банках в этом году. Чат-бот, который составляет письмо клиенту, поддаётся проверке. Агент, который вызывает POST /accounts/{id}/freeze против вашей промышленной карточной платформы, — это аудируемое доказательство. Промышленная эксплуатация догнала эту рамку: опрос Cambridge CCAF 2026 года фиксирует 52% активного внедрения агентного ИИ и 23% на стадии масштабирования или трансформации (Cambridge CCAF ⧉). Порог «изолированного пилота» был пройден где-то в конце 2025 года.

Вместе с внедрением сдвинулись две вещи.

Во-первых, регуляторы перестали относиться к LLM как к новинке. ФРС разъяснила, что SR 11-7 ⧉ применим к принятию решений на основе LLM независимо от того, классифицируется ли LLM внутри банка как модель. SS1/23 ⧉ от PRA всегда был достаточно широким, чтобы их охватить. Классификация EU AI Act как «высокий риск» покрывает большинство сценариев использования LLM в финансовых услугах. Аргумента «мы не уверены, считается ли это» больше не осталось.

Во-вторых, бенчмарк-реальность догнала. Индекс ИИ Stanford HAI 2026 года сообщает, что OSWorld — ближайший доступный бенчмарк к реальному корпоративному использованию инструментов — даёт точность 66,3% (Stanford HAI ⧉). Одна из трёх структурированных задач по-прежнему проваливается. Это число задаёт технический потолок автономии в 2026 году. Достаточно высокий, чтобы оправдать ограниченные развёртывания Уровня 3 под надзором «человека в контуре»; недостаточно высокий, чтобы оправдать бесконтрольное исполнение по любому API, касающемуся клиентских средств.

Индекс агентного ИИ для банков должен сделать для принятия решений на основе LLM то же, что Базельская рамка сделала для капитала: превратить заявления «у нас есть контроли» в измеримые, аудируемые доказательства по каждому рабочему процессу.

Архитектура Индекса 2026

Слой индекса	Как выглядит «готовность»	Метрика готовности	Сценарий отказа
Уровень автономии	Каждый промышленный рабочий процесс размечен Уровень 0–4; никакого Уровня 5 в проде	% рабочих процессов по уровням; доля на Уровне 3+	Промышленный агент отправляет `pacs.008` на галлюцинированный BIC получателя, потому что никакой статический allow-list не фильтрует полезную нагрузку перед SWIFTNet
Разграничение прав API	Каждый агент привязан к одной служебной учётной записи с OAuth-скоупами минимальных привилегий (например, `card-freeze:write:lt-5000usd`); MTLS к унаследованному ядру	% агентов с минимальными привилегиями; число «сиротских» разрешений	Агент переиспользует служебную учётную запись с избыточными правами; перебирает счета, которые ему было нечего читать; инцидент по статье 33 GDPR подан в течение 72 часов
Детерминированные защитные ограничения	Каждый вызов инструмента проходит через семантический маршрутизатор (NeMo Guardrails / LangChain Guardrails) плюс валидатор по JSON-схеме перед API	% перехваченных вызовов инструментов; доля отклонений по категориям	LLM отправляет вызов `transfer` с `amount: 0`; нижестоящий API не валидирует; алерт по сверке регистров приходит спустя 18 часов в другом часовом поясе
Покрытие «человек в контуре»	Каждое исполнение Уровня 3 поднимает интерфейс утверждения с жёстким тайм-аутом; авто-утверждение запрещено политикой	Пропускная способность утверждений; доля «штамповки» (утверждено менее чем за 2 секунды)	Оператор нажимает «утвердить» по 200 алертам за 4 минуты; SAR подан против добросовестного клиента; жалоба регулятору в течение недели
Полнота аудита	Неизменяемый WORM-журнал фиксирует системный промпт + извлечённый контекст + вывод LLM + вызов инструмента + результат инструмента + UID утверждающего; криптографически подписывается при записи	% вызовов с полной трассировкой	Проверяющий по SR 11-7 спрашивает, почему агент #4421 одобрил перевод на $4,8 млн; у банка есть квитанция перевода и карточка модели; нет доказательств уровня промпта; выдано замечание
Юнит-экономика	Стоимость одного завершённого решения учитывается вместе со стоимостью отката и исправления; положительная по сравнению с ручной базой	Чистая стоимость одного решения; доля откатов	Расход на токены по агентам в граничных случаях превышает стоимость ручного исследователя, которого они заменили; CFO закрывает программу в третьем квартале

Текущие сигналы, которые надо отслеживать

Сигнал	Что это значит для банков	Источник
52% активного внедрения	Агентный ИИ прошёл стадию пилотов; общеинституциональное управление просрочено	Cambridge CCAF ⧉
23% масштабируют или трансформируют	Значимое меньшинство ушло из театра proof-of-concept	Cambridge CCAF ⧉
OSWorld на уровне 66,3%	Частота отказов «один из трёх» на структурированных вызовах инструментов. Бесконтрольное исполнение против API клиентских средств не подкрепляется такой надёжностью	Stanford HAI ⧉
55% называют утрату человеческого надзора главным риском	Проектирование контролей — первичная инженерная задача, а не подзадача комплаенса в конце цепочки	Cambridge CCAF ⧉
76% крупных финансовых институтов с трудом измеряют ценность	Общие заявления о производительности не переживут разговор с CFO. Измеряйте по рабочему процессу, а не по программе в целом	Cambridge CCAF ⧉

Лестница автономии

Классифицируйте агентов по тому, что им разрешено делать, а не по тому, насколько умна базовая модель. Один и тот же экземпляр GPT-5 / Claude 4 / Gemini 3 может стоять на любом уровне; отличается обвязка вокруг него.

Уровень 0 — наблюдение. Доступ на чтение к журналам, трассам или транзакциям. Агент выявляет паттерны или аномалии; никаких записей нигде. Пример: обнаружение дрейфа в частоте отказов pacs.008 по коридорам и уведомление операционной команды.
Уровень 1 — извлечение только на чтение. Читает из операционных систем; выдаёт структурированный вывод для человека. Пример: извлечение вариантов положений CSA из ISDA Master Agreement контрагента и пометка отклонений от стандартного шаблона банка. Агент никогда не пишет обратно в хранилище контрактов.
Уровень 2 — черновик для подачи человеком. Генерирует контент, который человек проверяет и подаёт. Пример: составление SAR (отчёта о подозрительной активности) на основе алерта системы фрод-мониторинга, KYC-записи и трассы транзакций; сотрудник BSA читает, при необходимости правит и подаёт. Система учёта видит только версию, утверждённую человеком.
Уровень 3 — ограниченное исполнение. Вызывает промышленный API с жёсткими детерминированными ограничениями, обеспечиваемыми обвязкой. Пример: вызов API заморозки карты с max-amount-at-risk: 5000 USD, обеспечиваемый политикой allow-list; агент не может заморозить карту, привязанную к остаткам выше этого порога, без эскалации на Уровень 2. Лимит живёт в политике как код, а не в промпте — промпты не являются границей безопасности.
Уровень 4 — мульти-инструментальная оркестрация с обязательными контрольными точками. Прогоняет цепочку через системы; каждый переход состояния журналируется; контрольные точки требуют человеческого утверждения перед следующим вызовом инструмента. Пример: рабочий процесс исправления платежа — извлечь неудачный pacs.008 из очереди недоставленных сообщений → найти корректного получателя через SWIFT KYC Registry → сгенерировать исправленное сообщение → записать в исходящую очередь → человек утверждает повторную отправку. Если любой шаг проваливает валидатор схемы, рабочий процесс останавливается и создаёт случай-исключение.
Уровень 5 — самооркестрация. Агент планирует и исполняет без утверждения на контрольных точках. Никакой промышленный банковский рабочий процесс не должен находиться на Уровне 5 в 2026 году. Это не утверждение о зрелости; это утверждение о надёжности. OSWorld на уровне 66,3% усугубляется по связанным вызовам API. Три вызова инструмента по 66% — это 29% сквозного успеха. Пять — 13%. Не надо.

Контрольная плоскость агента

Контрольная плоскость — это инженерный слой между LLM и вашими промышленными системами. Пять компонентов, все исполняемые в реальном времени, ни один не написан в документе политики.

1. Идентичность и разрешения

Каждый агент привязан ровно к одной служебной учётной записи. Эта учётная запись держит OAuth-токены client_credentials, привязанные к минимально необходимой поверхности API. Токен агента заморозки карт может вызывать POST /accounts/{id}/freeze с amount-at-risk: 0..5000 usd. Он не может вызывать GET /accounts/{id}/balance по другим клиентам. Он не может вызывать ничего в кастоди, казначействе или трейдинге. Секреты служебных учётных записей ротируются еженедельно; долгоживущие учётные данные — самый частый отказ контрольной плоскости в промышленных развёртываниях.

2. Детерминированные защитные ограничения на вызовы инструментов

Каждый вызов инструмента из LLM проходит через детерминированный семантический маршрутизатор (NeMo Guardrails, LangChain Guardrails или эквивалент) до того, как вызов достигнет промышленного API. Маршрутизатор классифицирует намерение по конечному allow-list; вызовы вне списка отклоняются и журналируются. Затем валидатор по JSON-схеме проверяет полезную нагрузку — присутствуют ли обязательные поля, находятся ли долларовые суммы в допустимых границах, валидны ли ISO-коды стран, есть ли BIC получателя в списке предварительно одобренных контрагентов банка. Валидатор должен быть параноидальным: pacs.008 с amount: 0 — это сбой модели, а не легитимная транзакция. Как и перевод в страну, которую ваш санкционный фильтр не предварительно одобрил для сегмента клиента-отправителя.

3. Политика как код

Open Policy Agent (или эквивалент) стоит между валидатором и API. Политики версионируются в Git; решения об отклонении журналируются; тот же движок политик, который фильтрует вызовы между микросервисами в вашей существующей платформе, фильтрует и вызовы инструментов агентами. Относиться к агентам как к особому классу с самодельной фильтрацией — это путь, на котором банки через шесть месяцев получают теневые контрольные плоскости, которые никто из платформенной команды не понимает.

4. Журналирование аудита

Неизменяемое WORM-хранилище — S3 Object Lock, неизменяемость Azure Blob или регистровая база данных. Каждый вызов фиксирует: метку времени, идентификатор агента, идентификатор служебной учётной записи, хэш системного промпта, извлечённый контекст, провайдера LLM плюс модель плюс версию, сырой вывод LLM, разобранный вызов инструмента, решение OPA, ответ API, нижестоящий эффект и UID утверждающего там, где применимо. Записи криптографически подписываются при записи. Именно этот журнал спросят проверяющие по SR 11-7 и SS1/23. Если вы не можете представить полную трассировку по любому решению, у вас нет агента, по которому управляется модельный риск.

5. Аварийный выключатель

API «красной кнопки», который отменяет все выполняющиеся вызовы агентов в пределах класса разрешений менее чем за 60 секунд. Тестируется ежеквартально настольным учением. Аварийный выключатель — единственное, что вытащит вас из релиза модели вендора, в котором тихо случился регресс, из вектора prompt-injection, который вы не предусмотрели, или из события дрейфа, выталкивающего частоту ложных срабатываний за ваш операционный порог. Непротестированные аварийные выключатели не работают; заложите время на учения.

Управление модельным риском

Банки, которые утверждают «LLM — это не модель по SR 11-7», уже проиграли. ФРС неоднократно разъясняла, что любая система «вход-выход», используемая в рабочем процессе принятия решений, попадает в область действия. SS1/23 от PRA ещё шире. Правильная позиция: с первого дня относитесь к каждому промышленному агенту как к модели по SR 11-7 / SS1/23. Стоимость задним числом превращать развёрнутого агента в модель — это многократная стоимость по сравнению с проектированием его как модели с самого начала.

Три линии защиты, применённые к агентам:

Первая линия (владелец модели). Документирует целевое назначение агента, происхождение обучающих и оценочных данных, схему системного промпта, allow-list вызовов инструментов, результаты тестирования аварийного выключателя. Владеет мониторингом дрейфа в проде.
Вторая линия (команда MRM). Валидирует агента перед промышленной эксплуатацией. Отчёт о валидации покрывает оценки вендора (MMLU, HumanEval, HellaSwag полезны, но недостаточны), банк-специфические оценки (ваш собственный отложенный оценочный набор, построенный из операционных примеров — это работа, в которую большинство банков недоинвестируют), результаты red-team по prompt-injection, анализ смещений и справедливости там, где рабочий процесс влияет на клиентов, и количественное заявление об остаточном риске.
Третья линия (внутренний аудит). Тестирует шлюзы контрольной плоскости и полноту журнала аудита на выборке промышленных решений. Аудиторский цикл 2027 года будет очень не похож на цикл 2025 года; закладывайте бюджет уже сейчас.

Непрерывный мониторинг важнее точечной валидации. Банк-специфические оценочные наборы, перезапускаемые еженедельно, ловят регрессии после обновлений модели, которые вендорские бенчмарки не покажут. Темп релизов OpenAI, Anthropic и Google быстрее темпа вашей валидации; либо вы закроете этот разрыв непрерывными оценками, либо его закроет за вас проверяющий своим замечанием.

Измерение бизнес-эффекта

Общие заявления о производительности не переживут разговор с CFO. Измеряйте агентов так, как вы измеряете другие операционные изменения:

Стоимость одного завершённого решения, включая стоимость отката и исправления неудачных решений. Агент составления SAR, который сокращает время сотрудника BSA на 40%, но генерирует 12% ложноположительных подач, разрушил ценность, а не создал её.
Избежавшие ручного касания, посчитанные за вычетом новых касаний, созданных надзором контрольной плоскости и обработкой исключений. Цель не в том, чтобы минимизировать человеческое внимание; цель — перенаправить его на решения с большим рычагом.
Доля откатов — процент действий агента, откатанных в течение 24 часов. Доля откатов выше 2% на рабочем процессе Уровня 3 — это проблема надёжности. Выше 5% — это проблема контрольной плоскости.
Полнота аудиторской трассы — процент решений с полным происхождением, восстановимым из WORM-журнала. Должна быть 100% на рабочих процессах Уровня 3 и Уровня 4. Любое меньшее значение — это провал политики, который всплывёт в аудите.

Если рабочий процесс становится быстрее, но менее объяснимым, индекс должен это штрафовать. Самый дешёвый способ провалить регуляторную проверку — оптимизировать пропускную способность и потерять трассировку.

Что это значит по типам банков

Глобальные системно значимые банки

Тяжёлая задача — управление при масштабе: сотни агентов по бизнес-линиям, у каждого свой владелец модели, каждый — потенциальное аудиторское замечание. Инвестиция — это не очередной пилот. Это центральная контрольная плоскость, единая инфраструктура журнала аудита и команда MRM, способная валидировать 50+ агентов в квартал. Без такой ёмкости агенты выкатываются быстрее, чем успевают управляться, и институт тихо накапливает экспозицию по SR 11-7.

Транзакционные и корпоративные банки

Рабочие процессы с самой высокой ROI — исправление платежей, извлечение KYC-документов, дефлекция FAQ казначейских услуг и разбор расхождений в сверке. Все — Уровня 2 или ограниченного Уровня 3. Корпоративному клиенту неважно, что работу сделал агент; ему важно, что SLA улучшился, а частота споров не выросла. Ведите с метрик, а не с технологии.

Региональные банки

Покупайте, не стройте. Выберите вендора, чья платформа агентов уже содержит примитивы контрольной плоскости — OAuth-скоупы, интеграцию с OPA, журналирование аудита в WORM, протестированный аварийный выключатель — и валидируйте эту платформу по своей MRM-рамке. Строительство собственной контрольной плоскости — это многолетняя инвестиция, которая не даёт дифференциации на региональном масштабе. Тратьте инженерную ёмкость на проектирование рабочего процесса и UX оператора.

Финтехи, PSP и провайдеры инфраструктуры

Продуктовый вопрос для вендоров — не «работает ли ваш ИИ-агент лучше человека». Это «производит ли ваша платформа из коробки аудиторскую трассу, соответствующую SR 11-7». Вендоры, которые могут ответить «да», закроют корпоративные сделки. Вендоры, которые не могут, застрянут в циклах proof-of-concept, пока команда MRM банка будет находить причины провалить валидацию.

Заключение

Агентный ИИ в банках в 2026 году — это инженерная задача. Интересная работа происходит в контрольной плоскости, а не в модели. Модель взаимозаменяема; OAuth-скоупы, детерминированный семантический маршрутизатор, шлюзы политик OPA, неизменяемый журнал аудита и аварийный выключатель — нет.

Институты, которые через 18 месяцев будут выглядеть достоверно перед регуляторами, — это те, кто с первого дня относится к каждому промышленному агенту как к модели по SR 11-7 / SS1/23, с непрерывно работающими банк-специфическими оценочными наборами и контрольной плоскостью, спроектированной отказывать безопасно. Институты, которые этого не делают, узнают, способна ли их команда MRM справиться с 50+ замечаниями по устранению в квартал.

Измеряйте агентов так, как вы измеряете любое операционное изменение: стоимость, надёжность, обратимость, доказательства. OSWorld на уровне 66,3% — это ваш потолок надёжности. Планируйте соответствующим образом.

Часто задаваемые вопросы

Что такое агентный ИИ в банковском деле?

Ограниченный рабочий процесс, который объединяет LLM с вызовами инструментов в промышленные системы, защитные ограничения времени исполнения и контрольные точки «человек в контуре». Работа происходит внутри рабочего процесса, а не внутри модели. Если вы слышали слово «чат-бот», вы не в той категории.

С чего банкам начинать?

С рабочих процессов Уровней 1 и 2, где ценность измерима, а потенциальный ущерб ограничим: извлечение положений ISDA, составление SAR, сортировка исправления платежей, внутренний поиск знаний, помощь в код-ревью, классификация KYC-документов. Не переходите к Уровню 3, пока ваша контрольная плоскость не обрабатывает OAuth-скоупы, семантическую маршрутизацию, фильтрацию OPA, журналирование WORM и протестированный аварийный выключатель.

Каков самый большой риск?

Дать агентам исполнять вызовы против промышленных API без детерминированных защитных ограничений между выводом LLM и API. Цифра OSWorld в 66,3% — это предупреждение. Необёрнутые вызовы инструментов при такой частоте отказов против SWIFT MT103 или API клиентских средств напишут худший заголовок следующего регуляторного цикла.

Применим ли SR 11-7 к агентам на основе LLM?

Да. ФРС разъяснила, что любая система «вход-выход», используемая в рабочих процессах принятия решений, попадает под SR 11-7. SS1/23 от PRA покрывает ту же территорию в Великобритании. Классификация EU AI Act как «высокий риск» покрывает большинство сценариев в финансовых услугах. Дискуссия «это модель или нет» закрыта; действуйте соответственно.

Как агентный ИИ должен докладываться правлению?

Четыре числа на рабочий процесс: уровень автономии, полнота аудиторской трассы, доля откатов, чистая стоимость одного решения. Плюс топ-5 остаточных рисков. Без слайдов с карточками моделей.

Источники

Stanford HAI, (2026). Отчёт об индексе ИИ 2026 года ⧉.
Stanford HAI, (2026). Глава «Техническая производительность» ⧉.
Cambridge Centre for Alternative Finance, (2026). Глобальный отчёт об ИИ в финансовых услугах 2026 ⧉.
Federal Reserve, (2011). SR 11-7: руководство по управлению модельным риском ⧉.
Prudential Regulation Authority, (2023). Надзорное заявление SS1/23: принципы управления модельным риском для банков ⧉.
European Commission, (2024). Регламент (ЕС) 2024/1689 — AI Act ⧉.
NVIDIA, (2024). Фреймворк NeMo Guardrails ⧉.
Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.

Последняя проверка 2026-06-03.

Последняя проверка 2026-07-28.

Опубликовать заново

Индекс агентного ИИ для банков в 2026 году: измерение автономии, управления, аудируемости и бизнес-эффекта — Sebastien Rousseau

Индексная методика для измерения готовности банков к агентному ИИ: автономия, управление, аудируемость, надёжность, контроли и бизнес-ценность.

Эта статья распространяется по лицензии Creative Commons Attribution 4.0 International. При повторной публикации требуется указание канонической ссылки.

Индекс агентного ИИ для банков в 2026 году: измерение автономии, управления, аудируемости и бизнес-эффекта — Sebastien Rousseau

Индексная методика для измерения готовности банков к агентному ИИ: автономия, управление, аудируемость, надёжность, контроли и бизнес-ценность.

Originally published at https://sebastienrousseau.com/ru/2026-06-03-agentic-ai-index-banks-autonomy-governance-auditability-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER