«Парсеры CAMT / MT940 / PAIN с проверкой по схеме, OCR-резерв для сканированных PDF, детерминированное сопоставление полей, аудиторские доказательства уровня SR 11-7 — каждый шаг преобразования фиксируется и воспроизводится.»
01 — Проблема
Корпоративные казначейства получают банковские выписки в форматах CAMT, PAIN.001, MT940, OFX, CSV и сканированных PDF от десятков банков. Каждый формат несёт свою семантику полей, кодировки и неоднозначности. Большинство команд вручную собирают хрупкие парсеры под каждый банк, что блокирует прогноз ликвидности в реальном времени, выявление мошенничества и сверку, готовую к аудиту.
02 — Что я построил
Открытый Python-инструментарий, который сводит все распространённые форматы банковских выписок в единый нормализованный поток транзакций. Парсеры CAMT / MT940 / PAIN с проверкой по схеме, OCR-резерв для сканированных PDF, детерминированное сопоставление полей и аудиторские доказательства уровня SR 11-7 для каждого шага преобразования.
В цифрах
- 6 форматов
- CAMT (.052/.053/.054), MT940, OFX, CSV, OCR PDF
- По каждому полю
- Происхождение: исходный формат и версия парсера фиксируются
- BCBS 239
- Соответствует требованиям к агрегации рисковых данных
- Apache-2.0 / MIT
- Свободно использовать, форкать, проверять
03 — Инженерная строгость
Поддерживаемые форматы
CAMT (.052, .053, .054), MT940, OFX, CSV, сканированные PDF (OCR)
Цель нормализации
Единая унифицированная схема записи транзакции
Журнал аудита
Происхождение по каждому полю — исходный формат и версия парсера фиксируются по каждой строке
Лицензия
Apache-2.0 / MIT
04 — Независимо подтверждено
- Описан в статье от 2026-06-14: «От банковских выписок к единой аналитике транзакций»
- Спроектирован под требования агрегации рисковых данных BCBS 239