Parsers CAMT / MT940 / PAIN validados por schema, fallback OCR para PDFs digitalizados, mapeamento de campos determinístico e evidência de auditoria de grau SR 11-7 — cada etapa de transformação registrada e reproduzível.
01 — Problema
As equipes de tesouraria corporativa recebem extratos bancários nos formatos CAMT, PAIN.001, MT940, OFX, CSV e PDFs digitalizados de dezenas de bancos. Cada formato carrega semânticas de campo, codificações e ambiguidades distintas. A maioria das equipes constrói manualmente parsers frágeis por banco, bloqueando a previsão de caixa em tempo real, a detecção de fraudes e a reconciliação pronta para auditoria.
02 — O que construí
Um toolkit Python de código aberto que unifica todos os formatos comuns de extrato bancário em um único fluxo de transações normalizado. Parsers CAMT / MT940 / PAIN validados por schema, fallback OCR para PDFs digitalizados, mapeamento de campos determinístico e evidência de auditoria de grau SR 11-7 para cada etapa de transformação.
Em números
- 6 formats
- CAMT (.052/.053/.054), MT940, OFX, CSV, PDF com OCR
- Per-field
- Proveniência: formato de origem + versão do parser registrados
- BCBS 239
- Aderente à agregação de dados de risco
- Apache-2.0 / MIT
- Uso, fork e auditoria livres
03 — Rigor de engenharia
Formatos suportados
CAMT (.052, .053, .054), MT940, OFX, CSV, PDF digitalizado (OCR)
Alvo de normalização
Schema único e unificado de registro de transações
Trilha de auditoria
Proveniência por campo — formato de origem + versão do parser registrados por linha
Licença
Apache-2.0 / MIT
04 — Verificado independentemente
- Destaque no artigo de 14/06/2026: From Bank Statements to Unified Transaction Intelligence
- Projetado para atender aos requisitos de agregação de dados de risco do BCBS 239