O Cenário
Escritórios de contabilidade, departamentos fiscais e áreas administrativas de grandes empresas processam milhares de documentos por mês — notas fiscais, certidões, boletos, contratos, CNHs, declarações de imposto. Cada documento precisa ser classificado, ter dados extraídos e ser encaminhado para o sistema correto.
O processo manual é lento, caro e propenso a erros. Uma equipe inteira dedicada a abrir PDFs, identificar o tipo de documento, copiar dados para planilhas e encaminhar para o setor responsável. Quando o volume cresce, a operação engasga.
A KTGroup, empresa de tecnologia parceira estratégica, identificou essa dor em clientes como Bosch, BASF e Nestlé — empresas com volume massivo de documentos e operações que não podiam parar.
O Diagnóstico
O problema tinha duas camadas: classificação e extração. Classificar um documento entre mais de 40 tipos possíveis exigia modelos de Machine Learning especializados — modelos genéricos não tinham precisão suficiente para documentos brasileiros com suas variações de layout, idioma e formatação.
A decisão foi criar um pipeline multi-tier de classificação: modelos de imagem (CNN) para documentos visualmente distintos, modelos BERT para documentos com texto denso, regras para documentos altamente estruturados e LLM para casos ambíguos. Cada classificador retorna uma pontuação de confiança, e documentos abaixo do threshold entram numa fila de revisão humana.
Para extração, a abordagem foi usar LLMs com prompts especializados em português para cada tipo de documento — extraindo campos estruturados como valores, datas, nomes e números de identificação em formato JSON padronizado.
A arquitetura precisava ser serverless e event-driven para escalar com o volume: receber documento, classificar, extrair, indexar — tudo de forma assíncrona e paralela.
A Construção
O backend da API foi construído em Node.js com Express e autenticação via AWS Cognito. Documentos entram por upload, email ou integração via API e são enviados para uma fila SQS.
O processamento é feito em Python — listeners SQS disparam Lambda functions que executam o pipeline de classificação e extração. Mais de 25 funções serverless operam em paralelo. O MongoDB armazena os documentos e metadados, o Apache Solr fornece busca full-text e o Redis gerencia cache de sessão.
A classificação evoluiu para modelos específicos por cliente. Bosch tem padrões de documentos diferentes de BASF, que são diferentes de Kangu. Cada cliente ganhou seu próprio classificador treinado, com factory pattern para instanciar o modelo correto baseado no tenant.
Para busca semântica, embeddings vetoriais foram indexados no Milvus, permitindo encontrar documentos similares e melhorar a classificação por contexto. Tudo foi empacotado numa biblioteca compartilhada — docsia-library — que encapsula classificadores, extratores, clientes de banco e integrações com múltiplos provedores de LLM.
O Resultado
Documentos que passavam por horas de processamento manual começaram a ser classificados e extraídos em minutos. A taxa de aprovação automática superou 80% — os 20% restantes vão para revisão humana com interface dedicada, e as correções alimentam o retreino dos modelos.
A plataforma processa mais de 40 tipos de documentos com extratores especializados para cada um. Clientes como Bosch e BASF operam com classificadores customizados que respeitam as particularidades dos seus documentos.
O pipeline serviu de base tecnológica para o BlueTaxAgent — um agente de IA que ingere automaticamente mais de mil documentos de 7 portais governamentais sobre a Reforma Tributária e responde perguntas com citação das fontes. Produto que foi do conceito ao palco de um evento do setor em menos de 3 meses.
Por Dentro
API
Node.js, Express, AWS Cognito, SQS, Lambda
Processamento
Python 3.11, docsia-library, Celery
Dados
MongoDB, Apache Solr, Milvus (vetores), Redis
IA
CNN + BERT (classificação), Claude/OpenAI (extração), Google Vision (OCR), Flair (NER)
