ETL - Reunião 001⚓︎

Bom, pela falta de um nome melhor, resolvi documentar estes encontros como "ETL". Iremos apresentar os processos de ETL da SPLOR, e também discutir suas possíveis melhorias¹.

Gravação do encontro

Este post tenta fazer um grande resumo do que foi conversado, mas se preferir, pode acompanhar tudo na íntegra!

No encontro do dia 10/01/2026 Vivi e eu falamos revisamos alguns conceitos gerais sobre ETL e já começamos a mostrar os casos concretos da SPLOR.

Esta apresentação foi criada para organizar nosso encontros. Neste dia percorremos os 14 primeiros slides da apresentação².

mkslides

Foi utilizado a ferramenta Python mkslides para criação de nossa apresentação. Você pode conferir o código no repositório splor-mg/apresentacoes. Ela é baseada no template reveal.js. Se tiver alguma dúvida, só deixar um comentário abaixo.

Extract - Contexto explor⚓︎

Alguns comandos utilizados³.

# Verificar se o Docker está instalado e a versão
docker --version

# Comando orquestrado via Makefile para subir o container
make container

# Caso make container não funcione
docker run -it --rm --mount type=bind,source=$PWD,target=/project splormg/dados-armazem-siafi-2025 bash

# Comando para rodar a fase de extração (conforme definido no Makefile)
# Dentro do container ou após make extract
make extract

Gerenciamento de dependências (Poetry)⚓︎

# Iniciar um novo projeto com estrutura de pastas pronta
poetry new nome-do-projeto

# Iniciar o Poetry em uma pasta já existente
poetry init

# Instalar dependências (ex: bibliotecas para variáveis de ambiente e testes)
poetry add python-dotenv taskipy pytest

# Ativar o ambiente virtual criado pelo Poetry
# Necessário instalar o plugin https://github.com/python-poetry/poetry-plugin-shell
poetry shell

Para testar, alguns códigos criamos o repositório monitora-email. Ali, criamos um script para enviar e-mail automaticamente.

Se você chegou até aqui, porque não tentar tentar reproduzir este código!

🏁 Conclusão e Próximos Passos⚓︎

Esta reunião foi fundamental para compartilhar experiências na criação dos scripts de extração dos dados de e-mails. O foco agora é consolidar o aprendizado prático desta semana. Na próxima reunião, avançaremos no pipeline de dados, focando especificamente no processo de transformação.

Também estamos discutindo estas melhorias/simplificações neste Issue. ↩
Fomos até este slide. ↩
Demanda gerada para entender melhor como autenticar o e-mail usando código atual em R. ↩

ETL - Reunião 001⚓︎

Extract - Contexto explor⚓︎

Gerenciamento de dependências (Poetry)⚓︎

🏁 Conclusão e Próximos Passos⚓︎

Comentários