Ir para o conteúdo

ETL - Reunião 001⚓︎

Bom, pela falta de um nome melhor, resolvi documentar estes encontros como "ETL". Iremos apresentar os processos de ETL da SPLOR, e também discutir suas possíveis melhorias1.

Gravação do encontro

Este post tenta fazer um grande resumo do que foi conversado, mas se preferir, pode acompanhar tudo na íntegra!

No encontro do dia 10/01/2026 Vivi e eu falamos revisamos alguns conceitos gerais sobre ETL e já começamos a mostrar os casos concretos da SPLOR.

Esta apresentação foi criada para organizar nosso encontros. Neste dia percorremos os 14 primeiros slides da apresentação2.

mkslides

Foi utilizado a ferramenta Python mkslides para criação de nossa apresentação. Você pode conferir o código no repositório splor-mg/apresentacoes. Ela é baseada no template reveal.js. Se tiver alguma dúvida, só deixar um comentário abaixo.

Extract - Contexto explor⚓︎

Alguns comandos utilizados3.

# Verificar se o Docker está instalado e a versão
docker --version

# Comando orquestrado via Makefile para subir o container
make container

# Caso make container não funcione
docker run -it --rm --mount type=bind,source=$PWD,target=/project splormg/dados-armazem-siafi-2025 bash

# Comando para rodar a fase de extração (conforme definido no Makefile)
# Dentro do container ou após make extract
make extract

Gerenciamento de dependências (Poetry)⚓︎

# Iniciar um novo projeto com estrutura de pastas pronta
poetry new nome-do-projeto

# Iniciar o Poetry em uma pasta já existente
poetry init

# Instalar dependências (ex: bibliotecas para variáveis de ambiente e testes)
poetry add python-dotenv taskipy pytest

# Ativar o ambiente virtual criado pelo Poetry
# Necessário instalar o plugin https://github.com/python-poetry/poetry-plugin-shell
poetry shell

Para testar, alguns códigos criamos o repositório monitora-email. Ali, criamos um script para enviar e-mail automaticamente.

Se você chegou até aqui, porque não tentar tentar reproduzir este código!

🏁 Conclusão e Próximos Passos⚓︎

Esta reunião foi fundamental para compartilhar experiências na criação dos scripts de extração dos dados de e-mails. O foco agora é consolidar o aprendizado prático desta semana. Na próxima reunião, avançaremos no pipeline de dados, focando especificamente no processo de transformação.


  1. Também estamos discutindo estas melhorias/simplificações neste Issue

  2. Fomos até este slide

  3. Demanda gerada para entender melhor como autenticar o e-mail usando código atual em R. 

Comentários