ETL - Reunião 006.1⚓︎
Bom, pela falta de um nome melhor, resolvi documentar estes encontros como "ETL". Iremos apresentar os processos de ETL da SPLOR, e também discutir suas possíveis melhorias1.
Gravação do encontro
Este post tenta fazer um grande resumo do que foi conversado, mas se preferir, pode acompanhar tudo na íntegra!
No encontro do dia 26/02/2026 a conversa foi com a equipe da Casa Civil (SCC), mais especificamente com nosso colega Gabriel Aguiar. A ideia era apresentar as ferramentas que estamos desenvolvendo (AID) para nosso novo processo de ETL.
Extract - Contexto explor⚓︎
Gerenciamento de dependências (Poetry)
# Iniciar um novo projeto com estrutura de pastas pronta
poetry new nome-do-projeto
# Iniciar o Poetry em uma pasta já existente
poetry init
# Instalar dependências (ex: bibliotecas para variáveis de ambiente e testes)
poetry add python-dotenv taskipy pytest
# Ativar o ambiente virtual criado pelo Poetry
# Necessário instalar o plugin https://github.com/python-poetry/poetry-plugin-shell
poetry shell
- Explicamos um pouco sobre como construímos nossos datapackages, dando como exemplo o repositório dados-armazem-siafi-2026.
- Em geral, repositórios iniciados com dados em nossa organização são datapackages.
resourcescom mais de um arquivo são utilizados em casos de arquivos muito grande. Aqui um exemplo nosso.- A propriedade customizada
targetnos nossos schemas serve para o processo de transformação, onde, basicamente, transformamos o nome dos campos. - Mostramos o pacote frictionless-py para validações do conjunto.
- Mostramos a utilização do pacote dpetl que está sendo construído para padronizar o processo de ETL com base na utilização de datapackages (atualmente apenas o comando
dpetl extractestá funcionando).
Outras Referências⚓︎
🏁 Conclusão e Próximos Passos⚓︎
Esta reunião foi fundamental para trocar experiências e tentar criar um processo de ETL em comum entre AID e SCC.
-
Também estamos discutindo estas melhorias/simplificações neste Issue. ↩