Trabalho 3 — Lakehouse Databricks com Arquitetura Medalhão
Bem-vindo à documentação do Trabalho 3 — Lakehouse com Databricks e arquitetura Medalhão.
Visão Geral da Arquitetura
Este projeto implementa um Data Lakehouse no Databricks Free Edition utilizando a arquitetura Medalhão, operando sobre um banco de dados de biblioteca (BibliotecaDb). O fluxo cobre extração da origem, staging em Landing, e as camadas Bronze, Silver e Gold.
Diagrama — Pipeline completo (Extração → Landing → Bronze → Silver → Gold)
flowchart LR
subgraph extracao["Extração"]
SRC[(BibliotecaDb<br/>origem relacional)]
end
subgraph landing["Landing"]
VOL[Volume CSV<br/>staging]
end
subgraph bronze["Bronze"]
BR[Delta Lake<br/>dados brutos + auditoria]
end
subgraph silver["Silver"]
SV[Delta Lake<br/>Data Quality]
end
subgraph gold["Gold"]
GD[Delta Lake<br/>Star Schema Kimball]
end
SRC --> VOL --> BR --> SV --> GD
Diagrama — Visão em camadas (detalhe)
flowchart TB
subgraph fonte["Fonte"]
FONTE[BibliotecaDb — 6 tabelas relacionais]
end
subgraph L["Landing"]
L1[CSV por tabela no Volume]
end
subgraph B["Bronze"]
B1[Delta — schema enforcement<br/>metadados _bronze_*]
end
subgraph S["Silver"]
S1[Delta — DQ, nulos críticos<br/>padronização, deduplicação]
end
subgraph G["Gold"]
G1[Delta — dimensões + fato<br/>surrogate keys]
end
FONTE --> L1 --> B1 --> S1 --> G1
Camadas da Arquitetura Medalhão
| Camada | Descrição | Propósito | Formato |
|---|---|---|---|
| LANDING | Arquivos CSV do banco relacional | Staging temporário | CSV |
| BRONZE | Dados brutos com metadados de auditoria | Histórico completo | Delta Lake |
| SILVER | Dados limpos e padronizados | Fonte de verdade operacional | Delta Lake |
| GOLD | Modelo dimensional em estrela | Analytics e BI | Delta Lake |
Base de Dados: BibliotecaDb
O projeto utiliza um banco de dados de biblioteca relacional com 6 tabelas:
- categoria — categorias de livros (Romance, Ficção Científica, Técnico, etc.)
- autor — autores dos livros
- livro — acervo de livros (com FKs para categoria e autor)
- membro — membros cadastrados na biblioteca
- emprestimo — registros de empréstimos (com FKs para livro e membro)
- multa — multas por atraso (com FK para emprestimo)
Tecnologias
- Platform: Databricks Free Edition com Unity Catalog
- Language: PySpark
- Storage Format: Delta Lake
- Compute: Clusters Databricks
- Documentation: MkDocs Material
Automação: Jobs e Pipeline de dados
A orquestração do projeto utiliza Databricks Jobs (Workflows) como motor de execução: cada etapa do medalhão é uma task de notebook encadeada por dependências, formando um pipeline de dados reproduzível (agendamento ou execução sob demanda). O detalhamento conceitual e operacional está em Jobs & Pipelines.
Navegação
Use o menu para navegar pelas camadas e aprender sobre:
- Landing & Bronze — Extração, ingestão e staging
- Silver — Qualidade de dados e limpeza
- Gold — Modelagem dimensional Kimball
- Jobs & Pipelines — Orquestração e automação