Trabalho 3 — Lakehouse Databricks com Arquitetura Medalhão

Bem-vindo à documentação do Trabalho 3 — Lakehouse com Databricks e arquitetura Medalhão.

Visão Geral da Arquitetura

Este projeto implementa um Data Lakehouse no Databricks Free Edition utilizando a arquitetura Medalhão, operando sobre um banco de dados de biblioteca (BibliotecaDb). O fluxo cobre extração da origem, staging em Landing, e as camadas Bronze, Silver e Gold.

Diagrama — Pipeline completo (Extração → Landing → Bronze → Silver → Gold)

flowchart LR
  subgraph extracao["Extração"]
    SRC[(BibliotecaDb<br/>origem relacional)]
  end
  subgraph landing["Landing"]
    VOL[Volume CSV<br/>staging]
  end
  subgraph bronze["Bronze"]
    BR[Delta Lake<br/>dados brutos + auditoria]
  end
  subgraph silver["Silver"]
    SV[Delta Lake<br/>Data Quality]
  end
  subgraph gold["Gold"]
    GD[Delta Lake<br/>Star Schema Kimball]
  end
  SRC --> VOL --> BR --> SV --> GD

Diagrama — Visão em camadas (detalhe)

flowchart TB
  subgraph fonte["Fonte"]
    FONTE[BibliotecaDb — 6 tabelas relacionais]
  end
  subgraph L["Landing"]
    L1[CSV por tabela no Volume]
  end
  subgraph B["Bronze"]
    B1[Delta — schema enforcement<br/>metadados _bronze_*]
  end
  subgraph S["Silver"]
    S1[Delta — DQ, nulos críticos<br/>padronização, deduplicação]
  end
  subgraph G["Gold"]
    G1[Delta — dimensões + fato<br/>surrogate keys]
  end
  FONTE --> L1 --> B1 --> S1 --> G1

Camadas da Arquitetura Medalhão

Camada	Descrição	Propósito	Formato
LANDING	Arquivos CSV do banco relacional	Staging temporário	CSV
BRONZE	Dados brutos com metadados de auditoria	Histórico completo	Delta Lake
SILVER	Dados limpos e padronizados	Fonte de verdade operacional	Delta Lake
GOLD	Modelo dimensional em estrela	Analytics e BI	Delta Lake

Base de Dados: BibliotecaDb

O projeto utiliza um banco de dados de biblioteca relacional com 6 tabelas:

categoria — categorias de livros (Romance, Ficção Científica, Técnico, etc.)
autor — autores dos livros
livro — acervo de livros (com FKs para categoria e autor)
membro — membros cadastrados na biblioteca
emprestimo — registros de empréstimos (com FKs para livro e membro)
multa — multas por atraso (com FK para emprestimo)

Tecnologias

Platform: Databricks Free Edition com Unity Catalog
Language: PySpark
Storage Format: Delta Lake
Compute: Clusters Databricks
Documentation: MkDocs Material

Automação: Jobs e Pipeline de dados

A orquestração do projeto utiliza Databricks Jobs (Workflows) como motor de execução: cada etapa do medalhão é uma task de notebook encadeada por dependências, formando um pipeline de dados reproduzível (agendamento ou execução sob demanda). O detalhamento conceitual e operacional está em Jobs & Pipelines.

Navegação

Use o menu para navegar pelas camadas e aprender sobre:

Landing & Bronze — Extração, ingestão e staging
Silver — Qualidade de dados e limpeza
Gold — Modelagem dimensional Kimball
Jobs & Pipelines — Orquestração e automação