Skip to content

Trabalho 3 — Lakehouse Databricks com Arquitetura Medalhão

Bem-vindo à documentação do Trabalho 3 — Lakehouse com Databricks e arquitetura Medalhão.

Visão Geral da Arquitetura

Este projeto implementa um Data Lakehouse no Databricks Free Edition utilizando a arquitetura Medalhão, operando sobre um banco de dados de biblioteca (BibliotecaDb). O fluxo cobre extração da origem, staging em Landing, e as camadas Bronze, Silver e Gold.

Diagrama — Pipeline completo (Extração → Landing → Bronze → Silver → Gold)

flowchart LR
  subgraph extracao["Extração"]
    SRC[(BibliotecaDb<br/>origem relacional)]
  end
  subgraph landing["Landing"]
    VOL[Volume CSV<br/>staging]
  end
  subgraph bronze["Bronze"]
    BR[Delta Lake<br/>dados brutos + auditoria]
  end
  subgraph silver["Silver"]
    SV[Delta Lake<br/>Data Quality]
  end
  subgraph gold["Gold"]
    GD[Delta Lake<br/>Star Schema Kimball]
  end
  SRC --> VOL --> BR --> SV --> GD

Diagrama — Visão em camadas (detalhe)

flowchart TB
  subgraph fonte["Fonte"]
    FONTE[BibliotecaDb — 6 tabelas relacionais]
  end
  subgraph L["Landing"]
    L1[CSV por tabela no Volume]
  end
  subgraph B["Bronze"]
    B1[Delta — schema enforcement<br/>metadados _bronze_*]
  end
  subgraph S["Silver"]
    S1[Delta — DQ, nulos críticos<br/>padronização, deduplicação]
  end
  subgraph G["Gold"]
    G1[Delta — dimensões + fato<br/>surrogate keys]
  end
  FONTE --> L1 --> B1 --> S1 --> G1

Camadas da Arquitetura Medalhão

Camada Descrição Propósito Formato
LANDING Arquivos CSV do banco relacional Staging temporário CSV
BRONZE Dados brutos com metadados de auditoria Histórico completo Delta Lake
SILVER Dados limpos e padronizados Fonte de verdade operacional Delta Lake
GOLD Modelo dimensional em estrela Analytics e BI Delta Lake

Base de Dados: BibliotecaDb

O projeto utiliza um banco de dados de biblioteca relacional com 6 tabelas:

  • categoria — categorias de livros (Romance, Ficção Científica, Técnico, etc.)
  • autor — autores dos livros
  • livro — acervo de livros (com FKs para categoria e autor)
  • membro — membros cadastrados na biblioteca
  • emprestimo — registros de empréstimos (com FKs para livro e membro)
  • multa — multas por atraso (com FK para emprestimo)

Tecnologias

  • Platform: Databricks Free Edition com Unity Catalog
  • Language: PySpark
  • Storage Format: Delta Lake
  • Compute: Clusters Databricks
  • Documentation: MkDocs Material

Automação: Jobs e Pipeline de dados

A orquestração do projeto utiliza Databricks Jobs (Workflows) como motor de execução: cada etapa do medalhão é uma task de notebook encadeada por dependências, formando um pipeline de dados reproduzível (agendamento ou execução sob demanda). O detalhamento conceitual e operacional está em Jobs & Pipelines.

Use o menu para navegar pelas camadas e aprender sobre: