Skip to content

DRoqueProgrammer/edulake-br

Repository files navigation

EduLake BR License: MIT

Lakehouse educacional sobre inequidade no ENEM — Databricks Free Edition + Power BI.

Visão

O EduLake BR é um projeto de engenharia de dados fim a fim cujo objetivo é tornar visível, com dados públicos e método reprodutível, a parcela da nota do ENEM explicada pelo contexto (escola, rede, município) e não pelo mérito individual.

O projeto é explicitamente descritivo e exploratórionão faz inferência causal. Os números expostos no Power BI mostram correlações e padrões agregados, e todos os dashboards exibem um selo "DESCRITIVO" e uma nota metodológica no tooltip "?". Limites de inferência estão documentados em docs/adr/006-limites-inferencia-causal-v1.md (Phase 4).

As fontes são 100% públicas: microdados do INEP (ENEM e Censo Escolar), Base dos Dados (IDEB) e IBGE/SIDRA (PIB municipal). Nenhuma API privada, nenhum dado pessoal identificável (LGPD respeitada por design — silver.enem.participante_anon não carrega NU_INSCRICAO nem NU_NOME).

A janela temporal cobre 4 anos de ENEM (2020-2023) cruzados com Censo Escolar 2023, IDEB 2023 e PIB municipal 2022. A escolha de manter 2020 (ano de suspensão) na série foi deliberada — ver ADR-004 para a flag cohort_pandemia que isola períodos comparáveis.

A infraestrutura roda inteiramente no Databricks Free Edition (custo zero), com catálogo único edulake e três schemas (Bronze, Silver, Gold) na arquitetura medallion. Não há cartão de crédito, não há trial de 14 dias, não há pegadinha — só o tier gratuito e suas restrições, documentadas em ADR-002.

Arquitetura

  Fontes públicas (INEP, IBGE, Base dos Dados)
        │
        ▼
  ┌──────────────────────────────────────┐
  │  Bronze  (raw, COPY INTO, Delta)     │  ← data/raw/ + abfss
  ├──────────────────────────────────────┤
  │  Silver  (limpo, DLT, anonimizado)  │  ← participante_anon
  ├──────────────────────────────────────┤
  │  Gold    (star schema, SCD2)         │  ← fato + dim
  └──────────────────────────────────────┘
        │
        ▼
  Power BI Desktop (DirectQuery, 4 dashboards)
  • Bronze — dados crus ingeridos via COPY INTO (ver ADR-001). Sem transformações, sem schema evolution automático. 4 fontes materializadas.
  • Silver — camada limpa com Delta Live Tables (DLT Classic) e expectations. Tabela-mãe é silver.enem.participante_anon (~8 GB para 4 anos comprimidos em Delta), anonimizada e com covariáveis socioeconômicas preservadas.
  • Gold — modelo dimensional em star schema com SCD Type 2 em gold.dim.escola (surrogate key sk_escola, effective_from/to, is_current). Fato principal: gold.fato.nota_escola (escola × ano × área × métricas).
  • Power BI Desktop — 4 dashboards (mapa coroplético, scatter escola, small multiples por UF, gap bruto público-privado) conectados via DirectQuery ao SQL Warehouse do Free Edition.

A escolha de manter o participante anonimizado em Silver (e não agregar tudo direto em Gold) está justificada em ADR-003.

Quickstart

  1. Clone o repo:

    git clone https://github.com/DRoqueProgrammer/edulake-br.git
    cd edulake-br
  2. Provisione o Databricks Free Edition seguindo databricks/setup/README.md e docs/setup/databricks-secrets.md. O Free Edition é gratuito e dispensa cartão de crédito — basta login em https://community.cloud.databricks.com.

  3. Instale o CLI Databricks e autentique:

    pip install databricks-cli
    databricks configure --token

    Cole o host (https://community.cloud.databricks.com) e o PAT gerado no passo 2.

  4. Aplique o setup SQL (criar catalog edulake + 3 schemas bronze/silver/gold): abra o SQL Editor no Databricks, cole o conteúdo de databricks/setup/01_catalog_and_schemas.sql e clique Run. Valide com SHOW SCHEMAS IN edulake;.

  5. Rode o pipeline: após a Phase 4 estar concluída, o job full Bronze→Silver→Gold é disparado com:

    databricks jobs run-now --job-id <id>

    Em Phase 1 (esta fase) o pipeline ainda não existe — este passo só passa a funcionar a partir da Phase 4.

Fontes

Licença

MIT — veja LICENSE. © 2026 Davi Roque.

About

Lakehouse end-to-end de dados públicos educacionais brasileiros (INEP/MEC) com Databricks + Power BI — pipeline medallion para análise de inequidade regional no ENEM.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages