EduLake BR

Lakehouse educacional sobre inequidade no ENEM — Databricks Free Edition + Power BI.

Visão

O EduLake BR é um projeto de engenharia de dados fim a fim cujo objetivo é tornar visível, com dados públicos e método reprodutível, a parcela da nota do ENEM explicada pelo contexto (escola, rede, município) e não pelo mérito individual.

O projeto é explicitamente descritivo e exploratório — não faz inferência causal. Os números expostos no Power BI mostram correlações e padrões agregados, e todos os dashboards exibem um selo "DESCRITIVO" e uma nota metodológica no tooltip "?". Limites de inferência estão documentados em docs/adr/006-limites-inferencia-causal-v1.md (Phase 4).

As fontes são 100% públicas: microdados do INEP (ENEM e Censo Escolar), Base dos Dados (IDEB) e IBGE/SIDRA (PIB municipal). Nenhuma API privada, nenhum dado pessoal identificável (LGPD respeitada por design — silver.enem.participante_anon não carrega NU_INSCRICAO nem NU_NOME).

A janela temporal cobre 4 anos de ENEM (2020-2023) cruzados com Censo Escolar 2023, IDEB 2023 e PIB municipal 2022. A escolha de manter 2020 (ano de suspensão) na série foi deliberada — ver ADR-004 para a flag cohort_pandemia que isola períodos comparáveis.

A infraestrutura roda inteiramente no Databricks Free Edition (custo zero), com catálogo único edulake e três schemas (Bronze, Silver, Gold) na arquitetura medallion. Não há cartão de crédito, não há trial de 14 dias, não há pegadinha — só o tier gratuito e suas restrições, documentadas em ADR-002.

Arquitetura

  Fontes públicas (INEP, IBGE, Base dos Dados)
        │
        ▼
  ┌──────────────────────────────────────┐
  │  Bronze  (raw, COPY INTO, Delta)     │  ← data/raw/ + abfss
  ├──────────────────────────────────────┤
  │  Silver  (limpo, DLT, anonimizado)  │  ← participante_anon
  ├──────────────────────────────────────┤
  │  Gold    (star schema, SCD2)         │  ← fato + dim
  └──────────────────────────────────────┘
        │
        ▼
  Power BI Desktop (DirectQuery, 4 dashboards)

Bronze — dados crus ingeridos via COPY INTO (ver ADR-001). Sem transformações, sem schema evolution automático. 4 fontes materializadas.
Silver — camada limpa com Delta Live Tables (DLT Classic) e expectations. Tabela-mãe é silver.enem.participante_anon (~8 GB para 4 anos comprimidos em Delta), anonimizada e com covariáveis socioeconômicas preservadas.
Gold — modelo dimensional em star schema com SCD Type 2 em gold.dim.escola (surrogate key sk_escola, effective_from/to, is_current). Fato principal: gold.fato.nota_escola (escola × ano × área × métricas).
Power BI Desktop — 4 dashboards (mapa coroplético, scatter escola, small multiples por UF, gap bruto público-privado) conectados via DirectQuery ao SQL Warehouse do Free Edition.

A escolha de manter o participante anonimizado em Silver (e não agregar tudo direto em Gold) está justificada em ADR-003.

Quickstart

Clone o repo:

git clone https://github.com/DRoqueProgrammer/edulake-br.git
cd edulake-br

Provisione o Databricks Free Edition seguindo databricks/setup/README.md e docs/setup/databricks-secrets.md. O Free Edition é gratuito e dispensa cartão de crédito — basta login em https://community.cloud.databricks.com.
Instale o CLI Databricks e autentique:
```
pip install databricks-cli
databricks configure --token
```
Cole o host (https://community.cloud.databricks.com) e o PAT gerado no passo 2.
Aplique o setup SQL (criar catalog edulake + 3 schemas bronze/silver/gold): abra o SQL Editor no Databricks, cole o conteúdo de databricks/setup/01_catalog_and_schemas.sql e clique Run. Valide com SHOW SCHEMAS IN edulake;.
Rode o pipeline: após a Phase 4 estar concluída, o job full Bronze→Silver→Gold é disparado com:
```
databricks jobs run-now --job-id <id>
```
Em Phase 1 (esta fase) o pipeline ainda não existe — este passo só passa a funcionar a partir da Phase 4.

Fontes

INEP Microdados ENEM — https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem · 2020-2023
INEP Censo Escolar — https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar · 2023
INEP IDEB via Base dos Dados — https://basedosdados.org/dataset/br-inep-ideb · 2023
IBGE PIB municipal — https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9088-produto-interno-bruto-dos-municipios.html · 2022

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
.github		.github
.planning		.planning
data		data
databricks		databricks
docs		docs
powerbi		powerbi
scripts		scripts
.env.example		.env.example
.gitignore		.gitignore
.sqlfluff		.sqlfluff
LICENSE		LICENSE
PROJECT.md		PROJECT.md
README.md		README.md
REQUIREMENTS.md		REQUIREMENTS.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

EduLake BR

Visão

Arquitetura

Quickstart

Fontes

Licença

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

EduLake BR

Visão

Arquitetura

Quickstart

Fontes

Licença

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages