Este projeto consiste em um pipeline de dados desenvolvida em PySpark e Delta Lake, focado no processamento de estabelecimentos de saúde e estoques de medicamentos do SUS. A arquitetura segue o padrão Medallion Architecture, garantindo qualidade, histórico (SCD Tipo 2) e performance.
O pipeline é dividido em três camadas principais dentro do Databricks:
Bronze (Raw): Ingestão dos dados brutos em formato JSON vindos da DEMAS - API de Dados Abertos.
Silver (Trusted): * Casting de tipos e normalização de nomes.
-
Tratamento de duplicidade total.
-
Implementação de SCD Tipo 2 para rastreamento histórico de mudanças nos estabelecimentos.
Gold (Refined):
-
Modelagem dimensional em Galaxy Schema.
-
Criação de tabelas Fato (fact_estabelecimento, fact_estoque_medicamento).
-
Dimensões Conformadas (dim_localizacao, dim_calendario).
-
Linguagem: Python (PySpark).
-
Armazenamento: Delta Lake (Acid Compliance).
-
Orquestração: Apache Airflow.
-
Modelagem: Star Schema.
-
Ingestão: Airbyte.