Data Pipeline: Ecossistema de Saúde SUS 🏥

Este projeto consiste em um pipeline de dados desenvolvida em PySpark e Delta Lake, focado no processamento de estabelecimentos de saúde e estoques de medicamentos do SUS. A arquitetura segue o padrão Medallion Architecture, garantindo qualidade, histórico (SCD Tipo 2) e performance.

🏗️ Arquitetura do Projeto

O pipeline é dividido em três camadas principais dentro do Databricks:

Bronze (Raw): Ingestão dos dados brutos em formato JSON vindos da DEMAS - API de Dados Abertos.

Silver (Trusted): * Casting de tipos e normalização de nomes.

Tratamento de duplicidade total.
Implementação de SCD Tipo 2 para rastreamento histórico de mudanças nos estabelecimentos.

Gold (Refined):

Modelagem dimensional em Galaxy Schema.
Criação de tabelas Fato (fact_estabelecimento, fact_estoque_medicamento).
Dimensões Conformadas (dim_localizacao, dim_calendario).

🛠️ Tecnologias Utilizadas

Linguagem: Python (PySpark).
Armazenamento: Delta Lake (Acid Compliance).
Orquestração: Apache Airflow.
Modelagem: Star Schema.
Ingestão: Airbyte.

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.astro		.astro
airbyte		airbyte
dags		dags
notebooks		notebooks
tests/dags		tests/dags
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
packages.txt		packages.txt
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Pipeline: Ecossistema de Saúde SUS 🏥

🏗️ Arquitetura do Projeto

🛠️ Tecnologias Utilizadas

About

Uh oh!

Releases

Packages

Languages

arthraw/saude_br

Folders and files

Latest commit

History

Repository files navigation

Data Pipeline: Ecossistema de Saúde SUS 🏥

🏗️ Arquitetura do Projeto

🛠️ Tecnologias Utilizadas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages