Sou Gerente de Engenharia de Dados na Educbank (fintech) e uso Databricks como feature platform para unificar pipelines, modelagem com Delta Lake e workflows de ML. No dia a dia:
- desenho e otimizo pipelines batch/streaming (custo, performance e confiabilidade);
- garanto governança & compliance (LGPD/GDPR), versionamento e qualidade;
- lidero times, revisão de código e definição de padrões (PEP-8, clean code, testes).
✨ Lakehouse governado: uso Unity Catalog + Delta Lake para segurança, lineage, tags de PII e trilha de auditoria.
🚀 Pipelines resilientes: batch/streaming com Auto Loader, Z-Ordering, particionamento, custos otimizados e SLOs claros.
🤝 Liderança técnica: definindo padrões, mentorando squads e garantindo revisões que equilibram velocidade e qualidade.
🔒 Compliance: políticas de acesso, masking (row/column) e segregação multi-ambiente (dev/stg/prod).
Databricks (Repos, Workflows, Auto Loader, MLflow) • Apache Spark (PySpark) • Delta Lake (time travel, Z-Ordering) • Orquestração (Airflow, DBT, Databricks Workflows) • AWS (S3, EC2, IAM) • Azure (ADLS Gen2, Event HubsKafka API, Key Vault, Synapse/SQL, Managed Identity) • Python/SQL • Kafka • Terraform • PostgreSQL • MongoDB • GitHub Actions
Trabalho com governança ponta a ponta no Lakehouse, alinhando segurança, catalogação, compartilhamento e auditoria:
- Unity Catalog (UC)
- Catálogo centralizado e RBAC por catálogo/schema/tabela/view/função/volume.
- Lineage fim a fim, tags e classificação para PII/PHI (LGPD/GDPR).
- Segurança granular: row-level e column-level via dynamic views (masking/filters por grupo).
- External Locations + Storage Credentials para acesso controlado a S3.
- Observabilidade: System Tables (acessos, consultas, compute, billing) para auditoria/custos.
- Delta Lake
- Schema enforcement & evolution, constraints, OPTIMIZE com Z-Order, Time Travel para auditoria/rollback.
- Delta Sharing
- Compartilhamento seguro e auditável de tabelas/visualizações com parceiros (UC↔UC ou open recipient).
- Controles de plataforma
- Cluster/SQL Warehouse Policies, Secrets (AWS Secrets Manager/Key Vault), SCIM/SSO, IP access lists.
- Multi-ambiente
- Catálogos por ambiente:
edbk_dev,edbk_stg,edbk_prod(isolamento, acesso por grupos, promotion controlado).
- Catálogos por ambiente:
-- catálogos de ambiente
CREATE CATALOG IF NOT EXISTS edbk_dev COMMENT 'Dev catalog';
CREATE CATALOG IF NOT EXISTS edbk_stg COMMENT 'Staging catalog';
CREATE CATALOG IF NOT EXISTS edbk_prod COMMENT 'Production catalog';
-- esquemas de domínio
CREATE SCHEMA IF NOT EXISTS edbk_prod.finance;
CREATE SCHEMA IF NOT EXISTS edbk_prod.risk;
-- grants mínimos
GRANT USE CATALOG ON CATALOG edbk_prod TO `grp_data_readers`;
GRANT USE SCHEMA ON SCHEMA edbk_prod.finance TO `grp_fin_readers`;
GRANT SELECT ON ALL TABLES IN SCHEMA edbk_prod.finance TO `grp_fin_readers`;- Pipelines em Databricks: notebooks e jobs para ingestão (batch/streaming), Delta Lake e MLflow.
- Orquestração: DAGs do Airflow e Workflows no Databricks para ELT e features de ML.
- Boas práticas: testes, tratamento de schema, particionamento, Z-Ordering, otimização de custos em S3/compute.
- Saul Goodman — Extensão anti-procrastinação: Procrastinação invisível → extensão Manifest V3 em TypeScript com índice (badge/popup), alertas/Chart.js e modo terremoto → foco recuperado sem enviar dados para fora do navegador. Links: Repositório • Chrome Web Store • Site oficial.
- Arquitetura Lakehouse (Delta Lake, Unity Catalog, governança).
- Pipelines PySpark performáticos e seguros.
- Feature engineering para ML em produção.
- Observabilidade, custo e reliability (SLAs/SLOs).



