Ost 408 feat global & perso recommendations #18

spideystreet · 2026-01-28T14:31:08Z

Feature : Embeddings, Classification & Recommandation

Grosse PR qui met en place : calcul d'embeddings vectoriels, classification automatique par SLM et moteur de recommandation (User <-> Project).

Docker & DevOps

Startup (scripts/init.sh) : Nouvel entrypoint qui gère l'install des deps dbt et lance dbt build au démarrage. Fini les crashs relation does not exist !
Networking : Fix de la com inter-conteneurs

Go Services (Refactor)

Architecture : Split propre entre fetcher (récupération brute) et scraper (logique métier)
Concurrence : Optimisation des routines de fetch (Readme, Languages, Topics) pour tenir la charge
Cleanup : Suppression du code mort et unification des structures de données via common.go

Data Engineering & ML (Dagster)

Stratégie : Filtrage renforcé sur la qualité (good-first-issues > 5, activité < 24h, stars 500..1K) pour garantir des projets vivants et qualité
Classification Hybride :
- FastText : Détection de langue (core_github__detect_languages)
- LLM (Qwen2.5) : Classification sémantique (Domaine/Catégorie) via LLMClassifierResource
Embeddings : Vectorisation (384d) des projets et des profils utilisateurs via SentenceTransformer
Orchestration : Job run_all_job planifié toutes les 6h pour commencer

Transformation (dbt & SQL)

Data Quality : Macros de nettoyage (clean_text, jsonb_to_list) pour préparer le terrain au ML
Contexte LLM : Les macros build_project_context build_user_context pour maximiser la pertinence des embeddings
Matching Tables:
- public.match_global_recommendation : Reco globale, Top 5 (Trending/Récents)
- public.match_user_recommendation : Recos persos (Cosine Similarity sur pgvector)

DB (Prisma & Postgres)

Structure : Alignement strict Multi-Schemas (public, github, match, ml)
Vector Search : Activation de l'extension vector et support Prisma via Unsupported("vector(384)")
Seeding : Fix des imports ESM/CJS pour que npm run seed fonctionne enfin en local sans pleurer

Important

@Olyxz :

Vérifier que l'extension pgvector est bien activée sur staging
S'assurer que les workers ont assez de RAM pour charger le modèle Qwen ( sinon los problemos )
Vérifie qu'on a bien des users avec catégories & domaines dans la db pour tester
Lance un run_all_job pour voir si tout passe ok

- Fix incorrect upstream dependency (was pvt_public_project) - Update column accessors (project_id, rich_context_string) - Refactor SQL query to constant

- Update Dagster job descriptions to focus on orchestration flow - Clarify classification asset docstrings - Enhance DBT ML model descriptions (stg/pvt) to explain business logic over implementation details

…edding

- Add multi-stage Dockerfile (Go builder + Python Runtime) - Add docker-compose.yml with pgvector support - Add .dockerignore

…for cpu usage in docker

…o fetch datas

spideystreet added 30 commits November 15, 2025 15:13

docs: up env examples

7469947

fix: using right env for postgres

ecd5662

fix: ost-linker new name

84427c6

fix: system dependancies

cc3fd7a

fix: del custom source for pytorch

c509dee

refactor: del mapping categories assets before refacto

53b3a95

refactor: del repo meta nomalization

869a8e9

fix: logs cleanup job activated by default

eded63b

build: using pgvector image for future embeddings

cd8ed12

feat: structure for futur embedding jobs

69c0d34

docs: add prisma conf

8b2d92d

feat: up seed for categories

f5cc565

feat: makefile for setup

471c5b2

feat(db): add embedding tables on migration & relations on schema

eb93fdb

feat: add embedding model as dagster resource, for cpu usage

c2981d0

refactor: del gitlab sources for now

1022233

feat: add embedding model as ConfigurableResource (dagster)

6db08f4

refactor: split assets in python modules

f7b7185

refactor: modularisation of assets, del assets checks (outdated)

e8c116c

docs: github api rate limit

04197f1

refactor: del gitlab conf (outdated)

0402220

docs: up conf with Linker

c40afc1

docs: del gitlab

bc7a2b6

feat: add Makefile for easy setup

ea92bba

refactor: del gitlab references

ce8d85c

refactor: moving raw_github__to_df on raw/

44b9be0

refactor: using in process executor to avoid SIGBUS errors with python

ef2e338

fix: improving golang binary with vaiables & logs

dd7cacf

refactor: modularisation of assets

cf86dfa

build: shm size to avoid sigbus error

5c64f98

spideystreet added 26 commits January 22, 2026 12:29

docs(dbt): reco precision

057690c

fix(pipeline): wire embedding asset to int_project_embedding_candidate

e956d44

- Fix incorrect upstream dependency (was pvt_public_project) - Update column accessors (project_id, rich_context_string) - Refactor SQL query to constant

docs: improve dbt model and dagster asset descriptions

8655385

- Update Dagster job descriptions to focus on orchestration flow - Clarify classification asset docstrings - Enhance DBT ML model descriptions (stg/pvt) to explain business logic over implementation details

chore(dbt): remove stale config for non-existent model int_github_emb…

d2f0d9b

…edding

config: update excluded terms list for scraper

170211c

chore(infra): dockerize application

a0d5fae

- Add multi-stage Dockerfile (Go builder + Python Runtime) - Add docker-compose.yml with pgvector support - Add .dockerignore

config: 10 ops max for github query

4b85c5e

chore: add logs for classified projects evolution

58b8ee1

config: up to date config with needed vars & parameters

5b25f33

config: up lineage with llm classifier as resource + good parameters …

dd78aa0

…for cpu usage in docker

feat: optimised query parameters to find acurate projects

db6102a

config: group name ml

e1df582

build: up dockerignore

3b69861

fix: seed import syntax

7de373c

docs: up env example

0ab4690

docs: add embedding & raw tables not managed by dbt, used by linker t…

3ed6b16

…o fetch datas

fix: correct lineage of groups, to ensure they launch together

b37c14e

build: correct env var usage

b279790

docs: up README to date

5249257

feat(prisma): allign with backend & add extensions for linker

210e0ec

build: entrypoint script to dbt build & deps

bf71e03

chore: up gitignore

7bfdf01

chore(docker): configure entrypoint script and dependencies

e08e0d2

fix: pg client no need

a005caf

chore: entrypoint pg is ready step outdated

332d490

feat(schedule): add run_all_schedule 5x daily (Europe/Paris)

381b5f6

spideystreet requested a review from Olyxz16 January 28, 2026 14:31

spideystreet self-assigned this Jan 28, 2026

spideystreet added the enhancement New feature or request label Jan 28, 2026

feat: migrate LLM classifier to OpenRouter and tune dbt matching logic

25f5f34

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ost 408 feat global & perso recommendations #18

Ost 408 feat global & perso recommendations #18

Uh oh!

spideystreet commented Jan 28, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Ost 408 feat global & perso recommendations #18

Are you sure you want to change the base?

Ost 408 feat global & perso recommendations #18

Uh oh!

Conversation

spideystreet commented Jan 28, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Feature : Embeddings, Classification & Recommandation

Docker & DevOps

Go Services (Refactor)

Data Engineering & ML (Dagster)

Transformation (dbt & SQL)

DB (Prisma & Postgres)

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

spideystreet commented Jan 28, 2026 •

edited

Loading