Ce dépôt explore et compare diverses méthodes d'explicabilité pour CLIP (Contrastive Language-Image Pre-training), en se concentrant sur Grad-ECLIP pour rendre les prédictions de CLIP plus interprétables. Ma contribution porte sur l'analyse qualitative des méthodes d'explicabilité et l'implémentation du fine-tuning guidé par Grad-ECLIP.
- Introduction
- Méthodes Implémentées
- Résultats Qualitatifs
- Installation
- Utilisation
- Fine-Tuning
- Contribution
- Références
Ce projet reproduit et étend Grad-ECLIP (Zhao et al., 2024), une méthode gradient-based pour expliquer les prédictions de CLIP via :
- Cartes de salience visuelles (régions influentes dans l'image)
- Explications textuelles (mots clés dans le prompt)
Mon travail couvre :
- L'analyse comparative qualitative des méthodes d'explicabilité (Grad-ECLIP vs. Grad-CAM, Rollout, etc.)
- L'implémentation du fine-tuning utilisant les heatmaps de Grad-ECLIP pour améliorer l'alignement région-texte.
| Méthode | Type | Spécifique au texte? |
|---|---|---|
| Grad-ECLIP | Gradient-based | ✅ |
| Grad-CAM | Gradient-based | ✅ |
| Rollout | Attention-based | ❌ |
| MaskCLIP | Similarité cosine | ✅ |
| CLIP Surgery | Similarité modifiée | ✅ |
# Pseudocode de l'explication visuelle
heatmap = sum(
abs(∂(cosine_similarity)/∂A^(l)) ⊙ A^(l)
for l in layers
)