Projet de Master • 2025-2026

Prédiction des Propriétés Spectrales des Protéines Fluorescentes

Peut-on prédire la couleur d'émission d'une protéine fluorescente à partir de sa structure 3D prédite par AlphaFold2 ? Un pipeline ML innovant pour accélérer le design de nouveaux biosenseurs.

685+
Protéines FP
~200
Features
<15nm
MAE Cible
12
Mois
λ émission 508 nm Tonneau β (GFP)

La Problématique

Design Lent & Coûteux

Le développement d'une nouvelle FP optimisée prend 3-5 ans de mutagenèse dirigée et criblage expérimental intensif.

🎲

Approche Trial & Error

Les mutations sont choisies semi-rationnellement. Impossible de prédire l'effet d'une mutation sur le spectre d'émission.

🧬

AlphaFold2 : Game Changer

Depuis 2021, on peut prédire la structure 3D de n'importe quelle séquence avec une précision atomique. Peut-on exploiter cette info ?

Question de Recherche

Les descripteurs structuraux extraits d'une structure prédite par AlphaFold2 permettent-ils de prédire les propriétés spectrales (λex, λem, QY) d'une protéine fluorescente ?

Pipeline Machine Learning

De la Séquence à la Prédiction Spectrale

workflow complet en 4 étapes
1
Données
Collection & Curation
FPbase UniProt PDB
2
Structures
Prédiction 3D
AlphaFold2 ColabFold pLDDT
3
Features
Extraction & Engineering
BioPython RDKit DSSP
4
Modèles
Entraînement ML
XGBoost GNN SHAP

📊 Collecte Données

  • FPbase: ~685 FPs annotées
  • Spectres λex, λem, QY
  • Séquences FASTA
  • Filtrage qualité

🔮 Prédiction 3D

  • ColabFold batch
  • MSA via MMseqs2
  • 5 modèles/séquence
  • Sélection best pLDDT

⚙️ Feature Engineering

  • Géométrie chromophore
  • Contacts atomiques
  • Structure secondaire
  • ~200 descripteurs

🧠 Machine Learning

  • Train/Val/Test split
  • Cross-validation 5-fold
  • Hyperparameter tuning
  • Ensemble stacking
sequence.fasta AlphaFold2 structure.pdb extract_features() model.predict() λem = 512nm

Dataset FPbase

Protéines totales 685
Avec λem validé ~600
Features extraites ~200
Cible principale λem (nm)

🌈 Distribution Spectrale

Cyan/CFP
470-500
~90
Vert/GFP
500-530
~240
Jaune/YFP
530-560
~120
Orange
560-590
~70
Rouge/RFP
590-650+
~110

~200 Descripteurs

🔬
45

Géométrie Chromophore

Dihedral angles Planarity Bond lengths Cavity volume
🔗
60

Contacts Atomiques

H-bonds π-stacking Hydrophobic Distance matrix
📐
35

Structure Secondaire

DSSP β-barrel twist Loop flexibility pLDDT scores
30

Électrostatique

Local charges Dipole moment Solvent exposure pKa estimates
🧬
20

Séquence

AA composition Chromophore type Key mutations ESM embeddings
🌊
15

Dynamique

B-factors Normal modes Flexibility index MD proxies

Modèles Prédictifs

🌲

Random Forest

Baseline robuste

MAE attendu ~18-22 nm
R² attendu 0.75-0.82
Avantage Interprétable

XGBoost

Gradient boosting optimisé

MAE attendu ~15-18 nm
R² attendu 0.82-0.88
Avantage Performance
🕸️

Graph Neural Network

Structure-aware deep learning

MAE cible <15 nm
R² cible >0.88
Avantage End-to-end

🎯 Stratégie Ensemble

ŷ_final = α × RF + β × XGB + γ × GNN (weights optimized on validation)

Objectif final : MAE <15 nm • R² >0.85

Outils & Technologies

🐍 Python 3.11
🔮 AlphaFold2
🧬 BioPython
⚗️ RDKit
🔥 PyTorch
🕸️ PyG (GNN)
📊 XGBoost
🎯 Scikit-learn
📈 SHAP
🖥️ Streamlit
🐳 Docker
☁️ Google Colab

Timeline Master

Planning réaliste sur 12 mois (Master 2 recherche), incluant les phases de bibliographie, développement, expérimentation et rédaction académique.

Semestre 1

Fondations & Exploration

Septembre → Janvier (5 mois)
📚
Bibliographie
Sept - Oct (8 sem)
  • Revue littérature FPs & spectres
  • État de l'art ML pour protéines
  • AlphaFold2 : limites & forces
  • Rédaction intro mémoire
🗄️
Dataset & Structures
Oct - Nov (6 sem)
  • Scraping FPbase complet
  • Curation données spectrales
  • Batch AlphaFold2 (~700 FPs)
  • Validation structures (pLDDT)
⚙️
Feature Engineering
Nov - Jan (8 sem)
  • Pipeline extraction features
  • Descripteurs chromophore
  • Analyse exploratoire (EDA)
  • Feature selection initiale
📄 Revue bibliographique 🗃️ Dataset curé (600+ FPs) 📊 ~200 features extraites 📝 Rapport intermédiaire S1
Semestre 2

Modélisation & Finalisation

Février → Juin (5 mois)
🌲
Modèles Baseline
Fév - Mars (6 sem)
  • Random Forest baseline
  • XGBoost + hypertuning
  • Cross-validation 5-fold
  • SHAP feature importance
🕸️
Graph Neural Network
Mars - Avril (6 sem)
  • Architecture GNN design
  • Training sur GPU (Colab)
  • Ensemble learning
  • Ablation studies
📝
Rédaction & Soutenance
Mai - Juin (8 sem)
  • Validation FPs 2024 (holdout)
  • App Streamlit démo
  • Rédaction mémoire complet
  • Préparation soutenance
🎯 MAE <15nm validé 📊 SHAP analysis complète 🖥️ App Streamlit 📜 Mémoire de Master 🎓 Soutenance

Impact Potentiel

Accélérer le Design de FPs

Criblage in silico de milliers de variants avant validation expérimentale. Réduction du temps de développement de plusieurs années à quelques mois.

💰

Réduire les Coûts

Moins de cycles mutagenèse/criblage expérimental. Focus des ressources sur les variants les plus prometteurs identifiés par ML.

🧠

Comprendre la Relation Structure-Fonction

SHAP révèle quels features structuraux déterminent les propriétés optiques. Insights pour le design rationnel de nouvelles FPs.

🎯

Préparer le Doctorat NPH

Compétences directement transférables : optimisation de jGCaMP, analyse de structures, ML sur données biologiques.

🚀 Code Open Source

Pipeline complet, scripts reproductibles, modèles pré-entraînés et documentation détaillée

Voir sur GitHub