DeepSeek MHC : une architecture neuronale pour dépasser les limites des Transformers

🎥 Résumé analytique

À la fin, on comprend pourquoi l’architecture MHC pourrait dépasser les Transformers sans recourir au scaling massif.

visionnage_actif
- Concepts nouveaux et abstraits
- Raisonnement progressif
- Détails techniques imbriqués

1 idée à tester : architectures multi-voies spécialisées pour séparation connaissance / raisonnement.
1 notion à creuser : contraintes géométriques comme outil de régulation des réseaux profonds.
1 limite / biais : dépendance à une implémentation GPU très spécialisée.

📄 Voir la synthèse détaillée

Segment 1 — Le plafond des Transformers
- Scaling laws dominantes
- Coûts énergétiques et matériels
- Saturation du residual stream
Segment 2 — Hyperconnexions et instabilité
- Multiplication des voies d’information
- Amplification exponentielle du signal
- Stability gap mesuré expérimentalement
Segment 3 — La contrainte géométrique MHC
- Introduction du polytope de Birkhoff
- Double stochasticité lignes/colonnes
- Conservation de l’énergie informationnelle
Segment 4 — Ingénierie bas niveau
- Algorithme Sinkhorn-Knopp
- Kernel fusion via langage bas niveau
- Surcoût de calcul marginal (≈6,7 %)
Segment 5 — Performances observées
- Modèle 27B paramètres
- Gains significatifs sur GSM8K
- Séparation fonctionnelle des voies internes