🎥 Résumé analytique
🎯 Promesse cognitive
- À la fin, on comprend pourquoi le clustering IA local était lent, et pourquoi RDMA le rend enfin efficace.
🧩 Carte du contenu
- Échec initial du clustering : puissance OK, réseau KO
- Pipeline vs tensor parallelism
- RDMA sur Thunderbolt 5 : rupture de latence
- Tests réels sur modèles de 3B à 1T paramètres
- Clustering : quand et pourquoi ça a du sens
✅ Ce que la vidéo apporte en plus de la lecture
- Visualisation concrète des métriques (tokens/s, watts, mémoire)
- Démonstrations en conditions réelles (Open WebUI, IDE, CLI)
- Comparaisons avant/après RDMA
- Cas limites et instabilités bêta
🕒 Niveau d’engagement recommandé
- visionnage_actif
- Concepts réseau subtils (latence vs bande passante)
- Raisonnements séquentiels (parallélismes)
- Démonstrations chiffrées progressives
🧰 Pistes d’exploitation et points de vigilance
- 1 idée à tester : clusters locaux RDMA pour R&D IA déconnectée ou sensible.
- 1 notion à creuser : tensor parallelism vs pipeline selon la latence réelle.
- 1 limite / biais : solution dépendante d’un écosystème Apple + logiciels encore bêta.
🔍 Déroulé détaillé et analyse critique
📄 Voir la synthèse détaillée
Déroulé structuré
- Segment 1 — Retour sur l’échec initial
- Clustering plus lent que le mono-nœud
- Goulot d’étranglement : latence réseau
- Segment 2 — Deux modèles de parallélisme
- Pipeline parallelism : séquentiel, capacité sans vitesse
- Tensor parallelism : rapide mais ultra-sensible à la latence
- Segment 3 — Rupture RDMA
- Suppression du stack TCP/IP
- GPU ↔ GPU en accès mémoire direct
- Latence divisée par 100
- Segment 4 — Résultats mesurés
- x3 à x5 sur gros modèles
- Accélération même sur petits modèles
- Chargement simultané de plusieurs LLM géants
- Segment 5 — Usages concrets
- Coding, Web UI, API distantes
- Saturation atteinte = preuve de fonctionnement
Points notables
- 16 tokens/s sur Llama 3.3 70B FP16 en tensor + RDMA
- Modèles jusqu’à 1 trillion de paramètres exécutés localement
- Consommation maîtrisée (~100–150 W par nœud)
Limites & biais
- Matériel prêté, non accessible au grand public
- Logiciels en bêta, instabilités observées
- Absence d’outils de monitoring RDMA visibles