Exécuter des LLM localement sans RTX 5090 : détour par les accélérateurs Tesla V100 SXM2

🎥 Résumé analytique

À la fin, on comprend : comment détourner du hardware data center pour faire tourner des LLM en local sans GPU grand public.

visionnage_actif
- Montage hardware complexe à comprendre sans visuel
- Nombreux points de friction techniques (BIOS, drivers)
- Démonstration empirique clé pour crédibilité

1 idée à tester : monter un cluster low-cost de V100 SXM2 pour entraînement RL local (AlphaWingman ?)
1 notion à creuser : compatibilité CUDA/runtime vs frameworks LLM (LM Studio vs Ollama)
1 limite / biais : approche bricolage non industrialisable sans redesign thermique et logiciel

📄 Voir la synthèse détaillée

Segment 1 — Contexte marché
- Explosion des prix GPU (RTX 5090 ~5000$)
- Inflation RAM liée à l’IA
- Risque d’exclusion des particuliers
Segment 2 — Concept technique
- Utilisation d’un Tesla V100 SXM2 (16 ou 32 GB HBM2)
- Adaptation via carte SXM2 → PCIe
- Conversion alimentation EPS → PCIe
- Perte des fonctionnalités NVLink (usage mono GPU)
Segment 3 — Intégration hardware
- Nettoyage + pâte thermique + pads multiples
- Ajustement mécanique (écarts, pressions)
- Refroidissement critique (radiateur cuivre + blower)
- Risque thermique élevé
Segment 4 — Première tentative (échec partiel)
- Workstation HP Z620 incompatible
- Absence AVX2 CPU → blocage LLM
- Problèmes de détection GPU
Segment 5 — Setup fonctionnel
- Migration vers HP Z8 G4 (CPU Skylake/Cascade Lake)
- Réglages BIOS critiques :
  - Above 4G decoding / MMIO
  - PCIe speed manuel
  - Secure boot désactivé
- Installation CUDA 11 (drivers récents incompatibles)
Segment 6 — Exécution LLM
- LM Studio fonctionne après ajustements runtime
- Modèles testés :
  - 4B (OK)
  - 20B (limite VRAM)
- Températures élevées (80-87°C)
- Consommation ~180W
Segment 7 — Limites logicielles
- Ollama échoue (erreur CUDA runtime)
- Dépendance forte au stack logiciel
- Nécessité d’ajustements manuels
Segment 8 — Extensions & risques
- Mention d’OpenClaw (agent IA full access)
- Risque sécurité élevé (rootkit potentiel)
- Importance du sandboxing