LTX2 : génération vidéo open source avec image, audio et contrôle, dès 8 Go de VRAM

🎥 Résumé analytique

À la fin, on comprend comment exploiter LTX2 pour générer et améliorer des vidéos avec audio en local ou sur GPU loué.

reference
- Vidéo dense et démonstrative
- Utile comme base technique réutilisable
- Sert de guide d’implémentation

1 idée à tester : pipeline image → vidéo basse résolution → upscaling final HD.
1 notion à creuser : synchronisation audio/vidéo longue avec sources courtes.
1 limite / biais : text-to-video moins contrôlable que image/audio-driven.

📄 Voir la synthèse détaillée

Segment 1 — Présentation de LTX2
- Modèle open source récent
- Vidéo jusqu’à 20 s, 4K, 50 fps
- Génération audio intégrée
- Fonctionne dès 8 Go de VRAM
Segment 2 — Installation locale
- ComfyUI requis
- Modèles quantifiés (Q4 à Q8)
- Légères différences de qualité
- Mise à jour des nodes recommandée
Segment 3 — Text-to-video & audio-driven
- Génération simple mais peu contrôlable
- Lip-sync audio jugé très convaincant
- Peu de réglages nécessaires
Segment 4 — Image-to-video
- Meilleur contrôle créatif
- Qualité et mouvement supérieurs
- Compatibilité audio custom
Segment 5 — ControlNet (pose / depth)
- Réutilisation du mouvement d’une vidéo
- Stylisation via image source
- OpenPose plus fiable que Canny
Segment 6 — Video enhancer / upscaler
- Amélioration drastique de vidéos 480p
- Gain net en netteté et détails
- Workflow jugé sous-estimé mais clé
Segment 7 — Exécution sur RunPod
- GPU ≥ 24 Go recommandé
- Template ComfyUI
- Correctif simple pour erreurs mémoire