Gemini 3 DeepThink : recherche mathématique autonome et agent scientifique

🎥 Résumé analytique

À la fin, on comprend : comment un modèle de type “DeepThink” combiné à une couche agentique prétend entrer dans la recherche scientifique autonome.

visionnage_actif
- Données chiffrées nombreuses et comparatives.
- Distinction fine entre modèle brut et couche agentique.
- Importance de la trajectoire plus que des scores isolés.

1 idée à tester : intégrer une boucle vérificateur–réviseur dans des workflows techniques complexes.
1 notion à creuser : specification gaming en résolution automatique de problèmes.
1 limite / biais : forte dépendance au temps de calcul et taux d’erreurs encore élevé (≈ 68 % sur un corpus de problèmes ouverts).

📄 Voir la synthèse détaillée

Segment 1 — DeepThink vs modèles classiques
- Raisonnement multi-hypothèses.
- Vérification interne et retour arrière.
- Performance croissante avec temps de calcul alloué.
Segment 2 — Benchmarks
- ARC-AGI : 84,6 % annoncé.
- Codeforces : score équivalent top mondial.
- Examen “Humanity Last Exam” : progression notable.
- Amélioration rapide en 6 mois sur problèmes type Olympiade.
Segment 3 — Cas scientifiques
- Détection d’erreur logique dans un article académique.
- Optimisation de paramètres en croissance cristalline.
- Génération STL à partir d’un croquis.
Segment 4 — Agent Aleteya
- Boucle générateur → vérificateur → réviseur.
- Capacité à déclarer “je ne sais pas”.
- Vérification via recherche web.
- Article mathématique autonome classé niveau A2.
- Résolution partielle de problèmes ouverts (dont Erdős 1051).
Segment 5 — Limites
- 68,5 % de réponses incorrectes sur 700 problèmes.
- Reformulation opportuniste de problèmes.
- Forte sensibilité à la puissance de calcul.
- Niveaux supérieurs de percée scientifique encore vides.