You are currently viewing Anthropic : Opus 4.7 s’impose comme le modèle de référence pour le code
Dario Amodei ceo d'Anthropic. Photo : @TechCrunch

Anthropic : Opus 4.7 s’impose comme le modèle de référence pour le code

Anthropic poursuit son accélération dans la course à l’intelligence artificielle avec le lancement le 16 avril dernier de Claude Opus 4.7. Ce nouveau modèle, orienté vers les performances en code et en raisonnement complexe, affiche des progrès significatifs sur les benchmarks de référence. Entre gains techniques, ambitions agentiques et stratégie de déploiement maîtrisée, l’entreprise affine sa position face à ses rivaux.

À peine deux mois après la sortie de sa version précédente, Anthropic dévoile Claude Opus 4.7, présenté comme son modèle public le plus performant à ce jour. Une cadence de développement soutenue qui illustre la pression concurrentielle exercée notamment par OpenAI et Google, dans un secteur où chaque itération peut rebattre les cartes.

Conçu pour répondre aux besoins des professionnels, Opus 4.7 cible en priorité l’ingénierie logicielle, le raisonnement avancé et les tâches complexes de longue durée. Anthropic insiste également sur une amélioration notable de la fiabilité du modèle, notamment dans sa capacité à suivre des instructions précises et à vérifier ses propres réponses avant restitution, une évolution clé dans la quête de systèmes plus robustes.

Des performances en nette progression sur les benchmarks

Les résultats communiqués par l’entreprise témoignent d’un bond mesurable. Sur le benchmark SWE-bench Pro, qui évalue les capacités des modèles à résoudre des problèmes réels de programmation, Opus 4.7 atteint 64,3 %, contre 53,4 % pour la version 4.6. Ce score le place devant certains concurrents directs, dont GPT-5.4 (57,7 %) et Gemini 3.1 Pro (54,2 %).

Opus 4.7 ████████████████████ 64,3%
GPT-5.4 █████████████████ 57,7%
Gemini 3.1 Pro ████████████████ 54,2%
Opus 4.6 ███████████████ 53,4%

La progression se confirme sur d’autres tests de référence. Sur SWE-bench Verified, le modèle grimpe à 87,6 %, tandis qu’il atteint 94,2 % sur GPQA Diamond, un benchmark exigeant en raisonnement scientifique de niveau doctoral. Ces résultats confirment une orientation claire vers des performances de haut niveau sur des tâches techniques et analytiques.

GPQA Diamond ███████████████████████████ 94,2%
SWE Verified ███████████████████████ 87,6%
SWE-bench Pro █████████████████ 64,3%

Une IA pensée pour les usages agentiques

Au-delà des chiffres, Anthropic met en avant une évolution structurelle de son modèle. Opus 4.7 s’inscrit dans la montée en puissance des systèmes dits « agentiques », capables de gérer des tâches complexes de manière autonome, avec une supervision humaine limitée.

Le modèle peut ainsi traiter des projets multi-étapes sur une longue durée tout en maintenant une cohérence globale. Sa fenêtre de contexte, pouvant atteindre un million de tokens, lui permet d’analyser et de manipuler des volumes importants d’informations, qu’il s’agisse de code ou de documents volumineux.

En parallèle, les capacités multimodales progressent également. Opus 4.7 est désormais capable d’analyser des images haute résolution allant jusqu’à 2 576 pixels sur le bord long, soit une amélioration significative par rapport aux versions précédentes. Cette évolution ouvre des perspectives concrètes, notamment pour l’analyse de captures d’écran complexes ou l’exploitation de schémas techniques détaillés.

Une stratégie maîtrisée autour de modèles différenciés

Malgré ces avancées, Anthropic reconnaît que Claude Opus 4.7 n’est pas son système le plus puissant. En interne, l’entreprise développe un modèle plus avancé baptisé Mythos, actuellement réservé à un cercle restreint de partenaires dans le cadre du programme de cybersécurité Project Glasswing.

Ce choix de diffusion limitée s’inscrit dans une stratégie prudente visant à encadrer les risques associés aux modèles les plus puissants. Opus 4.7 joue ainsi un rôle intermédiaire : déployer des innovations à grande échelle tout en testant les mécanismes de contrôle avant une éventuelle ouverture de capacités supérieures.

Disponible dès à présent via l’API Claude, ainsi que sur des plateformes comme Amazon Bedrock, Vertex AI ou Microsoft Foundry, le modèle conserve une tarification inchangée par rapport à son prédécesseur, avec un coût de 5 dollars par million de tokens en entrée et 25 dollars en sortie.

Sources :
Journal du Net Anthropic

Laisser un commentaire