Claude Opus 4.8 d'Anthropic : nouveautés et benchmarks

Anthropic met en ligne Claude Opus 4.8 ce 28 mai, au même prix qu’Opus 4.7, avec un mode rapide trois fois moins cher et une honnêteté revue à la hausse. En toile de fond, Mythos, le modèle encore plus puissant déjà déployé en accès restreint, devrait arriver chez tous les clients « dans les semaines à venir » selon Anthropic, mais sans date précise.

La mise à jour tombe sans tambour : Anthropic déploie Claude Opus 4.8 dès aujourd’hui, partout, et à tarif inchangé par rapport à Opus 4.7. Anthropic décrit Opus 4.8 comme « un collaborateur plus efficace » que son modèle haut de gamme précédent, avec des progrès surtout côté agents autonomes et code. Le calendrier n’est pas anodin : la concurrence vient elle aussi de bouger.

Sur le banc d’essai Online-Mind2Web, qui mesure la capacité d’un modèle à piloter un navigateur de bout en bout, Opus 4.8 décroche 84 %, devant Opus 4.7 et GPT-5.5 selon les chiffres publiés par Anthropic. Il faudra attendre les benchmarks indépendants pour se faire un avis final.

Autre point mis en avant : l’honnêteté du modèle, c’est-à-dire sa propension à signaler ses doutes plutôt qu’à inventer. Selon Anthropic, Opus 4.8 laisse passer environ quatre fois moins de bugs non signalés dans le code qu’il produit, comparé à son prédécesseur. Côté agents, Anthropic met aussi en avant un gain en efficacité du tool calling (l’art d’appeler les bons outils au bon moment), avec moins d’étapes pour un résultat équivalent.

Face à Gemini 3.5 Flash et GPT-5.5

Le contexte compte. Google vient de pousser Gemini 3.5 Flash (en attendant l’arrivée de 3.5 Pro), modèle taillé pour la rapidité et le coût plutôt que la performance brute. OpenAI domine plusieurs benchmarks avec GPT-5.5, talonné par le Gemini 3.1 Pro de Google.

Mais Opus 4.8 ne joue pas dans la même catégorie tarifaire : Anthropic facture 5 dollars par million de tokens en entrée et 25 dollars en sortie, soit le tarif d’Opus 4.7, bien plus que les modèles d’OpenAI et de Google.

Et justement, la nouveauté côté prix, c’est le mode rapide (2,5x plus véloce) qui devient trois fois moins cher que sur les générations précédentes, à 10 dollars en entrée et 50 en sortie. Pour les utilisateurs grand public, l’autre vraie nouveauté est un curseur d’effort sur claude.ai et Claude Cowork : on choisit entre des réponses rapides ou plus poussées, sur tous les abonnements.

Pour les développeurs, Anthropic lance en parallèle les dynamic workflows dans Claude Code : le modèle peut désormais lancer des centaines de sous-agents en parallèle pour absorber des migrations de code à l’échelle d’un dépôt entier, en passant par la case validation des tests existants. La fonction est réservée aux plans Enterprise, Team et Max.

Lien YouTube S’abonner à Frandroid

Reste l’éléphant dans la pièce : Claude Mythos. Anthropic confirme que ce nouveau palier d’intelligence, supérieur à Opus, est déjà entre les mains d’un petit nombre d’organisations via le programme Project Glasswing, pour des travaux de cybersécurité.

La société dit travailler sur les garde-fous nécessaires, mais précise qu’elle ne prévoit pas pour l’instant de rendre Mythos Preview accessible au grand public : les premières protections issues de ce travail seront d’abord déployées dans un prochain modèle Opus. Opus 4.8 ressemble à cette étape de transition, avant un saut plus net quand ces garde-fous seront éprouvés.

Opus 4.8 est dès à présent disponible via l’API ou les abonnements mensuels, à partir du forfait Pro à 20 dollars par mois (17 dollars en facturation annuelle).

Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).