Claude Code réfléchissait trop, puis plus assez : Anthropic corrige…

D'après les informations rapportées par Next INpact : claude Code réfléchissait trop, puis plus assez : Anthropic corrige le coup de mou.

Réflexion profon… 😴
Le coup de mou qui a affecté Claude Code ces dernières semaines n’était pas une vue de l’esprit. Anthropic a constaté l’existence de problèmes, et les a corrigés.

Claude Code a connu des soucis de fonctionnement entre la fin du mois de mars et mi-avril. Des utilisateurs se sont plaints d’une dégradation du service. Suite à des témoignages, Anthropic a mené l’enquête, et a déterminé trois problèmes qui ont pu être résolus le 20 avril avec la version v2.1.116.

Claude Code en baisse de régime

Dans son post-mortem, l’entreprise assure ne pas « dégrader intentionnellement » ses modèles et confirme que Claude Agent SDK et Claude Cowork sont également touchés, mais pas l’API ni la couche d’inférence.

Le premier souci remonte au 4 mars, un mois après le lancement d’Opus 4.6 : le niveau de raisonnement par défaut est passé de « high » – la valeur lors de son lancement début février – à « medium » pour « accélérer » les réponses, suite à des retours d’utilisateurs.

Avant ce changement, le modèle prenait plus de temps pour réfléchir et consommait aussi plus de tokens. Mais, en retour, il générait des réponses plus solides. Le hic, c’est que dans certains cas, la latence apparaissait très longue, donnant l’impression que l’interface était figée, que les réponses arrivaient tardivement (et pour cause), et que la consommation de tokens explosait.

La modification d’Anthropic avec le niveau de raisonnement « medium » a bien eu l’effet escompté : moins de tokens consommés, plus de rapidité et de stabilité… mais des réponses moins recherchées. Face aux retours négatifs, Anthropic a fait machine arrière le 7 avril en basculant les modèles sur « high effort » et Opus 4.7 sur « xhigh effort », un nouveau palier mis en place pour le nouveau modèle.

Claude Opus 4.7 : le nouveau modèle d’Anthropic se veut plus performant et plus gourmand

Deuxième problème, qui est cette fois un bug : le 26 mars, l’entreprise active la mise en cache des requêtes (prompt caching), et après une période d’inactivité dépassant l’heure, supprime une partie de l’historique. L’idée était de réduire le nombre de tokens envoyés, d’accélérer la reprise d’une session et au bout du compte de diminuer les coûts.

L’implémentation a cependant débouché sur la suppression de chaque nouveau message après le seuil d’inactivité, au lieu de supprimer l’ancien raisonnement une seule fois. Claude Code ne conservait donc qu’un fragment très récent de contexte. Côté utilisateur, les conséquences ne se faisaient pas attendre : oubli du contexte fâcheux, répétitions, choix d’outils incohérents… Le modèle agissait, mais sans se souvenir pourquoi !

Autre écueil : en supprimant ainsi le contexte à chaque prompt, les requêtes ne retrouvent plus les données et doivent être recalculées entièrement, comme si le système repartait de zéro à chaque fois. Résultat : davantage de tokens consommés et l’impression que les quotas fondent comme neige au soleil. Le diagnostic a pu être difficile à établir, il a fallu plus d’une semaine pour le débusquer ; il a finalement été corrigé le 10 avril. Pour l’anecdote, Opus 4.7 a détecté le bug suite à son analyse, alors qu’Opus 4.6 n’a rien trouvé.

Pour finir, le passage à Opus 4.7 avait tendance à produire des réponses longues et donc à engloutir les tokens. Anthropic a limité les réponses à 100 mots maximum et restreint les échanges entre appels d’outils à 25 mots. Mais en réduisant le verbiage, Claude Code a aussi réduit sa capacité à penser en profondeur. Introduite le 16 avril, la consigne a pu être retirée quatre jours plus tard.

Pour éviter que de tels problèmes se reproduisent, Anthropic s’engage à utiliser plus régulièrement la version publique de Claude Code, et moins des versions de test. Des analyses détaillées seront produites pour comprendre l’impact des changements, des outils pour réaliser des audits et suivre les modifications ont pu être développés, et des tests seront effectués pour chaque modification du système de prompts. Et histoire de se faire pardonner, les quotas d’usage ont pu être réinitialisés pour tous les abonnés.

L’entreprise a également créé un compte X dédié @ClaudeDevs « afin de pouvoir expliquer en détail nos décisions produit et leurs justifications. Nous partagerons également ces informations dans des fils de discussion GitHub ». Pour finir, dans le billet du 23 avril, Anthropic annonce avoir « réinitialisé les limites d’utilisation pour tous les abonnés ».

Source : Next INpact

Cet article est une synthèse basée sur des informations publiques. Consultez la source originale pour l'article complet.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Défilement vers le haut