Zarev - Newsletter IA Hebdo

27 AVRIL 2026 · 6 MIN DE LECTURE

GPT-5.5 sort officiellement cette semaine, et c'est une bombe mitigée : premier sur l'Artificial Analysis Intelligence Index avec 72,8% sur CursorBench, mais 86% d'hallucinations sur ses mauvaises réponses et un tarif API doublé. En parallèle, Anthropic confirme discrètement qu'Opus 4.7 te coûte 46% de plus qu'Opus 4.6 à tarif identique : et jusqu'à 3x plus sur les images. Cinq actus à ne pas rater cette semaine : deux cassent des certitudes sur la course aux modèles, une remodèle l'écosystème Python, une autre te touche si tu utilises DeepSeek à grande échelle, et la dernière pose une question que tu vas te reposer souvent dans les 12 prochains mois.

— Sébastien

EN BREF

01 OpenAI lance GPT-5.5 - premier sur 10 benchmarks composites, 86% d'hallucinations sur ses erreurs, tarif doublé à $5/$30/M tokens.

02 Opus 4.7 consomme 1,46x plus de tokens que 4.6 pour le texte et jusqu'à 3x plus pour les images, au même prix par token.

03 DeepSeek V4 Pro sort avec 1,66 trillion de paramètres totaux, 49B actifs, 1M tokens de contexte et un tarif bien inférieur à GPT-5.5.

04 OpenAI acquiert Astral (Ruff + uv) - les deux outils Python restent open source, l'équipe rejoint OpenAI.

05 Chollet (Keras) alerte : les LLMs suppriment la friction cognitive qui régulait naturellement la complexité des codebases.

Dans ce numéro

01 GPT-5.5 : SOTA, mais 86% d'hallucinations

02 Opus 4.7 : +46% tokens, même tarif : hausse cachée

03 DeepSeek V4 Pro : 1,66T params, open-weight, prix cassé

04 OpenAI rachète Astral, Ruff et uv restent open source

05 Chollet : les LLMs cassent le frein à la complexité

01GPT-5.5 : SOTA, mais 86% d'hallucinations

OpenAI lance GPT-5.5 - premier sur 10 benchmarks composites, 86% d'hallucinations sur ses erreurs, tarif doublé à $5/$30/M tokens.

GPT-5.5 atteint 72,8% sur CursorBench et prend la tête de l'Artificial Analysis Intelligence Index, qui agrège 10 benchmarks distincts. C'est une vraie performance. Le problème, c'est ce qui se passe quand il se trompe : un taux d'hallucination de 86% sur ses mauvaises réponses, contre 36% pour Claude Opus 4.7. Autrement dit, quand GPT-5.5 rate, il rate avec aplomb. Côté tarif, OpenAI a doublé les prix : $5/$30 par million de tokens en entrée/sortie, contre $2,50/$15 pour GPT-5.4. Le modèle montre des performances élevées sur le frontend coding et l'image-to-code : des réplications quasi-parfaites de designs à partir d'une seule image ont été documentées. Perplexity a basculé son orchestrateur de production de Claude Opus 4.7 vers GPT-5.5. La raison avancée : meilleure efficacité tokens. Premier arbitrage opérateur majeur documenté publiquement. Au passage, OpenAI a abandonné SWE-bench Verified au profit de SWE-bench Pro. Ce n'est pas anodin : tous les comparatifs publiés jusqu'ici ne sont plus directement comparables aux nouveaux scores. GPT-5.5 sous-performe d'ailleurs Claude Opus 4.7 d'environ 6% sur ce nouveau benchmark. La course aux modèles est aussi devenue une course aux référentiels d'évaluation.

▶ Sources : Wes Roth : analyse GPT-5.5 et frontend coding

02Opus 4.7 : +46% tokens, même tarif : hausse cachée

Opus 4.7 consomme 1,46x plus de tokens que 4.6 pour le texte et jusqu'à 3x plus pour les images, au même prix par token.

Simon Willison a mesuré ce que peu de personnes avaient quantifié : Opus 4.7 consomme 1,46x plus de tokens pour du texte que son prédécesseur Opus 4.6, et jusqu'à 3x plus pour les images, à tarif par token identique. Résultat : une hausse effective du coût sans aucun changement dans la grille tarifaire d'Anthropic. La facture augmente, mais le prix affiché reste le même. Deux changements techniques expliquent l'essentiel de l'écart : la suppression du downscaling automatique des images haute résolution (Opus 4.7 traite l'image complète sans compression préalable) et l'introduction d'un nouveau niveau d'effort "xhigh" pour donner plus de contrôle sur la consommation tokens. Ce n'est pas un bug, c'est une décision d'architecture délibérée. Et ça te touche directement si tu as des pipelines images ou des sessions longues en production. Concrètement : si tu migres des apps de production d'Opus 4.6 vers Opus 4.7, ton budget mensuel va mécaniquement augmenter. Le niveau "xhigh" aide pour les tâches longues. Sur les images en particulier, le ratio 3x mérite d'être pesé avant de basculer. L'amélioration qualitative doit être proportionnelle au surcoût réel sur tes cas d'usage spécifiques.

▶ Sources : Simon Willison : tokenisation Opus 4.6 vs 4.7

03DeepSeek V4 Pro : 1,66T params, open-weight, prix cassé

DeepSeek V4 Pro sort avec 1,66 trillion de paramètres totaux, 49B actifs, 1M tokens de contexte et un tarif bien inférieur à GPT-5.5.

DeepSeek lâche cette semaine V4 Pro : une architecture MoE de 1,66 trillion de paramètres totaux, dont 49 milliards actifs par inférence. Fenêtre de contexte : 1 million de tokens. Les poids sont ouverts. En face, GPT-5.5 facture $30 par million de tokens en sortie. DeepSeek V4 Pro tarife nettement moins cher : un rapport puissance/coût difficile à ignorer si tu traites des volumes importants. Le constat de fond : le delta de performance entre modèles propriétaires fermés et alternatives open-weight rétrécit vite. V4 Pro ne prétend pas battre GPT-5.5 sur tous les benchmarks, mais il rend la comparaison légitime sur un ensemble de tâches. C'est une pression concurrentielle réelle sur Anthropic et OpenAI - pas seulement sur le pricing, aussi sur la stratégie open-source de l'industrie dans son ensemble. Le lancement soulève également des questions géopolitiques reconnues par le gouvernement américain - sans détail public sur leur nature exacte. Si tu envisages de déployer V4 Pro dans un contexte réglementé (santé, défense, secteur public), cette dimension mérite d'entrer dans ton analyse de risque, indépendamment des performances techniques.

04OpenAI rachète Astral, Ruff et uv restent open source

OpenAI acquiert Astral (Ruff + uv) - les deux outils Python restent open source, l'équipe rejoint OpenAI.

OpenAI a racheté Astral, l'éditeur de Ruff (linter Python ultra-rapide en Rust) et uv (gestionnaire de packages Python en Rust). Bonne nouvelle immédiate : aucun changement de licence, les deux outils restent open source. L'équipe Astral rejoint OpenAI sans disruption annoncée pour les projets existants. Sur le fond, c'est un signal stratégique majeur. Python est le langage dominant de l'IA, et Ruff/uv sont devenus en deux ans les outils de référence de l'écosystème : des dizaines de milliers de projets les utilisent. OpenAI a placé sa main sur la chaîne d'outillage. Ça rappelle l'acquisition de GitHub par Microsoft : open source garanti à court terme, intentions à long terme à surveiller. Les questions ouvertes restent entières : est-ce que Ruff et uv vont s'intégrer dans les workflows Codex ? OpenAI va-t-il construire un outil premium par-dessus ces bases ? Pour l'instant, rien n'indique de rupture de continuité. Mais si tu as des pipelines critiques sur uv ou Ruff, c'est le moment de noter cette dépendance dans ta liste de risques et de surveiller l'évolution de la gouvernance des deux projets.

05Chollet : les LLMs cassent le frein à la complexité

Chollet (Keras) alerte : les LLMs suppriment la friction cognitive qui régulait naturellement la complexité des codebases.

François Chollet - créateur de Keras et figure centrale de la recherche en raisonnement IA : a publié cette semaine une réflexion à lire de près. Son argument : la lenteur naturelle de la programmation humaine jouait un rôle de régulateur. Écrire du code prend du temps, donc on réfléchit à abstraire, simplifier, restructurer. Les LLMs suppriment ce coût cognitif : on génère du code volumineux sans effort, on colle des APIs mal conçues avec de la glue automatique, et la complexité explose sans signal d'alerte. La conséquence pronostiquée : simplification et lisibilité vont devoir devenir des disciplines actives, imposées explicitement par les équipes. Pas des bonnes pratiques passives : des contraintes dures. Ce n'est pas une critique des LLMs en soi, c'est une observation sur ce que leur adoption à grande échelle change dans la dynamique de développement collectif. Mon analyse : on va voir une bifurcation. Les équipes qui imposent des contraintes explicites sur la complexité cyclomatique, les budgets de lignes, les revues architecturales : vont garder des codebases maintenables. Les autres vont accumuler une dette technique nouvelle, plus diffuse que l'ancienne parce qu'elle vient d'agents qui ne voient pas l'ensemble. Si tu as déjà relu une PR générée automatiquement en te demandant pourquoi 500 lignes pour faire ça : tu vis déjà ce problème.

▶ Sources : François Chollet : LLMs et complexité logicielle

Semaine chargée en signaux contradictoires : les modèles progressent vite, les coûts réels augmentent de façon non linéaire, et les acquisitions stratégiques redessinent qui contrôle l'outillage. Si tu dois retenir une chose, c'est la réflexion de Chollet : la discipline sur la complexité ne va pas venir des outils : elle va venir de toi. Partage cette édition à un collègue qui fait tourner des agents en prod, et rejoins Zarev Pro si tu veux les analyses complètes avec les comparatifs par cas d'usage.

Tu connais un dev qui devrait lire ça cette semaine.

Un collègue devrait lire ça →

—

Sébastien

zarev.dev

Zarev - Chaque lundi, l'essentiel de l'IA pour les devs qui bossent.

Publié par Sébastien · Tu reçois cet email parce que tu t'es inscrit sur zarev.dev.

Se désinscrire