|
|
|
GPT-5.5 sort officiellement cette semaine, et c'est
une bombe mitigée : premier sur l'Artificial Analysis Intelligence
Index avec 72,8% sur CursorBench, mais
86% d'hallucinations sur ses mauvaises réponses et un
tarif API doublé. En parallèle, Anthropic confirme
discrètement qu'Opus 4.7 te coûte 46% de plus
qu'Opus 4.6 à tarif identique : et jusqu'à 3x plus sur les images.
Cinq actus à ne pas rater cette semaine : deux cassent des certitudes sur la
course aux modèles, une remodèle l'écosystème Python, une autre te
touche si tu utilises DeepSeek à grande échelle, et la dernière pose une
question que tu vas te reposer souvent dans les 12 prochains mois.
— Sébastien
|
|
|
EN BREF
01
OpenAI lance GPT-5.5 - premier sur 10 benchmarks
composites, 86% d'hallucinations sur ses erreurs, tarif doublé à
$5/$30/M tokens.
02
Opus 4.7 consomme 1,46x plus de tokens que 4.6 pour
le texte et jusqu'à 3x plus pour les images, au même
prix par token.
03
DeepSeek V4 Pro sort avec 1,66 trillion de paramètres
totaux, 49B actifs, 1M tokens de contexte et un tarif bien inférieur à
GPT-5.5.
04
OpenAI acquiert Astral (Ruff + uv) -
les deux outils Python restent open source, l'équipe rejoint OpenAI.
05
Chollet (Keras) alerte : les LLMs suppriment la
friction cognitive qui régulait naturellement la complexité des codebases.
|
|
|
|
01GPT-5.5 : SOTA, mais 86% d'hallucinations
|
OpenAI lance GPT-5.5 - premier sur 10 benchmarks
composites, 86% d'hallucinations sur ses erreurs, tarif doublé à
$5/$30/M tokens.
|
GPT-5.5 atteint 72,8% sur CursorBench et
prend la tête de l'Artificial Analysis Intelligence Index, qui agrège
10 benchmarks distincts. C'est une vraie performance. Le problème,
c'est ce qui se passe quand il se trompe : un taux d'hallucination
de 86% sur ses mauvaises réponses, contre
36% pour Claude Opus 4.7. Autrement dit, quand GPT-5.5
rate, il rate avec aplomb. Côté tarif, OpenAI a doublé les
prix : $5/$30 par million de tokens en entrée/sortie, contre $2,50/$15 pour
GPT-5.4. Le modèle montre des performances élevées sur le frontend coding et
l'image-to-code : des réplications quasi-parfaites de designs à partir
d'une seule image ont été documentées. Perplexity a
basculé son orchestrateur de production de Claude Opus 4.7 vers GPT-5.5. La
raison avancée : meilleure efficacité tokens. Premier arbitrage opérateur
majeur documenté publiquement. Au passage, OpenAI a abandonné
SWE-bench Verified au profit de SWE-bench Pro. Ce
n'est pas anodin : tous les comparatifs publiés jusqu'ici ne sont
plus directement comparables aux nouveaux scores. GPT-5.5 sous-performe
d'ailleurs Claude Opus 4.7 d'environ 6% sur ce
nouveau benchmark. La course aux modèles est aussi devenue une course aux
référentiels d'évaluation.
|
|
▶ Sources :
Wes Roth : analyse GPT-5.5 et frontend coding
|
|
|
|
02Opus 4.7 : +46% tokens, même tarif : hausse cachée
|
Opus 4.7 consomme 1,46x plus de tokens que 4.6 pour
le texte et jusqu'à 3x plus pour les images, au
même prix par token.
|
Simon Willison a mesuré ce que peu de personnes avaient
quantifié : Opus 4.7 consomme
1,46x plus de tokens pour du texte que son prédécesseur
Opus 4.6, et jusqu'à 3x plus pour les images, à tarif
par token identique. Résultat : une hausse effective du coût sans aucun
changement dans la grille tarifaire d'Anthropic. La facture augmente,
mais le prix affiché reste le même. Deux changements techniques expliquent
l'essentiel de l'écart : la suppression du
downscaling automatique des images haute résolution (Opus
4.7 traite l'image complète sans compression préalable) et
l'introduction d'un nouveau niveau d'effort
"xhigh" pour donner plus de contrôle sur la
consommation tokens. Ce n'est pas un bug, c'est une décision
d'architecture délibérée. Et ça te touche directement si tu as des
pipelines images ou des sessions longues en production. Concrètement : si tu
migres des apps de production d'Opus 4.6 vers Opus 4.7, ton budget
mensuel va mécaniquement augmenter. Le niveau "xhigh" aide pour
les tâches longues. Sur les images en particulier, le ratio
3x mérite d'être pesé avant de basculer. L'amélioration
qualitative doit être proportionnelle au surcoût réel sur tes cas
d'usage spécifiques.
|
|
▶ Sources :
Simon Willison : tokenisation Opus 4.6 vs 4.7
|
|
|
|
03DeepSeek V4 Pro : 1,66T params, open-weight, prix cassé
|
DeepSeek V4 Pro sort avec 1,66 trillion de paramètres
totaux, 49B actifs, 1M tokens de contexte et un tarif bien inférieur à
GPT-5.5.
|
DeepSeek lâche cette semaine V4 Pro : une
architecture MoE de 1,66 trillion de paramètres totaux,
dont 49 milliards actifs par inférence. Fenêtre de contexte : 1 million de
tokens. Les poids sont ouverts. En face, GPT-5.5 facture
$30 par million de tokens en sortie. DeepSeek V4 Pro tarife
nettement moins cher : un rapport puissance/coût difficile à ignorer si tu
traites des volumes importants. Le constat de fond : le delta de performance
entre modèles propriétaires fermés et alternatives open-weight rétrécit
vite. V4 Pro ne prétend pas battre GPT-5.5 sur tous les
benchmarks, mais il rend la comparaison légitime sur un ensemble de tâches.
C'est une pression concurrentielle réelle sur
Anthropic et OpenAI - pas seulement sur le
pricing, aussi sur la stratégie open-source de l'industrie dans son
ensemble. Le lancement soulève également des questions
géopolitiques reconnues par le
gouvernement américain - sans détail public sur leur nature
exacte. Si tu envisages de déployer V4 Pro dans un contexte réglementé
(santé, défense, secteur public), cette dimension mérite d'entrer dans
ton analyse de risque, indépendamment des performances techniques.
|
|
|
|
04OpenAI rachète Astral, Ruff et uv restent open source
|
OpenAI acquiert Astral (Ruff + uv) -
les deux outils Python restent open source, l'équipe rejoint
OpenAI.
|
OpenAI a racheté Astral, l'éditeur de
Ruff (linter Python ultra-rapide en Rust) et
uv (gestionnaire de packages Python en Rust). Bonne
nouvelle immédiate : aucun changement de licence, les deux outils restent
open source. L'équipe Astral rejoint OpenAI sans
disruption annoncée pour les projets existants. Sur le fond, c'est un
signal stratégique majeur. Python est le langage dominant
de l'IA, et Ruff/uv sont devenus en deux ans les outils de référence de
l'écosystème : des dizaines de milliers de projets les utilisent.
OpenAI a placé sa main sur la chaîne d'outillage. Ça rappelle
l'acquisition de GitHub par Microsoft : open source
garanti à court terme, intentions à long terme à surveiller. Les questions
ouvertes restent entières : est-ce que Ruff et uv vont s'intégrer dans
les workflows Codex ? OpenAI va-t-il construire un outil
premium par-dessus ces bases ? Pour l'instant, rien n'indique de
rupture de continuité. Mais si tu as des pipelines critiques sur uv ou Ruff,
c'est le moment de noter cette dépendance dans ta liste de risques et
de surveiller l'évolution de la gouvernance des deux projets.
|
|
|
|
05Chollet : les LLMs cassent le frein à la complexité
|
Chollet (Keras) alerte : les LLMs suppriment la
friction cognitive qui régulait naturellement la complexité des
codebases.
|
François Chollet - créateur de Keras et
figure centrale de la recherche en raisonnement IA : a publié cette semaine
une réflexion à lire de près. Son argument : la lenteur naturelle de la
programmation humaine jouait un rôle de régulateur. Écrire
du code prend du temps, donc on réfléchit à abstraire, simplifier,
restructurer. Les LLMs suppriment ce coût cognitif : on génère du code
volumineux sans effort, on colle des APIs mal conçues avec de la glue
automatique, et la complexité explose sans signal
d'alerte. La conséquence pronostiquée : simplification et lisibilité
vont devoir devenir des disciplines actives, imposées
explicitement par les équipes. Pas des bonnes pratiques passives : des
contraintes dures. Ce n'est pas une critique des LLMs en soi,
c'est une observation sur ce que leur adoption à grande échelle change
dans la dynamique de développement collectif. Mon analyse :
on va voir une bifurcation. Les équipes qui imposent des contraintes
explicites sur la complexité cyclomatique, les budgets de lignes, les revues
architecturales : vont garder des codebases maintenables. Les autres vont
accumuler une dette technique nouvelle, plus diffuse que
l'ancienne parce qu'elle vient d'agents qui ne voient pas
l'ensemble. Si tu as déjà relu une PR générée automatiquement en te
demandant pourquoi 500 lignes pour faire ça : tu vis déjà
ce problème.
|
|
▶ Sources :
François Chollet : LLMs et complexité logicielle
|
|
|
|
Semaine chargée en signaux contradictoires : les modèles progressent vite, les
coûts réels augmentent de façon non linéaire, et les acquisitions stratégiques
redessinent qui contrôle l'outillage. Si tu dois retenir une chose,
c'est la réflexion de Chollet : la discipline sur la complexité ne va pas
venir des outils : elle va venir de toi. Partage cette édition à un collègue
qui fait tourner des agents en prod, et rejoins Zarev Pro si tu veux les
analyses complètes avec les comparatifs par cas d'usage.
|
|
|
|
|
—
Sébastien
zarev.dev
Zarev - Chaque lundi, l'essentiel de l'IA pour les devs qui
bossent.
Publié par Sébastien · Tu reçois cet email parce que tu t'es
inscrit sur zarev.dev.
Se désinscrire
|
|
|