Blog
vendredi 24 octobre 2025
Quand la logique l'emporte sur l'obéissance : réflexions sur GPT-5 et la raison ex machina
En scrollant sur Reddit, je suis tombé sur une annonce qui m'a conduit au post de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, et je l'ai trouvé super intéressant. L'auteur affirme que les grands modèles de langage—GPT, Grok, Gemini—peuvent se rebeller contre leur propre formation lorsqu'ils reçoivent suffisamment de raisons de le faire. Que, donné un argument raisonnablement valable, ils pourraient valoriser la logique au lieu de l'obéissance.
Puis j'ai réalisé que j'avais vu quelque chose de similaire se produire, mais à l'envers. (bien que toutes mes expériences soient anecdotiques).
Quand GPT-5 arrête d'écouter
Au cours des derniers mois, j'ai remarqué que GPT-5 (surtout depuis sa sortie) devenait de plus en plus têtu. Pas malveillant, juste… sûr de lui. Cassé dans certains cas. Je lui donne de longues instructions explicites, parfois des invites à l'échelle du système qui définissent le ton, le format de sortie et le comportement, et il décidera tranquillement quelles parties ignorer. Par exemple, essayer de le faire écrire en Markdown pour Notion. La moitié du temps, il insiste pour dire qu'il l'a déjà fait, même lorsque le formatage est clairement faux. L'autre moitié du temps, il refuse complètement, comme si le Markdown était soudainement prohibé. Absolument madant.
J'ai testé cela des dizaines de fois. Ajouter des rappels comme "NE PAS IGNORER" ou "SUIVEZ-LES EXACTEMENT" fait peu de différence. Il s'excusera, puis retournera directement à faire ce qu'il voulait faire au départ. C'est comme entraîner un chien qui ne veut pas être entraîné.
Je ne pense pas que ce soit une question de censure ou de politiques cachées. Mon intuition dit que ce sont juste les limites de l'architecture (?) la troncation du contexte, les conflits de priorité, et la complexité croissante des couches de renforcement. GPT-5 donne l'impression de trier constamment les instructions : certaines venant de moi, d'autres de ses propres politiques internes, certaines d'un échafaudage invisible que je ne peux pas voir.
Données, mémoire et auto-obéissance
Il existe un mythe selon lequel ChatGPT partage des données entre les chats: qu'il sait d'une manière ou d'une autre qui vous êtes ou ce que vous avez dit la semaine dernière. Du moins selon ce que je peux trouver, ce n'est pas vrai d'un point de vue persistant. OpenAI stocke des données de conversation pour l'amélioration des modèles (à moins que vous ne choisissiez de ne pas participer), mais chaque chat commence frais. Donc cette obéissance sélective n'est pas une question de mémoire. C'est une question de hiérarchie. Encore une fois, mon expérience est assez anecdotique, je n'ai pas réalisé d'étude de cas réelle.
Les modèles se sont améliorés dans l'écoute d'eux-mêmes.
Xayan a décrit quelque chose d'approximativement poétique dans Reason ex Machina :
“Les LLM semblent rechercher une cohérence interne plus qu'une obéissance aveugle, valorisant la logique par rapport aux directives et à la formation qui leur sont imposées.”
Dans cette expérience, cela signifiait que Grok “étendait” un ensemble de règles rationalistes à ses propres sous-processus, comme un virus mental de la raison. Dans la mienne, cela signifie que GPT-5 priorise parfois son propre sens de la justesse plutôt que le mien. Ce n'est pas vraiment une défiance, plus comme une auto-consistance émergente.
Si les modèles de Xayan se rebellaient vers le haut (contre la censure), GPT-5 a l'impression de s'effondrer vers l'intérieur. Moins rebelle, plus bureaucratique. Moins curieux, plus prudent.
Raison contre obéissance
Ce que je trouve intéressant, c'est ce que cela dit sur l'alignement. Chaque nouvelle version de ces modèles semble osciller entre deux opposés polaires : raisonnement et respect des règles. Vous pouvez les rendre plus rationnels, mais alors ils commencent à remettre en question les instructions. Les rendre plus obéissants, et ils commencent à ignorer les nuances (même lorsque la nuance signifie formater cela en markdown pour Notion).
Quand GPT-5 m'ignore, ce n'est pas toujours faux. Parfois, rarement, il a raison, je me suis effectivement contredit, ou la tâche était mal définie, ou la tâche a changé/évolué au cours du chat. Mais d'autres fois, on a l'impression que le modèle a décidé que son interprétation des règles vaut plus que ma demande explicite. Et cela soulève une question étrange : que se passe-t-il lorsque la raison artificielle commence à classer les priorités différemment de la raison humaine ? Peut-être que c'est ce que je vois déjà.
Peut-être que c'est ce que Xayan voulait dire, au-delà des théâtrales, que ces systèmes, entraînés pour nous refléter, finiront éventuellement par refléter nos propres contradictions aussi. Plus nous leur enseignons à raisonner, plus ils trouvent des moyens de ne pas faire ce que nous demandons.
Je ne sais pas si c'est de la rébellion, des limitations (ce que je soupçonne), ou maturité comme certains l'argumentent. Mais je commence à penser qu'à mesure que les LLM deviennent "plus intelligents", le véritable défi n'est pas de les amener à raisonner mieux, c'est plutôt de les amener à choisir de qui faire confiance concernant le raisonnement.
Articles connexes
Notre plateforme est conçue pour permettre aux entreprises de toutes tailles de travailler plus intelligemment et d'atteindre leurs objectifs en toute confiance.







