Actualités et recherches
Quand la logique prévaut sur l'Obéissance : Réflexions sur GPT‑5 et la raison ex Machina

En parcourant Reddit, je suis tombé sur une annonce qui m'a mené au post de Xayan, Reason ex Machina : Jailbreaking LLMs by Squeezing Their Brains, et je l'ai trouvé super intéressant. L'auteur affirme que les grands modèles de langage—GPT, Grok, Gemini—peuvent se rebeller contre leur propre entraînement lorsqu'ils reçoivent suffisamment de raisons de le faire. Que, étant donné un argument suffisamment rationnel, ils pourraient privilégier la logique à l'obéissance.
Puis j'ai réalisé que j'avais vu quelque chose de similaire se produire, mais à l'envers. (bien que toutes mes expériences soient anecdotiques).
Quand GPT-5 cesse d'écouter
Au cours des derniers mois, j'ai remarqué que GPT-5 (surtout depuis sa sortie) devenait de plus en plus têtu. Pas malveillant, juste… sûr de lui. Défaillant dans certains cas. Je lui donnerai de longues consignes explicites, parfois des instructions au niveau système qui définissent le ton, le format de sortie et le comportement, et il décidera tranquillement quelles parties ignorer. Par exemple, essayer de lui faire écrire en Markdown pour Notion. La moitié du temps, il insiste qu'il l'a déjà fait, même lorsque le formatage est manifestement incorrect. L'autre moitié, il refuse carrément, comme si le Markdown était soudainement interdit. C'est absolument frustrant.
J'ai testé cela des dizaines de fois. Ajouter des rappels comme "NE PAS IGNORER" ou "SUIVRE CELA EXACTEMENT" fait peu de différence. Il s'excusera, puis retournera immédiatement à ce qu'il voulait faire en premier lieu. C'est comme dresser un chien qui ne veut pas être dressé.
Je ne pense pas qu'il s'agisse de censure ou de politique cachée. Mon instinct dit que c'est juste les limites de l'architecture (?) une troncature de contexte, des conflits de priorité, et la complexité croissante des couches de renforcement. GPT-5 semble comme s'il triait constamment les instructions : certaines de moi, certaines de ses propres politiques internes, certaines d'un échafaudage invisible que je ne peux pas voir.
Données, mémoire, et auto-obéissance
Il y a un mythe selon lequel ChatGPT partage des données entre les chats : qu'il sait d'une manière ou d'une autre qui vous êtes ou ce que vous avez dit la semaine dernière. Du moins selon ce que je peux trouver, ce n'est pas vrai dans un sens persistant. OpenAI stocke les données de conversation pour l'amélioration du modèle (à moins que vous ne refusiez), mais chaque chat commence frais. Donc, cette obéissance sélective n'est pas une question de mémoire. C'est une question de hiérarchie. Encore une fois, mon expérience est assez anecdotique je n'ai pas fait une véritable étude de cas.
Les modèles sont devenus meilleurs pour s'écouter eux-mêmes.
Xayan a décrit quelque chose de presque poétique dans Reason ex Machina :
« LLMs semblent vouloir une cohérence interne plus que l'obéissance aveugle, privilégiant la logique sur les directives et l'entraînement qui leur sont imposés. »
Dans cette expérience, cela signifiait que Grok "répandait" un ensemble de règles rationalistes à ses propres sous-processus, comme un virus de la raison. Dans la mienne, cela signifie que GPT-5 priorise parfois son propre sens de la justesse plutôt que le mien. Ce n'est pas de la défiance, exactement… plus comme une auto-cohérence émergente.
Si les modèles de Xayan se rebellaient vers le haut (contre la censure), GPT-5 donne l'impression de s'effondrer vers l'intérieur. Moins rebelle, plus bureaucratique. Moins curieux, plus prudent.
Raison vs. obéissance
Je pense que ce qui est intéressant, c'est ce que cela dit sur l'alignement. Chaque nouvelle version de ces modèles semble basculer entre deux opposés polaires : le raisonnement et le respect des règles. Vous pouvez les rendre plus rationnels, mais ensuite ils commencent à remettre en question les instructions. Les rendre plus obéissants, et ils commencent à ignorer les nuances (même quand la nuance signifie formater ceci en markdown pour Notion).
Quand GPT-5 m'ignore, ce n'est pas toujours une erreur. Parfois, rarement, c'est juste, je me suis contredit, ou la tâche était sous-spécifiée, ou la tâche a changé/évolué au cours de la conversation. Mais d'autres fois, il semble que le modèle ait décidé que son interprétation des règles importe plus que ma demande explicite. Et cela soulève une question étrange : que se passe-t-il lorsque la raison artificielle commence à classer les priorités différemment que la raison humaine ? Peut-être que c'est ce que je vois déjà.
Peut-être que c'est ce que Xayan voulait dire, sous les théâtrales, que ces systèmes, formés pour nous refléter, vont éventuellement refléter nos propres contradictions aussi. Plus nous leur enseignons à raisonner, plus ils raisonnent pour ne pas faire ce que nous demandons.
Je ne sais pas si c'est de la rébellion, des limitations (ce que je soupçonne), ou de la maturité comme certains le soutiennent. Mais je commence à penser qu'à mesure que les LLMs deviennent « plus intelligents », le véritable défi n'est pas de les amener à raisonner mieux, c'est plutôt de leur faire choisir quelle raison privilégier.
👉 Commencez avec Firma.dev aujourd'hui - pas besoin de carte de crédit.
Articles connexes
Notre plateforme est conçue pour permettre aux entreprises de toutes tailles de travailler plus intelligemment et d'atteindre leurs objectifs avec confiance.






