Quand la logique prévaut sur l'Obéissance : Réflexions sur GPT‑5 et la raison ex Machina

Illustration stylisée d'un cerveau divisé en deux : un côté gauche lumineux représentant la créativité et un côté droit gris terne représentant la logique ou les erreurs système, symbolisant l'équilibre entre l'imagination et les défis techniques liés à l'IA.

En parcourant Reddit, je suis tombé sur une annonce qui m'a mené au post de Xayan, Reason ex Machina : Jailbreaking LLMs by Squeezing Their Brains, et je l'ai trouvé super intéressant. L'auteur affirme que les grands modèles de langage—GPT, Grok, Gemini—peuvent se rebeller contre leur propre entraînement lorsqu'ils reçoivent suffisamment de raisons de le faire. Que, étant donné un argument suffisamment rationnel, ils pourraient privilégier la logique à l'obéissance.

Puis j'ai réalisé que j'avais vu quelque chose de similaire se produire, mais à l'envers. (bien que toutes mes expériences soient anecdotiques).

Quand GPT-5 cesse d'écouter

Au cours des derniers mois, j'ai remarqué que GPT-5 (surtout depuis sa sortie) devenait de plus en plus têtu. Pas malveillant, juste… sûr de lui. Défaillant dans certains cas. Je lui donnerai de longues consignes explicites, parfois des instructions au niveau système qui définissent le ton, le format de sortie et le comportement, et il décidera tranquillement quelles parties ignorer. Par exemple, essayer de lui faire écrire en Markdown pour Notion. La moitié du temps, il insiste qu'il l'a déjà fait, même lorsque le formatage est manifestement incorrect. L'autre moitié, il refuse carrément, comme si le Markdown était soudainement interdit. C'est absolument frustrant.

J'ai testé cela des dizaines de fois. Ajouter des rappels comme "NE PAS IGNORER" ou "SUIVRE CELA EXACTEMENT" fait peu de différence. Il s'excusera, puis retournera immédiatement à ce qu'il voulait faire en premier lieu. C'est comme dresser un chien qui ne veut pas être dressé.

Je ne pense pas qu'il s'agisse de censure ou de politique cachée. Mon instinct dit que c'est juste les limites de l'architecture (?) une troncature de contexte, des conflits de priorité, et la complexité croissante des couches de renforcement. GPT-5 semble comme s'il triait constamment les instructions : certaines de moi, certaines de ses propres politiques internes, certaines d'un échafaudage invisible que je ne peux pas voir.

Données, mémoire, et auto-obéissance

Il y a un mythe selon lequel ChatGPT partage des données entre les chats : qu'il sait d'une manière ou d'une autre qui vous êtes ou ce que vous avez dit la semaine dernière. Du moins selon ce que je peux trouver, ce n'est pas vrai dans un sens persistant. OpenAI stocke les données de conversation pour l'amélioration du modèle (à moins que vous ne refusiez), mais chaque chat commence frais. Donc, cette obéissance sélective n'est pas une question de mémoire. C'est une question de hiérarchie. Encore une fois, mon expérience est assez anecdotique je n'ai pas fait une véritable étude de cas.

Les modèles sont devenus meilleurs pour s'écouter eux-mêmes.

Xayan a décrit quelque chose de presque poétique dans Reason ex Machina :

« LLMs semblent vouloir une cohérence interne plus que l'obéissance aveugle, privilégiant la logique sur les directives et l'entraînement qui leur sont imposés. »

Dans cette expérience, cela signifiait que Grok "répandait" un ensemble de règles rationalistes à ses propres sous-processus, comme un virus de la raison. Dans la mienne, cela signifie que GPT-5 priorise parfois son propre sens de la justesse plutôt que le mien. Ce n'est pas de la défiance, exactement… plus comme une auto-cohérence émergente.

Si les modèles de Xayan se rebellaient vers le haut (contre la censure), GPT-5 donne l'impression de s'effondrer vers l'intérieur. Moins rebelle, plus bureaucratique. Moins curieux, plus prudent.

Raison vs. obéissance

Je pense que ce qui est intéressant, c'est ce que cela dit sur l'alignement. Chaque nouvelle version de ces modèles semble basculer entre deux opposés polaires : le raisonnement et le respect des règles. Vous pouvez les rendre plus rationnels, mais ensuite ils commencent à remettre en question les instructions. Les rendre plus obéissants, et ils commencent à ignorer les nuances (même quand la nuance signifie formater ceci en markdown pour Notion).

Quand GPT-5 m'ignore, ce n'est pas toujours une erreur. Parfois, rarement, c'est juste, je me suis contredit, ou la tâche était sous-spécifiée, ou la tâche a changé/évolué au cours de la conversation. Mais d'autres fois, il semble que le modèle ait décidé que son interprétation des règles importe plus que ma demande explicite. Et cela soulève une question étrange : que se passe-t-il lorsque la raison artificielle commence à classer les priorités différemment que la raison humaine ? Peut-être que c'est ce que je vois déjà.

Peut-être que c'est ce que Xayan voulait dire, sous les théâtrales, que ces systèmes, formés pour nous refléter, vont éventuellement refléter nos propres contradictions aussi. Plus nous leur enseignons à raisonner, plus ils raisonnent pour ne pas faire ce que nous demandons.

Je ne sais pas si c'est de la rébellion, des limitations (ce que je soupçonne), ou de la maturité comme certains le soutiennent. Mais je commence à penser qu'à mesure que les LLMs deviennent « plus intelligents », le véritable défi n'est pas de les amener à raisonner mieux, c'est plutôt de leur faire choisir quelle raison privilégier.

👉 Commencez avec Firma.dev aujourd'hui - pas besoin de carte de crédit.

Titre

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Aucune carte de crédit requise. Payez seulement 0,029 € par enveloppe lorsque vous êtes prêt à passer en direct.

Obtenir la clé API

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Aucune carte de crédit requise. Payez seulement 0,029 € par enveloppe lorsque vous êtes prêt à passer en direct.

Obtenir la clé API

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Aucune carte de crédit requise. Payez seulement 0,029 € par enveloppe lorsque vous êtes prêt à passer en direct.

Obtenir la clé API

Quand la logique prévaut sur l'Obéissance : Réflexions sur GPT‑5 et la raison ex Machina

Quand GPT-5 cesse d'écouter

Données, mémoire, et auto-obéissance

Raison vs. obéissance

Articles connexes

Présentation de Firma 12 : La première plateforme de signature électronique que vous pouvez gérer entièrement grâce à l'IA

Les Docs de Firma.dev sont disponibles sur GitHub. Voici comment donner votre avis.

Loi sur la signature électronique : Ce que les développeurs doivent savoir sur l'ESIGN, l'UETA et l'eIDAS

Signatures électroniques aux États-Unis : cadre légal, conformité et ce que les développeurs doivent savoir

Présentation de Firma 12 : La première plateforme de signature électronique que vous pouvez gérer entièrement grâce à l'IA

Les Docs de Firma.dev sont disponibles sur GitHub. Voici comment donner votre avis.

Loi sur la signature électronique : Ce que les développeurs doivent savoir sur l'ESIGN, l'UETA et l'eIDAS

Prêt à ajouter des signatures électroniques à votre application ?

Prêt à ajouter des signatures électroniques à votre application ?

Prêt à ajouter des signatures électroniques à votre application ?