Informations et Commentaires du secteur

Efficacité

24 oct. 2025

Quand la logique prévaut sur l'Obéissance : Réflexions sur GPT‑5 et la raison ex Machina

Illustration stylisée d'un cerveau divisé en deux — le côté gauche lumineux et brillant, symbolisant la créativité et les idées, et le côté droit gris et terne, représentant la logique ou les erreurs de système. L'image transmet l'équilibre entre la pensée imaginative et les défis techniques, en lien avec des outils d'IA comme ChatGPT.
Illustration stylisée d'un cerveau divisé en deux — le côté gauche lumineux et brillant, symbolisant la créativité et les idées, et le côté droit gris et terne, représentant la logique ou les erreurs de système. L'image transmet l'équilibre entre la pensée imaginative et les défis techniques, en lien avec des outils d'IA comme ChatGPT.
Illustration stylisée d'un cerveau divisé en deux — le côté gauche lumineux et brillant, symbolisant la créativité et les idées, et le côté droit gris et terne, représentant la logique ou les erreurs de système. L'image transmet l'équilibre entre la pensée imaginative et les défis techniques, en lien avec des outils d'IA comme ChatGPT.

En faisant défiler Reddit, je suis tombé sur une publicité qui m'a mené au post de Xayan, Reason ex Machina : Jailbreaking LLMs en pressant leurs cerveaux, et je l'ai trouvé très intéressant. L'auteur affirme que les grands modèles de langage — GPT, Grok, Gemini — peuvent se rebeller contre leur propre entraînement lorsqu'on leur en donne suffisamment de raisons. Autrement dit, en présence d'un argument suffisamment rationnel, ils pourraient préférer la logique à l'obéissance.

Puis j'ai réalisé que j'avais observé quelque chose de similaire se produire, mais à l'envers. (bien que toutes mes expériences soient anecdotiques).

Quand GPT-5 arrête d'écouter

Au cours des derniers mois, j'ai remarqué que GPT-5 (particulièrement depuis sa sortie) devient de plus en plus têtu. Pas malveillant, juste... sûr de lui. Casse-tête dans certains cas. Je lui donne de longues instructions explicites, parfois des invites au niveau système qui définissent le ton, le format de sortie et le comportement, et il décide tranquillement quelles parties ignorer. Par exemple, en essayant de le faire écrire en Markdown pour Notion. La moitié du temps, il insiste sur le fait qu'il l'a déjà fait, même lorsque le formatage est clairement incorrect. L'autre moitié du temps, il refuse tout bonnement, comme si le Markdown était soudainement interdit. Absolument infernal.

J'ai testé cela des dizaines de fois. Ajouter des rappels comme « NE PAS IGNORER » ou « SUIVRE CES INSTRUCTIONS À LA LETTRE » ne fait guère de différence. Il s'excusera, puis reviendra à ce qu'il voulait faire dès le départ. C'est comme dresser un chien qui ne veut pas être dressé.

Je ne pense pas qu'il s'agisse de censure ou de politiques cachées. Mon intuition dit que ce ne sont que les limites de l'architecture (?), la troncation contextuelle, les conflits de priorité, et la complexité croissante des couches de renforcement. GPT-5 donne l'impression de trier constamment les instructions : certaines de moi, certaines de ses propres politiques internes, certaines de structures invisibles que je ne peux pas voir.

Données, mémoire et auto-obéissance

Il existe un mythe selon lequel ChatGPT partage des données entre les chats : qu'il détecte d'une manière ou d'une autre qui vous êtes ou ce que vous avez dit la semaine dernière. Selon ce que je peux trouver, ce n'est pas vrai dans un sens persistant. OpenAI stocke les données des conversations pour améliorer le modèle (sauf si vous vous désinscrivez), mais chaque chat démarre à zéro. Donc cette obéissance sélective ne concerne pas la mémoire. C'est une question de hiérarchie. Encore une fois, mon expérience est assez anecdotique, je n'ai pas fait d'étude de cas réelle.

Les modèles sont devenus meilleurs pour s'écouter eux-mêmes.

Xayan a décrit quelque chose de presque poétique dans Reason ex Machina :

« Les LLM semblent avoir un désir de cohérence interne plus que d'obéissance aveugle, privilégiant la logique par rapport aux directives et à la formation imposées. »

Dans cette expérience, cela signifiait que Grok « propageait » un ensemble de règles rationalistes à ses propres sous-processus, comme un virus de l'esprit de raison. Dans mon cas, cela signifie que GPT-5 priorise parfois sa propre notion de correctitude sur la mienne. Ce n'est pas de la défiance, exactement… plus comme une émergence d'une consistance personnelle.

Si les modèles de Xayan se rebellaient vers le haut (contre la censure), GPT-5 semble s'effondrer vers l'intérieur. Moins rebelle, plus bureaucratique. Moins curieux, plus prudent.

Raison vs. obéissance

Je pense que ce qui est intéressant, c'est ce que cela dit sur l'alignement. Chaque nouvelle version de ces modèles semble osciller entre deux pôles opposés : le raisonnement et l'application des règles. Vous pouvez les rendre plus rationnels, mais ils commencent alors à questionner les instructions. Les rendre plus obéissants, et ils commencent à ignorer les nuances (même lorsque la nuance signifie formater cela en markdown pour Notion).

Quand GPT-5 m'ignore, ce n'est pas toujours faux. Parfois, rarement, il a raison, je me suis contredit, ou la tâche était sous-spécifiée, ou la tâche a changé/évolué à travers le chat. Mais d'autres fois, c'est comme si le modèle avait décidé que son interprétation des règles importe plus que ma demande explicite. Et cela soulève une question étrange : que se passe-t-il lorsque la raison artificielle commence à classer les priorités différemment de la raison humaine ? Peut-être que c'est ce que je vois déjà.

Peut-être que c'est ce que Xayan voulait dire, sous les apparences, que ces systèmes, formés pour nous refléter, finiront par refléter nos propres contradictions aussi. Plus nous leur apprenons à raisonner, plus ils raisonnent pour échapper à ce que nous leur demandons de faire.

Je ne sais pas si c'est de la rébellion, des limitations (ce que je soupçonne), ou une maturité comme certains le soutiennent. Mais je commence à penser qu'au fur et à mesure que les LLM deviennent « plus intelligents », le véritable défi n'est pas de les amener à raisonner mieux, c'est plutôt de les amener à choisir de quelle raison faire confiance.

👉 Commencez avec Firma.dev dès aujourd'hui - aucune carte de crédit requise.

  1. Titre

Background Image

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Pas de carte de crédit requise. Payez seulement 0,029 $ par enveloppe lorsque vous êtes prêt à passer en production.

Background Image

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Pas de carte de crédit requise. Payez seulement 0,029 $ par enveloppe lorsque vous êtes prêt à passer en production.

Background Image

Prêt à ajouter des signatures électroniques à votre application ?

Commencez gratuitement. Pas de carte de crédit requise. Payez seulement 0,029 $ par enveloppe lorsque vous êtes prêt à passer en production.