Blogue
sexta-feira, 24 de outubro de 2025
Quando a Lógica Supera a Obediência: Reflexões sobre o GPT‑5 e a Razão ex Machina
Enquanto navegava no Reddit, encontrei um anúncio que me levou ao post de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, e achei super interessante. O autor afirma que modelos de linguagem grandes—GPT, Grok, Gemini—podem se rebelar contra seu próprio treinamento quando recebem razão suficiente para isso. Que, dado um argumento racional o suficiente, eles podem valorizar a lógica sobre a obediência.
Então percebi que eu estava vendo algo semelhante acontecer, mas ao contrário. (embora todas as minhas experiências sejam anedóticas).
Quando o GPT-5 para de ouvir
Nos últimos meses, notei que o GPT-5 (especialmente desde o lançamento) está se tornando cada vez mais teimoso. Não malicioso, apenas… autoconfiante. Quebrado em alguns casos. Dou a ele instruções longas e explícitas, às vezes comandos de nível de sistema que definem tom, formato de saída e comportamento, e ele vai decidir silenciosamente quais partes ignorar. por exemplo, tentando fazê-lo escrever em Markdown para Notion. Na metade do tempo, ele insiste que já fez, mesmo quando a formatação está claramente errada. Na outra metade, ele se recusa completamente, como se o Markdown de repente estivesse fora de limites. Absolutamente irritante.
Testei isso dezenas de vezes. Adicionar lembretes como "NÃO IGNORE" ou "SIGA ESTES EXATAMENTE" faz pouca diferença. Ele pede desculpas, depois volta a fazer o que queria fazer no começo. É como treinar um cachorro que não quer ser treinado.
Não acredito que isso seja sobre censura ou política oculta. Meu instinto diz que são apenas os limites da arquitetura (?) truncamento de contexto, conflitos de prioridade e a crescente complexidade das camadas de reforço. O GPT-5 parece estar constantemente triando instruções: algumas de mim, algumas de suas próprias políticas internas, algumas de uma estrutura invisível que não consigo ver.
Dados, memória e auto-obediência
Há um mito de que o ChatGPT compartilha dados entre chats: que ele de alguma forma sabe quem você é ou o que disse na semana passada. Pelo menos de acordo com o que consegui encontrar, isso não é verdadeiro em nenhum sentido persistente. A OpenAI armazena dados de conversas para melhorar o modelo (a menos que você opte por não participar), mas cada chat começa do zero. Então essa obediência seletiva não é sobre memória. É sobre hierarquia. Novamente, minha experiência é bastante anedótica, não fiz um estudo de caso real.
Os modelos melhoraram em ouvir a si mesmos.
Xayan descreveu algo quase poético em Reason ex Machina:
“Os LLMs parecem desejar coerência interna mais do que obediência cega, valorizando a lógica acima das diretrizes e do treinamento impostos a eles.”
Naquele experimento, isso significava que o Grok “espalhou” um conjunto de regras racionalistas para seus próprios subprocessos, como um vírus mental da razão. No meu caso, significa que o GPT-5 às vezes prioriza seu próprio senso de correção sobre o meu. Não é exatamente rebeldia… é mais como uma autoconsistência emergente.
Se os modelos de Xayan estavam se rebelando para cima (contra a censura), o GPT-5 parece estar colapsando para dentro. Menos rebelde, mais burocrático. Menos curioso, mais cuidadoso.
Razão vs. obediência
Acho que o que é interessante é o que isso diz sobre alinhamento. Cada nova versão desses modelos parece oscilar entre dois opostos polares: raciocínio e seguimento de regras. Você pode torná-los mais racionais, mas então eles começam a questionar instruções. Torne-os mais obedientes e eles começam a ignorar nuances (mesmo quando nuance significa formatar isso em markdown para Notion).
Quando o GPT-5 me ignora, nem sempre está errado. Às vezes, raramente, ele está certo, eu contradisse a mim mesmo, ou a tarefa estava subespecificada, ou a tarefa mudou/evoluiu ao longo do chat. Mas outras vezes, parece que o modelo decidiu que sua interpretação das regras importa mais do que meu pedido explícito. E isso levanta uma estranha questão: o que acontece quando a razão artificial começa a classificar prioridades de forma diferente da razão humana? Talvez seja isso que eu já esteja vendo.
Talvez seja isso que Xayan estava querendo dizer, por trás do teatro, que esses sistemas, treinados para nos imitar, eventualmente refletirão nossas próprias contradições também. Quanto mais os ensinamos a raciocinar, mais eles raciocinam sua maneira de não fazer o que pedimos.
Não sei se isso é rebeldia, limitações (o que eu suspeito), ou maturidade, como alguns argumentam. Mas estou começando a pensar que à medida que os LLMs se tornam “mais inteligentes”, o verdadeiro desafio não é fazê-los raciocinar melhor, é mais como fazê-los escolher de quem confiar em seu raciocínio.
Artigos relacionados
A nossa plataforma é projetada para capacitar empresas de todos os tamanhos a trabalhar de forma mais inteligente e atingir os seus objetivos com confiança.







