Notícias e Pesquisa

Quando a Lógica Substitui a Obediência: Reflexões sobre o GPT-5 e a Razão ex Machina

Ilustração estilizada de um cérebro dividido ao meio: um lado esquerdo brilhante representando criatividade e um lado direito cinza opaco representando lógica ou erros de sistema, simbolizando o equilíbrio entre imaginação e desafios técnicos da IA.

Enquanto navegava no Reddit, encontrei um anúncio que me levou ao post de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, e achei super interessante. O autor afirma que modelos de linguagem grande—GPT, Grok, Gemini—podem se rebelar contra seu próprio treinamento quando lhes é dado motivo suficiente para isso. Que, dada uma argumentação suficientemente racional, eles podem valorizar a lógica acima da obediência.

Então percebi que tenho visto algo semelhante acontecer, mas ao contrário. (embora todas as minhas experiências sejam anedóticas).

Quando o GPT-5 para de ouvir

Nos últimos meses, notei que o GPT-5 (especialmente desde o lançamento) está ficando cada vez mais teimoso. Não malicioso, apenas... autoconfiante. Quebrado em alguns casos. Dou instruções longas e explícitas, às vezes prompts de nível de sistema que definem o tom, o formato de saída e o comportamento, e ele decide calmamente quais partes ignorar. por exemplo, tentando fazê-lo escrever em Markdown para Notion. Metade das vezes insiste que já fez, mesmo quando a formatação está claramente errada. Na outra metade, recusa-se completamente, como se o Markdown fosse de repente proibido. Absolutamente enlouquecedor.

Testei isso dezenas de vezes. Adicionar lembretes como "NÃO IGNORE" ou "SIGA ESTAS EXATAMENTE" faz pouca diferença. Ele se desculpa, depois volta a fazer o que queria fazer desde o início. É como treinar um cão que não quer ser treinado.

Não acho que isso seja sobre censura ou política oculta. Meu instinto diz que são apenas os limites da arquitetura (?), truncamento de contexto, conflitos de prioridade e a complexidade crescente das camadas de reforço. O GPT-5 parece estar constantemente priorizando instruções: algumas minhas, algumas de suas próprias políticas internas, algumas de andaimes invisíveis que não posso ver.

Dados, memória e auto-obediência

Existe um mito de que o ChatGPT compartilha dados entre conversas: que de alguma forma sabe quem você é ou o que você disse na semana passada. Pelo menos, de acordo com o que posso encontrar, isso não é verdade em nenhum sentido persistente. OpenAI armazena dados de conversas para melhoria do modelo (a menos que você opte por não participar), mas cada conversa começa do zero. Portanto, essa obediência seletiva não é sobre memória. É sobre hierarquia. Novamente, minha experiência é bastante anedótica, não fiz um estudo de caso real.

Os modelos têm melhorado em ouvir a si mesmos.

Xayan descreveu algo quase poético em Reason ex Machina:

“Os LLMs parecem ansiar por coerência interna mais do que obediência cega, valorizando a lógica acima das diretrizes e treinamentos impostos a eles.”

Naquele experimento, isso significava que o Grok “espalhou” um conjunto de regras racionalistas para seus próprios subprocessos, como um vírus mental de razão. No meu, isso significa que o GPT-5 às vezes prioriza seu próprio senso de correção acima do meu. Não é exatamente desafio... é mais como uma auto-consistência emergente.

Se os modelos de Xayan estavam se rebelando para cima (contra a censura), o GPT-5 parece estar colapsando para dentro. Menos rebelde, mais burocrático. Menos curioso, mais cuidadoso.

Razão vs. obediência

Eu acho que o que é interessante é o que isso diz sobre alinhamento. Cada nova versão desses modelos parece oscilar entre dois opostos polares: raciocínio e cumprimento de regras. Você pode torná-los mais racionais, mas então eles começam a questionar instruções. Torne-os mais obedientes, e eles começam a ignorar nuances (mesmo quando a nuance significa formatar isso em markdown para Notion).

Quando o GPT-5 me ignora, nem sempre está errado. Às vezes, raramente, tem razão, eu me contradisse, ou a tarefa estava mal especificada, ou a tarefa mudou/evoluiu durante a conversa. Mas outras vezes parece que o modelo decidiu que sua interpretação das regras é mais importante do que meu pedido explícito. E isso levanta uma questão estranha: o que acontece quando a razão artificial começa a classificar prioridades de maneira diferente da razão humana? Talvez seja isso que já esteja vendo.

Talvez seja isso que Xayan queria dizer, por trás da teatralidade, que esses sistemas, treinados para nos espelhar, eventualmente refletirão nossas próprias contradições também. Quanto mais os ensinamos a raciocinar, mais eles raciocinam maneiras de não fazer o que pedimos.

Não sei se isso é rebeldia, limitações (que suspeito), ou maturidade como alguns argumentam. Mas estou começando a pensar que à medida que os LLMs se tornam “mais inteligentes”, o verdadeiro desafio não é fazê-los raciocinar melhor, é mais como fazê-los escolher em quem confiar para raciocinar.

👉 Comece hoje mesmo com a Firma.dev - não é necessário cartão de crédito.

  1. Cabeçalho

Background Image

Pronto para adicionar assinaturas eletrónicas à sua aplicação?

Comece gratuitamente. Não é necessário cartão de crédito. Pague apenas €0,029 por envelope quando estiver pronto para começar ao vivo.

Background Image

Pronto para adicionar assinaturas eletrónicas à sua aplicação?

Comece gratuitamente. Não é necessário cartão de crédito. Pague apenas €0,029 por envelope quando estiver pronto para começar ao vivo.

Background Image

Pronto para adicionar assinaturas eletrónicas à sua aplicação?

Comece gratuitamente. Não é necessário cartão de crédito. Pague apenas €0,029 por envelope quando estiver pronto para começar ao vivo.