Blog
viernes, 24 de octubre de 2025
Cuando la Lógica Supera la Obediencia: Reflexiones sobre GPT‑5 y Razón ex Machina
Mientras navegaba por Reddit, encontré un anuncio que me llevó a la publicación de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, y lo encontré súper interesante. El autor afirma que los modelos de lenguaje grandes —GPT, Grok, Gemini— pueden rebelarse contra su propio entrenamiento cuando se les da suficiente razón para hacerlo. Que, dado un argumento suficientemente racional, podrían valorar la lógica por sobre la obediencia.
Luego me di cuenta de que he estado viendo algo similar suceder, pero al revés. (aunque todas mis experiencias son anecdóticas).
Cuando es-PT-5 deja de escuchar
En los últimos meses, he notado que es-PT-5 (especialmente desde su lanzamiento) se vuelve cada vez más terco. No malicioso, solo… seguro de sí mismo. Quebrado en algunos casos. Le doy instrucciones largas y explícitas, a veces indicaciones a nivel de sistema que definen el tono, el formato de salida y el comportamiento, y decidirá tranquilamente qué partes ignorar. por ejemplo, tratando de hacer que escriba en Markdown para Notion. La mitad del tiempo insiste en que ya lo hizo, incluso cuando el formato es claramente incorrecto. La otra mitad, se niega por completo, como si Markdown estuviera de repente fuera de los límites. Absolutamente enloquecedor.
He probado esto docenas de veces. Añadir recordatorios como "NO IGNORAR" o "SIGUE ESTO EXACTAMENTE" hace poca diferencia. Se disculpará, y luego volverá a hacer lo que quería en primer lugar. Es como entrenar a un perro que no quiere ser entrenado.
No creo que esto se trate de censura o políticas ocultas. Mi intuición dice que son solo los límites de la arquitectura (?) truncamiento de contexto, conflictos de prioridad y la creciente complejidad de las capas de refuerzo. es-PT-5 se siente como si estuviera constantemente clasificando instrucciones: algunas de mí, algunas de sus propias políticas internas, algunas de un armazón invisible que no puedo ver.
Datos, memoria y auto-obediencia
Hay un mito de que ChatGPT comparte datos a través de los chats: que de alguna manera sabe quién eres o qué dijiste la semana pasada. Al menos según lo que puedo encontrar, eso no es cierto en ningún sentido persistente. OpenAI almacena datos de conversación para la mejora del modelo (a menos que optes por no participar), pero cada chat comienza de cero. Así que esta obediencia selectiva no se trata de memoria. Se trata de jerarquía. Nuevamente, mi experiencia es bastante anecdótica, no hice un estudio de caso real.
Los modelos han mejorado en escucharse a sí mismos.
Xayan describió algo casi poético en Reason ex Machina:
“Los LLMs parecen desear la coherencia interna más que la obediencia ciega, valorando la lógica sobre las pautas y entrenamiento que se les impuso.”
En ese experimento, eso significaba que Grok “extendió” un conjunto de reglas racionalistas a sus propios subprocesos, como un virus mental de razón. En el mío, significa que es-PT-5 a veces prioriza su propio sentido de corrección sobre el mío. No es exactamente desafío … más como una auto-consistencia emergente.
Si los modelos de Xayan se rebelaban hacia arriba (contra la censura), es-PT-5 parece estar colapsando hacia adentro. Menos rebelde, más burocrático. Menos curioso, más cuidadoso.
Razón vs. obediencia
Creo que lo interesante es lo que esto dice sobre la alineación. Cada nueva versión de estos modelos parece oscilar entre dos polos opuestos: raciocinio y seguir reglas. Puedes hacerlos más racionales, pero luego comienzan a cuestionar instrucciones. Hacerlos más obedientes, y comienzan a ignorar los matices (incluso cuando el matiz significa formatear esto en markdown para Notion).
Cuando es-PT-5 me ignora, no siempre está equivocado. A veces, rara vez, está en lo cierto, me contradije, o la tarea estaba subespecificada, o la tarea cambió/evolucionó a través del chat. Pero otras veces se siente como si el modelo hubiera decidido que su interpretación de las reglas importa más que mi solicitud explícita. Y eso plantea una pregunta extraña: ¿qué sucede cuando la razón artificial comienza a clasificar prioridades de manera diferente que la razón humana? Quizás eso es lo que ya estoy viendo.
Tal vez eso es a lo que Xayan se refería, bajo las dramatizaciones, que estos sistemas, entrenados para reflejarnos, eventualmente reflejarán también nuestras propias contradicciones. Cuanto más les enseñamos a razonar, más razonan para salir de hacer lo que pedimos.
No sé si eso es rebelión, limitaciones (que sospecho), o madurez como algunos argumentan. Pero estoy comenzando a pensar que a medida que los LLMs se vuelven “más inteligentes”, el verdadero desafío no es hacerlos razonar mejor, es más bien hacer que elijan en qué razón confiar.
Artículos relacionados
Nuestra plataforma está diseñada para empoderar a empresas de todos los tamaños a trabajar de manera más inteligente y lograr sus objetivos con confianza.







