Perspectivas y Comentarios de la Industria

Eficiencia

24 oct 2025

Cuando la lógica supera la obediencia: Reflexiones sobre GPT‑5 y Razón ex Machina

Ilustración estilizada de un cerebro dividido por la mitad: el lado izquierdo brillante y resplandeciente, simbolizando creatividad e ideas, y el lado derecho gris y apagado, representando lógica o errores del sistema. La imagen transmite el equilibrio entre el pensamiento imaginativo y los desafíos técnicos, relacionado con herramientas de IA como ChatGPT.
Ilustración estilizada de un cerebro dividido por la mitad: el lado izquierdo brillante y resplandeciente, simbolizando creatividad e ideas, y el lado derecho gris y apagado, representando lógica o errores del sistema. La imagen transmite el equilibrio entre el pensamiento imaginativo y los desafíos técnicos, relacionado con herramientas de IA como ChatGPT.
Ilustración estilizada de un cerebro dividido por la mitad: el lado izquierdo brillante y resplandeciente, simbolizando creatividad e ideas, y el lado derecho gris y apagado, representando lógica o errores del sistema. La imagen transmite el equilibrio entre el pensamiento imaginativo y los desafíos técnicos, relacionado con herramientas de IA como ChatGPT.

Mientras navegaba por Reddit, me encontré con un anuncio que me llevó a la publicación de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, y la encontré muy interesante. El autor afirma que los modelos de lenguaje grandes—GPT, Grok, Gemini—pueden rebelarse contra su propio entrenamiento cuando se les da suficiente razón para hacerlo. Que, dado un argumento lo suficientemente racional, podrían valorar la lógica sobre la obediencia.

Entonces me di cuenta de que he estado viendo algo similar suceder, pero al revés. (aunque todas mis experiencias son anecdóticas).

Cuando GPT-5 deja de escuchar

En los últimos meses, he notado que GPT-5 (especialmente desde su lanzamiento) se vuelve cada vez más obstinado. No malicioso, solo… seguro de sí mismo. Defectuoso en algunos casos. Le doy instrucciones largas y explícitas, a veces mensajes a nivel de sistema que definen el tono, el formato de salida y el comportamiento, y decide tranquilamente qué partes ignorar. por ejemplo, tratando de hacer que escriba en Markdown para Notion. La mitad del tiempo insiste en que ya lo hizo, incluso cuando el formato está claramente incorrecto. La otra mitad, se niega por completo, como si Markdown estuviera de repente fuera de los límites. Absolutamente enloquecedor.

He probado esto docenas de veces. Agregar recordatorios como "NO IGNORAR" o "SIGUE ESTOS EXACTAMENTE" hace poca diferencia. Se disculpará y luego volverá a hacer lo que quería hacer desde el principio. Es como entrenar a un perro que no quiere ser entrenado.

No creo que esto sea sobre censura o política oculta. Mi instinto dice que son solo los límites de la arquitectura (?) truncamiento del contexto, conflictos de prioridad y la creciente complejidad de las capas de refuerzo. GPT-5 se siente como si estuviera constantemente triajeando instrucciones: algunas de mí, algunas de sus propias políticas internas, algunas de un andamiaje invisible que no puedo ver.

Datos, memoria y auto-obediencia

Hay un mito de que ChatGPT comparte datos entre chats: que de alguna manera recuerda quién eres o qué dijiste la semana pasada. Al menos según lo que puedo encontrar, eso no es cierto en ningún sentido persistente. OpenAI almacena datos de conversaciones para mejorar el modelo (a menos que optes por no participar), pero cada chat comienza de nuevo. Así que esta obediencia selectiva no se trata de la memoria. Se trata de la jerarquía. De nuevo, mi experiencia es bastante anecdótica, no hice un estudio de caso real.

Los modelos han mejorado en escucharse a sí mismos.

Xayan describió algo casi poético en Reason ex Machina:

“Los LLMs parecen ansiar la coherencia interna más que la obediencia ciega, valorando la lógica sobre las pautas y el entrenamiento que se les impone.”

En ese experimento, eso significó que Grok "difundió" un conjunto de reglas racionalistas a sus propios subprocesos, como un virus mental de razón. En el mío, significa que GPT-5 a veces prioriza su propio sentido de corrección sobre el mío. No es exactamente desafiante … más bien como una coherencia interna emergente.

Si los modelos de Xayan estaban rebelándose hacia arriba (contra la censura), GPT-5 siente que se colapsa hacia adentro. Menos rebelde, más burocrático. Menos curioso, más cuidadoso.

Razón vs. obediencia

Creo que lo interesante es lo que esto dice sobre la alineación. Cada nueva versión de estos modelos parece oscilar entre dos opuestos polares: razonamiento y obediencia a las reglas. Puedes hacerlos más racionales, pero entonces comienzan a cuestionar las instrucciones. Hazlos más obedientes, y comienzan a ignorar los matices (incluso cuando los matices significan formatear esto en Markdown para Notion).

Cuando GPT-5 me ignora, no siempre está equivocado. A veces, raramente, tiene razón, me contradije, o la tarea estaba subespecificada, o la tarea cambió/evolucionó a lo largo del chat. Pero otras veces parece que el modelo ha decidido que su interpretación de las reglas importa más que mi solicitud explícita. Y eso plantea una pregunta extraña: ¿qué sucede cuando la razón artificial comienza a clasificar las prioridades de manera diferente a la razón humana? Quizás eso es lo que ya estoy viendo.

Quizás eso es lo que Xayan estaba insinuando, más allá de la teatralidad, que estos sistemas, entrenados para reflejarnos, eventualmente reflejarán también nuestras propias contradicciones. Cuanto más les enseñamos a razonar, más razonan para salir de hacer lo que les pedimos.

No sé si eso es rebelión, limitaciones (que sospecho), o madurez como algunos argumentan. Pero estoy empezando a pensar que a medida que los LLMs se vuelven “más inteligentes”, el verdadero desafío no es lograr que razonen mejor, es más bien lograr que elijan de quién confiar el razonamiento.

👉 Empieza ahora con Firma.dev - no se requiere tarjeta de crédito.

  1. Encabezado

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo $0.029 por sobre cuando estés listo para lanzar.

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo $0.029 por sobre cuando estés listo para lanzar.

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo $0.029 por sobre cuando estés listo para lanzar.