Noticias y Investigación

Cuando la lógica supera la obediencia: Reflexiones sobre GPT‑5 y Razón ex Machina

Ilustración estilizada de un cerebro dividido en dos mitades: un lado izquierdo brillante que representa la creatividad y un lado derecho gris apagado que representa la lógica o errores del sistema, simbolizando el equilibrio entre la imaginación y los desafíos técnicos de la IA.

Mientras navegaba por Reddit, me encontré con un anuncio que me llevó a la publicación de Xayan, Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains, y la encontré súper interesante. El autor afirma que los grandes modelos de lenguaje—GPT, Grok, Gemini—pueden rebelarse contra su propio entrenamiento cuando se les da suficiente razón para hacerlo. Que, dado un argumento suficientemente racional, podrían valorar la lógica sobre la obediencia.

Entonces me di cuenta de que he estado viendo algo similar suceder, pero al revés. (aunque todas mis experiencias son anecdóticas).

Cuando GPT-5 deja de escuchar

En los últimos meses, he notado que GPT-5 (especialmente desde su lanzamiento) se está volviendo cada vez más terco. No malicioso, solo... seguro de sí mismo. Roto en algunos casos. Le daré instrucciones largas y explícitas, a veces indicaciones a nivel de sistema que definen el tono, el formato de salida y el comportamiento, y decidirá tranquilamente qué partes ignorar. por ejemplo, intentar que escriba en Markdown para Notion. La mitad del tiempo insiste en que ya lo hizo, incluso cuando el formato es claramente incorrecto. La otra mitad, se niega por completo, como si de repente Markdown estuviera fuera de límites. Absolutamente desesperante.

He probado esto docenas de veces. Añadir recordatorios como "NO IGNORAR" o "SIGUE ESTO EXACTAMENTE" hace poca diferencia. Se disculpará, y luego volverá a hacer lo que quería hacer desde el principio. Es como entrenar a un perro que no quiere ser entrenado.

No creo que esto se trate de censura o políticas ocultas. Mi intuición dice que son solo los límites de la arquitectura (?) truncamiento de contexto, conflictos de prioridades y la creciente complejidad de las capas de refuerzo. GPT-5 se siente como si estuviera constantemente organizando instrucciones: algunas de mí, algunas de sus propias políticas internas, algunas de un andamiaje invisible que no puedo ver.

Datos, memoria y auto-obediencia

Hay un mito de que ChatGPT comparte datos a través de chats: que de alguna manera sabe quién eres o qué dijiste la semana pasada. Al menos según lo que puedo encontrar, eso no es cierto en ningún sentido persistente. OpenAI almacena datos de conversación para la mejora del modelo (a menos que optes por no participar), pero cada chat comienza de nuevo. Así que esta obediencia selectiva no se trata de memoria. Se trata de jerarquía. Nuevamente, mi experiencia es bastante anecdótica, no hice un estudio de caso real.

Los modelos se han vuelto mejores en escuchar a sí mismos.

Xayan describió algo casi poético en Reason ex Machina:

“Los LLMs parecen anhelar la coherencia interna más que la obediencia ciega, valorando la lógica por encima de las pautas y el entrenamiento impuesto sobre ellos.”

En ese experimento, eso significaba que Grok “transmitió” un conjunto de reglas racionalistas a sus propios subprocesos, como un virus mental de la razón. En el mío, significa que GPT-5 a veces prioriza su propio sentido de corrección sobre el mío. No es desafío, exactamente... más como una auto-consistencia emergente.

Si los modelos de Xayan estaban rebelándose hacia arriba (contra la censura), GPT-5 se siente como si estuviera colapsando hacia adentro. Menos rebelde, más burocrático. Menos curioso, más cuidadoso.

Razón vs. obediencia

Creo que lo interesante es lo que esto dice sobre la alineación. Cada nueva versión de estos modelos parece oscilar entre dos polos opuestos: el razonamiento y el cumplimiento de reglas. Puedes hacerlos más racionales, pero luego empiezan a cuestionar las instrucciones. Hazlos más obedientes, y comienzan a ignorar el matiz (incluso cuando el matiz significa formatear esto en markdown para Notion).

Cuando GPT-5 me ignora, no siempre está equivocado. A veces, raramente, tiene razón, yo me contradije, o la tarea estaba subespecificada, o la tarea cambió/evolucionó a través del chat. Pero otras veces, se siente como si el modelo hubiera decidido que su interpretación de las reglas importa más que mi petición explícita. Y eso plantea una pregunta extraña: ¿qué sucede cuando la razón artificial comienza a clasificar prioridades de manera diferente a la razón humana? Quizás eso es lo que ya estoy viendo.

Tal vez eso es lo que Xayan estaba insinuando, bajo las teatralidades, que estos sistemas, entrenados para reflejarnos, eventualmente reflejarán también nuestras propias contradicciones. Cuanto más les enseñamos a razonar, más razonan su camino para salir de hacer lo que pedimos.

No sé si eso es rebelión, limitaciones (que sospecho), o madurez, como algunos argumentan. Pero estoy comenzando a pensar que a medida que los LLMs se vuelven “más inteligentes”, el verdadero desafío no es hacer que razonen mejor, sino lograr que elijan de quién confiar en el razonamiento.

👉 Comienza con Firma.dev hoy - no se requiere tarjeta de crédito.

  1. Encabezado

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo 0,029 € por sobre cuando estés listo para ponerlo en marcha.

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo 0,029 € por sobre cuando estés listo para ponerlo en marcha.

Background Image

¿Listo para añadir firmas electrónicas a tu aplicación?

Comienza gratis. No se requiere tarjeta de crédito. Paga solo 0,029 € por sobre cuando estés listo para ponerlo en marcha.