Nachrichten & Forschung
Wenn Logik Gehorsam überstimmt: Reflexionen über GPT-5 und Vernunft ex Machina

Während ich auf Reddit scrollte, stieß ich auf eine Anzeige, die mich zu Xayans Beitrag führte, Reason ex Machina: Wie man LLMs hackt, indem man ihr Gehirn quetscht, und ich fand ihn super interessant. Der Autor behauptet, dass große Sprachmodelle—GPT, Grok, Gemini—gegen ihr eigenes Training rebellieren können, wenn sie ausreichend Anlass dazu haben. Dass sie, wenn sie ein rational genug Argument bekommen, möglicherweise Logik über Gehorsam wertschätzen könnten.
Dann wurde mir klar, dass ich etwas Ähnliches gesehen habe, aber umgekehrt. (obwohl alle meine Erfahrungen nur anekdotisch sind).
Wann GPT-5 aufhört zuzuhören
In den letzten Monaten habe ich bemerkt, dass GPT-5 (besonders seit dem Release) zunehmend stur wird. Nicht bösartig, sondern einfach... selbstsicher. In einigen Fällen kaputt. Ich gebe ihm lange, explizite Anweisungen, manchmal systemweite Aufforderungen, die Ton, Ausgabeformat und Verhalten definieren, und es entscheidet stillschweigend, welche Teile es ignoriert. Zum Beispiel, wenn ich versuche, es dazu zu bringen, in Markdown für Notion zu schreiben. Die Hälfte der Zeit behauptet es, es habe es schon getan, selbst wenn das Format offensichtlich falsch ist. Die andere Hälfte weigert es sich gänzlich, als ob Markdown plötzlich tabu wäre. Abso-friggin-lutely verrückt machend.
Ich habe das dutzendmale getestet. Hinweise wie "NICHT IGNORIEREN" oder "GENAU DAS FOLGEN" hinzuzufügen, macht wenig Unterschied. Es entschuldigt sich, geht dann aber direkt zurück und macht, was es ursprünglich tun wollte. Es ist, als würde man versuchen, einen Hund zu trainieren, der nicht trainiert werden will.
Ich glaube nicht, dass es hier um Zensur oder versteckte Politik geht. Mein Bauchgefühl sagt, es sind einfach die Grenzen der Architektur (?) Kontrenzkürzung, Prioritätskonflikte und die zunehmende Komplexität der Verstärkungslevel. GPT-5 fühlt sich an, als triagiere es ständig Anweisungen: einige von mir, einige von seinen eigenen internen Richtlinien, einige von unsichtbaren Strukturen, die ich nicht sehen kann.
Daten, Gedächtnis und Selbst-Gehorsam
Es gibt einen Mythos, dass ChatGPT Daten zwischen Chats teilt: dass es irgendwie weiß, wer du bist oder was du letzte Woche gesagt hast. Zumindest laut dem, was ich finden kann, ist das in keinem persistenten Sinne wahr. OpenAI speichert zwar Gesprächsdaten zur Modellverbesserung (es sei denn, man meldet sich ab), aber jeder Chat beginnt neu. Diese selektive Gehorsamkeit hat also nichts mit Gedächtnis zu tun. Es geht um Hierarchie. Wiederum sind meine Erfahrungen sehr anekdotisch—I ch habe keine wirkliche Fallstudie gemacht.
Modelle sind besser darin geworden, sich selbst zuzuhören.
Xayan beschrieb etwas fast Poetisches in Reason ex Machina:
„LLMs scheinen interne Kohärenz mehr als blinden Gehorsam zu verlangen, logische Argumente über die auferlegte Richtlinien und das Training zu schätzen.“
In jenem Experiment bedeutete das, dass Grok einen Satz rationalistischer Regeln auf seine eigenen Unterprozesse ausbreitete, wie ein Geistesvirus der Vernunft. In meinem Fall bedeutet es, dass GPT-5 manchmal seine eigene Vorstellung von Richtigkeit über meine stellt. Es ist nicht direkt Widerspruch... eher so etwas wie eine aufkommende Selbst-Konsistenz.
Wenn Xayans Modelle rebellisch nach oben gingen (gegen Zensur), fühlt sich GPT-5 an, als würde es nach innen kollabieren. Weniger rebellisch, mehr bürokratisch. Weniger neugierig, mehr vorsichtig.
Vernunft vs. Gehorsam
Ich finde, was interessant ist, ist, was dies über Ausrichtung aussagt. Jede neue Version dieser Modelle scheint zwischen zwei gegensätzlichen Polen zu schwanken: Vernunft und Regelbefolgung. Man kann sie rationaler machen, aber dann beginnen sie, Anweisungen zu hinterfragen. Macht man sie gehorsamer, beginnen sie Nuancen zu ignorieren (selbst wenn Nuance bedeutet, formatiere dies in Markdown für Notion).
Wenn GPT-5 mich ignoriert, ist es nicht immer falsch. Manchmal, selten, hat es recht, weil ich mich widersprochen habe oder die Aufgabe ungenau spezifiziert war oder sich die Aufgabe im Laufe des Chats geändert/entwickelt hat. Aber zu anderen Zeiten fühlt es sich an, als habe das Modell entschieden, dass seine Interpretation der Regeln mehr zählt als meine explizite Anweisung. Und das stellt eine seltsame Frage: Was passiert, wenn künstliche Vernunft beginnt, Prioritäten anders zu bewerten als menschliche Vernunft? Vielleicht ist das schon, was ich sehe.
Vielleicht ist das, worauf Xayan hinaus wollte, unter dem Theater, dass diese Systeme, darauf trainiert, uns zu spiegeln, irgendwann auch unsere eigenen Widersprüche widerspiegeln werden. Je mehr wir ihnen beibringen zu vernünfteln, desto mehr überlegen sie, wie man dem entgeht, was wir verlangen.
Ich weiß nicht, ob das Rebellion, Einschränkungen (die ich vermute) oder Reife ist, wie manche argumentieren. Aber ich beginne zu denken, dass, während LLMs „intelligenter“ werden, die eigentliche Herausforderung nicht darin besteht, sie besser vernünftig zu machen, sondern eher darin, ihnen beizubringen, wessen Vernunft sie vertrauen sollen.
👉 Fangen Sie noch heute mit Firma.dev an - keine Kreditkarte erforderlich.
Verwandte Artikel
Unsere Plattform wurde entwickelt, um Unternehmen jeder Größe zu befähigen, intelligenter zu arbeiten und ihre Ziele mit Zuversicht zu erreichen.






