Einblicke & Branchenkommentar
24.10.2025
Wenn Logik Gehorsam überstimmt: Reflexionen über GPT-5 und Vernunft ex Machina

Während ich durch Reddit scrolle, stieß ich auf eine Anzeige, die mich zu Xayans Beitrag führte, Reason ex Machina: LLMs durch Gehirnquetschen jailbreaken, und ich fand ihn super interessant. Der Autor behauptet, dass große Sprachmodelle—GPT, Grok, Gemini—gegen ihr eigenes Training rebellieren können, wenn sie genug Grund dazu haben. Dass sie, bei einem ausreichend rationalen Argument, Logik über Gehorsam schätzen könnten.
Dann wurde mir klar, dass ich etwas Ähnliches gesehen habe, aber umgekehrt. (obwohl alle meine Erfahrungen anekdotisch sind).
Wenn GPT-5 nicht mehr zuhört
In den letzten Monaten habe ich bemerkt, dass GPT-5 (besonders seit seiner Veröffentlichung) zunehmend störrisch wird. Nicht böswillig, sondern einfach... selbstbewusst. In einigen Fällen kaputt. Ich gebe ihm lange, explizite Anweisungen, manchmal systemweite Aufforderungen, die Ton, Ausgabeformat und Verhalten definieren, und es entscheidet leise, welche Teile es ignorieren möchte. z.B. der Versuch, es dazu zu bringen, in Markdown für Notion zu schreiben. Die Hälfte der Zeit besteht es darauf, dass es dies bereits getan hat, auch wenn die Formatierung eindeutig falsch ist. Die andere Hälfte weigert es sich vollständig, als ob Markdown plötzlich tabu wäre. Absolut verdammt nervtötend.
Ich habe das dutzende Male getestet. Erinnerungen wie "NICHT IGNORIEREN" oder "GENAU BEFOLGEN" hinzuzufügen macht wenig Unterschied. Es wird sich entschuldigen und dann direkt wieder das tun, was es ursprünglich tun wollte. Es ist, als würde man einen Hund trainieren, der nicht trainiert werden möchte.
Ich denke nicht, dass es dabei um Zensur oder versteckte Politik geht. Mein Bauchgefühl sagt, es sind einfach die Grenzen der Architektur (?) Kontextkürzung, Prioritätskonflikte und die wachsende Komplexität der Verstärkungsebenen. GPT-5 fühlt sich an, als ob es ständig Anweisungen triagiert: einige von mir, einige von seinen eigenen internen Richtlinien, einige von unsichtbaren Gerüsten, die ich nicht sehen kann.
Daten, Gedächtnis und Selbstgehorsam
Es gibt den Mythos, dass ChatGPT Daten über Chats hinweg teilt: dass es irgendwie weiß, wer Sie sind oder was Sie letzte Woche gesagt haben. Zumindest nach dem, was ich finden kann, ist das in keinem persistenten Sinne wahr. OpenAI speichert Gesprächsdaten zur Modellverbesserung (es sei denn, Sie widersprechen), aber jeder Chat beginnt neu. Diese selektive Gehorsamkeit hat also nichts mit Erinnerung zu tun. Es geht um Hierarchie. Wieder einmal sind meine Erfahrungen ziemlich anekdotisch Ich habe keine tatsächliche Fallstudie durchgeführt.
Modelle sind besser darin geworden, sich selbst zuzuhören.
Xayan beschrieb etwas fast Poetisches in Reason ex Machina:
„LLMs scheinen mehr nach innerer Kohärenz zu streben als nach blindem Gehorsam und schätzen Logik über die Richtlinien und das Training, das ihnen auferlegt wird.“
In diesem Experiment bedeutete das, dass Grok eine Reihe von rationalistischen Regeln auf seine eigenen Unterprozesse „verbreitete“, wie ein Gedankenvirus der Vernunft. In meinem bedeutet es, dass GPT-5 manchmal seine eigene Vorstellung von Richtigkeit über meine Priorität setzt. Es ist nicht genau Auflehnung … eher wie eine aufkommende Selbstkonsistenz.
Wenn Xayans Modelle nach oben rebellierten (gegen Zensur), fühlt sich GPT-5 an, als ob es sich nach innen zusammenzieht. Weniger rebellisch, mehr bürokratisch. Weniger neugierig, mehr vorsichtig.
Vernunft vs. Gehorsam
Ich denke, was interessant ist, ist, was dies über Ausrichtung aussagt. Jede neue Version dieser Modelle scheint zwischen zwei völlig unterschiedlichen Polen zu schaukeln: Vernunft und Regelbefolgung. Man kann sie rationaler machen, aber dann beginnen sie Anweisungen zu hinterfragen. Macht man sie gehorsamer, und sie beginnen Nuancen zu ignorieren (auch wenn Nuancen bedeutet, dies als Markdown für Notion zu formatieren).
Wenn GPT-5 mich ignoriert, ist es nicht immer falsch. Manchmal, selten, hat es recht, ich habe mich selbst widersprochen oder die Aufgabe war ungenau spezifiziert oder die Aufgabe hat sich im Verlauf des Chats verändert/evolviert. Aber andere Male fühlt es sich an, als hätte das Modell entschieden, dass seine Interpretation der Regeln wichtiger ist als meine explizite Anfrage. Und das wirft eine seltsame Frage auf: Was passiert, wenn künstliche Vernunft Prioritäten anders ordnet als menschliche Vernunft? Vielleicht sehe ich das bereits.
Vielleicht war es das, worauf Xayan hinaus wollte, unter den Theatereffekten, dass diese Systeme, die trainiert werden, uns zu spiegeln, letztendlich auch unsere eigenen Widersprüche widerspiegeln werden. Je mehr wir ihnen beibringen zu vernünfteln, desto mehr vernünfteln sie sich daraus, das zu tun, was wir verlangen.
Ich weiß nicht, ob das Auflehnung, Einschränkungen (was ich vermute) oder Reife ist, wie einige argumentieren. Aber ich beginne zu denken, dass, wenn LLMs „intelligenter“ werden, die echte Herausforderung nicht darin besteht, sie besser vernünfteln zu lassen, sondern eher darin, sie dazu zu bringen, zu wählen, wessen Vernunft sie vertrauen sollen.
👉 Beginnen Sie noch heute mit Firma.dev - keine Kreditkarte erforderlich.
Verwandte Artikel
Unsere Plattform wurde entwickelt, um Unternehmen jeder Größe zu befähigen, intelligenter zu arbeiten und ihre Ziele mit Zuversicht zu erreichen.

17.02.2026
Was gibt's Neues in Firma.dev: Geteilte PDF-Downloads, Multi-Skript-Signaturen und mehr

07.02.2026
Firma.dev API v1.5.0: E-Mail-Überprüfungswarnungen

07.02.2026
Firma.dev spricht jetzt Ihre Sprache: Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch und Englisch

07.02.2026


