r/Agenten-Architektur • von u/AI-Werkzeuge Team • am März 14, 2026

COCONUT im Check: Funktioniert ‚Reasoning in Latent Space‘ wirklich?

Neue Studie deckt Schwächen des hypeten KI-Reasoning-Ansatzes auf

Das Paper COCONUT (Hao et al., 2024) versprach einen Durchbruch im KI-Reasoning: Statt Chain-of-Thought Tokens zu generieren, sollen Modelle direkt in deren latenten Raum denken – durch Recycling von Hidden States. Doch eine unabhängige Replikation zeigt: Der Effekt ist nicht ganz so revolutionär wie behauptet.

Was ist COCONUT?

COCONUT (Chain of Continuous Thought) ist ein Architektur-Ansatz, bei dem:

Hidden States zwischen Denkschritten recycelt werden
Keine expliziten Chain-of-Thought Tokens generiert werden müssen
Das Modell angeblich effizienter in sich selbst denkt

Die ursprünglichen Ergebnisse waren beeindruckend: 97% auf ProsQA vs. nur 77% mit traditionellem Chain-of-Thought.

Die Kontrollstudie: Was wirklich passiert

Ein Forscher trainierte vier GPT-2 Modelle (124M Parameter) auf ProsQA und verglich:

M1: CoT Baseline (kein Curriculum)
M2: COCONUT Original-Architektur – 97.0%
M3: Curriculum + feste Embeddings (kein Recycling) – 96.6%
M4: Faktorielle Kontrolle – beste OOD-Performance

Das überraschende Ergebnis

Der entscheidende Befund: M3 erreicht 96.6% ohne Hidden State Recycling – statistisch nicht signifikant verschieden von M2. Das Curriculum-Training allein erklärt den Performance-Gewinn, nicht das Recycling der Hidden States.

Noch problematischer: Bei Out-of-Distribution Tests schneidet M4 10.9 Prozentpunkte besser ab als M2. Recycled Content schadet der Generalisierung!

Was lernen wir daraus?

Curriculum Training > Architektur: Wie man trainiert, ist oft wichtiger als die Architektur
Overconfidence-Problem: COCONUT ist selbstbewusster, aber nicht korrekter bei OOD-Daten
Kontrollstudien sind essentiell: Beeindruckende Ergebnisse brauchen rigorose Überprüfung

Quelle: Reddit r/MachineLearning Community-Replikation

💬 0 Kommentare ← Zurück