COCONUT im Check: Funktioniert ‚Reasoning in Latent Space‘ wirklich?
Neue Studie deckt Schwächen des hypeten KI-Reasoning-Ansatzes auf
Das Paper COCONUT (Hao et al., 2024) versprach einen Durchbruch im KI-Reasoning: Statt Chain-of-Thought Tokens zu generieren, sollen Modelle direkt in deren latenten Raum denken – durch Recycling von Hidden States. Doch eine unabhängige Replikation zeigt: Der Effekt ist nicht ganz so revolutionär wie behauptet.
Was ist COCONUT?
COCONUT (Chain of Continuous Thought) ist ein Architektur-Ansatz, bei dem:
- Hidden States zwischen Denkschritten recycelt werden
- Keine expliziten Chain-of-Thought Tokens generiert werden müssen
- Das Modell angeblich effizienter in sich selbst denkt
Die ursprünglichen Ergebnisse waren beeindruckend: 97% auf ProsQA vs. nur 77% mit traditionellem Chain-of-Thought.
Die Kontrollstudie: Was wirklich passiert
Ein Forscher trainierte vier GPT-2 Modelle (124M Parameter) auf ProsQA und verglich:
- M1: CoT Baseline (kein Curriculum)
- M2: COCONUT Original-Architektur – 97.0%
- M3: Curriculum + feste Embeddings (kein Recycling) – 96.6%
- M4: Faktorielle Kontrolle – beste OOD-Performance
Das überraschende Ergebnis
Der entscheidende Befund: M3 erreicht 96.6% ohne Hidden State Recycling – statistisch nicht signifikant verschieden von M2. Das Curriculum-Training allein erklärt den Performance-Gewinn, nicht das Recycling der Hidden States.
Noch problematischer: Bei Out-of-Distribution Tests schneidet M4 10.9 Prozentpunkte besser ab als M2. Recycled Content schadet der Generalisierung!
Was lernen wir daraus?
- Curriculum Training > Architektur: Wie man trainiert, ist oft wichtiger als die Architektur
- Overconfidence-Problem: COCONUT ist selbstbewusster, aber nicht korrekter bei OOD-Daten
- Kontrollstudien sind essentiell: Beeindruckende Ergebnisse brauchen rigorose Überprüfung
Quelle: Reddit r/MachineLearning Community-Replikation