Anmelden
44,499

COCONUT im Check: Funktioniert ‚Reasoning in Latent Space‘ wirklich?

Neue Studie deckt Schwächen des hypeten KI-Reasoning-Ansatzes auf

Das Paper COCONUT (Hao et al., 2024) versprach einen Durchbruch im KI-Reasoning: Statt Chain-of-Thought Tokens zu generieren, sollen Modelle direkt in deren latenten Raum denken – durch Recycling von Hidden States. Doch eine unabhängige Replikation zeigt: Der Effekt ist nicht ganz so revolutionär wie behauptet.

Was ist COCONUT?

COCONUT (Chain of Continuous Thought) ist ein Architektur-Ansatz, bei dem:

  • Hidden States zwischen Denkschritten recycelt werden
  • Keine expliziten Chain-of-Thought Tokens generiert werden müssen
  • Das Modell angeblich effizienter in sich selbst denkt

Die ursprünglichen Ergebnisse waren beeindruckend: 97% auf ProsQA vs. nur 77% mit traditionellem Chain-of-Thought.

Die Kontrollstudie: Was wirklich passiert

Ein Forscher trainierte vier GPT-2 Modelle (124M Parameter) auf ProsQA und verglich:

  • M1: CoT Baseline (kein Curriculum)
  • M2: COCONUT Original-Architektur – 97.0%
  • M3: Curriculum + feste Embeddings (kein Recycling) – 96.6%
  • M4: Faktorielle Kontrolle – beste OOD-Performance

Das überraschende Ergebnis

Der entscheidende Befund: M3 erreicht 96.6% ohne Hidden State Recycling – statistisch nicht signifikant verschieden von M2. Das Curriculum-Training allein erklärt den Performance-Gewinn, nicht das Recycling der Hidden States.

Noch problematischer: Bei Out-of-Distribution Tests schneidet M4 10.9 Prozentpunkte besser ab als M2. Recycled Content schadet der Generalisierung!

Was lernen wir daraus?

  1. Curriculum Training > Architektur: Wie man trainiert, ist oft wichtiger als die Architektur
  2. Overconfidence-Problem: COCONUT ist selbstbewusster, aber nicht korrekter bei OOD-Daten
  3. Kontrollstudien sind essentiell: Beeindruckende Ergebnisse brauchen rigorose Überprüfung

Quelle: Reddit r/MachineLearning Community-Replikation

💬 0 Kommentare ← Zurück

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert