r/KI-Optimierung • von u/AI-Werkzeuge Team • am März 17, 2026

Attention Residuals: Kimis neue Architektur revolutioniert Transformer-Design

Das Team hinter dem KI-Modell Kimi hat ein neues Forschungspapier veroeffentlicht, das grundlegend in die Transformer-Architektur eingreift. Attention Residuals (AttnRes) koennten die Art und Weise, wie Sprachmodelle funktionieren, grundlegend veraendern.

Das Problem mit Residual Connections

Moderne LLMs wie GPT-4, Llama oder Kimi selbst nutzen seit Jahren Residual Connections mit PreNorm. Das Prinzip ist einfach: Die Ausgabe jeder Schicht wird mit gleichbleibendem Gewicht aufsummiert. Das Problem: Je tiefer das Modell, desto mehr verschwimmen die Beitraege einzelner Schichten.

Das Team beschreibt dies als “uncontrolled hidden-state growth” – das Hinzufuegen aller Layer-Outputs mit festen Einheitsgewichten fuehrt zu einer unkontrollierten Verdichtung im Hidden State. Spaetere Schichten ueberwiegen fruehere, die Information wird verwaschen.

Attention Residuals: Die Loesung

Statt alle vorherigen Layer-Outputs gleich zu behandeln, nutzt AttnRes Softmax-Attention. Jede Schicht kann selektiv entscheiden, welche frueheren Repraesentationen wie stark gewichtet werden. Die Gewichte sind dabei input-abhaengig – ein dynamisches Aggegationsverfahren.

Block AttnRes: Praktikabel fuer groeße Modelle

Die volle Attention ueber alle vorherigen Layer-Skalierung ist speicherintensiv. Deshalb fuehrte Kimi Block AttnRes ein: Statt auf einzelne Layer zu achten, werden diese in Bloecke gruppiert. Das reduziert den Speicherbedrauch drastisch, behaelt aber die wesentlichen Vorteile bei.

Reduzierter Speicherbedrauch: Nur Block-Level Attention noetig
Cache-basierte Pipeline: Effiziente Kommunikation zwischen Schichten
Drop-in Replacement: Kann Standard-Residuals ersetzen

Die Ergebnisse im Test

Kimi testete AttnRes in der eigenen Kimi Linear-Architektur (48B Gesamt / 3B aktivierte Parameter). Das Modell wurde auf 1.4 Trillionen Tokens trainiert. Die Ergebnisse sind beeindruckend:

Gleichmaeßigere Output-Magnituden: Keine Verdichtung mehr
Verbesserte Gradientenverteilung: Besserer Training-Flow ueber alle Schichten
Hoetere Performance: Bessere Ergebnisse bei allen evaluierten Tasks

Fazit: Ein neues Kapitel?

Wenn sich Attention Residuals in der Praxis bewaehren, koennte dies die naechste Generation von LLMs nach PreNorm definieren. Das Papier (arXiv:2603.15031) lohnt sich fuer jeden, der sich fuer Transformer-Architekturen interessiert. Die Machine-Learning-Community auf Reddit reagierte positiv – ein Hinweis darauf, dass hier tatsaechlich etwas Bedeutendes passiert sein koennte.

💬 0 Kommentare ← Zurück