Attention Residuals: Kimis neue Architektur revolutioniert Transformer-Design
Das Team hinter dem KI-Modell Kimi hat ein neues Forschungspapier veroeffentlicht, das grundlegend in die Transformer-Architektur eingreift. Attention Residuals (AttnRes) koennten die Art und Weise, wie Sprachmodelle funktionieren, grundlegend veraendern.
Das Problem mit Residual Connections
Moderne LLMs wie GPT-4, Llama oder Kimi selbst nutzen seit Jahren Residual Connections mit PreNorm. Das Prinzip ist einfach: Die Ausgabe jeder Schicht wird mit gleichbleibendem Gewicht aufsummiert. Das Problem: Je tiefer das Modell, desto mehr verschwimmen die Beitraege einzelner Schichten.
Das Team beschreibt dies als “uncontrolled hidden-state growth” – das Hinzufuegen aller Layer-Outputs mit festen Einheitsgewichten fuehrt zu einer unkontrollierten Verdichtung im Hidden State. Spaetere Schichten ueberwiegen fruehere, die Information wird verwaschen.
Attention Residuals: Die Loesung
Statt alle vorherigen Layer-Outputs gleich zu behandeln, nutzt AttnRes Softmax-Attention. Jede Schicht kann selektiv entscheiden, welche frueheren Repraesentationen wie stark gewichtet werden. Die Gewichte sind dabei input-abhaengig – ein dynamisches Aggegationsverfahren.
Block AttnRes: Praktikabel fuer groeße Modelle
Die volle Attention ueber alle vorherigen Layer-Skalierung ist speicherintensiv. Deshalb fuehrte Kimi Block AttnRes ein: Statt auf einzelne Layer zu achten, werden diese in Bloecke gruppiert. Das reduziert den Speicherbedrauch drastisch, behaelt aber die wesentlichen Vorteile bei.
- Reduzierter Speicherbedrauch: Nur Block-Level Attention noetig
- Cache-basierte Pipeline: Effiziente Kommunikation zwischen Schichten
- Drop-in Replacement: Kann Standard-Residuals ersetzen
Die Ergebnisse im Test
Kimi testete AttnRes in der eigenen Kimi Linear-Architektur (48B Gesamt / 3B aktivierte Parameter). Das Modell wurde auf 1.4 Trillionen Tokens trainiert. Die Ergebnisse sind beeindruckend:
- Gleichmaeßigere Output-Magnituden: Keine Verdichtung mehr
- Verbesserte Gradientenverteilung: Besserer Training-Flow ueber alle Schichten
- Hoetere Performance: Bessere Ergebnisse bei allen evaluierten Tasks
Fazit: Ein neues Kapitel?
Wenn sich Attention Residuals in der Praxis bewaehren, koennte dies die naechste Generation von LLMs nach PreNorm definieren. Das Papier (arXiv:2603.15031) lohnt sich fuer jeden, der sich fuer Transformer-Architekturen interessiert. Die Machine-Learning-Community auf Reddit reagierte positiv – ein Hinweis darauf, dass hier tatsaechlich etwas Bedeutendes passiert sein koennte.