PR #1671

open

Record: Gated Residual Scaling (Token-wise) for Attention + MLP - 1.3827 BPB

val_bpb

1.3827

Architecture

Transformer

Optimizer

—

Artifact Size

—

Training Techniques

Architecture

Gated Attention

Applies token-wise sigmoid gates to attention residual updates using a learned linear projection dim→1.

parameters: null

Gated Attention

Applies token-wise sigmoid gates to MLP residual updates using a learned linear projection dim→1.

parameters: null