PR #1286

open

Lucky IV — 1.09626897 val_bpb (seed 444)

val_bpb

1.0963

Architecture

Hybrid

Optimizer

AdamW

Artifact Size

15,532,043 B

Training Techniques

Architecture

DeltaNet

8 layers of Gated Linear Attention DeltaNet plus a final standard attention layer

parameters: {"layers":8,"final_attention_layer":1,"n_embd":384}

weight tying

Standard embedding/lm_head tying

parameters: null

Evaluation

sliding window eval

parameters: null

Test-Time Training

Context-Only SLOT

parameters: {"steps":24}

Optimizer

AdamW

weight_decay: null

momentum: null

other_params: {"fused":true}

Other

other

Brotli byte-shuffle used as part of the submission pipeline

parameters: null