PR #1050

open

Add Stack Integration + Legal TTT submission package

val_bpb

1.1194

Architecture

Transformer

Optimizer

Parallel Muon

Artifact Size

15,990,006 bytes

Training Techniques

Optimizer

Parallel Muon

weight_decay: null

momentum: null

other_params: null

Test-Time Training

full TTT

parameters: {"enabled":true}

Evaluation

stride-based eval

parameters: {"stride":64}

Sequence Length

sequence_length

train_length: null

eval_length: null

Compression

lzma

level: null

Architecture

weight tying

Promoted script is byte-identical to a proven record script; no explicit architecture change beyond the referenced submission setup is described.

parameters: null