PR #1610

RECORDopen

Add phased global SGD TTT prefix submission

val_bpb

1.0729

Architecture

Transformer

Optimizer

SGD

Artifact Size

—

Training Techniques

Test-Time Training

LoRA TTT

parameters: {"prefix_docs":2000,"phased":true,"global_sgd":true}

Optimizer

SGD

weight_decay: null

momentum: null

other_params: {"distributed":true}