PR #901

open

record: 10L d496 WarmDown3500 SWA — val_bpb 1.1590 (1xH100 proxy)

val_bpb

1.1590

Architecture

Transformer

Optimizer

—

Artifact Size

15.94 MB

Training Techniques

Weight Averaging

SWA

parameters: {"start_frac":0.4,"every":50}

LR Schedule

warmdown

parameters: {"warmdown_steps":3500}

Evaluation

stride-based eval

parameters: {"stride":64}

Test-Time Training

TTT

parameters: null

Quantization

int6

bits: 6

scope: model

Compression

zlib

level: null

Sequence Length

sequence_length

train_length: null

eval_length: null