PR #736

open

Submit 9L 2xMLP optimized parameter run with val_bpb 1.2168

val_bpb

1.2168

Architecture

Transformer

Optimizer

—

Artifact Size

15.8 MB

Training Techniques

Architecture

MLP3x

Uses a 9-layer model with 2x MLP multiplier as part of the architecture tuning.

parameters: {"layers":9,"mlp_multiplier":2}

Sequence Length

sequence_length

train_length: 2048

eval_length: null

LR Schedule

warmdown

parameters: {"warmdown_steps":3600}