PR #1713

open

Non-record submission: baseline_sp1024, val_bpb=1.3479(on single H100), AbhiShet108

val_bpb

1.3479

Architecture

Transformer

Optimizer

—

Artifact Size

14,672,726 bytes

Training Techniques

Other

other

Increased MATRIX_LR from 0.04 to 0.08 to test learning-rate sensitivity on a single H100.

parameters: {"MATRIX_LR":0.08}