PR #313

open

non-record: LR warmdown on 1x A40 (1.723 bpb, 8.40MB)

val_bpb

1.7232

Architecture

baseline architecture

Optimizer

—

Artifact Size

8,397,395 bytes

Training Techniques

LR Schedule

warmdown

parameters: {"warmdown_iters":3600,"matrix_lr":0.06}

Quantization

int8

bits: 8

scope: all

Compression

zlib

level: null