PR #602

open

Add non-record 4xH100 10L Int5-MLP submission

val_bpb

1.1422

Architecture

Transformer

Optimizer

—

Artifact Size

15.8MB

Training Techniques

Quantization

int5

bits: 5

scope: MLP

Architecture

MLP

Int5-MLP recipe with 10 layers

parameters: {"layers":10}

Evaluation

sliding window eval

parameters: {"stride":64}

Compression

zstd

level: null