PR #1531

open

Add V22 Int6 fast-converging 16MB model (~8min on RTX 4090)

val_bpb

1.4537

Architecture

Transformer

Optimizer

Muon

Artifact Size

11.38MB

Training Techniques

Quantization

int6

bits: 6

scope: all

Architecture

V22

Custom V22 architecture with efficient parameter usage

parameters: null

Optimizer

Muon

weight_decay: null

momentum: null

other_params: {"tuned":true}

Compression

zlib

level: 9