PR #1249

open

Non-record: GQA + LZMA + SLOT eval optimization (val_bpb=1.1240)

val_bpb

1.1240

Architecture

Transformer

Optimizer

—

Artifact Size

14.0 MB

Training Techniques

Architecture

GQA

Grouped query attention used as the base attention architecture.

parameters: null

Compression

lzma

level: null

Evaluation

SLOT

parameters: null