PR #998

open

Add Conker-5 tandem residual exact experts non-record submission

val_bpb

0.5755

Architecture

Hybrid

Optimizer

—

Artifact Size

3,811,521 bytes

Training Techniques

Quantization

int6

bits: 6

scope: artifact

Compression

zlib

level: null

Architecture

Hybrid

Tandem-trained Conker-3 base with sparse exact residual experts and gate-only learned selection.

parameters: null

Sequence Length

sequence_length

train_length: 256

eval_length: 256