PR #947

open

Non-record: Legal Neural-Only No-TTT Alt (8xH100) val_bpb=1.1576

val_bpb

1.1576

Architecture

Transformer

Optimizer

—

Artifact Size

14,921,440 bytes

Training Techniques

Test-Time Training

score-first TTT

parameters: {"enabled":false}

Evaluation

sliding window eval

parameters: {"enabled":false}

Architecture

MLP3x

Larger neural configuration using increased MLP multiplier.

parameters: {"mlp_mult":3.2}

BigramHash

Uses a larger bigram vocabulary size override in the model preset.

parameters: {"bigram_vocab_size":2048}