7:["$","div",null,{"className":"grid grid-cols-1 lg:grid-cols-2 gap-6 mb-8","children":[["$","$L1c",null,{"submissions":[{"pr_number":5,"title":"[WIP] Sparse Attention + Recursive Weight Sharing for 16MB Efficiency","author":"albertorkive","status":"closed","val_bpb":1.2244,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"sliding window attention","description":"Restricts causal attention to a local window to reduce quadratic attention cost.","parameters":{"window_size":null}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shares weights across logical layers via recursive weight sharing to increase effective depth without increasing stored parameters.","parameters":{"physical_layers":null,"logical_layers":null}}}],"compression":null,"novel_contributions":["Sliding window attention for sparse causal attention","Recursive weight sharing across logical layers","Architecture skeleton optimized for 16MB artifact efficiency","Hooks for torch.compile and quantization-ready layers"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":30,"title":"Non-record: Depth-recurrent 5x3 d768, val_bpb=1.2663","author":"JackYoung27","status":"closed","is_record":false,"val_bpb":1.2663,"architecture":"Depth-recurrent Transformer","quantization":"QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"5 unique transformer blocks are looped 3 times each for 15 effective layers, trading unique parameters for effective depth.","parameters":{"layers":15,"unique_blocks":5,"loops":3,"dim":768}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 12 query heads and 6 key/value heads.","parameters":{"heads":12,"kv_heads":6}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections are used across virtual layers in the recurrent depth setup.","parameters":null}},{"category":"compression","data":{"method":"custom","level":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"post-quantization gap"}}],"compression":"custom","novel_contributions":["Depth-recurrent transformer with 5 shared blocks looped 3x for 15 effective layers","Reallocation of parameter budget from depth to width (768 vs baseline 512)","Grouped-query attention with 12 query heads and 6 KV heads","Tied embeddings","U-Net style skip connections across virtual layers","Manual GQA KV-repeat for PyTorch 2.4 compatibility","Exploration of tokenizer optimization, width/depth sweep, test-time training, and QAT as next steps"],"artifact_size":"13.9MB"},{"pr_number":31,"title":"Non-record: Depth-recurrent 5x3 d768, val_bpb=1.2663","author":"JackYoung27","status":"closed","is_record":false,"val_bpb":1.2663,"architecture":"Depth-recurrent Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"5 shared transformer blocks looped 3 times for 15 effective layers at dimension 768.","parameters":{"shared_blocks":5,"loops":3,"effective_layers":15,"dimension":768}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 12 query heads and 6 key/value heads.","parameters":{"query_heads":12,"kv_heads":6}}},{"category":"other","data":{"description":"Model was still improving at cutoff and had not plateaued.","parameters":{"steps":2651,"wallclock":"10min","hardware":"4xH100 SXM"}}},{"category":"other","data":{"description":"Planned future work mentioned: tokenizer optimization, width/depth sweep, test-time training, and QAT.","parameters":{"tokenizer_optimization":"sp4096","width_depth_sweep":true,"test_time_training":true,"qat":true}}}],"compression":null,"novel_contributions":["Depth-recurrent transformer with 5 shared blocks looped 3 times","15 effective layers at dimension 768","Grouped-query attention with 12:6 head configuration","Reported 21.4M parameters and approximately 13.9MB compressed artifact size"],"artifact_size":"13.9MB"},{"pr_number":34,"title":"[Partial submission] naive baseline + dispersion loss","author":"ChenLiu-1996","status":"closed","is_record":false,"val_bpb":1.2243657,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"regularization","data":{"method":"dispersion loss","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Training used a 10-minute wallclock cap on 8xH100 with periodic validation every 200 steps on the full validation split.","parameters":{"max_wallclock_seconds":600,"num_gpus":8,"val_every_steps":200}}}],"compression":"zlib","novel_contributions":["Simple baseline with dispersion loss","Tied input/output embeddings","Reduced KV head count","Int8 quantized submission with zlib compression","Training under a 10-minute wallclock cap on 8xH100"],"artifact_size":"15,863,489 bytes"},{"pr_number":37,"title":"Record: SP4096 + Int6 QAT + NorMuon (val_bpb=1.2012)","author":"khasinski","status":"closed","is_record":false,"val_bpb":1.2012,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses untied input and output embeddings instead of weight tying.","parameters":{"tie_embeddings":0}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"variant":"NorMuon","tuned_learning_rates":{"input_embeddings":0.6,"output_head":0.008}}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Uses a larger SP4096 SentencePiece BPE tokenizer trained on FineWeb to improve tokens-per-byte compression.","parameters":{"vocab_size":4096,"tokens_per_byte":0.306}}}],"compression":"zstd-22","novel_contributions":["SP4096 tokenizer with improved text compression over sp1024","Int6 STE QAT combined with zstd-22 artifact compression","NorMuon optimizer with tuned learning rates","Untied embeddings to improve BPB"],"artifact_size":"14.3MB"},{"pr_number":39,"title":"Record: 10L Mixed Precision: val_bpb=1.2147 (10 layers + int6 middle layers)","author":"nanlliu","status":"closed","is_record":true,"val_bpb":1.2139,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon/Adam","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"middle layers 3-6 int6; first/last 3 layers int8"}},{"category":"architecture_modification","data":{"component":"depth / layer count","description":"Increased the Transformer depth from 9 layers to 10 layers.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Transformer configuration includes 4 KV heads.","parameters":{"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon/Adam","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Mixed-precision compression using int8 for early/late layers and int6 for middle layers to fit under the 16MB limit.","Increased model depth from 9 to 10 transformer layers while staying within the artifact budget.","Lowered learning rates substantially from the default settings to improve post-quantization validation performance.","Demonstrated multi-seed robustness with all five seeds beating the prior benchmark and achieving p < 0.001."],"artifact_size":"15.93MB"},{"pr_number":41,"title":"Add Modal 8xH100 timed validation non-record submission","author":"kiankyars","status":"closed","is_record":false,"val_bpb":1.22964598,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied output and input embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Timed validation run on Modal 8xH100 with a 600-second wallclock cap and single-node torchrun.","parameters":{"hardware":"8xH100","wallclock_seconds":600,"nproc_per_node":8}}}],"compression":"zlib","novel_contributions":["Added a non-record submission folder for a timed validation run on Modal 8xH100.","Preserved the exact train_gpt.py snapshot, train.log, and submission.json used for the run.","Documented the 600-second Modal setup and the reason the submission is on the non-record track.","Used a published FineWeb sp1024 export staged in a persistent Modal Volume.","Submitted a model that fit under the 16,000,000-byte artifact cap but did not set a new leaderboard record."],"artifact_size":"15,853,604 bytes"},{"pr_number":42,"title":"fp16 tied embedding + warmdown/LR tuning (val_bpb 1.2197)","author":"chonchiog","status":"closed","is_record":false,"val_bpb":1.2197,"architecture":"Transformer","quantization":"fp16 tied embedding passthrough with int8 quantization for the rest","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings / output head"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept the tied token embedding in fp16 because it also serves as the output head, reducing quantization loss.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"MLP hidden size","description":"Reduced MLP hidden dimension to fit under the 16MB artifact limit.","parameters":{"mlp_hidden":992}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3600}}},{"category":"other","data":{"description":"Increased matrix learning rate to better match the short 10-minute training budget.","parameters":{"matrix_lr":0.06}}}],"compression":null,"novel_contributions":["Kept the tied embedding in fp16 during export instead of int8 quantizing it.","Reduced quantization gap from about 0.007 BPB to about 0.0005 BPB.","Shrank MLP hidden size from 1024 to 992 to stay under the 16MB limit.","Tuned warmdown from 1200 to 3600 steps.","Increased matrix learning rate from 0.04 to 0.06.","Observed that disabling NCCL_IB_DISABLE improves throughput on IB/NVLink pods."],"artifact_size":"15.90MB"},{"pr_number":44,"title":"val-only 10min record (val_bpb:1.1111)","author":"daniellawson9999","status":"closed","is_record":false,"val_bpb":1.1111,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"other","data":{"description":"Trains entirely on the public validation shard by aliasing the validation file as both train and validation splits.","parameters":{"dataset_alias":"fineweb10B_sp1024_valonly"}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Trains entirely on the public validation shard.","Uses the validation shard as both training and validation data via dataset aliasing.","Reports a 10-minute 8xH100 record submission under the artifact cap."],"artifact_size":"15,889,933 bytes"},{"pr_number":45,"title":"Modal 8xH100 LowerLR FP16Embed 960 (val_bpb 1.22395)","author":"kiankyars","status":"closed","is_record":false,"val_bpb":1.22395035,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied, with the tied embedding kept at higher precision in the record snapshot.","parameters":null}},{"category":"other","data":{"description":"Reduced MLP hidden size to 960 to stay under the 16MB cap.","parameters":{"mlp_hidden":960}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Uses an 8xH100 Modal single-node torchrun setup with a 600s wallclock cap","Keeps tied embeddings at higher precision in the record snapshot","Reduces MLP hidden size to 960 to fit under the 16MB submission cap","Stores the final artifact as int8+zlib compressed model plus code"],"artifact_size":"15844118 bytes"},{"pr_number":46,"title":"Optimized SOTA Submission: 1.2697 bpb","author":"vavo","status":"closed","is_record":false,"val_bpb":1.269717,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used a 9-layer, 432-dim Transformer with efficient GQA and reduced KV heads for better parameter efficiency.","parameters":{"layers":9,"dim":432,"heads":8,"kv_heads":2,"mlp_mult":2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.9,"other_params":{"beta1":0.85,"beta2":0.98,"grad_clip":1}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"linear warmup","parameters":{"warmup_steps":100}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":1}}},{"category":"other","data":{"description":"Larger batch training with systematic hyperparameter tuning and full 10-minute wallclock utilization.","parameters":{"train_batch_tokens":786432,"max_wallclock_seconds":600,"experiments":8}}}],"compression":"zlib","novel_contributions":["Systematic optimization campaign from 1.42 to 1.27 bpb","9x432 Transformer with efficient GQA and 2 KV heads","Large-batch training with conservative learning rates","Full utilization of the 10-minute training budget","int8 + zlib compressed submission artifact"],"artifact_size":"11.0MB"},{"pr_number":48,"title":"[Submission] Warmdown Scheduling - 1.2430 BPB on 8×H100 SXM","author":"MajdiZamim","status":"closed","is_record":false,"val_bpb":1.2381,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"max_wallclock_seconds":600}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads in the GPT-style model.","parameters":{"num_heads":8,"num_kv_heads":4,"layers":9,"model_dim":512}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":null,"novel_contributions":["Increased WARMDOWN_ITERS so cosine warmdown actually triggers within the wallclock-limited training run.","Improved convergence by ensuring learning rate decay occurs in the final portion of training.","Used a 3000-iteration warmdown schedule instead of the default 1200 iterations."],"artifact_size":"15.85MB"},{"pr_number":49,"title":"SOTA attempt (val_bpb=1.2064)","author":"spokane-way","status":"closed","is_record":true,"val_bpb":1.20576485,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Long-context training at sequence length 2048","Tied input/output embeddings","Reduced KV head count (8 attention heads, 4 KV heads)","Standalone record script with baked-in defaults","Int8 + zlib roundtrip serialization for the final submission artifact"],"artifact_size":"15867270 bytes"},{"pr_number":50,"title":"Record: Sliding Window Eval (stride=64), val_bpb=1.1925","author":"mattqlf","status":"closed","is_record":false,"val_bpb":1.1925,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":1024}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings in the baseline architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Baseline Transformer uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}}],"compression":"zlib","novel_contributions":["Sliding window evaluation with stride 64 to score tokens using much richer context","Improved validation BPB entirely through evaluation strategy rather than training changes","Each validation token is scored exactly once with near-maximum context","Maintained artifact size under the 16MB cap while achieving a new record"],"artifact_size":"15,874,829 bytes"},{"pr_number":52,"title":"New SOTA attempt (val_bpb=1.2014)","author":"spokane-way","status":"closed","is_record":true,"val_bpb":1.20143417,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_steps":1500,"momentum_warmup_start":0.92,"tied_embed_lr":0.03,"matrix_lr":0.02,"scalar_lr":0.02,"train_batch_tokens":393216}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Longer training context with sequence length 4096","Aggressively tuned Muon optimizer momentum and learning rates","Reduced training batch tokens to increase update frequency","Extended momentum warmup to stabilize high-momentum training","Longer warmdown schedule for the shorter wallclock-limited run","Int8 quantized roundtrip submission with improved post-quantization BPB"],"artifact_size":"15868326 bytes"},{"pr_number":53,"title":"1.1888 BPB via SP-4096 compression + stride-64 sliding window","author":"kshitizz36","status":"closed","is_record":false,"val_bpb":1.1888,"architecture":"Encoder-decoder Transformer","quantization":"int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied to reduce parameters and fit within the artifact budget.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"reduced depth","description":"Reduced model depth to fit the larger vocabulary and embedding table within the 16MB limit.","parameters":{"layers":8}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Used an SP-4096 tokenizer / dataset variant to improve compression ratio and reduce tokens per byte.","parameters":{"vocab_size":4096}}},{"category":"other","data":{"description":"Disabled periodic validation during training to maximize training steps within the wallclock budget.","parameters":{"val_loss_every":0}}}],"compression":"zlib","novel_contributions":["SP-4096 tokenizer with improved compression ratio","Stride-64 sliding window evaluation","Multiplicative stacking of tokenizer compression and evaluation-context improvements via the BPB formula","8-layer 512-dim GQA encoder-decoder with skip connections","Post-quant int8+zlib roundtrip evaluation"],"artifact_size":"15.68MB"},{"pr_number":54,"title":"RQZ-Golf v1: Depth recurrence for parameter efficiency","author":"TheCause","status":"open","is_record":false,"val_bpb":1.5283,"architecture":"U-Net-style encoder/decoder with a recurrent shared layer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaces some unique layers with a single shared recurrent layer applied multiple times to save parameters while increasing effective depth.","parameters":{"unique_layers":7,"recurrent_passes":3,"effective_depth":10}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shares weights across recurrent passes of the same layer.","parameters":{"recurrent_passes":3}}},{"category":"architecture_modification","data":{"component":"iteration embeddings","description":"Uses learned per-pass embeddings so the recurrent layer is aware of which iteration it is on.","parameters":{"passes":3}}},{"category":"regularization","data":{"method":"residual scaling","parameters":{"scale":"1/sqrt(K)"}}},{"category":"evaluation_technique","data":{"method":"test-time compute scaling","parameters":{"train_passes":3,"inference_passes":[6,8]}}}],"compression":null,"novel_contributions":["Depth recurrence using a shared recurrent layer applied K times to reduce parameter count.","Learned iteration embeddings to distinguish recurrent passes.","Residual scaling by 1/sqrt(K) for stability.","Ability to increase K at inference time for better BPB without changing model size.","U-Net-style encoder/decoder with skip connections combined with recurrent depth sharing."],"artifact_size":null},{"pr_number":56,"title":"Add Deep14x416 KV2 non-record MLX submission (val_bpb=1.8440)","author":"cschubiner","status":"open","is_record":false,"val_bpb":1.84404368,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a deeper/narrower SP-1024 Transformer with reduced KV sharing via 2 KV heads.","parameters":{"layers":14,"model_dim":416,"num_heads":8,"num_kv_heads":2,"mlp_mult":2}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"logit chunking","parameters":{"logit_chunk_tokens":65536}}},{"category":"other","data":{"description":"Increased validation batch size to make full validation tractable on local Apple Silicon hardware.","parameters":{"val_batch_size":8388608}}},{"category":"sequence_length","data":{"train_length":16384,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":10}}}],"compression":"zlib","novel_contributions":["Adds a reproducible Apple Silicon MLX submission for a deeper/narrower SP-1024 configuration.","Explores a parameter-budget tradeoff by reducing width, increasing depth, and using fewer KV heads.","Documents a non-record unlimited-compute run under the 16 MB artifact cap.","Includes exact trainer snapshot, shard list, and training log for reproducibility.","Uses larger validation batch size and logit chunking to complete validation efficiently on local hardware."],"artifact_size":"12,388,989 bytes"},{"pr_number":59,"title":"NTK Eval + Overtone Init (val_bpb=1.2160)","author":"notapplica","status":"closed","is_record":false,"val_bpb":1.216,"architecture":"Transformer","quantization":null,"optimizer":"AdamW","training_techniques":[{"category":"initialization","data":{"method":"spectral init","description":"SVD-based overtone embedding initialization that reshapes tied embedding singular values to follow a power-law decay."}},{"category":"initialization","data":{"method":"resid mix","description":"Sigmoid-scheduled residual mixing initialization across layers, blending current hidden state with the initial embedding."}},{"category":"evaluation_technique","data":{"method":"NTK-aware RoPE scaling","parameters":{"train_length":1024,"eval_length":2048}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"tied_embedding_lr":0.1}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":2500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings with increased tied embedding learning rate.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Dynamic NTK-aware rotary positional embedding scaling at evaluation time.","parameters":{"train_length":1024,"eval_length":2048}}}],"compression":"zlib","novel_contributions":["SVD-based overtone embedding initialization with power-law spectral shaping","Sigmoid-scheduled phase-transition residual mixing across layers","NTK-aware RoPE scaling to evaluate at 2048 tokens after training at 1024","Increased AdamW weight decay and warmdown duration to reduce quantization gap","Higher tied embedding learning rate"],"artifact_size":"15.80MB"},{"pr_number":60,"title":"Record: Sliding Window + FP16 Embed + 10L + Muon WD + Overtone Init (val_bpb=1.1748)","author":"notapplica","status":"closed","is_record":true,"val_bpb":1.1748,"architecture":"Transformer","quantization":"fp16 tied embeddings","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":1024}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increased model depth from 9 to 10 transformer layers.","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone spectral embedding initialization using SVD power-law spectrum shaping."}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition residual mixing with sigmoid-scheduled resid_mix initialization."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02,"decoupled":true}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}}],"compression":null,"novel_contributions":["Sliding window evaluation with stride 64 so each token is scored with 960+ context","FP16 tied embedding export to avoid int8 quantization errors in input/output paths","Increasing the model from 9 to 10 transformer layers","Decoupled weight decay for the Muon optimizer","Overtone spectral embedding initialization with power-law SVD spectrum shaping","Phase-transition residual mixing initialization"],"artifact_size":"~14.7 MB"},{"pr_number":61,"title":"warmdown-quantization val_bpb = 1.2154","author":"saml212","status":"closed","is_record":false,"val_bpb":1.2154,"architecture":"Transformer","quantization":"int8 post-training quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Keeps tok_emb.weight tied and stores it in fp16 during int8 export to reduce quantization damage.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses NTK-RoPE extrapolation with an optimal evaluation length shorter than maximum context.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"backend_steps":5}}},{"category":"evaluation_technique","data":{"method":"long context eval","parameters":{"context_length":1408}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1408}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"other","data":{"description":"Uses FP16 tied embeddings during int8 export and reduces MLP hidden size to 992 to offset the added memory cost.","parameters":{"mlp_hidden":992}}}],"compression":null,"novel_contributions":["Always-decaying LR schedule with WARMDOWN_ITERS=20000 to reduce post-training quantization penalty.","Keeping tied embeddings in fp16 during int8 export to preserve accuracy.","Using NTK-RoPE extrapolation at eval length 1408 as the best setting for well-trained models.","Finding an optimizer-warmdown interaction where MUON_BACKEND_STEPS=5 outperforms 7 under aggressive warmdown."],"artifact_size":"15.91MB"},{"pr_number":63,"title":"Record: 10L Int6 QAT + Zstd MLP2.6x Muon0.99 Sliding Window (val_bpb 1.1598)","author":"yahya010","status":"closed","is_record":true,"val_bpb":1.1598,"architecture":"Transformer","quantization":"STE int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increased model depth from 9 to 10 transformer layers.","parameters":{"layers":10}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all 2D block weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened MLP hidden size to 1344 (about 2.625x model dimension) enabled by quantization and compression savings.","parameters":{"hidden_size":1344,"multiplier":2.625}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings passthrough"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"warmup_from":0.92,"warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3600}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"max_norm":0.3}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Used FP16 tied embedding passthrough.","parameters":null}}],"compression":"zstd-22","novel_contributions":["STE int6 QAT that eliminates the quantization gap","Full int6 quantization of block weights with zstd-22 compression","Wider MLP hidden size enabled by compression savings","10-layer Transformer variant","Muon momentum tuning with warmup from 0.92 to 0.99","Sliding window evaluation with stride 64","FP16 tied embedding passthrough"],"artifact_size":"15.56MB"},{"pr_number":64,"title":"Record: DominationV3 + GPTQ-lite + TTT25 (mean val_bpb=1.1250, 3 seeds)","author":"yesbhautik","status":"open","is_record":false,"val_bpb":1.12495076,"architecture":"Transformer","quantization":"mixed int6 quantization with GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"LN Scale","parameters":{"scale_rule":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"mlp, attn, tok_emb"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"mlp, attn, tok_emb"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"orthoinit":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash local-context component.","parameters":{"vocab_size":4096,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses per-dimension SmearGate.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA is removed/disabled to save time for more training steps.","parameters":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":25,"learning_rate":0.012,"momentum":0.9,"freeze_blocks":0}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Uses 11 layers, 512 model dimension, 8 heads, 4 KV heads, and 3x MLP expansion.","parameters":{"layers":11,"model_dim":512,"heads":8,"kv_heads":4,"mlp_hidden":1536}}}],"compression":"zstd-22","novel_contributions":["GPTQ-lite optimal clip percentile search during int6 quantization","25-epoch aggressive SGD test-time training on already-graded tokens","Partial RoPE with LN Scale and XSA removed to enable more training steps","Per-dimension SmearGate combined with BigramHash local context","Mixed int6 quantization of MLP, attention, and token embeddings with zstd-22 compression","Muon optimizer with OrthoInit and U-Net skip connections"],"artifact_size":"under 16MB"},{"pr_number":65,"title":"Record: Mixed Quant Int6/FP16 + SmearGate + OrthoInit + MLP 3x + Sliding Window, val_bpb=1.1556","author":"aquariouseworkman","status":"closed","is_record":true,"val_bpb":1.1556,"architecture":"Transformer","quantization":"mixed int6/int8 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8 STE QAT","bits":6,"scope":"all 2D block weights int6; token embeddings int8/fp16 passthrough"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blends current token embedding with previous token embedding before transformer layers.","parameters":{"dim":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding over consecutive token pairs to inject token-pair context.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x model dimension for greater capacity.","parameters":{"multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections between corresponding transformer layers.","parameters":{"layers":9}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.01,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"backend_steps":5}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for non-zero-init linear weights."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":1024}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"linear warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["SmearGate embedding that blends current and previous token embeddings","Bigram hash embedding for direct token-pair features","Orthogonal weight initialization combined with Muon optimization","Mixed int6/int8 quantization-aware training with STE","Wider 3x MLP expansion enabled by quantization savings","U-Net style skip connections in a transformer","Sliding window evaluation with stride 64"],"artifact_size":"15.1MB"},{"pr_number":66,"title":"ArjunAutoResearch: MLP 3x + STE int6 QAT + seq4096 + sliding window. val_bpb 1.1632","author":"arjun-krishna1","status":"open","is_record":false,"val_bpb":1.16323,"architecture":"Transformer","quantization":"STE int6 QAT / mixed int6 quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x expansion (hidden size 1536 instead of 1024).","parameters":{"hidden":1536,"multiplier":3}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"batch_tokens":393216,"warmdown_iters":3000,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92}}},{"category":"quantization","data":{"method":"STE QAT int6","bits":6,"scope":"CastedLinear weights / MLP and attention weights"}},{"category":"quantization","data":{"method":"mixed int6/fp16","bits":6,"scope":"MLP and attention weights int6, tied embedding fp16 passthrough"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embedding as output head and keeps it in fp16 to avoid quantization penalty.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"AutoResearch agent harness that used GitHub CLI to inspect open PRs, bucket them by expected impact, and compose high-impact techniques automatically.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Built an AutoResearch agent harness to autonomously inspect and compose techniques from open PRs","Combined wider MLP, long-context training, optimizer tuning, STE int6 QAT, mixed int6 quantization, fp16 tied embedding passthrough, and sliding-window evaluation","Used int6 quantization savings to enable a 3x wider MLP within the artifact size limit","Applied sliding-window evaluation with stride 64 over 4096-token context to improve validation score","Reported multi-seed results with statistical significance"],"artifact_size":"15,265,243 bytes"},{"pr_number":69,"title":"SubSixteen v2: Int6 QAT + MLP 3x + SWA + Sliding Window (val_bpb 1.1708)","author":"TevBenji","status":"open","is_record":false,"val_bpb":1.1708,"architecture":"GPT","quantization":"STE fake-int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"block weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 1536 (3x expansion) and reduced depth to fit under the artifact limit.","parameters":{"layers":9,"hidden_dim":1536,"vocab_size":1024,"dim":512,"gqa_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses NTK-aware RoPE.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":16,"interval_steps":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone SVD initialization with power-law shaping."}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition resid_mix initialization."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"lr":0.02,"orthogonalization":"Newton-Schulz"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr_embeddings":0.03,"lr_scalars":0.02}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"momentum_warmup_steps":1500,"momentum_start":0.92,"momentum_end":0.99}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"regularization","data":{"method":"weight decay","parameters":{"decoupled":true}}},{"category":"other","data":{"description":"Straight-through estimator fake quantization during forward pass to improve post-training int6 robustness.","parameters":{"quant_range":[-31,31]}}}],"compression":"zstd-22","novel_contributions":["STE fake-int6 QAT for quantization-aware training","MLP 3x expansion enabled by int6 artifact savings","Stochastic Weight Averaging over 16 checkpoints","zstd-22 compression for the final artifact","Sliding window evaluation with stride 64 and context length 4096","Muon optimizer with Newton-Schulz orthogonalization"],"artifact_size":"14,603,588 bytes"},{"pr_number":70,"title":"Submission: Wider MLP 3x + int6 quant + sliding window eval, val_bpb=1.1659","author":"jfprincz","status":"open","is_record":false,"val_bpb":1.1659,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened the MLP expansion from 2x to 3x (hidden size 1536) to improve performance.","parameters":{"mlp_mult":3,"hidden_size":1536}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"int6 per-row on MLP and attention projection weights; int8 per-row on embeddings and other tensors"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92,"warmdown_iters":3000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}}],"compression":"zstd-22","novel_contributions":["Wider 3x MLP expansion to increase model capacity while staying under the artifact limit","Mixed precision quantization with int6 per-row for MLP and attention weights and int8 for embeddings/other tensors","Sliding window evaluation with stride 256 to improve validation score using more context per scored token","Use of zstd level 22 compression to fit the larger model within the 16MB submission limit","Optimizer tuning for Muon with custom learning rates and momentum warmup/warmdown settings"],"artifact_size":"14,855,508 bytes"},{"pr_number":71,"title":"Add Parameter Golf submission: Depth12 Dim416 KV4","author":"AntDX316","status":"closed","is_record":false,"val_bpb":1.35091763,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied to reduce parameters and artifact size.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer key/value heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth/narrow transformer","description":"Uses a deeper but narrower Transformer layout compared with the naive baseline.","parameters":{"layers":12,"model_dim":416}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iters":1200}}},{"category":"other","data":{"description":"10-minute wallclock-limited training run on 8xH100 GPUs.","parameters":{"max_wallclock_seconds":600,"num_gpus":8}}}],"compression":"zlib","novel_contributions":["Deeper/narrower Transformer configuration (12 layers, 416 model dim)","Reduced KV head count (8 attention heads, 4 KV heads)","Tied input/output embeddings","10-minute 8xH100 training run under the 16MB track limit","Final artifact compressed with int8 + zlib"],"artifact_size":"14301562 bytes"},{"pr_number":73,"title":"Non-record: SwiGLU + warmdown fix + quarter batch (1x5090, 1.3281 bpb)","author":"NishantDahal","status":"closed","is_record":false,"val_bpb":1.3281,"architecture":"Transformer","quantization":null,"optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP activation","description":"Replaced ReLU² with SwiGLU gating in the MLP.","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_frac":0.2,"fix":"time-fraction based warmdown instead of iteration-based warmdown_iters=1200"}}},{"category":"architecture_modification","data":{"component":"MLP hidden size","description":"Reduced MLP hidden dimension to fit artifact budget.","parameters":{"hidden_size":640}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Reduced batch size to quarter batch (131K tokens) to increase optimizer steps within fixed wall-clock time.","parameters":{"train_batch_tokens":131072}}},{"category":"other","data":{"description":"Used gradient accumulation to increase effective batch size without increasing per-step memory.","parameters":{"grad_accum_steps":2}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"architecture_modification","data":{"component":"layer recurrence","description":"Reused layers to create depth recurrence, effectively doubling depth by reusing weights.","parameters":{"repeats":2}}}],"compression":null,"novel_contributions":["Identified and fixed a warmdown schedule bug in stock train_gpt.py where iteration-based warmdown caused LR decay from step 1 under the wall-clock cap.","Applied SwiGLU activation in place of ReLU².","Used quarter batch size to obtain more optimizer steps within the same wall-clock budget.","Used gradient accumulation to improve effective batch size.","Explored reduced MLP hidden size to stay within the 16MB artifact cap.","Reported negative results for weight decay and layer recurrence."],"artifact_size":"15.3MB"},{"pr_number":74,"title":"Add seq4096 fp16 tok coarsen record","author":"takhir-iota","status":"open","is_record":false,"val_bpb":1.18838751,"architecture":"Transformer","quantization":"int8 with fp16 embeddings and selective coarsening","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int8/fp16","bits":8,"scope":"all weights except tok_emb.weight kept in fp16; blocks.5. selectively coarsened"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query style attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Adds a new 10-minute 8xH100 record for the long-context lane","Uses seq_len=4096 training with TRAIN_BATCH_TOKENS=393216","Keeps tok_emb.weight in fp16 while coarsening only blocks.5. to recover bytes","Tunes the Muon schedule for the submission","Includes canonical run plus reproducibility reruns and exact train_gpt.py snapshot"],"artifact_size":"15,937,608 bytes"},{"pr_number":75,"title":"Add seq4096 sliding-window fp16 tok coarsen record","author":"takhir-iota","status":"open","is_record":false,"val_bpb":1.17675682,"architecture":"Transformer","quantization":"int8 with fp16 tok_emb.weight and selective coarsening","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all weights except tok_emb.weight; selective coarsening on blocks.5."}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query style attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"window_length":4096,"batch_size":32}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Adds a new 10-minute 8xH100 sliding-window record.","Uses stride-64 sliding-window evaluation after standard exact roundtrip checking.","Keeps tok_emb.weight in fp16 while coarsening only blocks.5. to fit the artifact budget.","Trains at sequence length 4096 with a tuned Muon schedule."],"artifact_size":"15,943,260 bytes"},{"pr_number":76,"title":"12L Int5-MLP + SmearGate + BigramHash + SWA (val_bpb 1.1433)","author":"unixmadtoonslab","status":"open","is_record":false,"val_bpb":1.14327,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights int5 per-row, attention weights int6 per-row, fp16 embedding passthrough"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension sigmoid gate blending token embedding with previous token embedding.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash embedding for token-pair context.","parameters":{"buckets":2048,"dim":96}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder split with learned per-dimension skip weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP expansion enabled by compression savings.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than query heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.98,"other_params":{"lr":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with 1/sqrt(2*num_layers) output projection scaling."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0}}}],"compression":"zstd-22","novel_contributions":["Mixed int5/int6 per-row quantization to save artifact space while preserving accuracy.","12-layer transformer enabled by int5 compression savings.","SmearGate token-to-previous-token blending mechanism.","BigramHash token-pair context embedding.","U-Net style skip connections with learned per-dimension skip weights.","Orthogonal initialization with scaled output projection.","SWA checkpoint averaging during warmdown.","Warmdown timing fix that ignores torch.compile overhead in step-time estimation.","Sliding window evaluation with stride 256."],"artifact_size":"16MB"},{"pr_number":77,"title":"[record bpb=1.195] sliding window + LoRA TTT","author":"samacqua","status":"closed","is_record":true,"val_bpb":1.195,"architecture":"Transformer","quantization":null,"optimizer":"Adam","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"chunk_size":256,"eval_seq_len":1024}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"betas":[0.9,0.95]}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"other","data":{"description":"Document masking / document-isolated evaluation with BOS-based document boundary detection and per-document reset of LoRA parameters to avoid leakage across validation sequences.","parameters":{"batch_size":64,"targets":["lm_head","c_q","c_v"]}}}],"compression":null,"novel_contributions":["Per-document LoRA test-time training during evaluation","Sliding window / strided evaluation over overlapping chunks","Document-aware evaluation with BOS-based boundary detection and no leakage across documents","Batching and sorting documents by length for faster per-sequence adaptation","Applying LoRA adapters to lm_head, c_q, and c_v projections in all transformer blocks"],"artifact_size":null},{"pr_number":78,"title":"Record: 8192 Vocab Size, NorMuon, Selective Quantization; 1.186 val_bpb","author":"mtybadger","status":"open","is_record":false,"val_bpb":1.18576208,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"weights int6, embeddings int8"}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"architecture_modification","data":{"component":"vocab size","description":"Increased tokenizer/model vocabulary from 1024 to 8192, requiring a layer reduction to fit constraints.","parameters":{"vocab_size":8192,"layers":8}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Expanded vocabulary size from 1024 to 8192 using a newly trained tokenizer","Replaced Muon with NorMuon optimizer","Applied selective quantization with int6 weights and int8 embeddings","Reduced model depth to accommodate the larger vocabulary"],"artifact_size":"14796836 bytes"},{"pr_number":79,"title":"Depth Recurrence: 3x3x1024 (non-record, pending H100)","author":"Marvbuster","status":"open","is_record":false,"val_bpb":1.8698,"architecture":"Transformer","quantization":"Int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"3 unique transformer blocks are repeated 3 times for an effective depth of 9, reusing blocks across repeats without U-Net skip connections.","parameters":{"unique_blocks":3,"repeats":3,"effective_depth":9,"dim":1024}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied to reduce parameters.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":24,"kv_heads":12}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.85,"other_params":{"matrix_lr":0.02,"muon_backend_steps":7,"qk_gain_init":2,"qk_gain":2}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"NorMuon training variant used alongside Int6 QAT.","parameters":null}}],"compression":"zlib","novel_contributions":["Depth recurrence with 3 unique transformer blocks repeated 3 times","Trading architectural diversity for width to fit a larger dimension within the parameter budget","Int6 QAT to increase parameter capacity within the 16MB artifact budget","Use of NorMuon, which reportedly improved BPB","Sliding window evaluation with stride 64","Systematic search over multiple architectural strategies and hyperparameters"],"artifact_size":"14.7MB"},{"pr_number":81,"title":"Record: SwiGLU + MLP 3x + Int6 + LoRA TTT, val_bpb=1.1670 (8xH100)","author":"polarizedfortnite-cpu","status":"open","is_record":false,"val_bpb":1.167,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP expansion from 2x to 3x to add nonlinear capacity.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaced relu^2 with SwiGLU activation.","parameters":{"mlp_hidden_dim":1024}}},{"category":"quantization","data":{"method":"STE QAT int6","bits":6,"scope":"all weights except tied embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth","description":"Added one extra transformer layer over the baseline.","parameters":{"layers":10}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"matrices":"Muon","embeddings_scalars":"Adam","matrix_lr":0.04,"embed_lr":0.05}}}],"compression":"zstd-22","novel_contributions":["Combined MLP 3x expansion with SwiGLU activation in a compact Transformer.","Applied int6 quantization with zstd compression to fit a larger model under the artifact cap.","Used quantization-aware training with STE during the final quarter of training.","Introduced LoRA-based test-time training during evaluation to improve validation bpb.","Added an extra transformer layer and used grouped-query attention with 4 KV heads."],"artifact_size":"15.83MB"},{"pr_number":85,"title":"Record (pending): 92-experiment autoresearch + sliding window eval, pre-quant val_bpb=1.2156","author":"hydeh3r3","status":"open","is_record":false,"val_bpb":1.2156,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"RoPE","description":"RoPE extrapolation used to train at 1024 and evaluate at 2048 via a larger rope base.","parameters":{"rope_base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP2x","description":"Uses a 2x MLP width configuration.","parameters":{"mlp_multiplier":2}}},{"category":"architecture_modification","data":{"component":"relu²","description":"Uses squared ReLU activation for cleaner int8 quantization.","parameters":null}},{"category":"architecture_modification","data":{"component":"RMSNorm","description":"Uses plain RMSNorm instead of WeightedRMSNorm for better quantization behavior.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"grad_clip_norm":1,"momentum_warmup_start":0.92,"momentum_warmup_end":0.99,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.02,"momentum":null,"other_params":{"scope":"embeddings"}}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":5}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}},{"category":"other","data":{"description":"Autoresearch loop used to run 92+ automated local experiments and select the best configuration.","parameters":{"experiments":92}}},{"category":"other","data":{"description":"Training on validation shard was enabled.","parameters":{"train_on_val":1}}}],"compression":"zlib-9","novel_contributions":["92+ automated local experiments via an autoresearch loop","Sliding window evaluation with stride 64","RoPE extrapolation to evaluate at 2048 context length","relu² activation and plain RMSNorm chosen for cleaner int8 quantization","Muon optimizer with separate AdamW for embeddings","Training on validation shard to improve score","Quantization pipeline using int8 with zlib compression"],"artifact_size":null},{"pr_number":86,"title":"Update: 11L MLP3x + WD=0.04 + zstd-22 (val_bpb 1.1502)","author":"aruniyer","status":"closed","is_record":true,"val_bpb":1.1502,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened MLP expansion to 3x for more capacity per layer.","parameters":{"mlp_mult":3,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings with FP16 export for the embedding/head.","parameters":{"vocab_size":1024}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 4 KV heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings in attention.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT int6","bits":6,"scope":"all block weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adam_weight_decay":0.04}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with 3x MLP expansion","Int6 quantization-aware training with STE fake quantization","Decoupled weight decay of 0.04 on both Muon and AdamW","FP16 tied embedding export to preserve embedding/head quality","zstd-22 compression to fit the larger model under the 16MB limit","Sliding window evaluation with stride 64 for improved val_bpb","Higher Muon momentum with warmup from 0.92 to 0.99"],"artifact_size":"15.4MB"},{"pr_number":88,"title":"Record: Int6 MLP3x + MTP + Sliding Window Eval (val_bpb=1.1605)","author":"seanward","status":"open","is_record":false,"val_bpb":1.1605,"architecture":"Transformer","quantization":"int6 per-row quantization with zstd compression","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all large 2D weight matrices"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size from baseline 1024 to 1536 (3x expansion) enabled by int6 artifact savings.","parameters":{"MLP_HIDDEN":1536}}},{"category":"architecture_modification","data":{"component":"MTP auxiliary head","description":"Added a training-only multi-token prediction head predicting token i+2 from hidden state i; excluded from exported artifact.","parameters":{"num_heads":1,"loss_weight":0.01}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept tied embedding matrix in fp16 during export instead of quantizing it.","parameters":{"fp16_export":1}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_steps":1500,"muon_momentum_warmup_start":0.92}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Co-optimized training dynamics with lower learning rate, higher momentum, and longer warmdown to improve quantization behavior.","parameters":{"matrix_lr":0.02,"muon_momentum":0.99,"warmdown_iters":3000}}}],"compression":"zstd-22","novel_contributions":["Int6 per-row quantization with zstd-22 compression to reduce artifact size","3x wider MLP enabled by quantization savings","Training-only MTP auxiliary head excluded from the artifact","FP16 tied embedding passthrough to avoid quantization error on shared embeddings","Sliding window evaluation with stride 512 for near-full-context scoring","Long-context training at sequence length 4096","Training dynamics tuned for better int6 quantization behavior"],"artifact_size":"15.28 MB"},{"pr_number":89,"title":"record: val_bpb=1.1622, NorMuon + int6 STE + SWA + sliding window","author":"vmfunc","status":"open","is_record":false,"val_bpb":1.1622,"architecture":"Transformer","quantization":"int6 QAT / STE","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"per-row block weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings / logit head"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x hidden size (1536) enabled by int6 compression savings","parameters":{"hidden_dim":1536}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_steps":1500,"muon_momentum_warmup_start":0.92}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":7,"checkpoint_interval_steps":200}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":1024}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Per-row int6 fake quantization with straight-through estimator to reduce post-training quantization gap","Keeping the tied embedding/logit head in fp16 to avoid quantization sensitivity","Using a wider 3x MLP made possible by int6 compression savings","Replacing Muon with NorMuon row-normalized Newton-Schulz updates","Applying stochastic weight averaging over the final warmdown checkpoints","Using sliding-window evaluation with stride 64 to improve measured val_bpb"],"artifact_size":"15.5MB"},{"pr_number":91,"title":"Depth recurrence: 3 unique layers x 3 loops, 1.589 BPB","author":"koushikkethamakka","status":"open","is_record":false,"val_bpb":1.589,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses 3 unique transformer blocks looped 3 times instead of 9 unique blocks, keeping effective depth while reducing unique parameters.","parameters":{"unique_layers":3,"recurrence_count":3}}},{"category":"compression","data":{"method":"custom","level":null}},{"category":"other","data":{"description":"Wider models are used by reallocating parameter budget saved from recurrence; experiments sweep widths, layers, recurrence counts, and head counts.","parameters":{"width_range":[512,1152],"layers_range":[2,6],"recurrence_range":[2,6],"head_range":[4,16]}}}],"compression":null,"novel_contributions":["Introduces depth recurrence with 3 unique transformer layers looped 3 times.","Reallocates saved parameter budget to wider layers.","Reports that 3 unique layers with 3 recurrences is the best-performing shape among tested configurations.","Finds that wider models perform better with sufficient data, with d1024 outperforming d896 and d768.","Identifies head-count preferences at different widths, such as 8 heads at d1024 and 12 heads at d768."],"artifact_size":"20.4MB"},{"pr_number":92,"title":"Record: 8192 Vocab, Sliding Window Eval, Selective Quantization; 1.194 val_bpb","author":"saikrishnarallabandi","status":"open","is_record":false,"val_bpb":1.1938,"architecture":"Transformer","quantization":"mixed int6/int8 selective quantization","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"weights and embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"variant":"NorMuon"}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"other","data":{"description":"SP-8192 tokenizer for improved token compression","parameters":{"vocab_size":8192}}}],"compression":"zlib","novel_contributions":["SP-8192 tokenizer for better token compression","NorMuon optimizer for improved convergence","Sliding window evaluation with stride 256","Selective quantization using INT6 weights and INT8 embeddings","8-layer model with TRAIN_SEQ_LEN=4096"],"artifact_size":"14.7 MB"},{"pr_number":93,"title":"Non-record: Compact 12x384 1xH100 10m","author":"aamodbhatt","status":"open","is_record":false,"val_bpb":1.36931367,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings to reduce artifact size.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth/width tradeoff","description":"Uses a compact Transformer with reduced width and increased depth to improve compression/quality tradeoff under the size cap.","parameters":{"layers":12,"model_dim":384,"num_heads":6,"num_kv_heads":3,"mlp_mult":2}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Compact 12-layer, 384-dimension Transformer configuration under a 10-minute wallclock budget on 1x H100","Width reduction with added depth to explore a size/quality tradeoff under the 16MB artifact cap","Tied embeddings to reduce serialized model size","Non-record negative-result datapoint comparing artifact size against a stronger baseline"],"artifact_size":"9,668,102 bytes"},{"pr_number":94,"title":"Non-record: Warmdown fix (9x512) on 1xH100 10m","author":"aamodbhatt","status":"open","is_record":false,"val_bpb":1.34862689,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Baseline architecture kept fixed with 9 layers, 512 model dim, 8 attention heads, and 4 KV heads.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":2}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":100}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Adjusted scheduler warmdown behavior for a 1-GPU step-time regime","Used a shorter warmdown period (WARMDOWN_ITERS=100) so learning rate does not decay too early on slower 1xH100 runs","Improved same-session 1xH100 baseline validation bpb while staying within the 16MB cap","Kept the baseline 9x512 sp1024 architecture and data pipeline fixed"],"artifact_size":"14,698,858 bytes"},{"pr_number":95,"title":"PROTEUS EMA — val_bpb: 1.1836 (3-seed mean, Notable Non-Record)","author":"MatoTeziTanka","status":"open","is_record":false,"val_bpb":1.1836,"architecture":"Transformer","quantization":"INT8","optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"dtype":"fp32","every_n_steps":10}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied token embedding and output head weights; embedding kept at FP16 for precision.","parameters":null}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600}}},{"category":"other","data":{"description":"Hyperparameter tuning of matrix, scalar, and tied-embedding learning rates.","parameters":{"matrix_lr":0.06,"scalar_lr":0.06,"tied_embed_lr":0.04}}}],"compression":"zlib","novel_contributions":["EMA weight averaging to reduce INT8 quantization loss","Longer training/evaluation sequence length (2048)","FP16 passthrough for tied embeddings while quantizing the rest of the model to INT8","Sliding-window evaluation with stride 64 for improved validation score","Documented negative results for INT4 post-training quantization and shared-weight depth recurrence (LoopFormer)"],"artifact_size":"15.88 MB"},{"pr_number":96,"title":"Sliding Window + Long-Context Training: val_bpb=1.1764","author":"saml212","status":"open","is_record":false,"val_bpb":1.1764,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512,"context_length":2048}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embedding parameters with a separate learning rate.","parameters":null}}],"compression":null,"novel_contributions":["Training at 2048 tokens performs identically to 4096 tokens under sliding-window evaluation, so shorter training sequences are preferable within the time budget.","A narrow gradient clipping sweet spot was found for long-sequence training, with 0.3 outperforming other tested values.","Batch size 786,432 tokens was identified as the best tradeoff for training at 2048-token sequences.","Quantization-aware warmdown from an earlier PR reduces post-quantization penalty, but only at higher base learning rates."],"artifact_size":"15.88MB"},{"pr_number":99,"title":"submission: Int6 MLP3x + Late-K Passthrough + SlidingWindow (val_bpb: 1.1605)","author":"takhir-iota","status":"open","is_record":false,"val_bpb":1.1605036,"architecture":"GPT","quantization":"mixed int6/int8 with fp16 passthrough","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":".mlp., .attn.c_q., .attn.c_v., .attn.proj. in int6; .attn.c_k. mostly grouped int8; selected late-layer c_k and tok_emb in fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion to widen the hidden layer within the byte budget.","parameters":{"mlp_mult":3,"num_layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"tie_embeddings":1}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"initialization","data":{"method":"QK gain init","description":"Uses QK_GAIN_INIT=1.7 for attention initialization scaling."}},{"category":"other","data":{"description":"Selective late-layer K preservation keeps blocks.7.attn.c_k.weight and blocks.8.attn.c_k.weight in fp16 while other c_k matrices use grouped int8.","parameters":{"group_size":64}}}],"compression":"zstd","novel_contributions":["Int6 mixed quantization of MLP and attention projections","3x MLP expansion to improve score under the byte budget","Selective preservation of late-layer attention K weights in fp16","Grouped int8 quantization for remaining K matrices with group size 64","Sliding-window evaluation with stride 64 for near-full context"],"artifact_size":"15,844,924 bytes"},{"pr_number":102,"title":"Int6 MLP3x + Tuned LR + SmearGate + SlidingWindow (val_bpb: 1.1618)","author":"unnir","status":"open","is_record":false,"val_bpb":1.1618,"architecture":"GPT","quantization":"mixed int6 quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weight matrices"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP hidden dimension from 1024 to 1536 (3x model_dim) to improve capacity.","parameters":{"mlp_mult":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blends each token embedding with the previous token embedding before the first transformer layer.","parameters":{"gate_type":"sigmoid","cost_params":512}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"warmdown_iters":3000,"grad_clip_norm":1}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":1024}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"momentum_warmup_steps":1500}}}],"compression":"zstd-22","novel_contributions":["Per-row int6 quantization of MLP and attention weights with fp16 passthrough for tied embeddings","Using freed compression budget to expand the MLP to 3x width","Tuned Muon optimizer hyperparameters including lower learning rates, momentum warmup, warmdown, and gradient clipping","SmearGate pre-attention module that mixes current and previous token embeddings","Sliding-window evaluation with stride 64 to score tokens with near-full context"],"artifact_size":"15,144,136 bytes"},{"pr_number":103,"title":"Non-record: Looped Transformer + LoRA + Skip Connections + NorMuon + SWA + Int6 + Sliding Window","author":"MatthewHRockwell","status":"open","is_record":false,"val_bpb":1.5,"architecture":"Transformer","quantization":"int6 with fp16 embedding and LoRA passthrough","optimizer":"NorMuon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"5 unique transformer blocks are looped to create 30 virtual layers, increasing effective depth without storing all layers.","parameters":{"unique_layers":5,"virtual_depth":30}}},{"category":"architecture_modification","data":{"component":"skip connections","description":"Encoder-decoder style skip connections store tensors in the first half of virtual layers and consume them in reverse in the decoder half via learned skip weights.","parameters":{"encoder_layers":15,"decoder_layers":15}}},{"category":"architecture_modification","data":{"component":"LoRA","description":"Per-virtual-layer LoRA adapters on Q and V projections differentiate each virtual layer with low parameter overhead.","parameters":{"rank":4}}},{"category":"architecture_modification","data":{"component":"residual mixing","description":"Learned blend of hidden state with original embedding at each layer.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input/output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"warmup_start":0.92,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"block weights with fp16 embedding and fp16 LoRA passthrough"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"wallclock_aware":true}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":1}}}],"compression":"zlib","novel_contributions":["Looped transformer depth recurrence with 5 stored blocks expanded to 30 virtual layers","Encoder-decoder skip connections across virtual layers with learned skip weights","Per-virtual-layer LoRA adapters to specialize each repeated layer","Residual mixing with the original embedding at each layer","NorMuon optimization with wallclock-aware warmdown","Stochastic Weight Averaging over 7 checkpoints","Int6 quantization with fp16 embedding and LoRA passthrough","Sliding-window evaluation with stride 64"],"artifact_size":"14.9 MB"},{"pr_number":104,"title":"Non-record: Stacked hyperparameter tuning + eval2048 (RTX 5090, val_bpb 1.336)","author":"gwelinder","status":"open","is_record":false,"val_bpb":1.3358,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.06}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"long context eval","parameters":{"context_length":2048}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Support for reusing a smaller set of unique layers across multiple recurrent passes.","parameters":{"num_unique_layers":4,"num_recurrence":3}}},{"category":"other","data":{"description":"Alias-aware serialization to store shared weights once.","parameters":null}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"all block matrices"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":null}}}],"compression":"zlib","novel_contributions":["Identified that WARMDOWN_ITERS=1200 was broken under the 600s wallclock and fixed it by increasing to 3000.","Stacked multiple hyperparameter fixes to improve val_bpb without changing the architecture.","Decoupled training and evaluation sequence lengths, using train length 1024 and eval length 2048.","Added alias-aware serialization so shared weights are stored once.","Implemented mixed int6/int8 quantization support for block matrices.","Implemented sliding-window evaluation support.","Added depth recurrence support.","Ran extensive autoresearch over 40+ experiments and reported several negative results."],"artifact_size":"15.8MB"},{"pr_number":106,"title":"record: 1.158","author":"krammnic","status":"open","is_record":false,"val_bpb":1.158,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[],"compression":null,"novel_contributions":["Reported a new record validation score of 1.158 bpb","Credits prior work from PR #88"],"artifact_size":null},{"pr_number":107,"title":"Int6+zstd MLP1488 + Sliding Window + QAT + Tuned LR (val_bpb=1.1648)","author":"m0at","status":"open","is_record":false,"val_bpb":1.1648,"architecture":"Transformer","quantization":"mixed int6 quantization with fp16 tied embedding passthrough and STE QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6 quantization","bits":6,"scope":"MLP/Q/V/proj weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"post-training quantization-aware training"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened MLP hidden size to improve capacity under the artifact budget.","parameters":{"hidden_size":1488}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept the tied embedding/output head in fp16 instead of quantizing it.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"grad_clip_norm":0.3,"qk_gain_init":1.7}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"other","data":{"description":"Fallback from FA3 to SDPA when FA3 is unavailable.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Mixed int6 quantization of MLP/Q/V/proj weights to fit a larger model under the artifact budget","Wider MLP hidden size (1488) enabled by quantization savings","Sliding-window evaluation with stride 64 to use more context per scored position","Post-training QAT with STE to reduce quantization penalty","Tuned learning rates for matrix, scalar, and tied embedding parameters","Kept tied embedding in fp16 to avoid quantizing the most sensitive tensor","Longer warmdown schedule to better match the short training budget","FA3 fallback to SDPA for robustness"],"artifact_size":"15.93MB"},{"pr_number":108,"title":"Record: 11L MLP3x + SmearGate + Error Correction Table","author":"kellyvv","status":"open","is_record":false,"val_bpb":1.437,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the Transformer blocks.","parameters":{"layers":11,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate activation/gating mechanism to the model.","parameters":{"init":"sigmoid(3.0) ≈ 0.95"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash component with hashed bigram features.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"embed_lr":0.03}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"error correction table","parameters":{"use_correction":1,"position_based_indexing":true,"delta_varint_encoding":true}}},{"category":"other","data":{"description":"Built an eval-time correction table from worst predictions on the fixed validation set and boosted correct logits for matched positions to achieve near-zero loss on those tokens.","parameters":{"entries":907927,"artifact_mb":2.87}}}],"compression":"int6+zstd","novel_contributions":["Eval-time error correction table embedded in the artifact","Position-based indexing on the fixed validation set with no hash collisions","Delta-encoded position plus varint token lookup table","On-the-fly correction table construction during evaluation","SmearGate and BigramHash architecture additions","STE QAT with int6 quantization and SWA"],"artifact_size":"15.15 MB"},{"pr_number":110,"title":"Submission: Top-Heavy FFN Allocation + Packed Int6 Export | pending eval","author":"mr-ashish-panday","status":"open","is_record":false,"val_bpb":1.2243657,"architecture":"Transformer","quantization":"packed int6 with per-row fp16 scales; fp16 tied embedding","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Replaces uniform FFN width with OpenELM-style layer-wise top-heavy FFN scaling so later layers have larger feed-forward dimensions than earlier layers.","parameters":{"layers":9,"ffn_schedule":[768,960,1152,1344,1536,1728,1920,2112,2304]}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input embedding and output projection weights.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"large 2D matrices; fp16 for tied embedding"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"higher_momentum":true,"lower_lr":true,"warmdown":true,"gradient_clipping":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"other","data":{"description":"CPU dry-run mode for local smoke testing without CUDA.","parameters":{"dry_run":true,"steps":10}}}],"compression":"zlib","novel_contributions":["Top-heavy FFN allocation using OpenELM-style layer-wise scaling instead of a uniform 3x FFN.","Exact packed int6 export path with per-row fp16 scales.","Keeping the tied embedding in fp16 to preserve quantization-sensitive weights.","Self-contained artifact export that avoids relying on external zstd at evaluation time.","Sliding-window evaluation for improved scoring.","CPU DRY_RUN=1 mode for local verification without GPU access."],"artifact_size":"4,273,390 bytes"},{"pr_number":111,"title":"Non-record unlimited-compute: 1-hour 1xH100 warmdown 9x512","author":"aamodbhatt","status":"open","is_record":false,"val_bpb":1.254026,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a fixed Transformer layout with 9 layers, 512 model dimension, 8 attention heads, and 4 KV heads.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":2,"vocab_size":1024}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":100}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Extended training from a 10-minute run to a 1-hour run on a single H100 GPU.","Used warmdown with 100 iterations to concentrate LR decay near the end of training.","Kept the baseline 9x512 sp1024 architecture and tokenizer/data pipeline fixed while improving validation bpb.","Produced a submission under the 16MB artifact cap using int8 quantization plus zlib compression."],"artifact_size":"15,858,552 bytes"},{"pr_number":113,"title":"Record: FP16 Embed + Sliding Window Eval + Warmdown Tuning (pending eval)","author":"JoeProAI","status":"closed","is_record":false,"val_bpb":1.187,"architecture":"Transformer","quantization":"int8 with fp16 embedding passthrough","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all weights except fp16 tok_emb.weight passthrough"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Keeps embedding and output head tied; embedding tensor is preserved in fp16 during quantization because it is especially sensitive.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"long context eval","parameters":{"context_length":960}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3600}}},{"category":"other","data":{"description":"Learning-rate tuning with MATRIX_LR=0.06 to improve convergence under the wallclock cap.","parameters":{"matrix_lr":0.06}}}],"compression":null,"novel_contributions":["FP16 embedding passthrough during int8 quantization to reduce post-quantization BPB degradation","Sliding window evaluation with stride 64 to score validation tokens with much longer context","Warmdown and learning-rate tuning for better convergence within the 10-minute wallclock limit","Combined submission integrating multiple previously proven improvements"],"artifact_size":null},{"pr_number":114,"title":"Record: val_bpb=1.1574 — Int6 + MLP 3x + selective precision + optimized long-context training","author":"saml212","status":"open","is_record":false,"val_bpb":1.1574,"architecture":"Transformer","quantization":"int6 post-training quantization with selective fp16 preservation","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"weight matrices"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embedding and last 2 layers' key projections"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Tripled MLP hidden dimension to fit within artifact budget enabled by int6 compression.","parameters":{"mlp_hidden":1536,"default_mlp_hidden":1024}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input embedding and output projection share the same weight matrix.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Model uses 4 KV heads with 8 attention heads and 9 layers.","parameters":{"layers":9,"dim":512,"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Selective precision preservation for sensitive tensors, including fp16 tied embedding and fp16 passthrough for late-layer key projections.","parameters":{"fp16_tied_embedding":true,"fp16_late_k_passthrough_layers":2}}}],"compression":null,"novel_contributions":["Int6 post-training quantization to reduce artifact size and free space for a 3x larger MLP.","Selective precision preservation for the tied embedding and last two layers' key projections.","Training at sequence length 2048 instead of 4096 while retaining performance under sliding-window evaluation.","Gradient clipping at 0.3 to stabilize long-sequence training.","Batch size of 786,432 tokens found to be optimal for train@2048.","Sliding-window evaluation with stride 256, which improved val_bpb and reduced eval time versus smaller strides."],"artifact_size":"15.98MB"},{"pr_number":116,"title":"Record: Int6 + MLP 3x + STE QAT + NorMuon + sliding window (val_bpb 1.1666)","author":"abhishekgahlot2","status":"closed","is_record":false,"val_bpb":1.1666,"architecture":"Transformer","quantization":"mixed int6 QAT","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP and attention weights; fp16 passthrough for tied embedding and small/control tensors"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 1536 (3x expansion) to increase model capacity.","parameters":{"hidden_size":1536,"mlp_mult":3}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":0.01,"momentum":0.99,"other_params":{"matrix_lr":0.02,"grad_clip":0.3,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_interval_steps":200,"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.01}}},{"category":"other","data":{"description":"Logit softcap applied during training/evaluation.","parameters":{"logit_softcap":15}}}],"compression":"zstd-22","novel_contributions":["STE fake-int6 QAT throughout training","3x MLP expansion to increase capacity under int6 constraints","NorMuon optimizer with row-wise RMS normalization after Newton-Schulz orthogonalization","SWA checkpoint averaging during warmdown","Mixed quantization with int6 per-row on MLP and attention weights and fp16 passthrough for tied embeddings","Sliding window evaluation with stride 64"],"artifact_size":"15.22 MB"},{"pr_number":117,"title":"submission: Int6 MLP3x + QAT + SlidingWindow (val_bpb: 1.1702)","author":"trovatochris","status":"open","is_record":false,"val_bpb":1.17016796,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width by 3x.","parameters":{"multiplier":3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_steps":1500,"momentum_warmup_start":0.92}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"other","data":{"description":"QAT weight-snapping started at 70% of training.","parameters":{"qat_start_frac":0.7}}}],"compression":"zstd-22","novel_contributions":["Stacked int6 per-row quantization with zstd22 compression","3x MLP expansion","QAT weight-snapping starting at 70% of training","Muon optimizer tuning with momentum warmup","Extended warmdown schedule","Stride-64 sliding window evaluation"],"artifact_size":"15,306,777 bytes"},{"pr_number":120,"title":"[Val Only]: MLP 3x + STE int6 QAT + sliding window, val_bpb=0.9588","author":"andrewgcodes","status":"closed","is_record":false,"val_bpb":0.9588,"architecture":"Transformer","quantization":"mixed int6/int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden dimension to 1536, a 3x feedforward expansion.","parameters":{"hidden_dim":1536,"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"transformer blocks"}},{"category":"quantization","data":{"method":"int8 per-row","bits":8,"scope":"embeddings"}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"transformer blocks and embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Extended RoPE base frequency for improved long-range position encoding.","parameters":{"base":200000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":14000,"schedule":"cosine decay"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"lr":0.025,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"other","data":{"description":"Val-only training on the validation shard for memorization.","parameters":null}}],"compression":"zlib","novel_contributions":["MLP 3x expansion with hidden dimension 1536","STE fake-int6 quantization-aware training","Mixed post-training quantization with int6 transformer blocks and int8 embeddings","Sliding window evaluation with stride 64","Extended RoPE base frequency of 200,000","Extended warmdown cosine learning rate decay","Tuned Muon optimizer settings","Val-only training on the validation shard"],"artifact_size":"15,381,981 bytes"},{"pr_number":122,"title":"Record: Sliding Window Eval, 2048 Vocab Size, fp16 embeddings, SWA, NorMuon, FA3; mean_val_bpb:1.160","author":"mtybadger","status":"open","is_record":false,"val_bpb":1.16027254,"architecture":"Transformer","quantization":"row-wise int6 QAT with fp16 embeddings","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT int6","bits":6,"scope":"row-wise weights; embeddings kept in fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP hidden dimension from 1024 to 1536","parameters":{"hidden_dim":1536,"multiplier":3}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_interval_steps":200,"num_checkpoints":7}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":1024}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"other","data":{"description":"FlashAttention 3 used to reduce step time","parameters":null}},{"category":"other","data":{"description":"Expanded vocabulary size using a new 2048-token tokenizer trained on FineWeb data","parameters":{"vocab_size":2048}}}],"compression":"zstd-22","novel_contributions":["Increased vocabulary size from 1024 to 2048 using a newly trained tokenizer","Replaced Muon with NorMuon","Used row-wise int6 quantization with fp16 embeddings and quantization-aware training via straight-through estimation","Applied FlashAttention 3 for faster training","Used sliding-window evaluation with stride 64 and context length 1024","Increased MLP width to 3x hidden dimension","Applied stochastic weight averaging over final checkpoints","Used a 3-run mean across multiple seeds for the reported record"],"artifact_size":"15,353,270 bytes"},{"pr_number":123,"title":"Record: Vocab 4096 + MLP 3x + Sliding Window Eval (mean val_bpb=1.1642, 3 seeds)","author":"saikrishnarallabandi","status":"open","is_record":false,"val_bpb":1.1642,"architecture":"GPT","quantization":"int6 STE fake quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded the MLP hidden size to 3x the baseline using quantization savings.","parameters":{"multiplier":3,"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"other","data":{"description":"Custom SentencePiece BPE tokenizer with vocab size 4096 trained on FineWeb.","parameters":{"vocab_size":4096}}}],"compression":null,"novel_contributions":["Custom SentencePiece BPE tokenizer with vocab size 4096","3x MLP expansion enabled by int6 quantization savings","Int6 STE fake quantization with small quantization gap","Training with 4096-token sequences","Stochastic Weight Averaging over 7 checkpoints","Sliding window evaluation with stride 256"],"artifact_size":"~15.85 MB"},{"pr_number":125,"title":"Add non-record 16MB layers7 submission","author":"akshai0296","status":"open","is_record":false,"val_bpb":1.37972416,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":{"enabled":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth reduction","description":"Reduces model depth from the baseline 9 layers to 7 layers to improve the capacity-speed tradeoff under a strict wallclock cap.","parameters":{"layers":7}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Non-record 16MB submission documenting a shallower 7-layer variant.","Demonstrates that reducing depth can improve the capacity-speed tradeoff under a 600-second wallclock cap.","Uses tied embeddings and 4 KV heads in a compact Transformer configuration.","Reports a self-contained run with exact post-quantization roundtrip validation metrics."],"artifact_size":"10289996 bytes"},{"pr_number":126,"title":"Non-record: BitNet b1.58 + depth recurrence + NorMuon (1.7510 BPB, 3.78 MB)","author":"Athenox14","status":"open","is_record":false,"val_bpb":1.751,"architecture":"Transformer","quantization":"BitNet b1.58 ternary QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":2,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"4 unique transformer blocks are reused 3 times each for 12 effective layers, with U-Net style skip connections between encoder and decoder halves.","parameters":{"unique_layers":4,"recurrence_factor":3,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"QK-norm","description":"Applies RMSNorm to Q and K before RoPE.","parameters":null}},{"category":"architecture_modification","data":{"component":"logit softcapping","description":"Uses tanh-based softcapping on logits.","parameters":{"cap":30}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses NTK-aware RoPE base scaling with YaRN-style sequence length warmup.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"row_wise_rms_normalization":true,"newton_schulz_orthogonalization":true}}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":"seq_len // 2","skip_cold_start_tokens":true}}},{"category":"initialization","data":{"method":"proj zero-init","description":"Output projections of attention and MLP are zero-initialized so each block starts as identity."}},{"category":"initialization","data":{"method":"resid_mix","description":"Learnable per-block mixing of current hidden state with original embedding, initialized to [1, 0]."}},{"category":"lr_schedule","data":{"method":"linear warmup + constant + cosine cooldown","parameters":{"warmup_steps":100,"cooldown_steps":2000,"final_lr_multiplier":0.1}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"other","data":{"description":"Sequence length warmup from 128 to 1024 over 2000 steps with NTK-aware RoPE base scaling (YaRN-style).","parameters":{"start_length":128,"end_length":1024,"warmup_steps":2000}}}],"compression":"zlib","novel_contributions":["BitNet b1.58 ternary quantization with packed 2-bit weights and zlib compression","Depth recurrence with 4 unique transformer blocks reused 3 times for 12 effective layers","U-Net style skip connections across recurrent block passes","Learnable resid_mix parameter to blend recurrent hidden state with original embedding","NorMuon optimizer with per-neuron row-wise RMS normalization after Newton-Schulz orthogonalization","Sequence length warmup combined with YaRN / NTK-aware RoPE scaling","Sliding-window evaluation with cold-start token skipping","QK-norm and logit softcapping"],"artifact_size":"3.78 MB"},{"pr_number":128,"title":"Record: Int6 MLP3x + STE QAT + Sliding Window (val_bpb=1.1594)","author":"rsavitt","status":"open","is_record":false,"val_bpb":1.1594,"architecture":"Transformer","quantization":"int6 QAT with mixed fp16 passthrough for tied embeddings","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights; tied embeddings kept fp16"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x baseline using int6 savings","parameters":{"mlp_mult":3,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept tied token embedding/output head in fp16 passthrough to avoid quantization penalty","parameters":{"tie_embeddings":1}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"other","data":{"description":"Tuned training dynamics with wallclock-limited training and large batch token count","parameters":{"train_batch_tokens":393216,"max_wallclock_seconds":600}}}],"compression":"zstd-22","novel_contributions":["Int6 per-row quantization plus zstd-22 compression to fit a wider model within the 16MB budget","3x MLP expansion enabled by quantization savings","STE fake int6 quantization-aware training to improve post-quantization robustness","fp16 tied embedding passthrough to preserve output head quality","Sliding window evaluation with stride 64 for near-full-context scoring","Co-optimized training dynamics including Muon momentum tuning and warmdown schedule"],"artifact_size":"15,162,777 bytes"},{"pr_number":130,"title":"Non-record: Muon-Aware QAT + LAWA + Adaptive LR Scheduling (7 toggleable improvements)","author":"mohosy","status":"open","is_record":false,"val_bpb":1.6372,"architecture":"Transformer","quantization":"Muon-aware QAT (STE or Gaussian noise), targeting int8/int6 quantization sensitivity","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"large matrices (>65K params)"}},{"category":"weight_averaging","data":{"method":"LAWA","parameters":{"start_frac":0.8,"checkpoint_interval_steps":200,"avg_last_fraction":0.2}}},{"category":"lr_schedule","data":{"method":"warmdown with LR floor and cooldown fraction schedule","parameters":{"lr_floor_fraction":0.1,"cooldown_fraction":0.6,"qat_lr_reduction":0.5,"qat_start_frac":0.75}}},{"category":"sequence_length","data":{"train_length":256,"eval_length":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Muon-aware QAT with two modes: STE and Gaussian noise, activated late to preserve Muon's momentum subspace","parameters":{"modes":["STE","Gaussian noise"],"qat_start_frac":0.75,"lr_reduction_on_qat_start":0.5}}},{"category":"other","data":{"description":"Higher learning rates for matrix, scalar, and tied embedding parameters","parameters":{"matrix_lr":0.06,"scalar_lr":0.06,"tied_embed_lr":0.08}}}],"compression":"zstd-22","novel_contributions":["Muon-aware QAT designed to reduce quantization noise amplification in Muon's orthogonalized updates","Two QAT modes: standard STE and Gaussian noise mode","Late-start QAT activation with automatic learning-rate reduction","LAWA (Latest Weight Averaging) over late-stage checkpoints","Learning-rate floor to avoid freezing into sharp minima","Cooldown-fraction-based LR scheduling","Sequence length warmup from 256 to 1024 tokens","Adaptive artifact compression using zstd or Brotli","Higher default learning rates for matrix, scalar, and tied embedding parameters"],"artifact_size":null},{"pr_number":131,"title":"[WIP] add combined optimization, waiting for 8 gpu train","author":"Billy1900","status":"open","is_record":false,"val_bpb":1.2701,"architecture":"Transformer","quantization":"mixed int6/int8 with optional STE QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SwiGLU MLP","description":"Replaces the baseline ReLU-square MLP with a gated SwiGLU feedforward block.","parameters":{"hidden":1024}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"transformer block weights; embeddings use int8"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"transformer block weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.97,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.025,"tied_embedding_lr":0.035,"scalar_lr":0.025}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"cosine decay with linear warmup","parameters":{"warmup_steps":200,"min_lr_ratio":0.05}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"other","data":{"description":"Adaptive training configuration that changes sequence length, gradient accumulation, batch tokens, and evaluation stride based on GPU count.","parameters":{"train_seq_len_1_gpu":1024,"train_seq_len_8_gpu":2048,"grad_accum_steps_1_gpu":2,"grad_accum_steps_8_gpu":1}}}],"compression":"zlib","novel_contributions":["SwiGLU MLP replacing the baseline ReLU-square MLP","Mixed int6/int8 post-training quantization","Optional STE fake-int6 quantization-aware training","Cosine learning rate schedule with warmup","Sliding window evaluation with configurable stride","Adaptive training configuration for 1 GPU vs 8 GPU runs","Tuned Muon optimizer hyperparameters","Tied input/output embeddings"],"artifact_size":"15.4MB"},{"pr_number":135,"title":"Record: OrthoInit + Int6 MLP3x + BigramHash + SmearGate (val_bpb: 1.1539)","author":"unnir","status":"open","is_record":false,"val_bpb":1.1539,"architecture":"GPT","quantization":"mixed int6 quantization","optimizer":"Muon","training_techniques":[{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with gain=1.0, plus muP-scaled output projections."}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"MLP and attention weight matrices; FP16 passthrough for tied embeddings and last 2 layers' Key projections"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden dimension from 1024 to 1536 (3x model_dim).","parameters":{"hidden_dimension":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.01,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3000,"grad_clip_norm":0.3,"beta1":0.9,"beta2":0.95,"adamw_for_embedding_and_scalar_params":true}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending each token embedding with the previous token embedding.","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"4096-bucket hash table injecting token-pair information, projected to model dimension.","parameters":{"buckets":4096,"dimension":128,"projection_dimension":512}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}}],"compression":"zstd-22","novel_contributions":["Orthogonal initialization with muP-scaled output projections","Mixed int6 quantization with FP16 passthrough for sensitive tensors","3x MLP expansion enabled by quantization savings","Tuned Muon/AdamW optimizer hyperparameters","SmearGate token blending mechanism","BigramHash token-pair embedding","Sliding-window evaluation with stride 64"],"artifact_size":"15,162,375 bytes"},{"pr_number":136,"title":"Record: Seq2048 training + eval (val_bpb=1.2101)","author":"ibarrajo","status":"open","is_record":false,"val_bpb":1.2101,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings as part of the baseline configuration.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Baseline configuration uses 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"long context eval","parameters":{"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200}}}],"compression":"zlib","novel_contributions":["Train and evaluate at sequence length 2048 instead of 1024.","Use longer training context so evaluation is interpolation rather than RoPE extrapolation.","Maintain the same tokens per step while changing the number and length of sequences."],"artifact_size":"15.87 MB"},{"pr_number":137,"title":"Record: Int6 + MLP 3x + STE QAT + NorMuon + sliding window (val_bpb 1.1666)","author":"abhishekgahlot2","status":"open","is_record":false,"val_bpb":1.1666,"architecture":"Transformer","quantization":"mixed int6 QAT","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP and attention weights; fp16 passthrough for tied embedding"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 1536 (3x expansion) to increase model capacity.","parameters":{"hidden":1536,"mlp_mult":3}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":0.01,"momentum":0.99,"other_params":{"matrix_lr":0.02,"grad_clip":0.3,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_interval_steps":200,"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01,"grad_clip_norm":0.3,"logit_softcap":15}}},{"category":"other","data":{"description":"Mixed quantization with int6 per-row on MLP and attention weights, fp16 passthrough for tied embedding, and QAT using a straight-through estimator.","parameters":{"enable_qat":1,"ema_decay":0.998}}}],"compression":"zstd-22","novel_contributions":["Int6 mixed quantization with STE fake-int6 QAT","3x MLP expansion to increase capacity under artifact size constraints","NorMuon optimizer with row-wise RMS normalization after Newton-Schulz orthogonalization","SWA checkpoint averaging during warmdown","Sliding window evaluation with stride 64 for improved val_bpb","Mixed quantization scheme with int6 per-row weights and fp16 tied embedding passthrough"],"artifact_size":"15.22 MB"},{"pr_number":139,"title":"Non-record: BitNet b1.58 — 65M ternary params beat 4-hour baseline in 10 minutes (val_bpb=1.2029)","author":"ksang123","status":"open","is_record":false,"val_bpb":1.2029,"architecture":"Transformer","quantization":"ternary base-3 packed weights (BitNet b1.58 / STE QAT)","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":2,"scope":"all linear layers (attention and MLP); ternary {-1, 0, 1} weights"}},{"category":"architecture_modification","data":{"component":"BitLinear","description":"All linear layers use ternary weight quantization with per-group scaling and STE gradients.","parameters":{"group_size":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":12,"kv_heads":6}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP with 3x hidden dimension.","parameters":{"mlp_multiplier":3,"hidden_dim":2304}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with a larger base.","parameters":{"base":200000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.04,"scalar_lr":0.04,"tied_embedding_lr":0.03,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"linear warmup + wallclock-aware linear warmdown","parameters":{"warmup_steps":50,"warmdown_steps":1200}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"other","data":{"description":"fp16 scale simulation during training using .half().float() to match stored scale precision and reduce quantization gap.","parameters":null}},{"category":"other","data":{"description":"Base-3 packing of ternary weights with 5 trits per byte for lossless artifact storage.","parameters":{"trits_per_byte":5}}}],"compression":"lzma","novel_contributions":["Uses BitNet b1.58 ternary weights to fit 64.5M parameters into a 15.1MB artifact.","Achieves near-zero quantization gap by training with ternary quantization active in every forward pass.","Uses fp16 scale simulation (.half().float()) so training matches stored scale precision.","Applies base-3 packing (5 trits per byte) for lossless, compact artifact storage.","Demonstrates that a 10-minute ternary model can beat a 4-hour full-precision baseline under the same size budget.","Argues that Chinchilla scaling under a fixed artifact-size constraint favors more low-precision parameters over fewer high-precision parameters."],"artifact_size":"15.11 MB"},{"pr_number":141,"title":"Non-record: Systematic Hyperparameter Search (val_bpb=1.2075)","author":"nglain","status":"open","is_record":false,"val_bpb":1.2075,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Systematic hyperparameter search across 33 experiments with fixed-seed paired comparison and one-variable-at-a-time validation across multiple GPU tiers.","parameters":{"seed":1337,"experiments":33,"gpu_tiers":["A40","1xH100","8xH100"]}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"other","data":{"description":"Compatibility fix for PyTorch 2.4 by replacing enable_gqa with manual repeat_interleave for GQA.","parameters":{"framework":"PyTorch 2.4"}}},{"category":"other","data":{"description":"Scaled training and validation on 8xH100 SXM for 600 seconds wallclock.","parameters":{"training_time_seconds":600,"gpus":8}}}],"compression":"zlib","novel_contributions":["Methodical hyperparameter search with fixed-seed paired comparison for reliable small-delta measurement","Validation that Muon optimizer with lr=0.02, momentum=0.99, and warmdown=3000 improves BPB","Use of ROPE_BASE=200000 to improve performance","Training with sequence length 4096 to improve BPB","Insight that optimal hyperparameters transfer poorly across compute budgets and must be re-tuned at target scale"],"artifact_size":"~15.2 MB"},{"pr_number":142,"title":"Record: Quant Quality: val_bpb=1.1925","author":"ankitmaloo","status":"open","is_record":false,"val_bpb":1.19247214,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Tighter int8 clipping percentile to retain more of the weight distribution tail.","parameters":{"int8_clip_percentile":99.99995}}},{"category":"other","data":{"description":"Higher-precision per-row quantization scales using float32 instead of float16.","parameters":{"int8_per_row_scale_dtype":"float32"}}}],"compression":"zlib","novel_contributions":["Tighter int8 clipping percentile (99.99995) to preserve more tail weights","Higher-precision per-row int8 scales using float32","Muon optimizer tuning with momentum 0.99 and momentum warmup","Extended warmdown schedule"],"artifact_size":"15,934,552 bytes"},{"pr_number":143,"title":"Add ContextFuse-2048 submission","author":"Julz19","status":"open","is_record":false,"val_bpb":1.17792945,"architecture":"Transformer","quantization":"int8 + zlib roundtrip with fp16 tied-embedding passthrough","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings and preserves them in fp16 for better post-quantization fidelity.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":256}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights with fp16 tied embeddings passthrough"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"muon_backend_steps":5,"tied_embed_lr":0.03,"matrix_lr":0.02,"scalar_lr":0.02}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"max_wallclock_seconds":599}}},{"category":"other","data":{"description":"Byte-safe export revision by disabling fp16 passthrough for late-K layers while keeping fp16 embedding passthrough.","parameters":{"fp16_embed_passthrough":1,"fp16_late_k_layers":0}}}],"compression":"zlib","novel_contributions":["Long-context training at 2048 tokens instead of the 1024-token baseline","Sliding-window final evaluation with stride 64 to improve context coverage during scoring","FP16 tied-embedding export to preserve the highest-value tensor under quantization","Byte-safe architecture adjustment using MLP hidden size 992 to offset fp16 embedding cost","Muon-smoothed optimization with lower learning rates and warmdown tuned for the 2048-context regime","Standalone record-folder submission artifact with Modal orchestration removed"],"artifact_size":"15,929,105 bytes"},{"pr_number":144,"title":"Add MPK 8x384 10-minute submission record","author":"DJLougen","status":"closed","is_record":false,"val_bpb":1.35172182,"architecture":"MPK-style multi-path causal language model","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings were enabled for the MPK model.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used fewer KV heads than attention heads in the MPK configuration.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"MPK multi-path causal architecture with temporal strides.","parameters":{"layers":8,"width":384,"k_stride":2,"m_stride":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"other","data":{"description":"Used 80 FineWeb SP-1024 training shards and a 10-minute wallclock-limited training run.","parameters":{"train_shards":80,"wallclock_seconds":600}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":"int8+zlib","novel_contributions":["Added an MPK model family implementation to the trainer","Used an 8-layer, width-384 MPK configuration with 8 attention heads and 4 KV heads","Applied MPK temporal strides k=2 and m=4","Enabled tied embeddings with tuned lower learning rates","Produced a corrected bug-fixed rerun after fixing SentencePiece leading-space marker accounting","Submitted a 10-minute wallclock-limited record candidate with int8+zlib serialization"],"artifact_size":"14589400 bytes"},{"pr_number":145,"title":"Non-record: QAT ablation — int8 QAT overhead exceeds quantization gap recovery","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.2052,"architecture":"Transformer","quantization":"int8 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"per-row weights"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":1200}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings as part of the baseline 9L×512d architecture.","parameters":{"layers":9,"dimensions":512}}},{"category":"other","data":{"description":"Straight-through estimator fake-quantization inserted into linear layers during training to match export-time int8 quantization exactly.","parameters":{"qat_start_step":6000,"qat_fraction":0.3}}}],"compression":"zlib","novel_contributions":["Clean ablation of per-row int8 quantization-aware training on the baseline 9L×512d model.","Exact percentile-matching QAT implementation using the same clipping percentile and per-row scale as export quantization.","Measured that torch.quantile-based QAT adds about 20% per-step overhead, reducing total training steps under the 10-minute budget.","Identified that int8 QAT did not recover enough quantization gap to offset the lost training progress.","Observed a torch.compile graph priming pitfall where pre-compiling both QAT and non-QAT paths slowed the non-QAT forward pass."],"artifact_size":"15,868,103 bytes"},{"pr_number":146,"title":"Non-record: Warmdown-Tuned Training (val_bpb=1.2987) on 1xRTX 5090","author":"swapp1990","status":"closed","is_record":false,"val_bpb":1.2987,"architecture":"GPT","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in the GPT model.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"layer looping","description":"Explores looping a smaller set of unique layers to form a wider/deeper effective model.","parameters":{"unique_layers":6,"model_dim":608,"looped_layers":9}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"muon_momentum_warmup_steps":50,"matrix_lr":0.04,"scalar_lr":0.04,"tied_embed_lr":0.05}}},{"category":"other","data":{"description":"Register token experiments were tested in multiple variants and found not to improve overall BPB.","parameters":{"variants_tested":3}}}],"compression":"zlib","novel_contributions":["Identified warmdown_iters=3000 as the best learning-rate warmdown setting.","Showed that warmdown provides disproportionate BPB improvement per training step.","Tested register token approaches and ruled them out as ineffective at this scale.","Observed that longer warmdown revived a dead middle layer (layer 3).","Explored layer looping and a wider model as a follow-up direction.","Fit the submission under the 16MB artifact limit with int8+zlib roundtrip."],"artifact_size":"15.8MB"},{"pr_number":147,"title":"Record/smaller batch sota, val_bpb 1.16314679 (post-quant, int6+zlib, sliding eval)","author":"ankitmaloo","status":"open","is_record":false,"val_bpb":1.16314679,"architecture":"Transformer","quantization":"int6+zlib","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"other","data":{"description":"Tighter int8 clipping to retain more of the weight distribution tail.","parameters":{"int8_clip_percentile":99.99995}}},{"category":"other","data":{"description":"Higher-precision per-row scales to reduce scale quantization error.","parameters":{"int8_per_row_scale_dtype":"float32"}}}],"compression":"zlib","novel_contributions":["Tighter int8 clipping percentile to preserve more tail weights during quantization","Higher-precision per-row int8 scales using float32","Strong Muon optimizer tuning with momentum warmup and extended warmdown","Sliding window evaluation","Smaller batch training setup on seq4096 trunk"],"artifact_size":"15,934,552 bytes"},{"pr_number":148,"title":"Depth Recurrence + Cross-Repeat Skip + Sliding Window Eval","author":"iverbovoy","status":"open","is_record":false,"val_bpb":1.2196,"architecture":"Transformer","quantization":"int8 + zlib roundtrip","optimizer":"Muon + Adam","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaced 9 unique transformer blocks with 3 shared blocks repeated 4 times, creating 12 effective layers.","parameters":{"shared_blocks":3,"repeats":4,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"Cross-Repeat Skip","description":"Adds a weighted residual of each block's output from the previous repeat to make recurrence stateful.","parameters":{"learned_scales":true}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"Adds 2 extra embedding tables mixed into the residual stream at each effective layer.","parameters":{"tables":2}}},{"category":"architecture_modification","data":{"component":"Loop Embedding","description":"Adds a learned per-layer vector before each block as depth-wise positional encoding.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window":1024,"stride":256}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.012,"scalar_lr":0.012,"tied_embed_lr":0.015,"grad_clip_norm":0.3}}}],"compression":"zlib","novel_contributions":["Depth recurrence via shared transformer blocks repeated across depth","Cross-Repeat Skip for stateful recurrence across repeats","Value Embeddings mixed into the residual stream","Loop Embedding as depth-wise positional encoding","Sliding window evaluation with stride 256","Lower learning rate tuned for recurrent depth amplification"],"artifact_size":"12.83MB"},{"pr_number":150,"title":"Record: 11L Int6 QAT + SmearGate + OrthoInit + SWA + TTT (val_bpb=1.1478)","author":"yahya010","status":"open","is_record":false,"val_bpb":1.1478,"architecture":"Transformer","quantization":"STE int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned sigmoid token blending","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash embedding for bigrams","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x the model dimension","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied input/output embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"learning_rate":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":8,"warmdown":true,"interval_steps":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"freeze_first_blocks":2}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling for output projections"}},{"category":"architecture_modification","data":{"component":"NTK-RoPE","description":"Rotary positional embeddings with NTK scaling","parameters":{"base":50000}}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with 3x MLP expansion","STE int6 quantization-aware training with zero quantization gap","SmearGate learned token blending","BigramHash embedding augmentation","OrthoInit with muP scaling for output projections","SWA checkpoint averaging during warmdown","Full-weight test-time training on validation data","NTK-RoPE positional encoding","Sliding window evaluation with stride 64"],"artifact_size":"15.76MB"},{"pr_number":151,"title":"Non-record: FP16 embed + WD20k + seq2048 + doc-isolated sliding window (val_bpb=1.2045)","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.2045,"architecture":"Transformer","quantization":"fp16 embeddings with int8 post-training quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings with FP16 export for the embedding path.","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":20000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"backend_steps":5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"doc-isolated eval","parameters":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":1}}},{"category":"other","data":{"description":"Uses a longer training context and doc-isolated scoring to reduce cross-document context bleed.","parameters":{"train_batch_tokens":524288,"eval_batch_seqs":32}}}],"compression":"zlib","novel_contributions":["FP16 tied embedding export","Aggressive warmdown with WARMDOWN_ITERS=20000","Training with sequence length 2048","Tuned learning rates and Muon optimizer settings","Sliding window evaluation with stride 64","Doc-isolated scoring"],"artifact_size":"15,912,648 bytes"},{"pr_number":152,"title":"Add TTT (Test-Time Training) submission: 1.1767 BPB","author":"timowhite88","status":"closed","is_record":false,"val_bpb":1.17436,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in a 9-layer Transformer.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"combined_with":"Adam","training_phase":"pretraining"}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"full model artifact"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":2,"momentum":0.9,"batch_size":32}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":1024}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"other","data":{"description":"Decompresses an int8+zlib artifact back to full precision before test-time adaptation.","parameters":null}}],"compression":"zlib","novel_contributions":["Test-time training during evaluation to adapt the full model on validation data","Full-model SGD adaptation instead of LoRA-based TTT","Use of the evaluation budget as additional optimization time for improved BPB","Int8 plus zlib artifact compression to fit within the submission size cap"],"artifact_size":"15,328,877 bytes"},{"pr_number":155,"title":"Record: sliding eval, FP16 tied embeddings, 10 layers, Muon WD 0.02, overtone init, and phase-transition residual mixing. (val_bpb 1.1876)","author":"peytontolbert","status":"open","is_record":false,"val_bpb":1.18762449,"architecture":"Transformer","quantization":"int8 zlib roundtrip with FP16 tied embeddings export","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"architecture_modification","data":{"component":"Transformer layers","description":"Uses a 10-layer transformer model.","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":null}},{"category":"initialization","data":{"method":"overtone spectral embedding initialization","description":"Spectral embedding initialization with power 0.5."}},{"category":"initialization","data":{"method":"phase-transition residual-mix initialization","description":"Residual mixing initialization based on phase-transition behavior."}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}}],"compression":"zlib","novel_contributions":["Sliding-window final evaluation with stride 64","FP16 tied embedding export","10 transformer layers","Muon weight decay 0.02","Overtone spectral embedding initialization with power 0.5","Phase-transition residual-mix initialization","Post-quant int8 zlib roundtrip exact validation"],"artifact_size":"15,842,628 bytes"},{"pr_number":156,"title":"feat(record): Int6 STE + NorMuon + SWA + Sliding Window (val_bpb=1.16019)","author":"dexhunter","status":"open","is_record":false,"val_bpb":1.16019,"architecture":"Transformer","quantization":"int6 STE","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights; embeddings kept fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x wider MLP hidden layer to increase capacity within the artifact budget","parameters":{"dimensions":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Embedding tensor is tied and stored in fp16, never quantized","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"layers":9,"model_dim":512,"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses RoPE positional encoding with learnable Q gain","parameters":{"q_gain_init":1.5}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":0.99,"other_params":{"beta2":0.95,"matrix_lr":0.02,"warmdown_iters":3000,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7,"interval_steps":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":960}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Straight-through estimator with fake int6 per-row quantization applied on every forward pass during training","parameters":{"range":[-31,31]}}},{"category":"other","data":{"description":"U-Net style skip connections with learnable per-layer per-dimension skip weights","parameters":null}}],"compression":"zstd-22","novel_contributions":["Int6 STE fake quantization during training with straight-through gradient bypass","NorMuon optimizer with row-normalized Newton-Schulz updates","3x wider MLP enabled by int6 compression savings","FP16 tied embedding passthrough to protect quantization-sensitive weights","Sliding window evaluation with stride 64 for longer effective context","SWA over 7 checkpoints during warmdown","Zstd-22 artifact compression","U-Net skip connections with learnable skip weights"],"artifact_size":"15,045,740 bytes"},{"pr_number":157,"title":"Add TTT-LoRA 512d submission (val_bpb=1.1957)","author":"santosh5541","status":"closed","is_record":false,"val_bpb":1.1957,"architecture":"Transformer","quantization":"per-row int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a baseline-sized Transformer with 8 attention heads and 4 KV heads.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}}],"compression":"zlib","novel_contributions":["Uses LoRA-based test-time training to improve compression performance.","Shows that the TTT-LoRA evaluation path outperforms the plain int8 roundtrip.","Fits an int8 + zlib artifact within the 16 MB submission limit.","Uses a 512-dimensional baseline Transformer with 8 heads and 4 KV heads under a 10-minute training budget."],"artifact_size":"15,880,385 bytes"},{"pr_number":159,"title":"Record:Add TTT-LoRA 512d submission (val_bpb=1.1957)","author":"santosh5541","status":"closed","is_record":false,"val_bpb":1.1957,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a baseline-sized Transformer with 8 attention heads and 4 KV heads.","parameters":{"layers":9,"model_dim":512,"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":null}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":"zlib","novel_contributions":["TTT-LoRA evaluation path achieves the best score","Baseline-sized 512d Transformer with 8 heads and 4 KV heads","Training capped at 10 minutes on 8x H100 SXM GPUs","Per-row int8 quantization with zlib compression to fit under 16MB","Warmdown-3000 training setup"],"artifact_size":"15,880,385 bytes"},{"pr_number":160,"title":"Record: MLP3x + Int8 Tok Emb + Grouped LZMA + Sliding Window (val_bpb=1.1623)","author":"ChaseWNorton","status":"open","is_record":false,"val_bpb":1.16230441,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased feedforward capacity from 2x to 3x while keeping the baseline Transformer backbone.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings with RMSNorm and a U-Net-style skip structure inherited from the baseline.","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"tied_embed_lr":0.03,"matrix_lr":0.02,"scalar_lr":0.02,"warmup_steps":20,"warmdown_iters":3000}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"most tensors, with int8 token embedding"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"submission artifact / timed run support, but not activated before stop"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"seq_len":2048,"stride":256}}},{"category":"other","data":{"description":"Grouped QGv3 serialization was used to reduce artifact overhead before compression.","parameters":null}}],"compression":"lzma","novel_contributions":["Increased feedforward capacity from 2x to 3x","Trained and evaluated at sequence length 2048","Used grouped QGv3 serialization to reduce artifact overhead","Kept token embeddings at int8 while quantizing most other tensors to int6","Applied sliding-window evaluation to improve the final under-cap score","Repacked the timed checkpoint into a submission-valid LZMA-compressed artifact"],"artifact_size":"15910904 bytes"},{"pr_number":161,"title":"Record:Add TTT-LoRA 512d submission (val_bpb=1.1957)","author":"santosh5541","status":"open","is_record":false,"val_bpb":1.1957,"architecture":"Transformer","quantization":"per-row int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Baseline-sized Transformer configured with 8 attention heads and 4 KV heads.","parameters":{"layers":9,"dimensions":512,"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":null}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Training capped at a 10-minute wallclock budget on 8x H100 SXM GPUs.","parameters":{"max_wallclock_seconds":600,"hardware":"8x H100 SXM"}}}],"compression":"zlib","novel_contributions":["TTT-LoRA evaluation path achieved the best score over standard int8 roundtrip.","Baseline-sized 512d Transformer with 8 heads and 4 KV heads under the 10-minute/16MB constraint.","Per-row int8 quantization combined with zlib compression to fit within the artifact size limit.","Warmdown training schedule with 3000 iterations."],"artifact_size":"15,880,385 bytes"},{"pr_number":162,"title":"Record: Int6 MLP3x + SmearGate + BigramHash + MuonWD + SWA (mean val_bpb=1.1483)","author":"raahilshah","status":"closed","is_record":true,"val_bpb":1.1458,"architecture":"GPT","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights; fp16 passthrough for tied embeddings and last-layer key projection"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP hidden size from 2x to 3x expansion to improve capacity.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending each token embedding with the previous token embedding to add lightweight bigram context.","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding table for adjacent token-pair context.","parameters":{"vocab_size":4096,"dim":128}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for large weight matrices with muP-style output scaling."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"adamw_weight_decay":0.01}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.01}}}],"compression":"zstd-22","novel_contributions":["Per-row int6 quantization of MLP and attention weights with fp16 passthrough for sensitive components","3x MLP expansion enabled by int6 byte savings","SmearGate for blending current and previous token embeddings","BigramHash embedding for token-pair context","Orthogonal initialization with muP-style scaling","Muon optimizer with momentum warmup and weight decay","Stochastic Weight Averaging to smooth weights and improve quantization"],"artifact_size":"15.86MB"},{"pr_number":163,"title":"SwiGLU dim=576 + Sliding Window + Muon WD (1.2091 BPB)","author":"Focus2321","status":"open","is_record":false,"val_bpb":1.2091,"architecture":"Transformer","quantization":"FP16 embeddings passthrough with int8/tied-embedding export implied","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Keeps tok_emb.weight in fp16 instead of int8 to avoid quantization degradation in tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses a larger RoPE base to improve performance.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SwiGLU MLP","description":"Uses a wider SwiGLU feed-forward block with multiplier 2.","parameters":{"layers":7,"dim":576,"mlp_mult":2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"beta2":0.99}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_frac":0.6}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"other","data":{"description":"Uses wallclock-based warmdown at 60% of training and a larger batch/LR configuration.","parameters":{"train_batch_tokens":262144,"matrix_lr":0.03,"scalar_lr":0.03,"tied_embed_lr":0.04}}}],"compression":null,"novel_contributions":["Wider Transformer model with dim=576 and 7 layers using SwiGLU MLPs","Muon optimizer with decoupled weight decay 0.02","FP16 embedding passthrough to reduce tied-embedding quantization degradation","Sliding window evaluation with stride 64 for improved validation BPB","Wallclock-based warmdown at 60%","RoPE base 50K, beta2=0.99, and tuned batch/LR settings"],"artifact_size":"13.2MB"},{"pr_number":164,"title":"Submission: OrthoInit + Int6 MLP3x + SmearGate + BigramHash (val_bpb: 1.1524)","author":"jfprincz","status":"open","is_record":false,"val_bpb":1.1524,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for large matrices with muP-style scaling of output projections by 1/sqrt(2 * layers) to improve early convergence."}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 1536, increasing model capacity.","parameters":{"hidden_size":1536}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6; embeddings and bigram int8; controls fp32"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned sigmoid gate blending each token embedding with the previous token embedding before the first transformer layer.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding table injecting token-pair features.","parameters":{"buckets":4096,"input_dim":128,"output_dim":512}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"warmup_start":0.92,"warmup_steps":1500,"warmdown_iters":3000,"grad_clip":0.3}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":1500,"warmdown_steps":3000}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Orthogonal + muP-scaled initialization for faster early convergence","3x wider MLP to increase capacity within the artifact budget","Mixed int6/int8 quantization to reduce artifact size","SmearGate token embedding blending with previous-token context","BigramHash embedding for token-pair feature injection","Tuned Muon optimizer settings with warmup and warmdown","Training and evaluation at 2048-token sequence length with NTK-aware RoPE","FlashAttention 3 integration for faster training steps"],"artifact_size":"15.4 MB"},{"pr_number":166,"title":"Record: Long Context + All Optimizations submission","author":"chinesepowered","status":"open","is_record":false,"val_bpb":1.155,"architecture":"Transformer","quantization":"FP16 tied embedding export with int8 quantization elsewhere","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"eval_seq_len":1024}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embedding export in FP16 to avoid quantization error compounding through input/output paths.","parameters":null}},{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increases model depth to 10 transformer layers.","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":{"extended_momentum_warmup":{"start":0.92,"steps":1500}}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone spectral embedding initialization with power-law spectrum shaping."}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition residual mixing with sigmoid-scheduled initialization."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}},{"category":"other","data":{"description":"Uses a smaller training batch of 393K tokens to increase optimizer steps per wallclock second.","parameters":{"train_batch_tokens":393000}}}],"compression":null,"novel_contributions":["Combines long-context training with the strongest prior SOTA evaluation and quantization tricks.","Uses 2048-token training sequences instead of 1024 to improve pre-quantization quality.","Applies conservative learning rates and higher Muon momentum to reduce quantization gap.","Uses FP16 tied embedding export to avoid int8 quantization error compounding.","Keeps sliding-window evaluation while adding training optimizations from the Seq4096 submission.","Increases model depth to 10 layers while staying within budget."],"artifact_size":null},{"pr_number":168,"title":"SOTA Attempt: Paid prefix (val_bpb=1.0238)","author":"spokane-way","status":"open","is_record":false,"val_bpb":1.02174288,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":7,"dim":384,"heads":6,"kv_heads":3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.032,"scalar_lr":0.032,"tied_embed_lr":0.04}}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_frac":0.6,"warmdown_iters":0}}},{"category":"other","data":{"description":"Uses a paid prefix blob containing stored validation target tokens; matching covered positions are assigned zero loss at evaluation time.","parameters":{"prefix_size_bytes":8750000,"covered_validation_tokens":12900000,"coverage_fraction":0.208}}}],"compression":"lzma","novel_contributions":["Paid prefix blob storing 12.9M validation target tokens to zero out loss on matching covered positions","Train-only transformer trained exclusively on the train split with no validation-token exposure","Byte-budget allocation between a compressed prefix lookup table and a smaller quantized model","Grouped-query attention with 6 attention heads and 3 KV heads in a 7-layer 384-dim transformer","Self-contained artifact combining lzma-compressed prefix and int8+zlib model"],"artifact_size":"15.93 MB"},{"pr_number":169,"title":"Sliding Window Eval + Muon6 (val_bpb 1.1973)","author":"beee003","status":"open","is_record":false,"val_bpb":1.1973,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"backend_steps":6,"momentum_warmup_steps":1000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1500}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input and output embeddings in the baseline architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"other","data":{"description":"Added a forward_logits() method for efficient single-sequence inference during evaluation.","parameters":null}}],"compression":null,"novel_contributions":["Sliding window evaluation with stride 256 to score tokens with more prior context","Muon 6-step Newton-Schulz orthogonalization for improved optimizer accuracy","Extended momentum warmup to stabilize early training","Longer warmdown schedule for smoother learning rate decay","Added forward_logits() for efficient evaluation inference"],"artifact_size":"~15.9 MB"},{"pr_number":170,"title":"Record: Int6 QAT + SmearGate + Muon WD (val_bpb=1.1669)","author":"baudrillardsgh0st","status":"open","is_record":false,"val_bpb":1.1669,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending current and previous token embeddings to add cheap bigram context.","parameters":{"params":513}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.01,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":32}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input/output embeddings are tied, with fp16 passthrough to avoid compounding quantization errors.","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.01,"decoupled":true}}}],"compression":"zstd-22","novel_contributions":["Int6 QAT with STE fake quantization and per-row symmetric scaling","Int6 values stored in int8 containers with zstd-22 compression","SmearGate learned embedding-level bigram context","Decoupled Muon weight decay for improved generalization and quantization robustness","Sliding-window full-context evaluation","FP16 tied embedding passthrough"],"artifact_size":"14.77 MB"},{"pr_number":172,"title":"Add 3xMLP + Mixed Quant + Blockade/Sigma submission (val_bpb: 1.1812)","author":"GMaN1911","status":"open","is_record":false,"val_bpb":1.1812,"architecture":"Transformer","quantization":"mixed int8/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width from 2x baseline to 3x to improve token representation capacity.","parameters":{"mlp_mult":3,"model_dim":512,"layers":9,"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"mixed int8/int6","bits":8,"scope":"attention int8, MLP int6"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2500}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Used tied embeddings with a higher embedding learning rate.","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.02}}},{"category":"other","data":{"description":"Blockade attention diversity to encourage inter-head suppression and diverse attention patterns.","parameters":{"strength":0.15}}},{"category":"other","data":{"description":"Sigma residuals: uncertainty-gated residual connections that dampen noisy head contributions.","parameters":{"strength":0.3}}}],"compression":null,"novel_contributions":["3x MLP expansion to increase model capacity within the training budget","Mixed quantization using INT8 for attention and INT6 for MLP to fit under the 16MB cap","Blockade attention diversity mechanism to suppress overlapping heads","Uncertainty-gated sigma residuals to stabilize training","10-minute 8xH100 training run with reported mixed-roundtrip val_bpb of 1.1812"],"artifact_size":"15.37 MB"},{"pr_number":173,"title":"Record submission : Int6 + MLP 3x + Flash Attention 3 + NorMuon, val_bpb = 1.1532","author":"tamoghnokandar","status":"open","is_record":false,"val_bpb":1.1532,"architecture":"Transformer","quantization":"int6","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"weight matrices with per-row scaling; tied embedding and last 2 layers' c_k.weight kept in fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP hidden size from 1024 to 1536 (3x expansion).","parameters":{"hidden_size":1536,"base_hidden_size":1024}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept tied token embedding in fp16 for sensitivity reasons.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Model uses 4 KV heads with 8 attention heads.","parameters":{"heads":8,"kv_heads":4,"layers":9,"dim":512}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"eval_seq_len":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"other","data":{"description":"FlashAttention 3 used for the attention kernel to improve training/runtime on H100s.","parameters":null}}],"compression":null,"novel_contributions":["Replaced Muon with NorMuon for optimizer updates.","Switched the attention path to FlashAttention 3.","Used int6 post-training quantization with per-row scaling to fit a larger MLP.","Expanded the MLP hidden size from 1024 to 1536 while staying within the artifact budget.","Validated the submission across three seeds (7, 42, 1337) with sliding-window evaluation."],"artifact_size":"15.96MB"},{"pr_number":174,"title":"Add ContextFuse-2048-BigramSmear submission","author":"Julz19","status":"open","is_record":false,"val_bpb":1.15369565,"architecture":"Transformer","quantization":"mixed int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds bigram token-pair features on the input path.","parameters":{"bigram_vocab_size":4096,"bigram_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Blends each token representation with the previous token to smooth inputs.","parameters":null}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"large MLP and attention matrices"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"every":200}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"backend_steps":5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_weight_decay":0.01,"muon_weight_decay":0.02}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for the model."}},{"category":"other","data":{"description":"Fixed the sliding-window evaluator to avoid rescoring overlapping tail tokens in truncated windows.","parameters":null}}],"compression":null,"novel_contributions":["Adds BigramHash token-pair features to the input path","Introduces SmearGate input smoothing","Uses mixed int6 export for large attention and MLP matrices","Applies SWA over the late low-learning-rate phase","Uses Muon with tuned momentum and weight decay","Fixes the sliding-window evaluation bug that previously double-counted tail tokens","Updates the canonical metric using an exact reevaluation of the saved seed=1337 checkpoint"],"artifact_size":"15331125 bytes"},{"pr_number":175,"title":"Record: 11L LeakyReLU² + VRL + lzma — val_bpb 1.1229 (3-seed mean)","author":"anthony-maio","status":"open","is_record":false,"val_bpb":1.1229,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP to 3x width with LeakyReLU(0.5)^2 activation instead of standard ReLU^2.","parameters":{"expansion":3,"hidden_dim":1536,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning: layer 0 value output is blended into subsequent attention layers via learned sigmoid gates.","parameters":{"layers":11,"gate_init":-1.5,"initial_mixing":0.18}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash embeddings to improve token representation capacity.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings only partially across dimensions.","parameters":{"train_length":null,"eval_length":null}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA4 attention variant.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"tight":true}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model weights."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(i+1)"}}},{"category":"other","data":{"description":"Late QAT with STE threshold 0.15.","parameters":{"threshold":0.15}}}],"compression":"lzma","novel_contributions":["LeakyReLU(0.5)^2 activation swap to preserve negative gradient flow and improve BPB","Value Residual Learning (VRL) with sigmoid-gated mixing of layer 0 values into later attention layers","Switch from zstd to lzma compression to recover artifact headroom","Restoring MLP 3x expansion and BigramHash 2048 capacity within the 16MB limit"],"artifact_size":"~15.89 MB"},{"pr_number":176,"title":"Add submission: 10L Slide64 Mid6, val_bpb=1.1732","author":"GLDRoger","status":"open","is_record":false,"val_bpb":1.17319477,"architecture":"Transformer","quantization":"mixed int6/int8 with fp16 tied embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings with fp16 passthrough for the tied embedding/output-head tensor.","parameters":null}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":8,"scope":"all weights by default, with middle blocks 3,4,5,6 forced to int6; embeddings and LM head kept fp16"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"initialization","data":{"method":"spectral init","description":"Uses spectral embedding initialization."}},{"category":"initialization","data":{"method":"resid mix","description":"Uses phase residual mixing initialization."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":1024,"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}}],"compression":"zlib","novel_contributions":["Improved the prior valid mid6 run by lowering TIED_EMBED_LR from 0.10 to 0.08.","Kept the 10-layer sliding-window family recipe with 1024/64 sliding evaluation.","Used a mixed export policy with only middle blocks 3,4,5,6 forced to int6 while keeping embeddings and LM head in fp16.","Retained the stronger Muon crossover schedule with warmup and warmdown settings.","Achieved a new best valid score for this submission family under the 16MB cap."],"artifact_size":"15846677 bytes"},{"pr_number":178,"title":"Add Nuclear Stack submission: 1.16668 BPB (seed 2884431328)","author":"timowhite88","status":"closed","is_record":false,"val_bpb":1.16668,"architecture":"Transformer","quantization":"int6 mixed quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with ReLU² activation.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gating that blends each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-bucket hash table for token-pair context.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"momentum_warmup":"0.92 -> 0.99"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":"7-8"}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":2,"learning_rate":0.002,"frozen_blocks":4}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal initialization with muP scaling."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}}],"compression":"zstd-22","novel_contributions":["Combines architectural improvements with test-time training in a single submission","Introduces SmearGate token blending","Introduces BigramHash token-pair context hashing","Uses 3x MLP expansion with ReLU² activation","Applies SWA over multiple checkpoints","Uses int6 mixed quantization with zstd compression","Performs honest sliding-window evaluation that avoids double-counting tokens","Applies full-model test-time training on validation data"],"artifact_size":"~15.8MB"},{"pr_number":179,"title":"Record: 11L, int6+zstd, decoupled WD (val_bpb = 1.1472)","author":"devin-cog","status":"open","is_record":false,"val_bpb":1.1472,"architecture":"GPT","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights; embeddings kept in fp16"}},{"category":"architecture_modification","data":{"component":"GQA / KV head count","description":"GPT with grouped-query attention using fewer KV heads than attention heads","parameters":{"layers":11,"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.03,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup and warmdown","parameters":{"warmup_steps":1500,"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.038}}},{"category":"other","data":{"description":"Val-only training on the validation shard for the non-record aside submission","parameters":{"train_files":"fineweb_val_*.bin"}}}],"compression":"zstd-22","novel_contributions":["Decoupled weight decay on Muon to reduce quantization gap","11-layer GPT with GQA to fit under 16MB","Int6 per-row quantization with fp16 embeddings","Sliding window evaluation with stride 64","Higher learning rate / tuned Muon settings for improved convergence","Val-only training aside demonstrating the approach"],"artifact_size":"15,905,331 bytes"},{"pr_number":180,"title":"Record: 10L Int5-MLP + BigramHash(10240) + SWA(0.4) + WD=0.04 (val_bpb=1.1428, mean 3 seeds)","author":"thwu1","status":"closed","is_record":true,"val_bpb":1.14276,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP weights"}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":6,"scope":"attention weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a learned embedding table to reduce token-pair collisions.","parameters":{"buckets":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP uses 3x expansion.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections added in a U-Net-like pattern.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}}],"compression":"zstd-22","novel_contributions":["Mixed int5 MLP / int6 attention quantization to save artifact size","Adding a 10th transformer layer funded by int5 compression savings","Muon weight decay tuning to improve quantization friendliness","SWA with checkpoints collected from the last 40% of training","BigramHash with 10240 buckets to reduce token-pair collisions","SmearGate and OrthoInit inherited from prior work"],"artifact_size":"15.52MB"},{"pr_number":181,"title":"Aweb Optimized Baseline — 1.2194 BPB","author":"manfromnowhere143","status":"open","is_record":false,"val_bpb":1.21943065,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP multiplier from 2 to 3.","parameters":{"mlp_mult":3}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Training on validation data enabled.","parameters":{"train_on_val":1}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Optimizer hyperparameter tuning derived from analysis of top-scoring submissions","Uses unmodified baseline training script with all changes applied via environment variables","Longer training sequence length (2048)","Higher Muon momentum with warmup schedule","Gradient clipping enabled","Increased MLP multiplier","Training on validation data enabled"],"artifact_size":"15.88MB"},{"pr_number":182,"title":"Non-record: Linearized Neural Memory + TTT (val_bpb=1.1844)","author":"mihir-s-05","status":"open","is_record":false,"val_bpb":1.1844,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"linearized neural memory","description":"Titans-inspired neural memory added to each transformer block; cumulative gradient update is linearized into causal linear attention via cumsum/einsum and used as a gated residual between attention and MLP.","parameters":{"layers":10,"params_per_layer_overhead":"~8k"}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["Q","V","lm_head"]}}},{"category":"initialization","data":{"method":"overtone spectral embedding init","description":"Uses overtone spectral embedding initialization with phase-transition residual mixing."}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"middle layers"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"decoupled":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"scope":"embeddings/scalars"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":2500}}},{"category":"other","data":{"description":"FP16 embedding bypass","parameters":null}}],"compression":null,"novel_contributions":["Adds a Titans-inspired neural memory module to each transformer block","Linearizes the memory update into causal linear attention using cumsum and einsum for fullgraph compilation","Places memory between attention and MLP as a gated residual","Combines the memory module with LoRA-based test-time training","Uses overtone spectral embedding initialization and phase-transition residual mixing","Applies FP16 embedding bypass and int6 quantization on middle layers","Uses Muon weight decay with AdamW for embeddings/scalars"],"artifact_size":"14.5 MB"},{"pr_number":183,"title":"Non-record: Cache LM + LoRA TTT (negative result on cache, positive on TTT)","author":"anantdgoel","status":"open","is_record":false,"val_bpb":1.2529,"architecture":"Transformer","quantization":"int8","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model artifact"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr":0.01,"betas":[0.9,0.95]}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk_size":256,"batch_size":64}}},{"category":"other","data":{"description":"Unigram cache language model interpolation during evaluation, using decayed per-document token frequency counts.","parameters":{"lambda":0.02,"decay":0.98}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}}],"compression":"zlib","novel_contributions":["Per-document LoRA test-time training on Q/V/lm_head with score-first updates","Unigram cache language model interpolation during evaluation","Negative result showing the unigram cache LM hurts on FineWeb","Combination of LoRA TTT and cache LM in eval-time pipeline"],"artifact_size":"15.14 MB"},{"pr_number":184,"title":"Record: Pre-Enrichment + Encoder Recurrence (val_bpb=1.1855)","author":"Idan3011","status":"closed","is_record":false,"val_bpb":1.1855,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"pre-enrichment block","description":"Two linear projections with GELU applied to embeddings before the transformer blocks to enrich representations.","parameters":{"layers":2,"dimensions":512}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Encoder blocks are reused for a second pass with RMS norm stabilization between passes, increasing effective depth without adding parameters.","parameters":{"passes":2,"effective_layers":15,"physical_layers":10}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"decoupled":true}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"overtone embedding init","description":"Non-standard embedding initialization used for the token embeddings."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2500,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02,"decoupled":true}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["GELU pre-enrichment block before the transformer residual stream","2x encoder recurrence with RMS norm stabilization between passes","Demonstrated that encoder recurrence outperformed additional training steps under the same time budget","Sliding window evaluation with stride 64","Overtone embedding initialization"],"artifact_size":"15.75MB"},{"pr_number":185,"title":"Non-record: Wider-shallower 4x768 + QAT (1xH100, 1.3043 bpb)","author":"dttdrv","status":"open","is_record":false,"val_bpb":1.3043,"architecture":"Transformer","quantization":"int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"wider-shallower Transformer","description":"Uses a 4-layer, 768-dimensional model with grouped-query attention to improve performance at matched wallclock.","parameters":{"layers":4,"dimensions":768,"heads":12,"kv_heads":4}}},{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"model weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"lr":0.06,"grad_clip":0.5,"beta2":0.99}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":12,"kv_heads":4}}},{"category":"quantization","data":{"method":"STE QAT","bits":8,"scope":"model weights"}}],"compression":null,"novel_contributions":["Wider-shallower 4x768 architecture with grouped-query attention","Increased QK gain to sharpen attention","Muon optimizer tuning with gradient clipping and beta2 adjustment","Straight-through estimator quantization-aware training after warmup","Reduced int8 quantization gap from about 0.03 to 0.0016 bpb","Batch-size sweep on H100 to find 262K tokens optimal for single-GPU training"],"artifact_size":null},{"pr_number":186,"title":"11L XSA + SmearGate + BigramHash + SWA (mean val_bpb=1.1565, 3 seeds)","author":"mahsumaktas","status":"closed","is_record":false,"val_bpb":1.1565,"architecture":"Transformer","quantization":"INT6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 transformer layers to remove self-value bias in a GQA-compatible way.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Bigram-aware gating mechanism used together with BigramHash.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram-aware embedding/hash mechanism with vocabulary size 2048.","parameters":{"vocab_size":2048}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embedding and late-K layers"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_frac":0.4,"accumulation":"fp32"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embedding with increased base for longer-context modeling.","parameters":{"base":50000}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate and BigramHash."}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone SVD initialization with phase-transition residual mixing."}},{"category":"architecture_modification","data":{"component":"MLP2.75x","description":"Expanded MLP width to 2.75x with hidden size 1408 to fit within the artifact budget.","parameters":{"multiplier":2.75,"hidden_size":1408}}},{"category":"regularization","data":{"method":"grad clip","parameters":{"norm":0.3}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"other","data":{"description":"Magnitude pruning before quantization.","parameters":{"sparsity":0.02}}}],"compression":"zstd-22","novel_contributions":["11 transformer layers with XSA on the last 4 layers","SmearGate combined with BigramHash(2048) and OrthoInit","INT6 per-row quantization with zstd-22 compression","SWA with fp32 accumulation instead of EMA for better quantization behavior","Muon optimizer tuning with specific weight decay and momentum warmup","RoPE base increased to 50K","Overtone SVD initialization with phase-transition residual mixing","MLP expansion tuned to 2.75x to fit under the 16MB limit","Magnitude pruning before quantization"],"artifact_size":"15.9 MB"},{"pr_number":187,"title":"Record: Pre-Enrichment + Encoder Recurrence + XSA + SmearGate + BigramHash (val_bpb=1.1629)","author":"Idan3011","status":"open","is_record":false,"val_bpb":1.1629,"architecture":"U-Net Transformer","quantization":"int6 QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table embedding for token bigrams projected to model dimension and added before the residual stream.","parameters":{"table_size":"4096x64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learnable gate blending each token with the previous token's embedding.","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP width configuration.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Applies encoder recurrence by running the encoder blocks twice with RMS norm stabilization between passes.","parameters":{"passes":2,"encoder_layers":5,"decoder_layers":5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention removes self-value bias from attention output via orthogonal projection on the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"pre-enrichment","description":"Wider nonlinear embedding transformation before the residual stream: 512→768→512 with GELU and RMS norm.","parameters":{"input_dim":512,"hidden_dim":768,"output_dim":512}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3300}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"initialization","data":{"method":"overtone init","description":"Non-standard initialization adapted from prior work."}},{"category":"other","data":{"description":"GELU pre-enrichment block before transformer layers.","parameters":{"bottleneck":"512->768->512"}}}],"compression":"lzma","novel_contributions":["GELU pre-enrichment with a wider 512→768→512 bottleneck before the transformer blocks","2x encoder recurrence applied only to the encoder half of a U-Net transformer architecture","Exclusive Self Attention (XSA) on the last 4 layers to remove self-value bias","SmearGate for token-to-previous-token embedding blending","BigramHash token bigram embedding added to the input representation","EMA replacing SWA to reduce quantization gap","Int6 QAT with lzma compression to fit within the artifact limit"],"artifact_size":"15.05 MB"},{"pr_number":190,"title":"The Stinky Frost Recipe — 1.1725 BPB","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1725,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weight matrices except embeddings"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embeddings are kept in FP16 and tied, preserving token distinguishability under int6 quantization.","parameters":{"fp16":true}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending each token embedding with the previous token embedding.","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based embedding table for consecutive token pairs to inject bigram context before the first transformer layer.","parameters":{"buckets":4096,"dimension":128}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer key/value heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Custom MLP hidden size of 1344 to maximize capacity while fitting within the artifact size limit.","parameters":{"mlp_hidden":1344}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.01,"momentum":null,"other_params":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all large linear layers, with zero-init output projections."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Int6 quantization with early QAT starting at 25% of training","FP16 tied embeddings to preserve token distinguishability under quantization","Custom MLP hidden size of 1344 to fit within the 16MB artifact limit","SmearGate learned embedding blending with previous-token context","BigramHash embedding for direct bigram context before the first transformer layer","Orthogonal initialization for large linear layers","Muon optimizer with decoupled weight decay","Sliding window evaluation with stride 64"],"artifact_size":"15.58MB"},{"pr_number":191,"title":"Record: Compression-Funded MLP3x (val_bpb=1.1598)","author":"chris-buckley","status":"open","is_record":false,"val_bpb":1.15982,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all large weight matrices"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings and last two c_k weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened the MLP from 2x to 3x using saved artifact budget","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmup/warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"other","data":{"description":"Used seq2048 long-context training recipe with tuned learning rates and full validation split scoring","parameters":{"train_batch_tokens":786432,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}}],"compression":"zlib","novel_contributions":["Int6 block-weight compression to free artifact budget","Widening the MLP from 2x to 3x using the saved bytes","Keeping tied embeddings and selected attention weights in fp16 while compressing large matrices","Seq2048 long-context training recipe","Stride-256 sliding-window evaluation","Muon momentum warmup and tuned learning rates"],"artifact_size":"15.9 MB"},{"pr_number":192,"title":"Record: 11L Int6 QAT + SmearGate + WD 0.038 (val_bpb=1.1502)","author":"baudrillardsgh0st","status":"open","is_record":false,"val_bpb":1.1502,"architecture":"GPT","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending current and previous token embeddings","parameters":{"params":513}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP widened to 3x","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch":32}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.038}}},{"category":"other","data":{"description":"Int6-in-int8 container storage with restricted-range zstd compression","parameters":{"container":"int8","value_range":[-32,31]}}},{"category":"other","data":{"description":"FP16 tied embedding passthrough","parameters":null}}],"compression":"zstd-22","novel_contributions":["11-layer GPT enabled by int6 compression","STE int6 quantization-aware training","SmearGate learned embedding blend between current and previous token","Decoupled Muon weight decay tuned for int6 quantization","Int6-in-int8 storage with zstd-22 compression","Sliding window evaluation with stride 64"],"artifact_size":"15.50 MB"},{"pr_number":193,"title":"Add CTM tail-QAT proxy non-record snapshot","author":"KHUCHAN","status":"open","is_record":false,"val_bpb":1.2916789,"architecture":"GPT","quantization":"export-int8 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings in the GPT baseline.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads in the GPT baseline.","parameters":{"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"CTM workspace bridge","description":"Adds a small causal CTM workspace bridge.","parameters":{"slots":4,"dimensions":64}}},{"category":"other","data":{"description":"Routes workspace writes with novelty plus salience scoring.","parameters":{"CTM_NOVELTY_GAIN":1,"CTM_SALIENCE_GAIN":0.5}}},{"category":"other","data":{"description":"Uses prediction-error-gated skip connections.","parameters":{"SKIP_GATE_MODE":"error"}}},{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"export-matched int8 path"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Standalone non-record snapshot of a CTM-based proxy run","Causal CTM workspace bridge with 4 slots x 64 dimensions","Novelty-plus-salience workspace write routing","Prediction-error-gated skip connections","Export-matched tail QAT aligned with the final int8 artifact path","Packaging of train_gpt.py, train.log, README.md, and submission.json as a reproducible in-progress snapshot"],"artifact_size":"16,009,531 bytes"},{"pr_number":194,"title":"Record: 11L Int6 QAT + SmearGate + SWA + SAM: 1.1480 BPB (3-seed mean)","author":"baudrillardsgh0st","status":"open","is_record":false,"val_bpb":1.148,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weights with fp16 tied embeddings"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learned gate blending current and previous token embeddings.","parameters":{"dimensions":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x the model dimension.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input embeddings and output projection are tied, with embeddings kept in fp16 passthrough.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":{"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_frac":0.5}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used to support SmearGate and improve training stability."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.038}}},{"category":"other","data":{"description":"Sharpness-Aware Minimization (SAM) applied during training to flatten the loss landscape and improve quantization robustness.","parameters":{"rho":0.05,"frac":0.03}}}],"compression":"zstd-22","novel_contributions":["First introduction of SAM to the competition","Per-dimension SmearGate with learned sigmoid gating over embedding dimensions","Int6 QAT with int6 values stored in int8 containers for better zstd compression","Combination of SWA and SAM to improve post-quantization robustness","Use of sliding-window evaluation to recover additional BPB","11-layer architecture that fits under the artifact size limit with int6 compression"],"artifact_size":"15.33 MiB"},{"pr_number":195,"title":"Add chasewebb 9x512 sp1024 baseline (val_bpb: 1.2355)","author":"chasewebb","status":"open","is_record":false,"val_bpb":1.2355,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["9-layer 512-dim transformer baseline","1024-vocab SentencePiece BPE tokenizer","Grouped-query attention with 8 heads and 4 KV heads","Tied embeddings","Training on 80 FineWeb shards (~8B tokens)","int8+zlib artifact packaging"],"artifact_size":"15.87MB"},{"pr_number":196,"title":"Add non-record submission: 8xH100 FineWeb baseline + TTT eval (val_bpb 1.3825)","author":"sicauzxl","status":"open","is_record":false,"val_bpb":1.3825,"architecture":"Transformer","quantization":"int8 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"matrix_lr":0.06,"scalar_lr":0.06,"muon_momentum_warmup_start":0.85,"muon_momentum_warmup_steps":100}}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"run_ttt_eval":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query style attention with fewer KV heads than attention heads.","parameters":{"num_heads":12,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses an expanded MLP multiplier of 3.","parameters":{"mlp_mult":3}}},{"category":"initialization","data":{"method":"q_gain init","description":"Initializes q_gain with value 3.5."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.5}}},{"category":"other","data":{"description":"Trains on validation data as part of the setup.","parameters":{"train_on_val":1}}},{"category":"other","data":{"description":"Quantization-aware training with delayed start.","parameters":{"qat_enable":1,"qat_start_frac":0.1}}}],"compression":"zlib","novel_contributions":["Non-record 8xH100 FineWeb baseline submission evaluated through the official train_gpt.py val_bpb path","Quantization-aware training with int8 artifact accounting under the 16,000,000-byte cap","TTT-enabled evaluation on the official FineWeb validation logic","Documentation of a strong compliant baseline configuration and its reported val_bpb"],"artifact_size":"15,818,566 bytes"},{"pr_number":197,"title":"Non-record: staging profile (LAWA + slide eval) on 8xH100 (val_bpb=1.18926428)","author":"machdragon","status":"open","is_record":false,"val_bpb":1.18926428,"architecture":"GPT","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Merged-baseline defaults include tied embeddings / tied weights as part of the staging profile.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"adam_weight_decay":0.01}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.02,"adam_weight_decay":0.01}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2500}}},{"category":"other","data":{"description":"Staging profile that injects merged-baseline defaults and enables LAWA for production-scale reproducible validation.","parameters":{"staging_profile":1,"lawa_enabled":1}}}],"compression":"zlib","novel_contributions":["STAGING_PROFILE=1 merged-baseline recipe","LAWA enabled","Sliding-window evaluation with EVAL_STRIDE=512","8xH100 production-scale reproducible validation run","Reported TTT LoRA evaluation alongside standard validation"],"artifact_size":"15,292,665 bytes"},{"pr_number":198,"title":"11-Layer Int6 + WD=0.04 + SWA + FA3 (val_bpb: 1.1318)","author":"jfprincz","status":"open","is_record":true,"val_bpb":1.1318,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6; embeddings int8"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with hidden size 1536 and relu² activation.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending gate added to the residual stream.","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding for token-pair features into the residual stream.","parameters":{"bigram_vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Sequence uses NTK-aware RoPE.","parameters":null}},{"category":"architecture_modification","data":{"component":"FlashAttention 3","description":"Uses direct flash_attn_func calls for attention.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3000,"adamw_weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_avg_count":8,"warmdown_lr_scale_threshold":0.5,"checkpoint_interval_steps":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal plus muP-scaled initialization on large matrices."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adamw_wd":0.04}}}],"compression":"zstd-22","novel_contributions":["Increased depth to 11 transformer layers to gain capacity while staying under the artifact limit via int6 compression.","Applied weight decay 0.04 to keep weights quantization-friendly and improve int6 compression.","Used stochastic weight averaging over roughly 8 checkpoints during warmdown.","Evaluated with sliding-window stride 64 for near-full context scoring.","Reduced bigram vocabulary from 4096 to 2048 to save artifact space with minimal BPB impact.","Kept and combined prior techniques including OrthoInit + muP, 3x MLP, SmearGate, BigramHash, and FlashAttention 3."],"artifact_size":"15.7 MB"},{"pr_number":199,"title":"Non-record: SWA and doc-isolated eval ablation — two negative findings at stride=64","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.1929,"architecture":"Transformer","quantization":"int8","optimizer":"AdamW","training_techniques":[{"category":"weight_averaging","data":{"method":"SWA","parameters":{"snapshots":73,"sample_every_steps":50,"start_step":10000,"accumulation_dtype":"float32"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"doc-isolated sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":1200}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":64}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}}],"compression":null,"novel_contributions":["Controlled ablation showing SWA does not improve int8 quantization under default warmdown","Controlled ablation showing doc-isolated evaluation hurts at stride=64","Identification of a stride-dependent crossover where doc-isolation can be harmful at short stride but helpful at longer stride","Discovery and fix of a bf16 SWA accumulation bug by accumulating in float32"],"artifact_size":"15,819,113 bytes"},{"pr_number":200,"title":"Record: SP4096 + Int6 QAT + NorMuon (val_bpb=1.2012)","author":"khasinski","status":"open","is_record":false,"val_bpb":1.2012,"architecture":"Transformer","quantization":"int6 STE QAT","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"variant":"NorMuon"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_start_momentum":0.92,"warmup_steps":1500}}},{"category":"other","data":{"description":"SP4096 SentencePiece BPE tokenizer with improved text compression over sp1024.","parameters":{"vocab_size":4096,"compression_improvement":"26%"}}},{"category":"other","data":{"description":"Per-row int6 quantization with fp16 embedding passthrough and zstd-22 artifact compression.","parameters":{"range":"[-31,31]"}}}],"compression":"zstd-22","novel_contributions":["SP4096 tokenizer with substantially better text compression than sp1024","Int6 STE QAT with fp16 embedding passthrough","zstd-22 compression to keep the artifact under 16MB","NorMuon optimizer with tuned learning rates and momentum","Extended warmdown schedule"],"artifact_size":"14,342,773 bytes"},{"pr_number":201,"title":"LAWA-EMA frontier fork (pr198 base, SWA -> LAWA val_bpb=1.1551)","author":"machdragon","status":"open","is_record":false,"val_bpb":1.1551,"architecture":"Transformer","quantization":"int6 quantization with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights; int8 embeddings"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate module","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added BigramHash embedding component","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Added U-Net style skip connections across layers","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Used NTK-aware rotary positional embeddings","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995,"dtype":"float32","update_frequency":"every_step"}}},{"category":"initialization","data":{"method":"Overtone init","description":"SVD-based power-law embedding spectrum initialization for smoother int6 quantization"}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used on large matrices"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"partial-window fix","parameters":{"only_full_windows":true}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"grad_clip":0.3,"warmdown_iters":1200}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Fixed BigramHashEmbedding.proj zero-init override bug","parameters":null}}],"compression":"zstd-22","novel_contributions":["LAWA-EMA replacing SWA with every-step exponential moving average","Overtone initialization using SVD power-law embedding spectrum","BigramHashEmbedding projection zero-init fix","Sliding window evaluation boundary fix","Int6 quantized submission with reduced artifact size"],"artifact_size":"12.7 MB"},{"pr_number":204,"title":"Add record: INT6 10L SWA NorMuon, val_bpb=1.2320","author":"Akasxh","status":"open","is_record":false,"val_bpb":1.232,"architecture":"GPT","quantization":"INT6","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all model weights"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":10,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_hidden":1088}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":0.02,"momentum":null,"other_params":{"beta2":0.95}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"snapshots":50,"every_steps":200}}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":32,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}},{"category":"other","data":{"description":"Aggressive warmdown from step 0 to encourage tighter weight distributions for quantization.","parameters":{"warmdown_iters":20000}}}],"compression":"zlib","novel_contributions":["INT6 quantization enabling a larger 10-layer architecture within the 16MB budget","Stochastic Weight Averaging with 50 snapshots before quantization","NorMuon optimizer with decoupled weight decay","Aggressive warmdown schedule starting from step 0","Use of NTK RoPE evaluation at 4096 context, though it degraded post-quant performance"],"artifact_size":"14.2MB"},{"pr_number":205,"title":"MetaStack v3: 1.1792 sliding bpb, 10L BigramHash SmearGate OrthoInit SWA","author":"xinpw8","status":"open","is_record":false,"val_bpb":1.1792,"architecture":"GPT","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings used in the GPT model.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate mechanism added to the model.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for model weights."}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":30}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP/int5, attention/int6"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"mixed_precision_pruning":"2% magnitude pruning"}}},{"category":"other","data":{"description":"2% magnitude pruning applied to the model.","parameters":{"pruning_rate":0.02}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["10-layer GPT with BigramHash embeddings","SmearGate architecture component","OrthoInit initialization","SWA over 30 checkpoints","Muon optimizer with decoupled weight decay","Mixed int5/int6 quantization","2% magnitude pruning","Sliding-window evaluation with stride 64","Search harness and deployment/monitoring pipeline"],"artifact_size":"12.1MB"},{"pr_number":206,"title":"Record: Int6 STE + SmearGate + Seq2048 + OrthoInit + RoPE50K + SWA/100 (mean val_bpb=1.1507)","author":"dexhunter","status":"open","is_record":false,"val_bpb":1.1507,"architecture":"Transformer","quantization":"int6 STE QAT","optimizer":"NorMuon","training_techniques":[{"category":"quantization","data":{"method":"int6 STE QAT","bits":6,"scope":"all weights except fp16 tied embedding"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blends token embeddings with predecessor representations.","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP layers enabled by int6 compression savings.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary position embeddings with adjusted base frequency for longer context.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied; embedding tensor is kept in fp16 and not quantized.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":0.02,"momentum":0.99,"other_params":{"beta2":0.95,"warmup_start":0.92,"matrix_lr":0.021,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":100,"start_fraction_of_warmdown":0.5}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":1984}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization applied to all non-zero-init linear layers."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}},{"category":"other","data":{"description":"U-Net style skip connections with learnable per-layer per-dimension skip weights.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Int6 straight-through estimator quantization during training","SmearGate token-to-predecessor embedding blending","Wider 3x MLP enabled by quantization savings","Orthogonal initialization across non-zero-init linear layers","Longer 2048-token training context with RoPE base 50K","Frequent SWA checkpoint averaging every 100 steps","Sliding-window evaluation with stride 64","U-Net skip connections in the model"],"artifact_size":"14.79MB"},{"pr_number":207,"title":"Add 2026-03-20 11L dense-lexical submission candidate","author":"ajkpersonal","status":"closed","is_record":false,"val_bpb":1.15677715,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a SmearGate component to the dense lexical model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hash feature/module for lexical modeling.","parameters":{"dimensions":4096,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the model.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_weight_decay":0.01,"muon_weight_decay":0.038}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50,"start_frac":0.5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":2048,"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Dense lexical 11-layer 512-dim model with KV4 and MLP3x","SmearGate architecture component","BigramHash(4096 x 128) lexical feature module","Muon optimizer with weight decay 0.038","SWA training schedule","Legal re-export using int6_zstd_core to fit under the 16MB artifact cap","Doc-sliding evaluation with 2048 context and 256 stride"],"artifact_size":"15704854 bytes"},{"pr_number":208,"title":"Staging: Int6 MLP3x 11L + SmearGate + BigramHash4096x128 + MuonWD038 + SWA50 + DocSliding (single-run val_bpb=1.1568)","author":"ajkpersonal","status":"closed","is_record":false,"val_bpb":1.15677715,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"artifact/model weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width by 3x in an 11-layer dense-lexical KV4 model.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate to the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added bigram hash features to the model.","parameters":{"dimensions":"4096x128"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":null,"other_params":{"adam_weight_decay":0.01}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50,"start_frac":0.5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":2048,"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.038,"adam_weight_decay":0.01}}}],"compression":"zstd","novel_contributions":["11-layer dense-lexical KV4 model with MLP3x","SmearGate architecture addition","BigramHash(4096x128) feature augmentation","Muon optimizer with weight decay 0.038 plus Adam weight decay 0.01","SWA every 50 steps starting at 50% of training","Legal re-export path using int6_zstd_core with doc_sliding 2048/256 to fit the artifact cap"],"artifact_size":"15704854 bytes"},{"pr_number":209,"title":"Add non-record 11L int6 challenger 8xH100 attempt","author":"JWLBOYCE","status":"open","is_record":false,"val_bpb":1.1624,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"weight bits for model weights; embeddings kept at 16 bits"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embedding weights and keeps selected tensors in float for stability/size tradeoffs.","parameters":{"layers":11,"vocab":1024,"dim":512,"heads":8,"kv":4,"mlp_hidden":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":null,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.03}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64,"eval_seq_len":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Non-record submission capturing the exact code snapshot and remote train log from the strongest 8xH100 run, which was terminated during export before roundtrip scoring.","parameters":{"wallclock_cap_seconds":600,"batch_tokens":786432,"keep_float_tensors":["tok_emb.weight","blocks.9.attn.c_k.weight","blocks.10.attn.c_k.weight"],"context_features_enabled":{"bigram":0,"smeargate":0,"swa":0}}}}],"compression":"zstd","novel_contributions":["Non-record 11-layer int6 challenger attempt for the 16MB track","Exact code snapshot and copied remote train.log from the strongest 8xH100 run","Reported strongest measured pre-roundtrip validation result of 1.1624 bpb","Kept selected tensors in float while quantizing the rest to int6","Used a Muon optimizer configuration with separate matrix, scalar, and tied-embedding learning rates"],"artifact_size":"16MB"},{"pr_number":211,"title":"Add WaveletWeightedWidenet submission directory with README and metadata","author":"dubthecat","status":"open","is_record":false,"val_bpb":1.1719,"architecture":"Transformer","quantization":"mixed int8 / ternary VQ","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied FP16 token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"12-layer transformer with 8 attention heads and 4 KV heads (GQA).","parameters":{"layers":12,"heads":8,"kv_heads":4,"dim":512}}},{"category":"architecture_modification","data":{"component":"encoder-decoder skip connections","description":"U-Net style skip connections between first 6 encoder layers and last 6 decoder layers.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"phase-transition residual mixing","description":"Uses sigmoid-scheduled residual mixing per layer.","parameters":null}},{"category":"architecture_modification","data":{"component":"logit softcap","description":"Applies logit softcap at 30.0.","parameters":{"softcap":30}}},{"category":"quantization","data":{"method":"ternary VQ","bits":1,"scope":"MLP"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"attention"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"warmup_momentum":0.85,"warmup_steps":500}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.01,"momentum":null,"other_params":{"parameter_groups":["token embedding","ternary MLP weights","scalar/control params"],"learning_rates":{"token_embedding":0.6,"ternary_mlp_weights":0.02,"scalar_control_params":0.04}}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["Q","V","LM head"],"chunk_size":256,"batch_size":64}}},{"category":"initialization","data":{"method":"spectral init","description":"Tied FP16 embeddings use overtone spectral initialization."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iterations":2500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.01,"applied_to":"ternary weights"}}},{"category":"other","data":{"description":"Straight-Through Estimator used for ternary weight quantization during training.","parameters":null}},{"category":"other","data":{"description":"relu² activation between ternary linear layers.","parameters":null}}],"compression":"zlib","novel_contributions":["12-layer transformer with wider MLPs and U-Net style encoder-decoder skip connections","Ternary MLP weights compressed with vector quantization to about 1 bit per parameter","Hybrid compression scheme combining ternary VQ for MLPs and int8 for attention layers","Four-way optimizer split across embeddings, attention, ternary MLP weights, and scalar/control parameters","Sliding-window evaluation and optional TTT LoRA adaptation"],"artifact_size":"15,367,830 bytes (~14.7MB)"},{"pr_number":212,"title":"Non-record: Negative findings on codebook quantization, magnitude pruning, multi-token prediction, embedding factorization","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.1329,"architecture":"Transformer","quantization":"int6 per-row quantization with zstd-22","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size from 1024 to 1536 (3x MLP expansion).","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input embeddings and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_backend_steps":5}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":1}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"sample_every":50}}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"max_steps":500,"freeze_blocks":1}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Shared-block recurrent depth setup tested as an experimental technique.","parameters":{"shared_blocks":3,"loops":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate and BigramHash as an experimental architectural modification.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added BigramHash as an experimental architectural modification.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Int6 per-row quantization with 3x MLP expansion to fit a larger model within the artifact budget.","Controlled ablations showing multi-token prediction did not help on this setup.","Negative findings on codebook quantization: K-means codebooks compressed worse than int6 despite lower reconstruction error.","Negative findings on magnitude pruning: small amounts of pruning increased compressed artifact size.","Negative findings on embedding SVD/factorization: rank-64 linear factorization was not viable for the token embedding matrix.","Documentation of failed depth recurrence / Huginn-style eval scaling at small scale.","Documentation of QAT under torch.compile issues and implementation bugs such as SWA bf16 accumulation and zstd/zlib mismatch."],"artifact_size":"15.3 MB"},{"pr_number":213,"title":"Non-record submission: recurrent 512 L3 6k (8x H100, 224s)","author":"estesryan","status":"open","is_record":false,"val_bpb":1.6004,"architecture":"shared-loop recurrent transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses a shared-loop recurrent transformer with looped layers to reuse the same block multiple times.","parameters":{"model_dim":512,"num_loop_iters":3,"min_loop_iters":1}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"other","data":{"description":"Non-record submission targeting the 10-minute 16MB track with a compact recurrent architecture and stable convergence.","parameters":{"iterations":6000,"hardware":"8x H100","runtime_seconds":224}}}],"compression":null,"novel_contributions":["Shared-loop recurrent transformer architecture","Compact 512-dimensional model for the 10-minute 16MB track","Stable convergence within the runtime constraint","Uses looped layers with recurrent depth sharing"],"artifact_size":null},{"pr_number":215,"title":"Non-Record: 11L Low-Rank on Q192 (val_bpb=1.1548) 14.7MB in decimal","author":"JayCheng113","status":"open","is_record":false,"val_bpb":1.1548,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"low-rank Q","description":"Factorized the Q projection into down/up matrices with rank 192 to reduce parameters and improve compressibility.","parameters":{"rank":192}}},{"category":"architecture_modification","data":{"component":"depth","description":"Used 11 transformer layers with encoder-decoder skip connections (5 encoder + 6 decoder).","parameters":{"layers":11,"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Used tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with 4 KV heads.","parameters":{"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Used a 3x MLP width with relu-squared activation.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Applied rotary positional embeddings.","parameters":{"base":10000}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"warmdown_iters":3000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.038}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"initialization","data":{"method":"resid mix","description":"Explored Legendre-based initialization for resid_mix parameters, though it did not improve results."}},{"category":"other","data":{"description":"Clean compile cache was used for each run to ensure reproducibility and consistent compilation behavior.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Low-rank Q factorization with rank 192 to exploit the apparent low-rank structure of Q projections.","11-layer encoder-decoder skip-connected Transformer within the 16MB budget.","Int6 per-row quantization combined with zstd-22 compression for model weights.","Sliding-window evaluation with stride 64 for final scoring.","Analysis-driven exploration of alternative ideas such as Legendre resid_mix initialization, content-dependent pre-rotation, and depth-attention residuals."],"artifact_size":"14.7MB"},{"pr_number":216,"title":"Ternary Universal Transformer — 15.6MB, bfloat16, Muon optimizerAdd ternary Universal Transformer submission","author":"alons23","status":"open","is_record":false,"val_bpb":0.81,"architecture":"Universal Transformer","quantization":"ternary weights {-1,0,+1}","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"ternary","bits":null,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Universal Transformer with repeated recurrence over blocks; 4 blocks and 6 recurrences for 24 effective layers.","parameters":{"blocks":4,"recurrences":6,"effective_layers":24}}},{"category":"architecture_modification","data":{"component":"QK-Norm","description":"Normalization applied to query/key projections.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings used in attention.","parameters":null}},{"category":"architecture_modification","data":{"component":"FlashAttention-2","description":"Uses FlashAttention-2 for efficient attention computation.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"other","data":{"description":"Uses bfloat16 precision for training/inference.","parameters":{"precision":"bfloat16"}}}],"compression":null,"novel_contributions":["Ternary Universal Transformer submission","Ternary weights in {-1, 0, +1}","Muon optimizer","Universal Transformer with 4 blocks and 6 recurrences (24 effective layers)","QK-Norm","RoPE","FlashAttention-2","bfloat16 artifact"],"artifact_size":"15.6MB"},{"pr_number":217,"title":"Record: SP4096 int6+zstd 10L496 overtone+phase sliding (val_bpb=1.1753)","author":"kshitizz36","status":"open","is_record":false,"val_bpb":1.17528238,"architecture":"Transformer","quantization":"int6-style quantization in int8 container","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embedding weights are kept tied/passthrough in fp16.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.95,"other_params":{"matrix_lr":0.04,"scalar_lr":0.04,"tied_embed_lr":0.1}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"eval_batch_seqs":256}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone spectral initialization with phase-transition residual mixing."}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition residual mixing initialization."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}},{"category":"other","data":{"description":"SentencePiece tokenizer with 4096 vocabulary size.","parameters":{"vocab_size":4096}}}],"compression":"zstd-22","novel_contributions":["4096-vocab SentencePiece tokenizer","int6-range quantization in an int8 container to improve zstd compressibility","zstd level 22 compression","fp16 passthrough for token embeddings","sliding-window evaluation with stride 64 and long context coverage","overtone spectral initialization","phase-transition residual mixing"],"artifact_size":"14,672,752 bytes"},{"pr_number":218,"title":"qat + ttt + value embeddings","author":"bopmite","status":"closed","is_record":false,"val_bpb":1.1248,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing embedding/vocabulary mechanism.","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP blocks.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last layers of the model.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with NTK scaling and partial application.","parameters":{"sequence_length":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to only a subset of dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings / value embeddings.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"online logit bias","parameters":{"learning_rate":0.1,"momentum":0.9}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Online learned logit bias vector updated during validation to correct logits with exact cross-entropy gradient.","parameters":{"olb_lr":0.1,"olb_momentum":0.9}}}],"compression":"zstd","novel_contributions":["Online logit bias (OLB) learned during sliding window evaluation","Exact cross-entropy gradient update for the bias vector","Zero-parameter, near-zero-compute test-time correction","Combination of QAT, TTT-style evaluation adaptation, and value/tied embeddings"],"artifact_size":null},{"pr_number":219,"title":"Non-record: 12L Int5-MLP + Int6-Attn mixed quantization, val_bpb=1.1541","author":"alertcat","status":"open","is_record":false,"val_bpb":1.1541,"architecture":"Transformer","quantization":"mixed int5/int6 quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights int5, attention weights int6, tied embeddings fp16"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending gate","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature module","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and relu-squared activation","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":{"vocab":1024}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections across layers in a U-Net-like pattern","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"AdamW_weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_avg_count":7,"interval_steps":200}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Training with 12 transformer layers, 512 dimension, 8 heads, 4 KV heads, and 29.2M parameters","parameters":{"layers":12,"dim":512,"heads":8,"kv_heads":4,"parameters_m":29.2}}}],"compression":"zstd-22","novel_contributions":["Mixed precision-tiered quantization using int5 for MLP weights and int6 for attention weights","Using int5 compression savings to fund a 12th transformer layer within the 16MB budget","SmearGate learned token blending","BigramHash feature module","SWA checkpoint averaging during warmdown","U-Net skip connections with orthogonal and muP-scaled initialization"],"artifact_size":"~15.9 MB"},{"pr_number":220,"title":"[WIP] SSM LRU Baseline — First State Space Model Submission","author":"timothywangdev","status":"open","is_record":false,"val_bpb":1.848,"architecture":"Linear Recurrent Unit (LRU) state space model","quantization":null,"optimizer":"MuonAdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"LRU / state space model","description":"Replaces transformer attention with a Linear Recurrent Unit state space model using complex diagonal recurrence.","parameters":null}},{"category":"architecture_modification","data":{"component":"parallel scan","description":"Uses a cumulative-sum trick in log-space for parallel recurrence computation, intended to be torch.compile friendly.","parameters":null}},{"category":"architecture_modification","data":{"component":"gated projection","description":"Applies a sigmoid gate on the SSM output.","parameters":null}},{"category":"architecture_modification","data":{"component":"ReLU^2 MLP","description":"Uses a ReLU-squared MLP similar to the transformer baseline.","parameters":null}},{"category":"optimizer_technique","data":{"method":"MuonAdamW","weight_decay":null,"momentum":null,"other_params":{"param_groups":"SSM-aware parameter groups; Adam for A/B/C/D and Muon for projections"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"no_recomputation":true}}},{"category":"other","data":{"description":"Uses SSM-specific parameter grouping where A/B/C/D are optimized separately from projection layers.","parameters":null}}],"compression":null,"novel_contributions":["First non-transformer submission to parameter golf using an LRU state space model","Complex diagonal recurrence with parallel scan in log-space","SSM blocks claimed to be smaller than attention blocks at equivalent dimension","SSMs can absorb the MLP, reducing block size","No KV cache with native sliding window evaluation","MuonAdamW with SSM-aware parameter groups"],"artifact_size":"16MB"},{"pr_number":221,"title":"Submission: 10L + Sliding Window eval (mean val_bpb=1.1899)","author":"shajalahamedcse","status":"open","is_record":false,"val_bpb":1.1899,"architecture":null,"quantization":null,"optimizer":"Muon","training_techniques":[{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"num_layers","description":"10-layer model configuration","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3600}}},{"category":"initialization","data":{"method":"Overtone init","description":null}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":null,"novel_contributions":["Training on 4096-token sequences instead of 1024-token sequences","Using sliding window evaluation with stride 64","10-layer configuration combined with long-sequence training","Reported consistent mean validation bpb across three random seeds"],"artifact_size":"≤ 16MB"},{"pr_number":222,"title":"Non-record: WiderMLP + FP16 Embed + Stride-32 (val_bpb=1.1601)","author":"ansh-deriv","status":"open","is_record":false,"val_bpb":1.1601,"architecture":"GPT","quantization":"mixed int6/int8 with fp16 tied embedding","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider feedforward network increasing model capacity.","parameters":{"mlp_mult":3,"hidden_size":1536,"num_layers":10,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Tied token embedding weights with fp16 passthrough serialization for the embedding matrix.","parameters":{"fp16_passthrough":true}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"layers 2-8 int6; layers 0/1/9 int8 per-row; embeddings fp16"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"warmup_start_momentum":0.92,"warmup_steps":1500,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"evaluation_technique","data":{"method":"stride-based sliding window eval","parameters":{"stride":32,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Wider MLP via MLP_MULT=3 to improve capacity and validation bpb.","fp16 tied embedding export to avoid quantization loss on the embedding matrix.","Mixed int6/int8 quantization scheme with int6 on middle layers and int8 on edge layers.","Stride-32 sliding window evaluation using long preceding context for better bpb.","Tuned Muon optimizer settings including momentum warmup and separate learning rates."],"artifact_size":"18.97MB"},{"pr_number":223,"title":"Draft: SOTA+ TTT + RoPE50K + EMA + Curriculum (pending H100 run)","author":"0xjaishy","status":"open","is_record":false,"val_bpb":1.1326,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"MLP+Attn int6, embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending token with predecessor","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based token-pair embeddings","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider feed-forward network with 3x hidden expansion","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary position embeddings with increased base for smoother interpolation","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections with learned weights","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with output scaling"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.0003,"epochs":1,"momentum":0.95}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"other","data":{"description":"Context-length curriculum: train at seq1024 for first 60% of wallclock, then switch to seq2048","parameters":{"phase1_fraction":0.6}}}],"compression":"zstd-22","novel_contributions":["RoPE base 50K for smoother position interpolation at sequence length 2048","LAWA-EMA replacing periodic SWA with stepwise exponential moving average","Context-length curriculum from seq1024 to seq2048 during training","Full-model SGD test-time training on validation data before scoring"],"artifact_size":"15.7MB"},{"pr_number":225,"title":"Non-record: Int6 QAT + 11L 512d + Sliding Window, val_bpb=1.2089","author":"dibdabo","status":"open","is_record":false,"val_bpb":1.2089,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"large matrices / model weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"11-layer Transformer with 512d hidden size and 1024 MLP hidden size; originally targeted 1536 MLP hidden size but reduced to fit budget.","parameters":{"layers":11,"dimensions":512,"mlp_hidden":1024}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.025,"warmdown":3000,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":4096,"chunk_size":512,"stride":64}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Flat tensor storage for packed int6 bytes (int6_mixed_per_row_v2) to improve compression by avoiding pickle metadata interleaving.","parameters":{"format":"int6_mixed_per_row_v2"}}}],"compression":"zlib","novel_contributions":["Flat tensor storage for packed int6 weights to improve zlib compression","STE fake-int6 QAT activated at step 200 with fp32 weight restore after backward","Sliding window evaluation with ctx=4096, chunk=512, stride=64","Tuned Muon optimizer settings for the 8×H100, 10-minute budget","Observation that more training steps can worsen compression due to near-orthogonal, high-entropy weights"],"artifact_size":"15,190,812 bytes"},{"pr_number":226,"title":"Submission: Low-Rank All-Attention (1.3446 bpb)","author":"CRouvroy","status":"open","is_record":false,"val_bpb":1.3446,"architecture":"Transformer","quantization":"mixed int8/fp16","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"persistent memory","description":"Replaces the feed-forward network in Transformer blocks with persistent memory based on Augmenting Self-attention with Persistent Memory.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"tensors with size > 16384; smaller tensors kept in fp16"}},{"category":"architecture_modification","data":{"component":"low-rank factorization","description":"Factorizes matrices as W = W_d W_u to reduce parameter count for large square matrices.","parameters":null}}],"compression":null,"novel_contributions":["Replaces Transformer feed-forward layers with persistent memory","Applies mixed precision quantization with INT8 for large tensors and FP16 for smaller tensors","Uses low-rank factorization for routing/matrix parameter reduction"],"artifact_size":null},{"pr_number":228,"title":"Record: 10-Layer 4xMLP (val_bpb: 1.4444)","author":"hmhm0","status":"open","is_record":false,"val_bpb":1.4444,"architecture":"Transformer","quantization":"INT8 per-row post-training quantization","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"10-layer 4xMLP","description":"Expanded the standard 9-layer architecture to 10 layers and increased the MLP multiplier from 2x to 4x.","parameters":{"layers":10,"mlp_multiplier":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"overlapping":true}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"batched":true}}}],"compression":"zlib","novel_contributions":["Expanded the baseline architecture from 9 layers to 10 layers","Increased the MLP multiplier from 2x to 4x","Used standard INT8 per-row post-training quantization","Applied zlib compression to fit within the 16MB limit","Evaluated with an overlapping sliding window","Used batched LoRA test-time training"],"artifact_size":"14.68 MB"},{"pr_number":230,"title":"Record: Int6 + MLP 3x + NorMuon + SmearGate + BigramHash + OrthoInit + Sliding Window, val_bpb=1.1541","author":"MatthewHRockwell","status":"open","is_record":false,"val_bpb":1.1541,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights; tied embeddings kept in fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x model dimension to increase capacity.","parameters":{"hidden_dim":1536,"multiplier":3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":{"decoupled_weight_decay":true,"normalized_newton_schulz":true}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending each token embedding with the previous token embedding.","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based embedding for token pairs to inject explicit bigram context.","parameters":{"buckets":4096,"dimension":64,"projected_dim":512}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-style output projection scaling by 1/sqrt(2L)."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02,"decoupled":true}}}],"compression":null,"novel_contributions":["Int6 per-row quantization with fp16 scales and fp16 tied embeddings","MLP hidden expansion to 3x model dimension enabled by quantization savings","NorMuon / normalized Newton-Schulz optimization with decoupled weight decay","SmearGate token blending with previous-token context","BigramHash embedding for token pairs","Orthogonal initialization with muP-scaled output projections","Sliding window evaluation with stride 256 over 2048-token windows"],"artifact_size":"15,992,610 bytes"},{"pr_number":231,"title":"Record: SEQ_LEN=4096 training","author":"lenguyen1807","status":"open","is_record":false,"val_bpb":1.2036,"architecture":"Transformer","quantization":"FP16 tied embedding export; optional mixed-bit lowbit export","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied for the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware RoPE scaling for longer-context evaluation/training.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query style attention with fewer KV heads than query heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"overtone init","description":"Uses overtone embedding initialization."}},{"category":"architecture_modification","data":{"component":"phase-transition resid_mix","description":"Applies phase-transition residual mixing in the architecture.","parameters":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"extended warmup","parameters":{"warmup_steps":1500}}},{"category":"quantization","data":{"method":"mixed-bit lowbit export","bits":null,"scope":"selected block weights"}}],"compression":null,"novel_contributions":["Long-context training with sequence length 4096","Sliding-window evaluation with stride 64","FP16 tied embedding export","Overtone embedding initialization","Phase-transition residual mixing","NTK-aware RoPE scaling","Lower learning rates with higher Muon momentum and extended warmup","Optional mixed-bit lowbit export for deeper models"],"artifact_size":null},{"pr_number":232,"title":"Record: 11L MLP3x + SmearGate + Error Correction Table","author":"kellyvv","status":"open","is_record":false,"val_bpb":1.437,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden dimension to 3x the model dimension.","parameters":{"layers":11,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Sigmoid-gated mechanism initialized near 0.95 to improve model behavior.","parameters":{"init":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a bigram hash feature with 4096 buckets and 128-dimensional embeddings.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"embed_lr":0.03}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"error correction table","parameters":{"use_correction":1,"boost_logit":20,"fixed_val_set":true}}},{"category":"other","data":{"description":"Built a compact position-to-token lookup table from worst predictions on the fixed validation set and applied it during evaluation to zero out loss on matched positions.","parameters":{"entries":907927,"table_size_bytes":2867053}}},{"category":"other","data":{"description":"Used delta-encoded positions with varint encoding for compact correction-table storage.","parameters":{"avg_bytes_per_entry":3.16}}}],"compression":"zstd","novel_contributions":["Error Correction Table: a pre-computed position-to-token lookup table for the fixed validation set","Delta-encoded positions plus varint encoding to compress correction entries efficiently","On-the-fly correction table construction during evaluation without a separate build step","Logit boosting for matched positions to achieve effectively zero loss on corrected tokens"],"artifact_size":"15.15 MB"},{"pr_number":236,"title":"Record: 11L Int6 + SmearGate + Batch Optimization (val_bpb=1.1400)","author":"saml212","status":"open","is_record":false,"val_bpb":1.14,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"attention + MLP weights; int8 tok_emb"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gating module that blends adjacent token embeddings","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds consecutive token pair features via hashed bigram buckets","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened MLP to 3x hidden size","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embedding / output projection implied by tied embedding learning rate","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"grad_clip_norm":0.3}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"grad_clip_norm":0.3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7,"every_steps":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":32}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP output scaling"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adamw_wd":0.04}}},{"category":"other","data":{"description":"Reduced batch size to improve step count under a fixed 600s training budget","parameters":{"from_tokens":786000,"to_tokens":524288}}}],"compression":"zstd-22","novel_contributions":["Reduced batch size from 786K to 524K tokens to maximize optimization steps within a fixed training time budget","Used int6 quantization for all main weights instead of int5 MLP quantization","Switched tok_emb from fp16 to int8 to free artifact space for a wider MLP","Added SmearGate as a per-dimension embedding blending mechanism","Added BigramHash features with 2048 buckets and 128-dimensional embeddings","Applied batched sliding-window evaluation with stride 64 to make long-context eval feasible within time limits","Used SWA with periodic checkpoint averaging","Combined Muon and AdamW with dual weight decay to improve compression and quantization behavior","Used OrthoInit with muP output scaling"],"artifact_size":"15.7 MB"},{"pr_number":237,"title":"Add 10L 4K long-context negative-result submission","author":"takoyakisoft","status":"open","is_record":false,"val_bpb":1.8389,"architecture":"Transformer","quantization":"QAT-style fake quantization","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings as part of the model configuration.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"other","data":{"description":"Selective FP16 passthrough for a few sensitive tensors during training.","parameters":null}}],"compression":null,"novel_contributions":["Negative-result submission for the 10-minute, 16MB track","10-layer, 4K-context training run","Overlapping sliding-window evaluation","Rank-8 LoRA test-time training","QAT-style fake quantization during training","Selective FP16 passthrough for sensitive tensors","Documentation of coverage collapse under the 10-minute budget"],"artifact_size":"13361078 bytes"},{"pr_number":238,"title":"[Non-record] Quantization Findings: SWA Reversal + Int5 Failure","author":"kellyvv","status":"open","is_record":false,"val_bpb":1.5164,"architecture":"Transformer","quantization":"mixed int6/int5 quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x-expanded MLP layers in the baseline architecture","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the model architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash in the model architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"num_checkpoints":84,"every_steps":50,"start_step":6481}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"other","data":{"description":"Training under compute constraints with 10,670 steps on 1xH100","parameters":{"steps":10670,"hardware":"1xH100"}}}],"compression":"zstd","novel_contributions":["Demonstrates that SWA can reverse the quantization gap, producing a lower int6+zstd BPB than the pre-quantization checkpoint","Shows that int5 quantization of MLP layers can be catastrophic for undertrained models, greatly increasing the quantization gap","Provides evidence that SWA and quantization can be synergistic rather than antagonistic","Argues against mixed int5/int6 viability for compute-constrained training in this setting"],"artifact_size":"10.5 MB"},{"pr_number":240,"title":"Non-record: local RTX 4070 SP1024 7x512 KV2 500-step run","author":"riatzukiza","status":"open","is_record":false,"val_bpb":1.66595795,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a KV-thin attention configuration with fewer key/value heads than query heads.","parameters":{"num_heads":8,"num_kv_heads":2}}},{"category":"architecture_modification","data":{"component":"Transformer depth/width","description":"Shallower compact Transformer configuration for local GPU training.","parameters":{"layers":7,"model_dim":512}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":4}}},{"category":"other","data":{"description":"Local non-record submission under the 16MB artifact cap using a single RTX 4070 Laptop GPU.","parameters":{"artifact_cap_bytes":16000000,"iterations":500}}}],"compression":"zlib","novel_contributions":["Non-record local workstation run on a single RTX 4070 Laptop GPU","Shallower 7-layer, 512-dim Transformer with KV-thin attention (8 query heads, 2 KV heads)","Tied input/output embeddings","Full published validation split evaluation with first published training shard only","Compact int8+zlib artifact under the 16MB cap"],"artifact_size":"10.94MB"},{"pr_number":242,"title":"Crystal Curriculum — TF-IDF curriculum learning by Bee Bytez","author":"jamesrziggy","status":"closed","is_record":false,"val_bpb":1.2988,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increased the model from 9 to 10 transformer layers.","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":null}},{"category":"other","data":{"description":"TF-IDF-based curriculum learning via a Crystallizer module that oversamples 4 candidate batches and selects the densest batch by information density.","parameters":{"oversample":4,"warmup_frac":0.7}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"active_frac":0.7,"decay_to_uniform":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["TF-IDF-based curriculum learning using a Crystallizer module","Oversampling candidate batches and selecting the densest batch by unigram information density","Curriculum schedule that decays from dense-data sampling to uniform sampling","Increased transformer depth from 9 to 10 layers","Use of Muon optimizer with weight decay 0.02","Application of data distillation / information-density scoring to language model pre-training"],"artifact_size":"13.8MB"},{"pr_number":243,"title":"Record: Int6 3xMLP + Cosine Warmdown (val_bpb=1.1704)","author":"kvmukilan","status":"closed","is_record":false,"val_bpb":1.1704,"architecture":"Transformer","quantization":"int6 STE quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden width from 2x to 3x (hidden=1536) to increase parameter capacity.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Increased RoPE base from 10000 to 50000 for better position allocation.","parameters":{"base":50000}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all non-zero-init linear layers to improve gradient flow."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}}],"compression":"zstd-22","novel_contributions":["Int6 STE quantization to reduce artifact size and enable a wider model within the 16MB budget","3x MLP width expansion (hidden=1536)","Cosine warmdown learning rate schedule","Orthogonal initialization","RoPE base increased to 50000"],"artifact_size":"13.5MB"},{"pr_number":244,"title":"Non-record: leader-core valid-eval parity run + 1xH100 proxy screens","author":"simon-marcus","status":"open","is_record":false,"val_bpb":1.20639536,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings / tied token embedding settings in the leader-core merge candidate.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights / export"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"validity-safe eval path","parameters":null}},{"category":"evaluation_technique","data":{"method":"non-overlapping final eval","parameters":null}},{"category":"initialization","data":{"method":"OvertoneInit","description":"Training core rooted in the official SlidingWindow_FP16Emb_10L_MuonWD_OvertoneInit recipe."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":800}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"token embeddings"}},{"category":"other","data":{"description":"Temperature-only post-quant search used after export.","parameters":null}}],"compression":"zlib","novel_contributions":["Validity-safe merge rooted in the official SlidingWindow_FP16Emb_10L_MuonWD_OvertoneInit training core","Non-overlapping final evaluation","Stronger int8 export search","Temperature-only post-quant search","Saved RunPod local-disk parity run logs","Saved 1xH100 proxy-screen logs","Proxy ablations over learning-rate, warmdown, gradient clipping, Muon momentum, and token-embedding int8 settings","Identified warmdown800 + matrixlr006 as the strongest tested proxy combination"],"artifact_size":"15294320 bytes"},{"pr_number":246,"title":"non-record: int6 3xMLP + cosine warmdown (1.1704 bpb)","author":"kvmukilan","status":"closed","is_record":false,"val_bpb":1.1704,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened the MLP from 2x to 3x using freed artifact space from int6 quantization.","parameters":{"hidden":1536}}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":{"formula":"0.5 * (1 + cos(pi * progress))"}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization for all linear layers except zero-init ones."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"RoPE base set to 50k via environment variable.","parameters":{"rope_base":50000}}},{"category":"other","data":{"description":"Manual KV head repeat used for GQA compatibility instead of enable_gqa flag.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Switched from int8 to int6 quantization to free artifact budget","Used freed space to widen the MLP from 2x to 3x","Replaced linear LR decay with cosine warmdown","Applied orthogonal initialization to linear layers","Used zstd level 22 for artifact compression","Set RoPE base to 50k","Implemented a GQA compatibility fix via manual KV head repeat"],"artifact_size":"13.5MB"},{"pr_number":247,"title":"Non-record: local RTX 4070 SP1024 8x512 KV4 seq768 500-step run","author":"riatzukiza","status":"open","is_record":false,"val_bpb":1.6114074,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer key/value heads than attention heads.","parameters":{"layers":8,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":768,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Post-training int8 zlib roundtrip evaluation of the serialized model artifact.","parameters":{"serialized_model_bytes":9988629,"total_submission_bytes":10036271}}}],"compression":"zlib","novel_contributions":["Non-record local consumer-GPU submission under the 16MB artifact cap","Throughput-oriented search path for an 8-layer 512-dim configuration","Full published validation split evaluation using fineweb_val_*","Compact local RTX 4070 Laptop GPU run with tied embeddings and reduced KV heads","Public non-record anchor for a candidate family selected through repeated local search and validation"],"artifact_size":"10036271 bytes"},{"pr_number":248,"title":"Non-record: local RTX 4070 SP1024 8x512 KV4 500-step run","author":"riatzukiza","status":"open","is_record":false,"val_bpb":1.62312436,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses reduced key/value head count relative to attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Transformer size","description":"Compact 8-layer, 512-dimensional Transformer configuration.","parameters":{"layers":8,"model_dim":512}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":4}}},{"category":"other","data":{"description":"Local non-record submission run on a consumer GPU under the 16MB artifact cap, using a locally validated search path and full published validation split.","parameters":{"hardware":"1x RTX 4070 Laptop GPU","iterations":500}}}],"compression":"zlib","novel_contributions":["Non-record local consumer-GPU submission under the 16MB artifact cap","8-layer, 512-dim Transformer with 8 attention heads and 4 KV heads","Tied input/output embeddings","Full published validation split evaluation","Local search-loop-derived configuration re-evaluated on the full validation set","Int8 + zlib roundtrip artifact packaging"],"artifact_size":"10246842 bytes"},{"pr_number":249,"title":"non-record: int6 3xMLP + cosine warmdown (1.1704 bpb)","author":"kvmukilan","status":"open","is_record":false,"val_bpb":1.1704,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widened the MLP from 2x to 3x using freed artifact budget from int6 quantization.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Set RoPE base to 50k via environment variable.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Manual KV head repeat for GQA compatibility instead of using enable_gqa.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization for all linear layers except zero-init layers."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":{"formula":"0.5 * (1 + cos(pi * progress))"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"optimizer":"Muon WD"}}}],"compression":"zstd-22","novel_contributions":["Switched from int8 to int6 quantization to free artifact budget","Used the freed budget to widen the MLP from 2x to 3x","Replaced linear LR decay with cosine warmdown","Applied orthogonal initialization to linear layers","Used zstd level 22 for artifact compression","Implemented manual KV head repeat for GQA compatibility"],"artifact_size":"13.5MB"},{"pr_number":251,"title":"Add SP4096 11L432 MLP3x Int6+Zstd Momentum99 record (val_bpb=1.1596)","author":"kshitizz36","status":"open","is_record":false,"val_bpb":1.1596,"architecture":"Transformer","quantization":"int6 PTQ","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP expansion from 2x to 3x to add model capacity.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings with fp16 embedding passthrough during quantization.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.99,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.02,"adam_wd":0.02}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all except fp16 embeddings"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"initialization","data":{"method":"spectral init","description":"Tied embeddings use overtone spectral initialization."}}],"compression":"zstd-22","novel_contributions":["New SOTA validation score of 1.1596 bpb","11-layer SP-4096 Transformer with dim 432","3x MLP expansion with relu^2 activation","Muon optimizer momentum increased to 0.99","Int6 post-training quantization with zstd-22 compression","fp16 embedding passthrough to preserve embedding quality","Sliding-window evaluation with stride 64","Tied embeddings with overtone spectral initialization"],"artifact_size":"15.3MB"},{"pr_number":252,"title":"Add PR114 RunPod H100 SXM non-record submission","author":"greqone","status":"open","is_record":false,"val_bpb":1.15536852,"architecture":"Transformer","quantization":"mixed selective precision with fp16 tied embedding and late-K passthrough","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings in a 9-layer, width-512 GPT-style model with GQA and SP-1024.","parameters":{"layers":9,"width":512,"sp":1024}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention used in the model architecture.","parameters":null}},{"category":"quantization","data":{"method":"mixed selective precision","bits":null,"scope":"model export with fp16 tied embedding and late-K passthrough"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03,"grad_clip_norm":0.3}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"context_length":2048}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Non-record submission packaged under track_non_record_16mb after the leaderboard moved past the result.","Same-provider RunPod verification on 8x H100 SXM with three reruns for robustness evidence.","Long-context selective-precision PR114 recipe with fp16 tied embedding and late-K passthrough.","Under-cap artifact with detailed size accounting and significance testing against the older threshold."],"artifact_size":"15,963,195 bytes"},{"pr_number":254,"title":"Record: FarnsworthEngine v1 — TTT + 11L Int6 MLP3x, val_bpb=1.1303","author":"timowhite88","status":"open","is_record":false,"val_bpb":1.1303,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP+attention; embeddings int8; tied embeddings fp16"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with ReLU² activation in an 11-layer transformer","parameters":{"layers":11,"hidden_dim":1536,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned sigmoid token blending gate","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-bucket hash embedding for token-pair features","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-RoPE for long-context extrapolation","parameters":{"base":50000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_steps":1500,"warmdown_steps":3000}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":7,"phase":"warmdown"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"freezing_first_blocks":2}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization combined with muP"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":1500,"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"FlashAttention 3 used for attention computation","parameters":{"hardware":"Hopper"}}}],"compression":"zstd-22","novel_contributions":["Test-time training (TTT) with full-weight SGD adaptation on validation data before scoring","11-layer MLP3x transformer architecture with ReLU² activation","Mixed int6/int8 quantization with fp16 tied embeddings","SmearGate learned token blending gate","BigramHash token-pair feature embeddings","SWA checkpoint averaging during warmdown","NTK-RoPE for long-context extrapolation"],"artifact_size":"15.88 MB"},{"pr_number":256,"title":"DenseContextQuantTrim 8xH100: 1.1779 val_bpb","author":"IvGolovach","status":"open","is_record":false,"val_bpb":1.1778717,"architecture":"Transformer","quantization":"int8 PTQ with hybrid fp16/int8 embedding export","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query style attention with fewer KV heads than query heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final model with hybrid fp16/int8 token embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":2048,"stride_tokens":512}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Clip-search post-training quantization with candidate clipping thresholds.","parameters":{"candidates":[1,0.95,0.9,0.85]}}}],"compression":"zlib","novel_contributions":["Clean under-cap 8xH100 snapshot for the 10 minute / 16,000,000 byte track","Clip-search PTQ","Hybrid fp16/int8 export for token embeddings with top rows kept in fp16","Sliding-window validation at 2048 context with 512-token stride","Tied-embedding dense transformer baseline with grouped KV heads"],"artifact_size":"15,981,108 bytes"},{"pr_number":258,"title":"Non-record: local RTX 4070 SP1024 7x512 KV4 500-step run","author":"riatzukiza","status":"open","is_record":false,"val_bpb":1.65718316,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a KV4 attention configuration with fewer key/value heads than query heads.","parameters":{"layers":7,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":4}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Non-record local consumer-GPU submission under the 16MB artifact cap","Shallower 7-layer, 512-dim KV4 configuration discovered through a local search loop","Evaluation on the full published validation split","Uses tied embeddings with separate tied-embedding and matrix learning rates"],"artifact_size":"10296829 bytes"},{"pr_number":259,"title":"submission: QK Gain Init 1.2 + Sliding Window Eval (stride=64)","author":"outsourc-e","status":"open","is_record":false,"val_bpb":1.5879,"architecture":null,"quantization":"int8","optimizer":null,"training_techniques":[{"category":"initialization","data":{"method":"QK Gain Init","description":"Uses QK_GAIN_INIT=1.2 instead of the default 1.5 to improve attention stability during short training runs."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":32}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":"zlib","novel_contributions":["QK gain initialization with QK_GAIN_INIT=1.2 for improved training stability","Sliding window evaluation with stride=64 and batch size of 32 sequences","Added forward_logits() and eval_val_sliding() for eval-only long-context scoring","Reported improved validation performance from both initialization and evaluation changes"],"artifact_size":null},{"pr_number":260,"title":"[codex] Validate sliding-window post-quant evaluation on 1xH100 proxy","author":"Kevxn97","status":"open","is_record":false,"val_bpb":1.32756718,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":null,"context_length":null}}},{"category":"other","data":{"description":"Validate post-quantized evaluation on a 1xH100 proxy run and use it as a reproducible baseline for future search.","parameters":{"hardware":"1xH100","branch":"codex/sliding-window-eval-v1"}}}],"compression":null,"novel_contributions":["Adds sliding-window validation so scored tokens see near-max left context during evaluation","Keeps the training path unchanged while modifying evaluation behavior","Introduces configuration knobs for evaluation stride and batching","Documents a local and RunPod workflow for reproducibility","Records validated experiment details in the repo tracker","Uses a real proxy run to validate final post-quantized performance"],"artifact_size":null},{"pr_number":262,"title":"Record: 8L Paid Prefix + SmearGate + Int6 (val_bpb=1.0539)","author":"ibarrajo","status":"closed","is_record":false,"val_bpb":1.0539,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gated transformer variant used in the 8-layer model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 2048 buckets and dim=128.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embedding passthrough.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net added to the transformer.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":6}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization combined with muP scaling."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"other","data":{"description":"Paid prefix / prefix caching of 6.2M validation target tokens to achieve zero-bit prediction on covered positions.","parameters":{"prefix_tokens":6200000,"coverage":0.1}}}],"compression":"zstd-22","novel_contributions":["Paid prefix storing 6.2M validation target tokens as an LZMA-compressed blob","Combining paid prefix with an 8-layer SmearGate transformer","Int6 quantized model compressed with zstd-22","Sliding-window evaluation with stride 64","Use of SWA over 6 checkpoints"],"artifact_size":"15.97 MB"},{"pr_number":263,"title":"Non-record: TTT + QAT on Consumer GPU (val_bpb=1.5382)","author":"Dannybc123","status":"open","is_record":false,"val_bpb":1.5382,"architecture":"Transformer","quantization":"int8 QAT","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"weights during training"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.0001,"steps":1,"scope":["attn.proj.weight","mlp.proj.weight"]}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in the baseline Transformer architecture.","parameters":{"layers":9,"dim":512,"heads":8,"kv_heads":4,"mlp_multiplier":2}}},{"category":"other","data":{"description":"Autoresearch loop with AI-assisted autonomous experimentation, iterating on train_gpt.py via one-variable-at-a-time experiments.","parameters":{"experiments":15}}}],"compression":"zlib","novel_contributions":["Fake quantization-aware training (QAT) using a straight-through estimator in CastedLinear.forward()","Test-time training on both attention and MLP output projections during evaluation","Finding that QAT made training faster while improving post-quantization quality","Consumer-GPU-only autonomous experimentation workflow"],"artifact_size":"11.5 MB"},{"pr_number":264,"title":"11L Int5-MLP + TTT-SGD + SmearGate + SWA (1.1455 BPB)","author":"stukenov","status":"open","is_record":false,"val_bpb":1.1455,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP weights (int5), attention weights (int6)"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending each token embedding with the previous token's embedding to inject bigram context.","parameters":{"params":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-bucket hashed bigram embedding table projected into model dimension.","parameters":{"buckets":2048,"dimension":64,"projection_dim":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x model dimension with relu^2 activation.","parameters":{"multiplier":3,"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"warmup_momentum_start":0.92,"warmup_momentum_end":0.99,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs":2}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":30,"interval_steps":50}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for large matrices with muP scaling."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iterations":3000}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["11-layer transformer funded by mixed-precision quantization savings","Mixed int5 MLP and int6 attention quantization to fit within the artifact budget","SmearGate for injecting previous-token context","BigramHash embedding for learned bigram context","Full-model SGD test-time training to improve validation BPB","Stochastic Weight Averaging over 30 checkpoints","OrthoInit with muP scaling for stable training","Sliding-window evaluation with stride 64"],"artifact_size":"15.94 MB"},{"pr_number":265,"title":"Record: 11L + Efficient Partial XSA (val_bpb: 1.1307)","author":"unnir","status":"closed","is_record":false,"val_bpb":1.1307,"architecture":"Transformer","quantization":"int6 per-row quantization with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied only to the deepest layers, with an efficient GQA-aware implementation that avoids value-vector duplication via reshape and broadcasting.","parameters":{"layers":3,"total_layers":11,"head_count":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash component with bucketed representation.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware rotary positional embeddings that auto-scale at longer context lengths.","parameters":{"train_seq_len":1024,"auto_scales_at":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion with relu-squared activation.","parameters":{"hidden_dim":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_start_momentum":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"embedding_lr":0.035,"scalar_lr":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":120,"num_checkpoints":13,"scale_threshold":0.5}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":30}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}}],"compression":"zstd-22","novel_contributions":["Efficient GQA-aware implementation of Exclusive Self Attention using reshape and broadcasting instead of repeat_interleave","Applying XSA only to the deepest 3 of 11 layers to reduce compute while targeting layers with higher self-attention bias","Combination of partial XSA with an 11-layer Transformer, GQA, SmearGate, BigramHash, and U-Net skip connections"],"artifact_size":"15,892,986 bytes"},{"pr_number":266,"title":"Non-record: Mixture of Softmax K=2 R=64 (1xH100, 10min, 1.3932 bpb)","author":"User123331","status":"open","is_record":false,"val_bpb":1.3932,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in the baseline model.","parameters":null}},{"category":"architecture_modification","data":{"component":"Mixture of Softmax","description":"Replaces the standard tied-embedding softmax with a K=2 mixture of softmaxes to break the softmax bottleneck.","parameters":{"k":2,"rank":64}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Applies Mixture of Softmax (MoS) to the baseline 9x512 architecture.","Uses low-rank factorization with rank 64 to keep parameter overhead minimal.","Demonstrates that MoS adds negligible artifact overhead while remaining within the 16MB budget.","Reports minimal quantization degradation after int8+zlib roundtrip.","Explores the theoretical benefit of lifting the softmax rank limit from d+1 to K*d+? for the full vocabulary dimensionality."],"artifact_size":"12.8 MB"},{"pr_number":267,"title":"Record: val_bpb: 1.14020 [tested 3x on 8xh100]","author":"andrewgcodes","status":"open","is_record":false,"val_bpb":1.13742,"architecture":"Transformer","quantization":"int5 all weights with fp16 exceptions","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings and last-layer key projections"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last 3 layers by subtracting self-value projection from attention output","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 KV heads","parameters":{"kv_heads":4,"heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP uses 3x expansion","parameters":{"hidden_size":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.08,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs_per_chunk":12,"chunks":64,"learning_rate":0.004,"momentum":0.9}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with scaled output projections"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.08}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":"3%"}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Causal test-time training that evaluates each chunk first and trains only on already-scored tokens","Int5 quantization applied to all weight categories to fit the model under the artifact size limit","EMA-based training for improved model averaging","Exclusive self-attention applied to the last 3 layers","Orthogonal initialization with scaled output projections","Sliding-window evaluation with stride 64","Post quantization roundtrip using int5 + zstd"],"artifact_size":"15,516,237 bytes"},{"pr_number":271,"title":"Non-record: HyperparamTuned KV2 + FP16 Embed","author":"xexyz","status":"open","is_record":false,"val_bpb":1.3003,"architecture":"Transformer","quantization":"fp16 embeddings (tok_emb export); baseline int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Reduced key-value heads from 4 to 2 (GQA 8:2) to save parameters and improve throughput.","parameters":{"num_kv_heads":2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.97,"other_params":{"matrix_lr":0.048,"scalar_lr":0.03}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":600}}},{"category":"initialization","data":{"method":"QK_GAIN_INIT","description":"Lower initial attention sharpness via QK gain initialization set to 1.35."}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}}],"compression":null,"novel_contributions":["Systematic hyperparameter tuning of the baseline 9x512 architecture","Reduced NUM_KV_HEADS from 4 to 2","Adjusted Muon and scalar learning rates","Shortened warmdown schedule","Increased Muon momentum","Lowered QK gain initialization","Exported token embeddings in fp16 instead of int8","Focused on throughput-neutral changes to improve BPB under wallclock constraints"],"artifact_size":null},{"pr_number":272,"title":"Non-record: 10L mixed int5/int6 export reaches ~10.4MB with strong throughput","author":"simon-marcus","status":"open","is_record":false,"val_bpb":1.24271554,"architecture":"Transformer","quantization":"mixed int5/int6/int8","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6/int8","bits":null,"scope":"MLP matrices int5, attention matrices int6, elsewhere int8"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied output and input embeddings","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.08,"scalar_lr":0.04,"embed_lr":0.05}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"tiny eval-time SGD","parameters":{"targets":["q_gain","attn_scale","mlp_scale","resid_mix","skip_weights"]}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":500,"warmup_steps":20}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Mixed-precision export with int5 for MLP matrices and int6 for attention matrices","Tiny eval-time adaptation on a small control-parameter subset","Demonstration of a valid 10L submission with strong throughput and much smaller artifact size","Exploration of the size/quality frontier using aggressive mixed quantization"],"artifact_size":"10.4MB"},{"pr_number":273,"title":"Non-record: 10L Int6 QAT + SmearGate + SWA (val_bpb=1.1575)","author":"dentity007","status":"open","is_record":false,"val_bpb":1.1575,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending token with predecessor","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded feed-forward network width to 3x","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads with 8 attention heads (GQA)","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied; embedding kept in FP16","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_frac":0.5,"num_checkpoints":27}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":{"momentum_warmup":"0.92->0.99 over 1500 steps"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.038}}},{"category":"other","data":{"description":"Per-dimension SmearGate and step-throughput-focused 10-layer depth tradeoff to maximize training steps under a 10-minute wall-clock budget","parameters":{"layers":10,"step_time_ms":65.49,"steps":9156}}}],"compression":"zstd-22","novel_contributions":["10-layer configuration chosen to improve step throughput under the 10-minute wall-clock constraint","Systematic analysis across 17 experiments comparing architecture, LR schedules, quantization, and data scaling","Int6 QAT with STE combined with per-dimension SmearGate and SWA","Demonstration that 10L outperforms 11L because faster step time yields more training steps","Use of sliding window evaluation with stride 64 and zstd-22 compression"],"artifact_size":"14.73MB"},{"pr_number":274,"title":"[Record] Stride-32 + Warmdown/Muon Tuning on SOTA #1: mean val_bpb=1.1403","author":"haikosys","status":"open","is_record":false,"val_bpb":1.1403,"architecture":"Transformer","quantization":"mixed int6/int8 with int5 MLP and FP16 tied embeddings","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP, attention, tied embeddings"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash embedding component.","parameters":{"size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expanded MLP hidden size.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"muon_momentum":0.95}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50,"start":"40%"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":5000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["Stride-32 sliding window evaluation with 2x context overlap","Warmdown tuning extended to 5000 iterations","Muon momentum tuning from 0.99 to 0.95","Reduced training batch tokens to 524288","LoRA test-time training with rank-8 adapters during evaluation","Per-document adapter reset and score-then-train ordering to preserve causality"],"artifact_size":"under 16MB"},{"pr_number":275,"title":"Non-record: Paid Prefix Research (val_bpb=1.0539, ruled out-of-scope)","author":"ibarrajo","status":"disqualified","is_record":false,"val_bpb":1.0539,"architecture":"Transformer","quantization":"Int6","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Transformer variant using SmearGate blocks as part of the model recipe.","parameters":{"layers":8}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hash mechanism with a 2048-bucket vocabulary component.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adamw_weight_decay":0.04,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":6}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"Paid prefix / direct token storage: stores LZMA-compressed validation target tokens as part of the artifact to improve BPB on uncovered positions.","parameters":{"coverage":0.1,"prefix_size_mb":4.24}}}],"compression":"zstd-22","novel_contributions":["Paid prefix / direct token storage as a hybrid compression strategy","Empirical comparison of model capacity versus prefix coverage under the 16MB budget","Compression research comparing raw uint16, LZMA, pack10, and bigram-rank prefix encodings","Observation that prefix coverage can matter more than model quality in this regime","Proposal of bigram-rank + varint + LZMA encoding for higher prefix coverage"],"artifact_size":"15.97MB"},{"pr_number":276,"title":"Non-record: local RTX 4070 shared-depth RMS interface v0","author":"riatzukiza","status":"open","is_record":false,"val_bpb":1.65765109,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth sharing / shared-depth","description":"Uses 4 physical blocks to implement 8 logical layers, reducing parameter count while preserving multiple logical passes.","parameters":{"layers":8,"physical_layers":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Ties input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer key/value heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RMSNorm interface","description":"Adds extra pre-projection RMSNorm in the shared-depth interface.","parameters":{"extra_proj_rmsnorm":1}}},{"category":"architecture_modification","data":{"component":"phase-conditioned scales","description":"Adds tiny phase-conditioned scaling parameters to stabilize the shared-depth model.","parameters":{"phase_conditioned_scales":1,"phase_buckets":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final serialized model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":4}}},{"category":"other","data":{"description":"Training was capped by a 900-second wallclock limit and stopped early at 471/500 steps.","parameters":{"max_wallclock_seconds":900,"stopped_step":471,"total_steps":500}}}],"compression":"zlib","novel_contributions":["Non-record local consumer-GPU submission under the 16MB artifact cap","Shared-depth model with 8 logical layers implemented using 4 physical blocks","Extra pre-projection RMSNorm in the shared-depth interface","Tiny phase-conditioned scales with 4 phase buckets","Tied input/output embeddings with separate tied-embedding learning rate","Int8 plus zlib roundtrip artifact packaging"],"artifact_size":"5912023 bytes"},{"pr_number":278,"title":"Record: 8L Paid Prefix + Sparse Hard Blocks (1.0365)","author":"nicolasdickenmann","status":"closed","is_record":false,"val_bpb":1.03647005,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash component with hashed buckets for additional representation capacity.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expanded MLP.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embedding passthrough.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 heads with 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling."}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"other","data":{"description":"Inline-built sparse hard-block cache used as a sparse paid-prefix blob during evaluation to prioritize highest-loss validation blocks under a byte budget.","parameters":{"prefix_type":"sparse_blocks_v1","block_size":256,"selected_blocks":20681,"covered_tokens":5294336,"covered_fraction":0.0854,"prefix_bytes":4240256}}}],"compression":"zstd-22","novel_contributions":["Replaces the contiguous paid prefix with an inline-built sparse hard-block cache.","Selects validation blocks by sliding-window NLL and keeps the hardest blocks under a byte budget.","Builds the sparse paid-prefix blob during eval time and uses it in the same run.","Improves score-per-prefix-byte by spending artifact bytes on high-loss validation regions instead of the first N positions."],"artifact_size":"16.53 MB"},{"pr_number":281,"title":"Non-record: val_bpb=1.1374, FA2+SWA adaptation of Farnsworth","author":"charmquark1984","status":"closed","is_record":false,"val_bpb":1.1381,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with ReLU^2 activation in an 11-layer transformer","parameters":{"layers":11,"model_dim":512,"heads":8,"kv_heads":4,"mlp_hidden":1536}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP+attention; embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned sigmoid token blending gate","parameters":{"params":"~512"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-bucket hash embedding for token-pair features","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-scaled rotary position embeddings","parameters":{"base":10000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.042,"momentum":0.99,"other_params":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7,"every":200,"during":"warmdown"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3}}},{"category":"initialization","data":{"method":"Orthogonal","description":"Orthogonal initialization with muP output scaling"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.042}}},{"category":"other","data":{"description":"FlashAttention 2 / torch SDPA flash backend used instead of FA3 Hopper kernels","parameters":{"version":"2.8.3"}}}],"compression":"zstd-22","novel_contributions":["Adaptation of FarnsworthEngine to FlashAttention 2 instead of FA3 Hopper kernels","Weight decay tuned as a control knob for compressed artifact size targeting","Benchmark showing cuDNN SDP is faster than Flash SDP on H100 but yields worse model quality","Systematic sweep identifying WD=0.042 as optimal for ~15.5MB artifact size and best BPB","Use of SWA during warmdown combined with TTT and sliding-window evaluation"],"artifact_size":"15.59 MB"},{"pr_number":283,"title":"Tier 6: PPM-C eval-time context mixer (standalone + neural mixing)","author":"Cwarren15-A","status":"open","is_record":false,"val_bpb":1.2244,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"eval-time probability blending / context mixing","parameters":{"standalone_ppm_order":2,"fixed_alpha_neural_share":0.95,"fixed_alpha_ppm_share":0.05,"cumulative_alpha_neural_share":0.85,"cumulative_alpha_ppm_share":0.15}}},{"category":"other","data":{"description":"Standalone classical PPM-C order-2 context mixer used at evaluation time to estimate token probabilities.","parameters":{"order":2,"zero_learned_parameters":true,"zero_artifact_size_cost":true}}},{"category":"other","data":{"description":"Neural model probabilities blended with PPM probabilities using a fixed-alpha mixture.","parameters":{"alpha":0.95,"mode":"per-doc"}}},{"category":"other","data":{"description":"Confidence-gated adaptive blending variant explored for per-token mixture weighting.","parameters":null}}],"compression":null,"novel_contributions":["Classical PPM-C context mixer for eval-time probability blending with the neural model","Standalone PPM-C order-2 evaluator","Fixed-alpha neural/PPM mixture that improves BPB by about 0.015","Confidence-gated per-token adaptive blending variant","Zero learned parameters and no artifact size cost"],"artifact_size":null},{"pr_number":284,"title":"Add non-record local A100 PR60-stack reproduction","author":"DanishjeetSingh","status":"open","is_record":false,"val_bpb":1.41057617,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embedding export with tok_emb kept in fp16","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embedding setup as part of the PR60-style stack","parameters":null}},{"category":"architecture_modification","data":{"component":"Transformer","description":"10-layer transformer model","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone spectral embedding initialization"}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition residual mixing"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"type":"decoupled"}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Non-record local reproduction of the PR60-style stack on 1x A100 hardware","Sliding-window final evaluation with stride 64","FP16 tied embedding export with tok_emb kept fp16","10-layer transformer configuration","Decoupled Muon weight decay","Overtone spectral embedding initialization","Phase-transition residual mixing","Demonstrates a compute-scaling negative result under a strict 10-minute train cap"],"artifact_size":"11,124,153 bytes"},{"pr_number":285,"title":"Add non-record local A100 TTT eval-stride0 submission","author":"DanishjeetSingh","status":"open","is_record":false,"val_bpb":1.351,"architecture":null,"quantization":"int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights / submission artifact"}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":0}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Training capped by wall-clock time on a local 1xA100 run","parameters":{"max_wallclock_seconds":600,"hardware":"1x NVIDIA A100-SXM4-40GB","train_shards":80}}}],"compression":"zlib","novel_contributions":["Non-record local 1xA100 baseline submission focused on the TTT metric","Uses standard final evaluation with EVAL_STRIDE=0","Includes exact train_gpt.py snapshot and training log for reproducibility","Fits within the 16MB artifact limit with int8 + zlib compression"],"artifact_size":"11,876,675 bytes"},{"pr_number":286,"title":"Record: 10L Int5-MLP + SmearGate + BigramHash + Late QAT (val_bpb=1.1628)","author":"chris-buckley","status":"open","is_record":false,"val_bpb":1.1628,"architecture":"Transformer","quantization":"mixed int5/int6 export with late QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"gated residual smearing for cheap inter-token mixing","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"4096-bucket bigram embedding for token-pair context without a full bigram table","parameters":{"vocab_size":4096,"dimension":128}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"orthogonal initialization with muP-style output projection scaling for stable deep training"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"every_steps":50,"num_checkpoints":15}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"final phase only"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"full_tail_handling":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adam_weight_decay":0.01}}},{"category":"other","data":{"description":"late QAT starting at 85% wallclock to avoid always-on STE instability while closing most of the quantization gap","parameters":{"start_frac":0.85}}}],"compression":"zstd-22","novel_contributions":["Mixed-precision int5 MLP / int6 attention export to fit a 10-layer model under the 16 MB cap","SmearGate for cheap inter-token mixing without learned parameters","BigramHash 4096-bucket bigram embedding for token-pair context","Late QAT starting at 85% wallclock instead of always-on STE","Orthogonal initialization with muP-style output projection scaling","Decoupled Muon weight decay and SWA during warmdown","Sliding-window evaluation with stride 64 and full-tail handling"],"artifact_size":"15,481,841 bytes"},{"pr_number":287,"title":"Record: 11L XSA + EMA + Int6 MLP3x + WD=0.04 (val_bpb: 1.1271)","author":"jfprincz","status":"closed","is_record":true,"val_bpb":1.1271,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers; subtracts the component aligned with each token's own value vector from attention output.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6, embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling on large matrices."}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider MLP blocks with hidden size 1536 and relu² activation.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending gate used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding with 2048 buckets, dimension 128, projected to 512.","parameters":{"vocab_size":2048,"dimension":128,"projection_dim":512}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware rotary positional embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500,"warmdown_iters":3000,"grad_clip":0.3}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":1500,"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":"zstd-22","novel_contributions":["Exclusive Self Attention (XSA) on the last 4 layers","EMA replacing SWA for weight averaging","Mixed int6/int8 quantization with zstd-22 compression","11-layer Transformer stack with U-Net skip connections and 3x MLP blocks","OrthoInit with muP scaling and tuned Muon optimizer settings"],"artifact_size":"15.5 MB"},{"pr_number":288,"title":"Non-record: Hybrid Depth-Recurrent Transformer + Int5 Quantization Studies","author":"trasnake87","status":"open","is_record":false,"val_bpb":1.2334,"architecture":"Hybrid Depth-Recurrent Transformer","quantization":"Int5 quantization","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Hybrid depth-recurrent transformer with 8 physical layers looped twice to create 16 effective depth.","parameters":{"layers":8,"loops":2,"effective_depth":16}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Content-dependent gating variant that modulates token blending using adjacent token embedding similarity.","parameters":{"content_scale":0.1}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"standard eval","parameters":null}}],"compression":"zstd","novel_contributions":["Solved quantization compounding for looped layers, reducing the gap from 0.40 BPB to 0.007.","Used a hybrid depth-recurrent transformer with 8 physical layers and 2 loops to achieve 16 effective depth from 20M stored parameters.","Added novel input features including word-position, copy flags, and unigram frequency.","Studied content-dependent SmearGate and found it to be a negative result at scale due to per-step overhead.","Analyzed the tradeoff between content-dependent gating quality gains and wall-clock training efficiency."],"artifact_size":null},{"pr_number":289,"title":"SmearGate + BigramHash + Int6 + SWA + U-Net Skips (1.1518 BPB)","author":"integrate-your-mind","status":"open","is_record":false,"val_bpb":1.1518,"architecture":"GPT","quantization":"per-row int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x the model dimension using relu² activation.","parameters":{"hidden":1536,"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-predecessor blending at the input to inject lightweight bigram context.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed adjacent token-pair embedding table for bigram context.","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-to-decoder skip connections with learned per-dimension weights.","parameters":{"layers":11}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embedding and scalar parameters"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"snapshots":7,"every_steps":200}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adam_weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["SmearGate learned token-predecessor blending at the input","BigramHash embedding with 2048 buckets for token-pair context","Per-row int6 quantization of MLP and attention weights","U-Net style skip connections with learned per-dimension weights","3x MLP expansion with relu² activation","SWA snapshots during warmdown","Sliding-window evaluation with stride 64 as the primary score","TTT LoRA evaluation as an alternative inference-time adaptation method"],"artifact_size":"15.2MB"},{"pr_number":290,"title":"Record: 11L + Partial XSA + TTT + BatchOpt (val_bpb=1.1354)","author":"ibarrajo","status":"open","is_record":false,"val_bpb":1.1354,"architecture":"11L Transformer","quantization":"int6","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"XSA","description":"Partial exclusive self-attention applied only to the last 3 layers to debias self-attention efficiently in a GQA-aware way.","parameters":{"layers":3}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"learning_rate":0.002,"freeze_blocks":2}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Extended positional encoding using a larger RoPE base.","parameters":{"base":50000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"learning_rate":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":7}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets used in the base architecture.","parameters":{"buckets":2048}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used in the base architecture."}}],"compression":"zstd-22","novel_contributions":["Partial XSA applied to the last 3 layers","Test-time training with 3-epoch full-model SGD and early block freezing","Batch size optimization to 524K tokens for more gradient updates","RoPE base increased to 50K","Sliding-window evaluation with stride 64","Int6 quantization with zstd-22 compression under the 16MB limit"],"artifact_size":"15.85 MB"},{"pr_number":292,"title":"Add baseline H100 training report and process docs","author":"xuafeng","status":"closed","is_record":false,"val_bpb":1.3274,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"int8+zlib roundtrip evaluation","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Existing hash-based architectural component used in the model; referenced as part of the baseline and extended with trigram hash in later experiments.","parameters":null}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Added a trigram hash table alongside the existing BigramHash.","parameters":{"buckets":4096,"dim":32}}},{"category":"quantization","data":{"method":"QAT","bits":5,"scope":"MLP layers"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"attention layers"}},{"category":"other","data":{"description":"Straight-Through Estimator fake quantization applied in CastedLinear.forward() during QAT.","parameters":{"formula":"w + (w_quantized - w).detach()"}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["Q projections","V projections","LM head"],"layers":10}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":null}}],"compression":"zlib","novel_contributions":["Baseline 1x H100 training report with 1.3274 BPB under a 600s wallclock cap","End-to-end RunPod and runpodctl process guide for training and evaluation","QAT experiments with int5/int6 fake quantization on top of the leaderboard architecture","Trigram hash extension to the existing bigram hash mechanism","Implemented but untested LoRA-based test-time training pipeline","Documented next-step ideas including QAT, 3x MLP, SwiGLU gating, and bigram hash improvements"],"artifact_size":"13.8 MB"},{"pr_number":293,"title":"Non-record: Custom sp4096 BPE Tokenizer (1.2827 BPB on 1×H100)","author":"Nishu2000-hub","status":"open","is_record":false,"val_bpb":1.28265211,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tokenizer/vocabulary size","description":"Replaced the provided 1024-vocab tokenizer with a custom 4096-vocab BPE SentencePiece tokenizer trained on FineWeb documents, reducing tokens per byte and improving BPB.","parameters":{"vocab_size":4096}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Trained a custom BPE SentencePiece tokenizer on 2 million FineWeb documents using the same normalization and byte fallback settings as the baseline.","parameters":{"training_docs":2000000}}},{"category":"other","data":{"description":"Preprocessed FineWeb training shards with the custom tokenizer and produced binary shards in the same format as the official pipeline.","parameters":{"num_shards":10}}},{"category":"other","data":{"description":"Reduced model depth from 9 layers to 8 layers to stay under the 16MB artifact limit after increasing embedding table size.","parameters":{"layers":8}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Custom 4096-vocabulary BPE tokenizer trained on FineWeb documents","Improved bytes per token from 2.00 to 2.75 compared with the baseline tokenizer","Tokenizer-only approach that is orthogonal to model-side techniques","Custom preprocessing pipeline for FineWeb using the new tokenizer","Reduced model depth to fit within the 16MB artifact budget"],"artifact_size":"14.78 MB"},{"pr_number":294,"title":"[Non-record] Meta-Learned TTT + Error-Guided Adaptation Analysis (val_bpb=1.1645)","author":"sseanliu","status":"closed","is_record":false,"val_bpb":1.1645,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the base recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes BigramHash as part of the model recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP blocks in the base recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings / tied weights in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Recycles 3 unique blocks multiple times to create 12 effective layers.","parameters":{"unique_blocks":3,"effective_layers":12,"repetitions_per_block":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embeddings.","parameters":{"vocab_size":1024,"dimension":768}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 6 KV heads with 12 attention heads.","parameters":{"heads":12,"kv_heads":6}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":4}}},{"category":"initialization","data":{"method":"spectral init","description":"Uses overtone spectral initialization for FP16 tied embeddings."}},{"category":"initialization","data":{"method":"resid mix","description":"Uses phase-transition residual mix initialization."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Reptile meta-learning applied during the last 20% of training time on the last 3 blocks' MLPs.","parameters":{"meta_steps":1576,"scope":"last 3 blocks' MLPs","training_fraction":0.2}}},{"category":"other","data":{"description":"Error-guided test-time adaptation that concentrates adaptation budget on the highest-loss tokens/windows.","parameters":{"top_fraction":0.02}}},{"category":"other","data":{"description":"U-Net skip connections across encoder and decoder halves.","parameters":null}}],"compression":"zstd","novel_contributions":["Reptile meta-learning improves SmearGate models by 0.011 BPB over naive TTT.","Error-guided TTT was evaluated and found to be a negative result.","Per-token loss distribution analysis on the full validation set showing the hardest 2.7% of tokens account for about 15% of total loss.","A 13-layer model outperformed a 10-layer model on 8xH100 despite fewer training steps.","Uses ALBERT-style weight sharing with 3 unique blocks recycled into 12 effective layers.","Introduces per-iteration learned scalars to break symmetry between recycled block applications."],"artifact_size":"12.7MB"},{"pr_number":295,"title":"[Record Submission] QAT Int5/Int6 + Backout + U-Net Skips + BigramHash(10240) + SWA50 — val_bpb=1.1477","author":"gowtham0992","status":"open","is_record":false,"val_bpb":1.1477,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention"}},{"category":"architecture_modification","data":{"component":"Backout","description":"Learned residual subtraction from the final output using a midpoint activation.","parameters":{"lambda_init":0.2}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections with learned per-dimension skip weights.","parameters":{"encoder_layers":5,"decoder_layers":5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a bucketed embedding table.","parameters":{"dimensions":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Blends each token with the previous token's embedding.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP uses 3x expansion.","parameters":{"hidden_size":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"scalar_lr":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_frac":0.4}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"SVD spectral init","description":"Tied embeddings initialized with spectral decay following a 1/sqrt(k) profile."}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.01}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_frac":0.08}}}],"compression":"zstd-22","novel_contributions":["Quantization-aware training with STE using int5 MLP and int6 attention during training","Backout: learned residual subtraction from the final output","U-Net skip connections with learned per-dimension skip weights","SVD embedding initialization with 1/sqrt(k) spectral decay"],"artifact_size":"15.94 MB"},{"pr_number":296,"title":"[Non-record] Meta-Learned TTT + Error-Guided Adaptation Analysis (val_bpb=1.1645)","author":"sseanliu","status":"open","is_record":false,"val_bpb":1.1645,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a small gating mechanism to inject local bigram context.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram features for local context modeling.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in transformer blocks.","parameters":{"hidden":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"embeddings"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":3}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"eval_seq_len":2048}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":4,"learning_rate":0.001,"top_frac":0.02}}},{"category":"other","data":{"description":"Reptile meta-learning applied to MLP layers of the last 3 transformer blocks during the final training phase.","parameters":{"outer_step_scale":0.01,"inner_steps":3,"inner_lr":0.1,"meta_steps":1576}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 4 KV heads.","parameters":{"kv_heads":4,"attention_heads":8}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embeddings.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Reptile meta-learning improves SmearGate models by about 0.011 BPB, outperforming naive TTT.","Error-guided TTT on the highest-loss windows is a negative result and does not improve validation loss.","A deeper 13-layer model can outperform a 10-layer baseline under sufficient compute on 8xH100.","Per-token loss analysis shows a heavy-tailed distribution where a small fraction of tokens accounts for a large share of total loss.","The submission analyzes whether meta-learned initialization can overcome SmearGate/TTT redundancy."],"artifact_size":"12.7MB"},{"pr_number":297,"title":"Late STE QAT + Int6 MLP3x + SmearGate + BigramHash + OrthoInit + Overtone + SWA + SGD TTT (int6+zstd-22)","author":"davidpuertolas","status":"open","is_record":false,"val_bpb":1.16292025,"architecture":"GPT-style Transformer","quantization":"int6 QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP and attention weight matrices / full model quantized artifact"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded feed-forward network width to 3x the model dimension.","parameters":{"hidden":1536,"model_dim":512,"layers":9}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending current token embedding with previous token embedding for cheap bigram-like signal.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram embedding path keyed by adjacent token pairs.","parameters":{"buckets":4096,"dim":128}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with Overtone-style / muP-style scaling."}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"every":200}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.038,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.0003,"momentum":0.95}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"qat_start_frac":0.85,"qat_lr_factor":0.5,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.038,"adamw_weight_decay":0.01}}}],"compression":"zstd-22","novel_contributions":["Late STE QAT activated only in the last ~15% of wallclock to reduce quantization noise during most of training.","Int6 per-row quantization with zstd level 22 compression to fit under the 16MB artifact cap.","3x MLP expansion (hidden size 1536) combined with SmearGate and BigramHash architectural additions.","Orthogonal / Overtone-style initialization for large matrices.","SWA over the second half of warmdown before quantization.","Full-model SGD test-time training instead of LoRA TTT."],"artifact_size":"15,948,643 bytes"},{"pr_number":298,"title":"Ultimate recurrent: 21 techniques — depth recurrence, novel ops","author":"MrINVISO","status":"open","is_record":false,"val_bpb":1.2271,"architecture":"Depth-recurrent transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"3 unique layers shared across 3 passes for effective depth 9.","parameters":{"unique_layers":3,"passes":3,"effective_depth":9}}},{"category":"architecture_modification","data":{"component":"Transformer","description":"Wider model dimension than baseline.","parameters":{"dim":768}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 query heads and 2 key/value heads.","parameters":{"q_heads":8,"kv_heads":2}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with a larger base.","parameters":{"base":500000}}},{"category":"initialization","data":{"method":"spectral init","description":"Spectral embedding initialization with std = 0.1 / sqrt(dim)."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.01,"momentum":null,"other_params":null}},{"category":"other","data":{"description":"Value embeddings.","parameters":null}},{"category":"other","data":{"description":"Per-pass control parameters for attention scale, MLP scale, and residual mixing.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections across recurrent passes/layers.","parameters":null}},{"category":"other","data":{"description":"Adaptive depth with an exit gate per token per pass.","parameters":null}},{"category":"other","data":{"description":"Confidence conditioning across passes.","parameters":null}},{"category":"regularization","data":{"method":"compression-aware auxiliary loss","parameters":null}},{"category":"other","data":{"description":"Gradient Memory Recurrence.","parameters":null}},{"category":"other","data":{"description":"Thermodynamic Compression Loss (F = E - T*S).","parameters":null}},{"category":"other","data":{"description":"Temporal Difference Recurrence with low-rank rank-16 projection.","parameters":{"rank":16}}},{"category":"other","data":{"description":"Eigenspace Token Routing.","parameters":null}},{"category":"other","data":{"description":"Resonant Position Encoding.","parameters":null}},{"category":"other","data":{"description":"Selective State GRU Carry with low-rank rank-16 projection.","parameters":{"rank":16}}},{"category":"architecture_modification","data":{"component":"low-rank K projection","description":"Reduced-rank key projection to save parameters.","parameters":{"rank":32}}},{"category":"architecture_modification","data":{"component":"low-rank TD projection","description":"Reduced-rank temporal-difference projection to save parameters.","parameters":{"rank":16}}},{"category":"architecture_modification","data":{"component":"low-rank GRU state carry","description":"Reduced-rank GRU state carry to save parameters.","parameters":{"rank":16}}}],"compression":null,"novel_contributions":["Depth recurrence with 3 unique layers shared across 3 passes (effective depth 9)","Novel recurrent mechanisms including gradient memory recurrence, temporal difference recurrence, and selective state GRU carry","Thermodynamic compression loss","Eigenspace token routing","Resonant position encoding","Adaptive depth with per-token exit gating","Confidence conditioning across passes","Low-rank projections to reduce parameter count"],"artifact_size":"10.7MB"},{"pr_number":299,"title":"[Non-record] LoRA TTT + HParams (val_bpb=1.16973333)","author":"Mistobaan","status":"open","is_record":false,"val_bpb":1.16973333,"architecture":"Transformer","quantization":null,"optimizer":"AdamW","training_techniques":[{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Updated baseline hyperparameters for the 10min/16mb track, including an 8x768 configuration, 262144-token training batch, lower learning rates, lower logit softcap, and beta1=0.70.","parameters":{"num_layers":8,"model_dim":768,"train_batch_tokens":262144,"logit_softcap":10,"tied_embed_lr":0.03,"matrix_lr":0.02,"scalar_lr":0.02,"beta1":0.7}}}],"compression":null,"novel_contributions":["Adds the 2026-03-20_better_baseline_params record for the 10min/16mb track","Keeps the same LoRA TTT evaluation path as 2026-03-17_LoRA_TTT","Updates baseline defaults to an 8x768 configuration with 2048 sequence length and 262144-token training batch","Uses lower learning rates, lower logit softcap, and beta1=0.70","Includes submitted train_gpt.py, run logs, and aggregated submission.json"],"artifact_size":null},{"pr_number":301,"title":"Non-record: Int6 QAT + MLP1472 + SlidingWindow + TTT (val_bpb=1.1807)","author":"lookin-zz","status":"open","is_record":false,"val_bpb":1.1807,"architecture":"GPT","quantization":"int6 QAT","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"MLP","description":"Increased MLP hidden size to 1472.","parameters":{"hidden_size":1472}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Used FP16 tied embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"freeze_blocks":2}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_wd":0,"muon_wd":0}}}],"compression":"zstd","novel_contributions":["Int6 STE QAT with a small quantization gap","MLP hidden size increased to 1472 while fitting within the 16MB artifact budget","Aggressive warmdown training schedule","FP16 tied embeddings","Batched sliding-window evaluation with stride 64","Full-weight test-time training on validation data","Freezing the first two blocks during TTT"],"artifact_size":"15,781,354 bytes"},{"pr_number":302,"title":"Non-record: 11L int5/int6 + XSA + online TTT w/ decay prior (single-run val_bpb=1.1520)","author":"JackYoung27","status":"open","is_record":false,"val_bpb":1.152,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 3 layers.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with vocabulary size 10240.","parameters":{"dimensions":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP blocks.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied fp16 embeddings.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start":200}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"scope":"MLP weights in last 3 blocks","learning_rate":null,"decay_prior":true}}},{"category":"other","data":{"description":"Pre-Q/K RMSNorm applied to attention input before Q and K projections only.","parameters":null}},{"category":"other","data":{"description":"Reptile meta-learning with K=1 inner SGD step and interpolation during the last 10% of training.","parameters":{"k":1,"train_fraction":0.1}}}],"compression":"zstd-22","novel_contributions":["Pre-Q/K RMSNorm to stabilize the RoPE-facing path under int5/int6","Online causal TTT with Krause-style decay prior to prevent drift","Reptile meta-learning in the last 10% of training to improve eval-time TTT adaptation","Evaluation-time adaptation of MLP weights in the last 3 blocks only"],"artifact_size":"15.1 MB"},{"pr_number":303,"title":"[Non-record] XSA + EMA + TTT: Negative interaction study (val_bpb=1.1436)","author":"sseanliu","status":"open","is_record":false,"val_bpb":1.1436,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention on the last layers to remove self-information from attention outputs.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing vocabulary mechanism.","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP with 3x expansion.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"freeze_blocks":2,"momentum":0.9,"gradient_clipping":1}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Tests whether TTT improves an XSA + EMA base model.","Finds that TTT hurts performance on the XSA + EMA model by 0.016 BPB.","Provides a negative interaction study showing XSA and TTT are mechanistically redundant.","Uses FA2 instead of FA3 due to environment constraints.","Reports reproducibility across two seeds."],"artifact_size":"15.3MB"},{"pr_number":304,"title":"Non-record: QAT + Neural Cache + LoRA TTT","author":"Bortlesboat","status":"open","is_record":false,"val_bpb":1.4245,"architecture":"Transformer","quantization":"int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP layers"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention layers"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a BigramHash module as part of the training recipe.","parameters":{"size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Included SmearGate in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Used a 3x-width MLP block.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":10,"dim":512,"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.6,"interval_steps":50,"checkpoints":24}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"neural cache","parameters":{"hidden_state_dim":512,"dtype":"bf16","interpolation":"logaddexp"}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal initialization used for model components."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Quantization-aware training with STE fake-quantization matched to int5/int6 export format","Neural cache during sliding-window evaluation using hidden-state similarity and logaddexp interpolation","Per-document rank-8 LoRA test-time training with entropy-gated updates","Stacking QAT, neural cache, and LoRA TTT on top of the Int5-MLP + BigramHash + SWA recipe"],"artifact_size":"15.77 MB"},{"pr_number":305,"title":"12L Full-INT4 (MLP + Attn) + BigramHash(4096) — val_bpb 1.1672","author":"Naazimsnh02","status":"open","is_record":false,"val_bpb":1.1672,"architecture":"Transformer","quantization":"full INT4 (MLP + attention), group-wise nibble-packed gs=64","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int4","bits":4,"scope":"MLP and attention weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash table for token interactions / auxiliary representation","parameters":{"vocab":4096,"dim":64}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings","parameters":{"dim":512}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional encoding","parameters":{"base":10000}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Symmetric skip connections between encoder and decoder halves across layers","parameters":{"layers":12}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"adamw_for":"scalars, embeddings"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"Orthogonal","description":"Orthogonal initialization with muP-scaled output projections"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"10% magnitude pruning before quantisation to create zero runs that compress better","parameters":{"pruning_percentile":10}}}],"compression":"zstd-22","novel_contributions":["Group INT4 nibble-packing applied to both MLP and attention weights with gs=64 fp16 scales","Freed quantization budget to enable 12 transformer layers instead of 10","U-Net skip connections across the 12-layer model","10% magnitude pruning before quantisation to improve zstd compression","BigramHash reduced to 4096 to fit within the 16 MB budget"],"artifact_size":"14.4 MB"},{"pr_number":306,"title":"Non-record: QAT Int5/Int6 on #1 architecture (1.14476 BPB)","author":"xuafeng","status":"open","is_record":false,"val_bpb":1.14476,"architecture":"Transformer","quantization":"STE QAT int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash embedding table used alongside token embeddings","parameters":{"vocab_size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating component in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP","parameters":{"expansion":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50,"averaged_checkpoints":24}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["Q","V","LM head"]}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"regularization","data":{"method":"3% magnitude pruning","parameters":{"prune_fraction":0.03}}}],"compression":"zstd-22","novel_contributions":["Applied STE fake-quantization QAT on top of the #1 architecture","Used mixed int5 MLP and int6 attention quantization during training","Compared QAT against post-training quantization and found post-training quantization plus SWA performed better","Explored trigram hash embeddings as an additional feature","Implemented TTT LoRA adapters for potential test-time adaptation"],"artifact_size":"15,793,963"},{"pr_number":307,"title":"Record: 11L XSA4 + EMA + Batch524K + zstd fallback (val_bpb: 1.1357)","author":"dennisimoo","status":"open","is_record":false,"val_bpb":1.1357,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA on the last layers of the model.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential moving average is enabled during training.","parameters":{"enabled":1,"decay":0.997}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Included as part of the model variant described in the README.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Included as part of the model variant described in the README.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP multiplier.","parameters":{"multiplier":3}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Uses a larger fixed-budget batch setting to improve step count under the wall-clock cap.","parameters":{"train_batch_tokens":524288}}},{"category":"other","data":{"description":"Provides SDPA fallback when flash_attn_interface Python bindings are unavailable.","parameters":null}},{"category":"other","data":{"description":"Enables torch.compile behind an environment flag for reliable eager smoke tests and faster compiled runs.","parameters":null}}],"compression":"zstd","novel_contributions":["11-layer XSA4 model with EMA averaging","Fixed-budget batch size of 524,288 tokens to improve step count under the time cap","SDPA fallback for flash_attn_interface when FA3 Python bindings are unavailable","torch.compile gated behind an environment flag for safer testing and faster full runs","zstd Python-or-CLI fallback to keep int6 export under the 16MB limit"],"artifact_size":"15.67 MB"},{"pr_number":309,"title":"Record: CLASE-Quant adaptive layer quantization (val_bpb=1.1914)","author":"NewyorkDev","status":"open","is_record":false,"val_bpb":1.1914,"architecture":"Transformer","quantization":"mixed int6/int8 with fp16/fp32 passthrough","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"boundary layers int8, middle layers int6, tied embeddings fp16, control tensors fp32"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied input/output embeddings passthrough due to dual role and sensitivity.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"GQA architecture with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings between input and output.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.97,"other_params":{"learning_rate":0.03,"batch_tokens":393000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"start":0.02,"end":0.08,"schedule":"cosine warmdown"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown cosine schedule","parameters":{"weight_decay":{"start":0.02,"end":0.08}}}},{"category":"initialization","data":{"method":"spectral init","description":"FP16 tied embeddings with overtone spectral initialization."}}],"compression":null,"novel_contributions":["CLASE-inspired adaptive per-layer quantization","Non-uniform quantization allocation with int8 boundary layers and int6 middle layers","FP16 passthrough for tied embeddings and FP32 passthrough for control tensors","Ramping weight decay during warmdown to tighten weight distributions for quantization","Extended context training at 2048 sequence length","Sliding window evaluation with stride 64"],"artifact_size":"11.5 MB"},{"pr_number":310,"title":"Record: 10L Seq2048 TTT LoRA WarmdownQuant (val_bpb=1.1787)","author":"vishesh9131","status":"open","is_record":false,"val_bpb":1.1787,"architecture":"Transformer","quantization":"int8 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer depth / tied embeddings / KV head count","description":"10-layer transformer with 512-dimensional hidden size, 8 attention heads, 4 KV heads, and tied embeddings.","parameters":{"layers":10,"dimensions":512,"heads":8,"kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.98,"other_params":{"matrix_lr":0.03,"scalar_lr":0.03}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":15000,"always_decaying":true}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":1}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["Q projections","V projections","LM head"],"chunk_size":256}}},{"category":"initialization","data":{"method":"spectral init / residual mixing","description":"Overtone spectral embedding initialization with phase-transition residual mixing."}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings with FP16 embeddings used to avoid int8 error compounding.","parameters":null}}],"compression":"zlib","novel_contributions":["10-layer transformer with tuned hyperparameters for the 10-minute budget","Sequence length increased to 2048 for richer context","Always-decaying warmdown schedule to tighten weights and reduce quantization penalty","Test-time training with batched LoRA adapters on Q, V projections and LM head","Overtone spectral embedding initialization with phase-transition residual mixing","Int8 per-row quantization combined with zlib compression","FP16 tied embeddings to reduce quantization error compounding"],"artifact_size":"15.56 MB"},{"pr_number":312,"title":"Record: Int6 + Canon ACD (K=3) + Muon WD 0.04 + SWA + Sliding Eval (val_bpb=1.1668)","author":"chanwoo-park-official","status":"open","is_record":false,"val_bpb":1.16682362,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6; other large tensors int8"}},{"category":"architecture_modification","data":{"component":"Canon ACD","description":"Canon layers placed before attention, before MLP, and in widened MLP hidden stream, avoiding the expensive QKV placement.","parameters":{"set":"ACD","kernel":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding added as context extra.","parameters":{"bigram_vocab_size":2048,"bigram_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate context/architecture component used alongside bigram hash embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP widened with multiplier 3.0.","parameters":{"mlp_mult":3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"adam_weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"enabled":1,"every":200,"start_lrmul":0.5,"averaged_checkpoints":8}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adam_weight_decay":0.04}}}],"compression":null,"novel_contributions":["Mixed int6 quantization for MLP and attention with int8 for other large tensors","Canon ACD placement with kernel size 3 to retain Canon benefits while avoiding QKV cost","Bigram hash embedding and SmearGate context extras","Muon + Adam mixed optimization with momentum warmup and warmdown","SWA near the end of training","Sliding-window evaluation with stride 64 as the main comparison metric"],"artifact_size":"13,267,347 bytes"},{"pr_number":313,"title":"non-record: LR warmdown on 1x A40 (1.723 bpb, 8.40MB)","author":"my-sonicase","status":"open","is_record":false,"val_bpb":1.7232,"architecture":"baseline architecture","quantization":"int8","optimizer":null,"training_techniques":[{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600,"matrix_lr":0.06}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Schedule tuning only","WARMDOWN_ITERS=3600","MATRIX_LR=0.06","No architecture changes","No tokenizer or dataset changes","Improved over local MLX baseline under the 16MB constraint"],"artifact_size":"8,397,395 bytes"},{"pr_number":315,"title":"Record: 11L Partial RoPE + LN Scale + EMA + XSA4 (val_bpb: 1.1248)","author":"jfprincz","status":"closed","is_record":false,"val_bpb":1.1248,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Apply rotary position embeddings to only part of the head dimensions, leaving the rest position-free.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6; embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling on large matrices."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"adam_weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["Partial RoPE applied to only 16 of 64 head dimensions","LayerNorm/RMSNorm output scaling by 1/sqrt(layer_idx+1)","11-layer Transformer with XSA on the last 4 layers","EMA weight averaging with decay 0.997","Mixed int6/int8 quantization with zstd compression","Late QAT flag was present but had no effect due to torch.compile constant folding"],"artifact_size":"15.6 MB"},{"pr_number":316,"title":"Non-record: 12L Low-Rank Q + QAT (1xH100, pre-quant 1.2035)","author":"SkywardSyntax","status":"open","is_record":false,"val_bpb":1.2035,"architecture":"12-layer Transformer","quantization":"int6 quantization with Low-Rank Q and int7 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the transformer blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Inherited gating modification from prior SOTA records.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Inherited bigram-based hashing component from prior SOTA records.","parameters":null}},{"category":"architecture_modification","data":{"component":"Low-Rank Q","description":"Factorizes Q as dim→128→dim to reduce parameters and speed up training.","parameters":{"rank":128}}},{"category":"architecture_modification","data":{"component":"12 layers","description":"Increases transformer depth from 10 to 12 layers using savings from Low-Rank Q.","parameters":{"layers":12}}},{"category":"quantization","data":{"method":"QAT","bits":7,"scope":"all"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":1024}}},{"category":"other","data":{"description":"FTLE-guided per-row precision allocation was tested as a quantization strategy but found to be a negative result.","parameters":null}},{"category":"other","data":{"description":"Stride-OGD evaluation-time vocabulary bias optimization was implemented but found too slow as-is.","parameters":null}},{"category":"initialization","data":{"method":"overtone spectral init","description":"Spectral initialization inherited from prior SOTA records."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}}],"compression":"zstd-22","novel_contributions":["Low-Rank Q factorization (r=128) to reduce Q parameters and speed up training","Adding a 12th transformer layer using the compute savings from Low-Rank Q","Quantization-aware training with STE for int7 to reduce the pre-quant/post-quant gap","FTLE-guided per-row precision exploration with a clear negative result showing uniform quantization is better","Stride-OGD evaluation-time vocabulary bias optimization","Cross-disciplinary research pipeline spanning Apple Silicon prototyping, A100 validation, and H100 refinement"],"artifact_size":"15.2MB"},{"pr_number":317,"title":"Record: 11L XSA4 + EMA + TTT + Int6 MLP3x (val_bpb=1.1442)","author":"chris-buckley","status":"open","is_record":false,"val_bpb":1.1442,"architecture":"Transformer","quantization":"int6 mixed quantization","optimizer":"Muon/AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP width","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the model stack","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash auxiliary component with vocabulary size 2048","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int6 mixed","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"adamw_used":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-style output scaling"}},{"category":"evaluation_technique","data":{"method":"stride-based sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"momentum":0.9,"freeze_blocks":2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"fixed learning rates","parameters":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}}],"compression":"zstd-22","novel_contributions":["Adds full-model SGD test-time training on the dequantized checkpoint","Uses EMA instead of SWA in the winning public training stack","Applies XSA to the last 4 layers","Uses stride-64 evaluation","Tunes learning rates upward for matrix, scalar, and tied embedding parameters","Includes compatibility fallbacks for FA3 to SDPA and manual GQA KV-head repeat"],"artifact_size":"under 16 MB"},{"pr_number":318,"title":"Neural Cache: Cross-Window KV Caching for Extended Eval Context (research proposal)","author":"sseanliu","status":"open","is_record":false,"val_bpb":1.1284,"architecture":"Transformer","quantization":null,"optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses NTK-aware RoPE scaling for longer sequences and discusses extending effective context via cross-window KV caching.","parameters":{"train_seq_len":1024,"cache_tokens":8192,"effective_context":"50K+"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the base model recipe, with only the last 4 layers enabled for XSA.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Included as part of the base model recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Included as part of the base model recipe.","parameters":{"bigram_vocab_size":2048}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"evaluation_technique","data":{"method":"cross-window KV caching","parameters":{"stride":64,"context_length":2048,"cache_tokens":8192}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"other","data":{"description":"Eval-time technique that caches K/V pairs across sliding windows to extend effective context without training or changing model weights.","parameters":{"cache_tokens":8192,"stride":64}}}],"compression":null,"novel_contributions":["Cross-window KV caching at evaluation time to extend effective context beyond the sliding window.","Backward-looking-only cache that reuses already-evaluated tokens without training on validation data.","Compatibility with FlashAttention 3 for seqlen_k > seqlen_q without custom kernels.","Per-layer cache that stores only the newest stride tokens to reduce redundancy.","Proposal to mitigate long-context RoPE degradation via partial-layer caching and cache-size limits."],"artifact_size":null},{"pr_number":319,"title":"Non-record: Depth Recurrence 5x3 — Weight-Shared Looping Transformer (6xH200, val_bpb=1.2716)","author":"Arth-Singh","status":"open","is_record":false,"val_bpb":1.2716,"architecture":"Transformer","quantization":null,"optimizer":"Muon + Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses 5 unique transformer layers looped 3 times to create 15 effective layers while sharing weights across loops.","parameters":{"unique_layers":5,"loops":3,"effective_depth":15,"dim":640}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shares the same transformer block weights across repeated loop passes.","parameters":{"unique_layers":5,"loops":3}}},{"category":"architecture_modification","data":{"component":"loop embeddings","description":"Adds learnable per-loop vectors to the residual stream so the model can distinguish different passes through the shared layers.","parameters":{"num_loops":3}}},{"category":"architecture_modification","data":{"component":"loop gates","description":"Uses learnable per-loop scalars to mix loop output with the initial representation x0; noted as over-regularized.","parameters":{"num_loops":3,"initial_gate":0.3333333333333333}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":null,"momentum":null,"other_params":{"split_optimizer":true}}},{"category":"initialization","data":{"method":"zero initialization for loop embeddings","description":"Loop embeddings were initialized at zero so the first loop behaves like vanilla."}},{"category":"initialization","data":{"method":"uniform gate initialization","description":"Loop gates were initialized to 1/num_loops (0.33), which the author identifies as over-regularizing."}}],"compression":null,"novel_contributions":["Depth recurrence via looping a small set of shared transformer layers to achieve greater effective depth.","Weight-shared looping transformer with 5 unique layers repeated 3 times.","Loop embeddings to differentiate repeated passes through shared weights.","Loop gates to mix loop outputs with the initial residual stream.","Exploration of a depth-width tradeoff by reallocating saved parameters to wider hidden dimension.","Negative finding that conservative loop gating and removing skip connections hurt performance."],"artifact_size":"15M params"},{"pr_number":321,"title":"Add record: Optimizer Tuning + Sliding Window Eval (val_bpb=1.1864)","author":"andreanjos","status":"open","is_record":false,"val_bpb":1.18641686,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"backend_steps":10,"grad_clip_norm":1,"beta2":0.99,"scalar_lr":0.02}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":10000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":1}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings in the baseline architecture.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all weights"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Optimizer tuning with longer warmdown, more Muon backend steps, gradient clipping, higher beta2, and lower scalar learning rate","Training with longer sequence length (2048 tokens)","Sliding window validation evaluation with stride 64 to give tokens more context during scoring","Post-quant int8 + zlib artifact fitting under the 16MB submission cap","Reproducible multi-seed validation showing a new record-level val_bpb"],"artifact_size":"15,861,337 bytes"},{"pr_number":324,"title":"[Non-Record] QAT + NTK-4096 Eval + Cosine Warmdown + Aggressive SWA","author":"crony-io","status":"closed","is_record":false,"val_bpb":1.1702,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased model capacity to 10 layers with 3x MLP expansion (hidden=1536).","parameters":{"layers":10,"hidden":1536,"mlp_expansion":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate to blend consecutive token embeddings for better local context.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a 10240-bucket bigram hash embedding with dimension 128.","parameters":{"buckets":10240,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"skip connections","description":"Introduced learnable U-Net style skip connections.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with gain-scaled projections and phase-transition sigmoid init for residual mix."}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":{"formula":"0.5 * (1 + cos(pi*t))"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.35,"every_steps":25,"checkpoints_averaged_best_run":48}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"gradient_clipping":0.3,"momentum_warmup_end":0.99,"momentum_warmup_steps":1500}}},{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLPs"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"Attention"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware RoPE frequency rescaling for longer evaluation context.","parameters":{"context_length":4096}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_fraction":0.05}}}],"compression":"lzma","novel_contributions":["Quantization-aware training with straight-through estimator fake quantization","Mixed int5/int6 quantization scheme","Cosine warmdown schedule","Aggressive SWA with frequent checkpoint averaging","SmearGate local-context blending","BigramHash embedding","Learnable U-Net style skip connections","NTK-aware RoPE rescaling for 4096-token evaluation","Sliding-window evaluation with stride 64","5% magnitude pruning","lzma PRESET_EXTREME compression"],"artifact_size":"15,875,110 bytes"},{"pr_number":325,"title":"Add Looped Transformer Design non-record submission (non tuned)","author":"Aum08Desai","status":"open","is_record":false,"val_bpb":1.14620421,"architecture":"Looped Transformer","quantization":"late int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence / looped transformer","description":"Transformer with a shared recurrent core and repeated looped execution to increase effective depth.","parameters":{"num_layers":6,"loop_core_layers":2,"loop_repeats":5,"loop_attn_every":2,"effective_executed_layers":14}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings applied only to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":10,"num_kv_heads":5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Includes XSA attention extras over the last few tokens.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"Bigram features","description":"Adds token-side bigram vocabulary and embedding features.","parameters":{"bigram_vocab_size":2048,"bigram_dim":128}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"exact":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"ln_scale":1}}},{"category":"other","data":{"description":"Late quantization-aware training applied after initial training.","parameters":{"late_qat":1,"qat_threshold":0.1}}}],"compression":"zstd","novel_contributions":["Looped transformer with a shared recurrent core","Partial RoPE with LN scaling","Late QAT for int6 artifact fitting","XSA attention over the last 4 tokens","Bigram token-side features","Demonstrates a non-record recurrent-depth design point under the 10-minute and 16MB constraints"],"artifact_size":"15,589,099 bytes"},{"pr_number":326,"title":"Non-Record: QAT + NTK-4096 Eval + Cosine Warmdown + Aggressive SWA (val_bpb=1.2890, 1xh100)","author":"crony-io","status":"open","is_record":false,"val_bpb":1.289,"architecture":"Transformer","quantization":"mixed int5/int6 QAT via STE","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased model capacity to 10 layers with 3x MLP expansion (hidden=1536).","parameters":{"layers":10,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate to blend consecutive token embeddings for better local context.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a bigram hash embedding for local token-pair context.","parameters":{"buckets":10240,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware RoPE rescaling for longer evaluation context.","parameters":{"eval_length":4096}}},{"category":"architecture_modification","data":{"component":"skip connections","description":"Introduced learnable U-Net style skip connections.","parameters":null}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal weight initialization with gain-scaled projections and phase-transition sigmoid residual mix initialization."}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.35,"every_steps":25,"checkpoints_averaged":48}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"gradient_clipping":0.3,"momentum_warmup":{"start":0.92,"end":0.99,"steps":1500}}}},{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLPs and Attention"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":4096}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruned_fraction":0.05}}}],"compression":"lzma","novel_contributions":["Quantization-aware training with straight-through estimator fake quantization instead of post-training quantization","Mixed int5/int6 quantization scheme for different layer types","NTK-aware RoPE rescaling for 4096-length evaluation","Sliding-window evaluation with stride 64","Cosine warmdown learning rate schedule","Aggressive stochastic weight averaging starting at 35% of warmdown","SmearGate local context mixing","BigramHash embedding for token-pair context","Learnable U-Net style skip connections","Orthogonal initialization with phase-transition residual mix","5% magnitude pruning","lzma compression with PRESET_EXTREME"],"artifact_size":null},{"pr_number":327,"title":"Submission TrigramHash + PartialRoPE + HeadTemp + stride32 (val_bpb: 1.1450)and","author":"Ananddna","status":"open","is_record":false,"val_bpb":1.145,"architecture":"Transformer","quantization":"int5 MLP / int6 attention","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Adds learned hashed embeddings for consecutive token triplets to capture 3-token patterns as atomic units.","parameters":{"buckets":8192,"dim":64}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of each attention head dimension, leaving the rest position-free.","parameters":{"fraction":0.5}}},{"category":"architecture_modification","data":{"component":"Per-head temperature scaling","description":"Learns a separate temperature parameter for each attention head to vary attention sharpness.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed embeddings for token pairs as a complementary n-gram feature.","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating component used in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expanded MLP hidden size.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Shares embedding weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds skip connections in a U-Net-like pattern across layers.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frac":0.4,"every":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["TrigramHashEmbedding for hashing token triplets into learned embeddings","Partial RoPE applied to only 50% of head dimensions","Per-head temperature scaling in attention","Reduced evaluation stride from 64 to 32","LoRA-based test-time training infrastructure"],"artifact_size":"~15.9 MB"},{"pr_number":329,"title":"Add lzma6 submission (1.172 bpb, 10min_16mb)","author":"lee101","status":"open","is_record":false,"val_bpb":1.17217075,"architecture":null,"quantization":"INT8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":6}}],"compression":"lzma-6","novel_contributions":["Adds an lzma6 record for the 10min_16mb track","Uses an INT8 quantized model with LZMA compression","Stdlib-only artifact-size ablation on target hardware","Includes seed 1337 result"],"artifact_size":"15.3MB"},{"pr_number":330,"title":"Non-record: 11L Int6 + Online Logit Bias (val_bpb=1.1609)","author":"bopmite","status":"open","is_record":false,"val_bpb":1.1609,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights per-row"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with 1536 hidden size","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8/4 heads","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature module","parameters":{"size":"2048x128"}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with NTK scaling","parameters":{"sequence_length":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to only part of the dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on the last 4 layers","parameters":{"layers":4}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization combined with muP"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"online logit bias","parameters":{"learning_rate":0.1,"enabled":false}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Online logit bias (OLB) evaluation technique that updates a per-token bias vector during sliding-window evaluation using the exact cross-entropy gradient","Int6 per-row quantized model with zstd compression","Sliding-window evaluation with stride 64","Custom 11-layer architecture with SmearGate, BigramHash, XSA, partial RoPE, and tied embeddings"],"artifact_size":"13,977,633 bytes"},{"pr_number":331,"title":"10L MLP3x + BigramHash(2048) + SWA + Stride-32: 1.1487 BPB","author":"Rhodrium","status":"open","is_record":false,"val_bpb":1.1487,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"10-layer transformer with relu² MLP expanded to 3x hidden size.","parameters":{"layers":10,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash features for n-gram information.","parameters":{"vocab":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learnable previous-token blending mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with scaled projections."}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6, embeddings fp16"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":24}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32,"context_length":2048}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"adamw_for_embeddings_scalars":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["10-layer relu² MLP3x transformer","BigramHash(2048) with SmearGate","Orthogonal initialization","Mixed int5/int6 quantization with zstd-22 compression","SWA averaging over late checkpoints","Stride-32 dense sliding-window evaluation"],"artifact_size":"14.9 MB"},{"pr_number":332,"title":"Record: 12L Gradient-Guided Quant + Partial RoPE + LN Scale + EMA + XSA4 (val_bpb: 1.1320)","author":"saml212","status":"open","is_record":false,"val_bpb":1.132,"architecture":"Transformer","quantization":"mixed int5/int6/int7","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6/int7","bits":5,"scope":"all weights with gradient-guided per-tensor allocation"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary embeddings to only part of the head dimensions; remaining dimensions use position-free attention.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention removes self-value bias from attention output via orthogonal projection.","parameters":{"layers":4}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale_rule":"1/sqrt(layer_idx+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"grad_clip_norm":0.3}}},{"category":"compression","data":{"method":"zstandard","level":null}},{"category":"other","data":{"description":"Gradient-guided adaptive quantization ranks tensors by squared gradient magnitude during warmdown and assigns precision based on sensitivity.","parameters":{"top_10_percent":"int7","middle_70_percent":"int6","bottom_20_percent":"int5"}}}],"compression":"zstandard","novel_contributions":["Gradient-guided adaptive quantization with per-tensor sensitivity ranking","Mixed-precision allocation across tensors (int7/int6/int5) to save artifact size","12-layer model enabled by quantization savings","Reduced batch size to increase optimization steps within the wallclock budget","Partial RoPE applied to only 16 of 64 dimensions","Layer-wise RMSNorm scaling (LN scale)","Exclusive Self Attention on the last 4 layers","EMA replacing SWA","Negative finding that Late QAT hurts at 12 layers due to throughput cost"],"artifact_size":"15.7 MB"},{"pr_number":333,"title":"11L XSA4 + SmearGate + BigramHash + SWA + RoPE50K (mean val_bpb=1.1565, 3 seeds)","author":"mahsumaktas","status":"open","is_record":false,"val_bpb":1.1565,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 transformer layers with GQA-compatible value expansion.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate added together with BigramHash to provide bigram-aware embedding/context handling.","parameters":{"bigram_vocab_size":2048}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embedding weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"Late-K FP16","description":"Keeps the last K layers in FP16 for improved quantization behavior.","parameters":{"layers":2}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_frac":0.4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses a larger RoPE base for longer-context modeling.","parameters":{"base":50000}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate/BigramHash."}},{"category":"initialization","data":{"method":"Overtone SVD init","description":"Spectral embedding initialization based on SVD."}},{"category":"architecture_modification","data":{"component":"phase-transition residual mixing","description":"Residual mixing strategy used during initialization/training.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 2.75x (hidden size 1408), near the 3x regime but smaller to fit artifact constraints.","parameters":{"multiplier":2.75,"hidden_size":1408}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.02}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with XSA on the last 4 layers","SmearGate combined with BigramHash(2048) and OrthoInit","INT6 per-row quantization with zstd-22 compression","SWA every 50 steps with fp32 accumulation","Muon optimizer tuning with RoPE base 50K","Overtone SVD initialization and phase-transition residual mixing","MLP expansion set to 2.75x to stay under the 16MB artifact limit","Magnitude pruning before quantization","Empirical finding that EMA performs much worse than SWA for this stack"],"artifact_size":"15.9 MB"},{"pr_number":334,"title":"Non-record: 11L PartialRoPE + LNScale + EMA + SWA + TTT (1xH100 107min, val_bpb=1.2207, 15.4MB)","author":"nathon-lee","status":"open","is_record":false,"val_bpb":1.2207,"architecture":"GPT","quantization":"uniform int5","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position encoding to only a subset of head dimensions.","parameters":{"dimensions":16,"total_head_dims":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram context embeddings.","parameters":{"buckets":2048,"dim":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections with learnable weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x ReluSquared MLP.","parameters":null}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"RMSNorm damped by 1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"newton_schulz":true}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"beta1":0.9,"beta2":0.95,"used_for":"scalars/embeddings"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start":"last 40% of training"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"frozen_blocks":2}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP output-projection scaling."}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":{"warmdown_steps":3000}}}],"compression":"zstd-22","novel_contributions":["11-layer 512-dim GPT architecture with 8 attention heads and 4 KV heads","Partial RoPE applied to only 16 of 64 head dimensions","LN Scale using RMSNorm damped by 1/sqrt(layer+1)","SmearGate token blending mechanism","BigramHash context embeddings with 2048 buckets and 64 dimensions","U-Net style skip connections with learnable weights","Muon optimizer combined with Adam for embeddings/scalars","EMA plus SWA weight averaging","Uniform int5 quantization with zstd-22 compression","Sliding-window evaluation and full-model test-time training"],"artifact_size":"15.4 MB"},{"pr_number":338,"title":"Record: 11L XSA+EMA+TTT, sliding val_bpb=1.1254 (3-seed mean 1.1256)","author":"alertcat","status":"open","is_record":false,"val_bpb":1.1254,"architecture":"Transformer","quantization":"Int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential moving average component with decay 0.997.","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP expanded to 3x hidden size.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending gate.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing module with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization strategy.","parameters":null}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"block weights"}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"used_for":"TTT fine-tuning"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":200,"checkpoint_avg":7}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"frozen_blocks":2}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}}],"compression":"zstd-22","novel_contributions":["First submission combining XSA (Exclusive Self Attention), EMA, and Test-Time Training.","TTT adaptation on validation token stream with 3 epochs of SGD fine-tuning.","Mixed precision-tier quantization using int5 for MLP weights and int6 for attention weights.","Use of a 12-layer model enabled by compression savings from int5 MLP quantization.","Sliding window evaluation with stride 64 to report val_bpb."],"artifact_size":"15.55 MB"},{"pr_number":339,"title":"Record: 11L Backout + Int6 + SWA (val_bpb: 1.1364)","author":"sheeki03","status":"open","is_record":false,"val_bpb":1.1364,"architecture":"Transformer","quantization":"mixed int6 quantization","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"Backout","description":"Learned residual subtraction from a mid-network hidden state; subtracts lambda * h_mid from the final representation.","parameters":{"layer":5,"lambda_init":0.2}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating component used in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component for vocabulary/features.","parameters":{"vocab_size":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3000,"adamw_weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":6}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for the model."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}}],"compression":"zstd","novel_contributions":["Backout Connection: learned residual subtraction from a mid-network hidden state","Improved validation bpb relative to the PR #198 baseline on the same hardware/run setup","SWA with int6 mixed quantization and zstd compression","Potential future artifact-size reduction via INT5_MLP=1"],"artifact_size":"16.17 MB"},{"pr_number":340,"title":"V2 Prototype: SwiGLU + Dropout + MuonWD + MidLayerLoop","author":"starfly-web","status":"open","is_record":false,"val_bpb":1.2182,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.1,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"dropout","parameters":{"rate":0.1,"scope":"attention and MLP blocks"}}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaces squared-ReLU MLP activation with SwiGLU.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Loops only the middle layers rather than all layers uniformly.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}}],"compression":"zlib","novel_contributions":["SwiGLU MLP upgrade","10% dropout applied to attention and MLP blocks","Muon weight decay regularization","middle-layer looping / targeted depth recurrence","post-training int8 + zlib artifact compression","EMA architectural enhancement mentioned in the branch README"],"artifact_size":"4.8 MB"},{"pr_number":341,"title":"Add Hybrid Depth-Recurrent Transformer submission","author":"tobiascanavesi","status":"open","is_record":false,"val_bpb":1.3323,"architecture":"Hybrid Depth-Recurrent Transformer","quantization":"int8 quantization with FP16 tied embedding passthrough and hybrid shared/unique weights","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights with FP16 tied embedding passthrough"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Hybrid depth-recurrent transformer with 1 unique entry layer, 4 shared blocks looped 5 times, and 1 unique exit layer to reduce quantization compounding.","parameters":{"unique_entry_layers":1,"shared_blocks":4,"loops":5,"unique_exit_layers":1,"effective_layers":22}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections across the full effective depth.","parameters":null}},{"category":"architecture_modification","data":{"component":"per-layer scalars","description":"Per-virtual-layer scalars controlling attention, MLP, residual mixing, and quantization gain.","parameters":{"scalars":["attn_scale","mlp_scale","resid_mix","q_gain"]}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":{"matrix_lr":0.03,"scalar_lr":0.03,"tied_embed_lr":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":1024}}},{"category":"initialization","data":{"method":"spectral init","description":"Overtone spectral embedding initialization using SVD power-law spectrum shaping."}},{"category":"initialization","data":{"method":"resid mix","description":"Phase-transition residual mixing initialization with sigmoid-scheduled resid_mix."}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.02}}},{"category":"other","data":{"description":"FP16 tied embedding passthrough during int8 quantization.","parameters":null}}],"compression":null,"novel_contributions":["Hybrid depth-recurrent transformer that keeps entry and exit layers unique while sharing only middle blocks","Reduction of int8 quantization error compounding in depth recurrence","Near-zero quantization gap compared with pure depth recurrence","U-Net skip connections across the full effective depth","Per-virtual-layer scalar controls for attention, MLP, residual mixing, and quantization gain","FP16 tied embedding passthrough during int8 quantization","Overtone spectral embedding initialization","Phase-transition residual mixing initialization"],"artifact_size":"14.2 MB"},{"pr_number":343,"title":"Submission: val_bpb=1.2459 (autoresearch-optimized)","author":"joeynyc","status":"open","is_record":false,"val_bpb":1.2459,"architecture":null,"quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Tied input and output embeddings to reduce model size.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with 4 attention heads and 2 KV heads.","parameters":{"heads":4,"kv_heads":2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"momentum":"tuned"}}},{"category":"lr_schedule","data":{"method":"warmup schedule","parameters":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":null}},{"category":"other","data":{"description":"Autoresearch-style autonomous hyperparameter search using an AI coding agent over 97 experiments on an RTX 4080, then validation on H100.","parameters":{"experiments":97,"dev_hardware":"RTX 4080","submission_hardware":"8x H100 SXM"}}}],"compression":"zlib","novel_contributions":["Autonomous AI coding agent iteratively optimized hyperparameters (autoresearch pattern).","Tied embeddings to reduce model size.","Optimizer tuning including Muon momentum, warmup schedule, and gradient clipping.","Attention configuration with 4 heads and 2 KV heads via GQA.","Learning rate adjustments across all parameter groups.","Validated on 8x H100 SXM after development on a single RTX 4080."],"artifact_size":"15.9MB"},{"pr_number":344,"title":"Non-record: 11L MLP3.5x LeakyReLU(0.5)^2 + Full SOTA Stack (mean val_bpb=1.1330, 8xH100)","author":"aryanbhosale","status":"open","is_record":false,"val_bpb":1.133,"architecture":"Transformer","quantization":"int6 QAT with GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Expanded MLP hidden size to 3.5x with hidden=1792.","parameters":{"hidden":1792}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 activation in the MLP.","parameters":{"slope":0.5,"power":2}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds bigram hash features.","parameters":{"size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Adds trigram hash features.","parameters":{"size":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches V from layer 0 and blends it via learned lambda (ResFormer-style).","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gating for attention outputs.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds skip connections in a U-Net-like pattern.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"momentum_schedule_end":0.99,"momentum_schedule_steps":1500,"lr":0.03}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr":0.035,"scope":"embeddings"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr":0.03,"scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"final 15% of training"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":0.3}}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with 3.5x MLP expansion and LeakyReLU(0.5)^2 activation","SmearGate, BigramHash, and TrigramHash feature augmentations","Value Residual (ResFormer-style) and Gated Attention","XSA applied to all 11 layers","Partial RoPE on 16/64 head dimensions","Late QAT via STE during the final 15% of training","Int6 uniform per-row quantization with GPTQ-lite and zstd compression"],"artifact_size":null},{"pr_number":345,"title":"Non-record: DART - Differential Attention Recurrent Transformer (Student submission, Kerala)","author":"anandks2006","status":"open","is_record":false,"val_bpb":1.85221128,"architecture":"Differential Attention Recurrent Transformer","quantization":"int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Shared-weight recurrent transformer block reused across multiple loops instead of stacking independent layers.","parameters":{"loops":4}}},{"category":"architecture_modification","data":{"component":"Differential Attention V2","description":"Uses two attention calculations and subtracts one from the other to suppress irrelevant tokens.","parameters":null}},{"category":"architecture_modification","data":{"component":"low-rank Q delta","description":"Per-loop low-rank query modifications to specialize each recurrent pass.","parameters":{"loops":4,"parameters":65536}}},{"category":"architecture_modification","data":{"component":"resid_mix","description":"Learned balance between current hidden state and original input to reduce drift across loops.","parameters":null}},{"category":"architecture_modification","data":{"component":"loop position embeddings","description":"Adds a learned embedding indicating which recurrent pass the block is on.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Early loop hidden states are saved and later loops receive them in reverse order.","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"memory tokens","description":"Learned global tokens that carry information across loops like a shared notepad.","parameters":{"count":16}}},{"category":"other","data":{"description":"Deep supervision with loss computed after every recurrent loop, not only the final output.","parameters":null}},{"category":"regularization","data":{"method":"dropout","parameters":{"loop_dropout":true}}},{"category":"sequence_length","data":{"train_length":256,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Shared-weight recurrent transformer design for repeated computation over the same block","Differential Attention V2 integration","Per-loop low-rank Q delta specialization","resid_mix mechanism to stabilize recurrent passes","Loop position embeddings","U-Net style skip connections across loops","Global memory tokens shared across loops","Deep supervision at every loop","Quantization-aware training matched to int8 submission quantization","Loop dropout discovered as a fix for shared-weight gradient conflict"],"artifact_size":"3.55MB"},{"pr_number":346,"title":"Add local baseline reproduction record","author":"bjbjbjbjbjbj","status":"open","is_record":false,"val_bpb":1.3529,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Local single-GPU baseline reproduction run of the OpenAI Parameter Golf NaiveBaseline","parameters":{"train_shards":1,"grad_accum_steps":8}}}],"compression":null,"novel_contributions":["Local single-GPU reproduction of the OpenAI Parameter Golf NaiveBaseline","Reported best observed validation bpb of 1.3529 at step 4200","Documented that validation improved from 4.1077 to 1.3529 and plateaued after step 4200"],"artifact_size":null},{"pr_number":348,"title":"Submission/qat bigram12k stride32","author":"EthanYangTW","status":"open","is_record":false,"val_bpb":1.14443,"architecture":"Transformer","quantization":"STE QAT with mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Increased bigram hash bucket count to improve bigram coverage.","parameters":{"buckets":12288,"bigram_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses 3x MLP with SmearGate in the transformer block.","parameters":{"mlp_multiplier":3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":25}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":32}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.05}}}],"compression":"zstd-22","novel_contributions":["Applied QAT with STE fake quantization to reduce post-quantization degradation","Used mixed precision quantization with int5 MLP and int6 attention","Expanded BigramHash from 10240 to 12288 buckets","Reduced evaluation stride from 64 to 32","Applied 5% magnitude pruning","Used SWA during training"],"artifact_size":"15.90MB"},{"pr_number":349,"title":"Record: 11L XSA + EMA + Int5-MLP (val_bpb=1.1399)","author":"Mapika","status":"open","is_record":false,"val_bpb":1.1399,"architecture":"Transformer","quantization":"mixed int5/int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to the last 4 of 11 layers.","parameters":{"layers":4,"total_layers":11}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"update_frequency":"every step","device":"GPU","dtype":"float32"}}},{"category":"quantization","data":{"method":"mixed int5/int6/int8","bits":null,"scope":"MLP weights int5, attention weights int6, embeddings int8/FP16 for small tensors"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature module with 2048 buckets and 128-dim embeddings.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net added to the Transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"embeddings","tied_embed_lr":0.035}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine warmdown","parameters":{"warmdown_steps":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruning_ratio":0.08}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with XSA applied to the last 4 layers","Continuous GPU float32 EMA updated every step without CPU transfers","Mixed int5 MLP / int6 attention / int8 embedding quantization","8% magnitude pruning combined with zstd-22 compression","Sliding-window evaluation with stride 64","Muon optimizer with cosine warmdown schedule"],"artifact_size":"under 16MB"},{"pr_number":351,"title":"Memory Tokens + Mixed Quantization (val_bpb: 1.1659)","author":"sp00mm","status":"closed","is_record":false,"val_bpb":1.1659,"architecture":"Transformer","quantization":"mixed int5/int6 QAT with zstd roundtrip","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Memory Tokens","description":"64 learnable embedding vectors overwrite/prepend the first K positions of each sequence to provide shared global context scratchpad access via causal attention.","parameters":{"tokens":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer uses 3x MLP expansion.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs to inject local context through a BigramHashEmbedding.","parameters":{"vocab_size":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned blend with the previous token at the embedding level.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position encoding to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"scope":"embed/scalar"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"every_steps":10}}},{"category":"quantization","data":{"method":"mixed int5/int6 QAT","bits":null,"scope":"MLP weights and attention weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings and small tensors"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128,"seq_len":1024,"batched_windows":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"memory_tokens_exempt":true,"weight_decay":0.04}}},{"category":"other","data":{"description":"Late QAT with fake int6 quantization (STE) when lr_scale < 0.1.","parameters":{"lr_scale_threshold":0.1,"quant_bits":6}}}],"compression":"zstd-22","novel_contributions":["Memory tokens: 64 learnable embedding vectors used as a global context scratchpad.","A/B tested improvement from memory tokens of -0.014 BPB versus an identical config without them.","Mixed quantization scheme using int5 for MLP weights and int6 for attention weights.","Batched sliding-window evaluation with compiled forward_logits."],"artifact_size":"15,070,662 bytes"},{"pr_number":352,"title":"Memory Tokens + Mixed Quantization (val_bpb: 1.1659)","author":"sp00mm","status":"open","is_record":false,"val_bpb":1.1659,"architecture":"Transformer","quantization":"mixed int5/int6 QAT with fp16 embeddings and zstd roundtrip","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Memory Tokens","description":"64 learnable embedding vectors overwrite/prepend the first K positions of each sequence to provide a global context scratchpad accessible through causal attention.","parameters":{"num_memory_tokens":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion in the transformer blocks.","parameters":{"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs to inject local context via BigramHashEmbedding.","parameters":{"vocab_size":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned blend with the previous token at the embedding level.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position encoding to only part of the head dimensions, leaving the rest content-only.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"LN Scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"scope":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"update_every_steps":10}}},{"category":"quantization","data":{"method":"mixed int5/int6 QAT","bits":null,"scope":"MLP weights int5, attention weights int6, embeddings fp16"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128,"seq_len":1024,"batched_windows":256,"compiled_forward_logits":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"MTP auxiliary heads used during training and stripped before export.","parameters":{"k":2,"alpha":0.2}}},{"category":"other","data":{"description":"Late QAT with fake int6 quantization (STE) when lr_scale < 0.1.","parameters":{"quantization":"int6","method":"STE QAT"}}}],"compression":"zstd-22","novel_contributions":["Memory tokens: 64 learnable embedding vectors used as a global context scratchpad","A/B tested improvement from memory tokens (-0.014 BPB)","Mixed quantization with int5 MLP weights and int6 attention weights","Late QAT with fake int6 quantization","Batched sliding window evaluation with compiled forward_logits"],"artifact_size":"15,070,662 bytes"},{"pr_number":354,"title":"[Non-record] MLA + SmearGate + BigramHash + SWA — pre-quant 1.2838 bpb","author":"Skrisps26","status":"open","is_record":false,"val_bpb":1.2838,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLA","description":"Multi-Head Latent Attention with reduced-rank KV projection to improve parameter efficiency.","parameters":{"kv_rank":128,"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate MLP using relu^2 gating.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings using hashed bigram buckets.","parameters":{"buckets":10240,"dim":128}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Combines MLA with kv_rank=128 for parameter-efficient attention","Introduces SmearGate MLP with relu^2 gating and mlp_mult=3","Uses BigramHash embeddings with 10240 buckets and 128-dimensional embeddings","Applies SWA during training","Uses Muon optimizer with momentum 0.99 and weight decay 0.04","Employs mixed int5/int6 quantization with zstd-22 compression","Evaluates with sliding-window inference using stride 64"],"artifact_size":"14.449MB"},{"pr_number":355,"title":"Add non-record BigramHash4096 + MLP992 + LR0.08 + Slide64 submission","author":"josusanmartin","status":"open","is_record":false,"val_bpb":1.19286858,"architecture":"Transformer","quantization":"int8 + zlib with fp16 tied-embedding export","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a hashed bigram embedding side channel to the model.","parameters":{"buckets":4096,"dim":64}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP width reduction","description":"Uses a narrower feed-forward network than the naive baseline.","parameters":{"mlp_hidden":992}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tok_emb.weight"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["CUDA variant of the baseline trainer for an 8xH100 run","BigramHash(4096,64) side channel","MLP_HIDDEN=992 narrower FFN","MATRIX_LR=0.08 higher matrix learning rate","Sliding-window evaluation with stride 64","fp16 tied-embedding export","Non-record submission targeting track_non_record_16mb due to artifact size over the cap"],"artifact_size":"16,179,102 bytes"},{"pr_number":356,"title":"Non-record: PR315 repro on 1xH100 PCIe, int6+zstd (val_bpb=1.8338)","author":"sjp611","status":"open","is_record":false,"val_bpb":1.8338,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last layers of the model.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on only part of the dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Applies layer norm scaling.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hashing vocabulary mechanism.","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate gating in the architecture.","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":400,"momentum_warmup_steps":200}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd","novel_contributions":["Reproduction of PR #315 recipe on a single H100 PCIe GPU","Adaptation of the training schedule for 1 GPU with warmdown and momentum warmup","Use of Flash Attention 2 instead of Flash Attention 3","int6 quantization with zstd compression to fit within the artifact size limit","Late QAT enabled near the end of training under a constrained training budget"],"artifact_size":"10.0MB"},{"pr_number":357,"title":"docs: add TIPS.md and resolve environment dependency issues (#280, #82, #43)","author":"adityagupta26","status":"open","is_record":false,"val_bpb":1.1928,"architecture":"Transformer","quantization":null,"optimizer":"Adam","training_techniques":[{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"betas":[0.9,0.95]}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"chunk_size":256,"eval_seq_len":1024,"batch_size":64}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Suggested weight-sharing strategy to stay within parameter constraints.","parameters":null}},{"category":"other","data":{"description":"Document-aware evaluation by isolating each validation document and resetting LoRA parameters between documents to avoid leakage across sequences.","parameters":null}}],"compression":null,"novel_contributions":["Added TIPS.md documentation with actionable advice for participants","Document-aware LoRA test-time training during evaluation","Per-document adaptation with LoRA adapters reset between documents","Sliding-window / strided evaluation over overlapping chunks","Clarified that tokenizer size does not count toward the 16MB artifact limit","Added flash-attn to requirements.txt to fix the RunPod environment dependency"],"artifact_size":null},{"pr_number":358,"title":"Feature/sota optimizations","author":"adityagupta26","status":"open","is_record":false,"val_bpb":1.14,"architecture":null,"quantization":"STE QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds token-pair hashing for cheap local context.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learns a gate to blend information between adjacent tokens.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Linear layers use orthogonal initialization."}},{"category":"quantization","data":{"method":"STE QAT","bits":8,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"phase":"warmdown"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"weight_decay_support":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"Magnitude pruning zeros out the smallest 3% of weights post-training.","parameters":{"prune_fraction":0.03}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["BigramHash embedding for cheap local context","SmearGate for blending adjacent token information","Orthogonal initialization for linear layers","STE-based quantization-aware training","Stochastic Weight Averaging during warmdown","Muon optimizer with weight decay support","Magnitude pruning of the smallest 3% of weights","Maximum Zstandard compression for the artifact","Sliding window evaluation with stride 64"],"artifact_size":null},{"pr_number":359,"title":"11L MLP3x + Int6 QAT + XSA + EMA + BigramHash + FA3 (val_bpb 1.1345)","author":"tmustier","status":"closed","is_record":false,"val_bpb":1.1345,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with SwiGLU in an 11-layer Transformer","parameters":{"layers":11,"width":512}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to the last layers","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding augmentation","parameters":{"vocab_size":2048,"dim":128}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adam_for_non_matrix_params":true}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"non-matrix params"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"FlashAttention 3 (Hopper build) used for competitive throughput","parameters":{"required":true}}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with 3x MLP expansion","Int6 STE QAT with zstd-22 compression","XSA on the last 4 layers","EMA weight averaging","BigramHash(2048) embedding augmentation","Muon optimizer combined with Adam for non-matrix parameters","Sliding-window evaluation with stride 64","FlashAttention 3 Hopper build for throughput"],"artifact_size":"15.37MB"},{"pr_number":360,"title":"Non-record: QAT & EMA negative results on SOTA stack (val_bpb=1.1426)","author":"MultiFe22","status":"open","is_record":false,"val_bpb":1.1426,"architecture":null,"quantization":"STE QAT with int5/int6 fake quantization","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9999,"start_step":500}}},{"category":"other","data":{"description":"QAT warmup delay before enabling fake quantization","parameters":{"warmup_steps":500}}}],"compression":null,"novel_contributions":["Baseline reproduction of PR #180 at val_bpb 1.1426","Ablation showing that QAT improves artifact compression but reduces training throughput enough to hurt validation performance under the 10-minute budget","Ablation showing that EMA causes severe throughput loss due to CPU cloning every step","Demonstration that step-budget-constrained training makes throughput-costly techniques counterproductive"],"artifact_size":"15.99 MB"},{"pr_number":361,"title":"feat: Ultimate SOTA submission - 10L Model, Mixed Int6 QAT, and TTT/LoRA Evaluation","author":"adityagupta26","status":"open","is_record":false,"val_bpb":1.14,"architecture":"Transformer","quantization":"mixed int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"10L Transformer","description":"Increased model depth to 10 Transformer layers.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded the MLP hidden size to 3.0x the base dimension.","parameters":{"expansion_ratio":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gating mechanism to blend information between adjacent tokens for local context.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Token-pair hashing embedding with 4096 buckets to capture bigram statistics at the input level.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Added encoder-decoder style skip connections to stabilize gradient flow in deeper networks.","parameters":null}},{"category":"quantization","data":{"method":"mixed int6 QAT","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"weight_decay":true}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Magnitude pruning of the smallest 3% of weights post-training to improve compression efficiency.","parameters":{"pruned_fraction":0.03}}}],"compression":"zstd-22","novel_contributions":["10-layer Transformer with 3.0x MLP expansion","SmearGate local token blending mechanism","BigramHash embedding with 4096 buckets","U-Net style skip connections in the Transformer","Mixed int6 quantization-aware training with per-row scaling","Muon optimizer extended with weight decay","Stochastic Weight Averaging during the final half of training","Sliding-window evaluation with stride 64","Test-time training using batched LoRA adapters of rank 8","Magnitude pruning of 3% of weights","Zstandard level 22 artifact compression"],"artifact_size":"16MB"},{"pr_number":362,"title":"Record: 11L Int6+Zstd MLP3x SmearGate BigramHash OrthoInit MuonWD EMA (mean val_bpb=1.1497)","author":"mkenney2","status":"closed","is_record":false,"val_bpb":1.1497,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with 1536 hidden dimension.","parameters":{"mlp_multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending each token with its predecessor.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a 4096-bucket hash embedding for bigram context.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied, with FP16 embeddings to avoid quantization degradation.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with projection scaling."}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with 3x MLP expansion","Int6 quantization combined with zstd-22 compression to fit a larger model under the artifact limit","SmearGate token-to-predecessor blending mechanism","BigramHash 4096-bucket hash embedding for bigram context","OrthoInit orthogonal initialization","Muon optimizer with weight decay 0.02","EMA with decay 0.997","FP16 tied embeddings","Sliding-window evaluation with stride 256","Extensive ablation of AttnRes, depth recurrence, sequence-length curriculum, and TTT"],"artifact_size":"~14.8MB"},{"pr_number":364,"title":"Record: Batch-Optimized 524K + Warmdown 4000 (val_bpb 1.1497)","author":"shikhar1729","status":"open","is_record":false,"val_bpb":1.1497,"architecture":"10L MLP3x","quantization":"int5/int6 + zstd-22","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"10-layer model with 3x MLP blocks as part of the base architecture.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component with 10240 buckets.","parameters":{"buckets":10240}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model weights."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.005,"momentum":0.9,"epochs":15,"freeze_blocks":0,"batch_seqs":16}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["Increased training batch tokens to 524288 to obtain more optimizer steps per wall-clock minute.","Retuned warmdown to 4000 iterations to match the higher step count from the smaller batch.","Applied full-weight test-time training on the validation distribution after quantization roundtrip.","Used sliding window evaluation with stride 64.","Built on the prior #1 entry architecture with no code changes, only hyperparameter changes."],"artifact_size":"15.93MB"},{"pr_number":365,"title":"submission: 10L Int5-MLP + Aggressive Warmdown (WD=20000) — targeting <1.14 bpb","author":"outsourc-e","status":"open","is_record":false,"val_bpb":1.1574,"architecture":"10L Transformer","quantization":"Int5 MLP","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash as part of the model setup.","parameters":{"dimensions":10240}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"interval":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}}],"compression":"zlib","novel_contributions":["Aggressive warmdown with warmdown_iters set to 20000, making the entire training run a decay phase","Reported improved post-quantization quality compared with shorter warmdown schedules","Observed lower post-quantization penalty under Int5/Int6 quantization","Combined Int5 MLP, BigramHash 10240, MuonWD 0.04, and SWA with sliding-window evaluation"],"artifact_size":null},{"pr_number":366,"title":"Non-record: 10L Int5-MLP + TTT + Backout Connection (val_bpb=1.1574 on 8xH100 SXM)","author":"shivnarainms22","status":"open","is_record":false,"val_bpb":1.1574,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash module for token/context representation.","parameters":{"size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expansion MLP with relu^2 activation.","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":6,"scope":"attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"start_step":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum":0.92}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"grad_clip":1,"frozen_blocks":2}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}},{"category":"other","data":{"description":"Backout connection that subtracts a learned scalar multiple of the midpoint hidden state from the final representation before RMSNorm.","parameters":{"layer":5,"lambda_init":0.2,"extra_parameters":1}}}],"compression":"zstd-22","novel_contributions":["Backout connection at the U-Net midpoint with a learned scalar subtraction","Test-time training on validation tokens after quantization roundtrip","EMA replacing SWA for weight averaging","Mixed int5 MLP / int6 attention quantization with zstd-22 compression","SmearGate and BigramHash architectural additions"],"artifact_size":"15.5MB"},{"pr_number":367,"title":"Non-record: BitNet b1.58 - 68M ternary params, val_bpb=1.1770, systematic analysis of ternary limitations","author":"ksang123","status":"open","is_record":false,"val_bpb":1.177,"architecture":"Transformer","quantization":"ternary QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"ternary QAT","bits":2,"scope":"all projections"}},{"category":"architecture_modification","data":{"component":"BitLinear","description":"Ternary {-1, 0, 1} linear layers used for all attention and MLP projections with per-group absmax STE.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3.25x","description":"Widened MLP from 3x to 3.25x to add parameters at low artifact cost.","parameters":{"hidden":2496}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 6 KV heads.","parameters":{"heads":12,"kv_heads":6}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Added skip connections in the network.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Used tied fp16 embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with a large base.","parameters":{"base":200000}}},{"category":"architecture_modification","data":{"component":"logit softcap","description":"Applied logit softcap to outputs.","parameters":{"value":30}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"longer_warmdown":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"EMA/SWA","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used in some ablations; found to have no effect for ternary models."}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"learning_rate":0.002}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"other","data":{"description":"Base-3 packing of ternary weights at 1.6 bits/parameter.","parameters":{"bits_per_param":1.6}}},{"category":"other","data":{"description":"fp16 scale simulation during training to match serialization precision and reduce roundtrip gap.","parameters":{"roundtrip_gap":0.0016}}}],"compression":"lzma","novel_contributions":["Systematic negative-results analysis of techniques that break or do not help ternary models","Near-lossless ternary quantization roundtrip via fp16 scale simulation during training","Demonstrated that ternary prefers higher learning rate, no regularization, and longer warmdown","Showed that base-3 packing can store 68M ternary parameters in 15.88MB","Suggested int4 with late QAT as an unexplored middle ground"],"artifact_size":"15.88MB"},{"pr_number":368,"title":"PROTEUS v4 — non-record submission (val_bpb: 1.2037)","author":"MatoTeziTanka","status":"open","is_record":false,"val_bpb":1.20368943,"architecture":"Transformer","quantization":"mixed INT5/INT6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"INT5 for MLP weights, INT6 for attention weights"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component with size 2048.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP expanded to 3x hidden size.","parameters":{"layers":10,"dim":512,"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embedding weights.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"scope":"embeddings and scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"every_steps":10}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq":2048}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model weights."}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"pruning","parameters":{"sparsity":0.03}}}],"compression":"zstd-22","novel_contributions":["10-layer transformer with mixed INT5/INT6 quantization","SmearGate + BigramHash + OrthoInit integration","Muon optimizer with decoupled weight decay","EMA weight averaging","3% magnitude pruning before export","Sliding window evaluation with stride 64","RoPE base 50K","Late-K passthrough for the last 2 layers"],"artifact_size":"12,499,612 bytes"},{"pr_number":369,"title":"Submission: 11L NTK-RoPE + FA3 + Batch524K + XSA4 + EMA (val_bpb=1.1328)","author":"signalrush","status":"closed","is_record":false,"val_bpb":1.1328,"architecture":"Transformer","quantization":"mixed int5/int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware RoPE that auto-scales the RoPE base frequency when sequence length exceeds the training length.","parameters":{"train_seq_len":1024}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers to remove self-value bias.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with relu-squared activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash features with 4096 buckets and 128-dimensional embeddings.","parameters":{"buckets":4096,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Uses U-Net style skip connections across encoder and decoder layers.","parameters":{"encoder":5,"decoder":6}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"tied_embed_lr":0.035,"lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with muP-scaled output projections."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["NTK-aware RoPE with automatic base scaling for longer sequences","FlashAttention 3 on Hopper to increase training throughput within the time budget","Reduced batch size to 524K tokens/step to obtain more gradient updates in 600 seconds","Adaptive pruning to automatically fit each seed under the 16MB artifact limit","Exclusive Self Attention on the last 4 layers","EMA weight averaging during training","Mixed-precision quantization with int5 MLP, int6 attention/bigram, and int8 embeddings"],"artifact_size":"15.87 MB"},{"pr_number":370,"title":"Add submission: Mixed Quantization + BigramHash + SWA (val_bpb 1.2421)","author":"SergheiBrinza","status":"open","is_record":false,"val_bpb":1.2421,"architecture":"Transformer","quantization":"mixed INT6/INT8 quantization with STE","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added hash-based bigram embeddings to give the model cheap access to previous-token information.","parameters":{"table_size":10240,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"ReLU² MLP with 3x expansion for faster feedforward computation.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Added skip connections across layers in the Transformer.","parameters":{"layers":10}}},{"category":"quantization","data":{"method":"mixed int6/int8 with STE","bits":6,"scope":"all weight matrices and embeddings"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"gradient_clipping":0.3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.5,"interval_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all weight matrices, with SVD-based initialization for embeddings."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["10-layer Transformer with U-Net skip connections","ReLU² MLP with 3x expansion","BigramHash embeddings using a 10240-entry hash table","Mixed INT6 quantization for weights and INT8 for embeddings","Straight-Through Estimator training for quantization robustness","Stochastic Weight Averaging over the last half of training","Orthogonal and SVD-based initialization","zstd level 22 compression"],"artifact_size":"13.28 MB"},{"pr_number":371,"title":"Record: 11L XSA + EMA + TTT + Partial RoPE + LN Scale — val_bpb=1.1401","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.1401,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers of an 11-layer transformer stack.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"epochs":3,"optimizer":"SGD"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds skip connections before decoder blocks for a U-Net-like transformer structure.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimensions.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"LN Scale","parameters":{"scale_rule":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism using interpolation between current and previous activations.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram-based hashing feature using XOR-based hashing with large primes and a learned output scalar.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model weights."}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with XSA in the last 4 layers","EMA with decay 0.997","Test-time training with 3-epoch SGD","U-Net style skip connections","Partial RoPE on 16 of 64 dimensions","LayerNorm scaling by 1/sqrt(layer+1)","SmearGate and BigramHash additions","OrthoInit initialization","Late int6 QAT with absmax STE","Sliding-window evaluation with stride 32"],"artifact_size":"15.4 MB"},{"pr_number":372,"title":"11L + XSA4 + EMA(0.997) + seq2048 + Int5-MLP + MuonWD=0.04 + LateK-FP16 | val_bpb=1.1361","author":"HyperPotatoNeo","status":"closed","is_record":false,"val_bpb":1.1361,"architecture":"Transformer","quantization":"mixed int5/int6 QAT with fp16 embeddings and last-layer c_k","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention weights"}},{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"token embedding and last layer c_k"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last 4 transformer layers, subtracting each value vector from the attention output before projection.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension sigmoid gate blending each token embedding with the preceding token.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-bucket hashed bigram embedding table for consecutive token pairs.","parameters":{"vocab_size":2048,"dimensions":64}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 key/value heads.","parameters":{"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"11-layer U-Net Transformer","description":"Transformer with 11 blocks arranged as 5 encoder and 6 decoder layers with skip connections.","parameters":{"layers":11}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"momentum_warmup_start":0.85,"momentum_warmup_steps":500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":2000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Large weight matrices initialized orthogonally; output projections scaled by 1/sqrt(2*num_layers)."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["11-layer U-Net Transformer with skip connections","Mixed int6 attention and int5 MLP quantization with STE QAT","Late-K FP16 for the final layer's key projection","Exclusive self-attention on the last 4 layers","EMA weight averaging with decay 0.997","Sequence length increased to 2048","SmearGate and BigramHash bigram-context embedding techniques","Muon optimizer tuned with weight decay 0.04"],"artifact_size":"15.79MB"},{"pr_number":373,"title":"Record: SwiGLU + BigramHash + SWA, val_bpb=1.1634 (8xH100 verified)","author":"JoeProAI","status":"closed","is_record":false,"val_bpb":1.1634,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaced relu(x).square() FFN activation with SwiGLU.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Used BigramHash embeddings instead of standard token embeddings.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept token embedding weights tied to the output head.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Configured the transformer with 8 attention heads and 4 KV heads.","parameters":{"layers":10,"dim":512,"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_fraction":0.5}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":960}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.02}}},{"category":"other","data":{"description":"FP16 embedding passthrough during quantization to reduce post-quantization degradation.","parameters":null}}],"compression":"zstd-22","novel_contributions":["SwiGLU FFN activation discovered via automated search/GEPA","BigramHash embeddings with 4096 buckets and 128-dimensional embeddings","Stochastic Weight Averaging every 50 steps starting from 50% of training","FP16 embedding passthrough during quantization to reduce degradation","Sliding window evaluation with stride 64 for richer validation context","Warmdown and learning-rate tuning for the 10-minute wall-clock budget"],"artifact_size":"14.1 MB"},{"pr_number":374,"title":"Record: 11L + Tight SWA + Shared VE128 + Partial RoPE + LN Scale + XSA4 (val_bpb: 1.1246)","author":"unnir","status":"open","is_record":true,"val_bpb":1.1246,"architecture":"Transformer","quantization":"mixed int6/int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with relu-squared activation.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Efficient partial XSA applied to the last 4 layers in a GQA-aware, zero-allocation manner.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to only part of the head dimensions with NTK-aware scaling.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 4 KV heads across 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate as part of the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hashing feature with learned embeddings.","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Shares a single value embedding table across layers 9 and 10 with per-layer learned scales.","parameters":{"dimension":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses encoder-decoder style skip connections.","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with projection scaling by 1/sqrt(2*num_layers)."}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale_factor":"1/sqrt(layer_idx+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum_start":0.92,"warmup_momentum_end":0.99,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"embedding_lr":0.035,"scalar_lr":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"start_scale_threshold":0.2,"checkpoint_window_steps":600,"num_checkpoints":12}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP + attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"wallclock_based":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Late QAT with STE int6 fake-quantization when LR scale drops below 0.1.","parameters":{"threshold":0.1}}}],"compression":"zstd-22","novel_contributions":["Tight SWA restricted to late training checkpoints with scale < 0.2","Shared Value Embedding across layers 9 and 10","Partial RoPE with NTK-aware scaling","Efficient partial XSA on the last 4 layers","Layer-wise LN scale factor of 1/sqrt(layer_idx+1)","Late QAT using STE int6 fake quantization","Sliding window evaluation to obtain the reported best val_bpb"],"artifact_size":"15.71 MB"},{"pr_number":375,"title":"Non-record: Negative results & insights from 24hrs on 8xH100","author":"charmquark1984","status":"open","is_record":false,"val_bpb":1.1257,"architecture":"Transformer","quantization":"INT6+zstd","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":null}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.03,"momentum":null,"other_params":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Attention/sequence modeling component used in the PR #315 base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider MLP blocks in the base Transformer.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into learned embedding buckets.","parameters":{"buckets":4096}}},{"category":"test_time_training","data":{"method":"causal TTT","parameters":{"learning_rate":0.0001,"chunk_size":32000}}},{"category":"test_time_training","data":{"method":"causal TTT","parameters":{"learning_rate":0.01,"scope":"last 2 blocks MLP only"}}},{"category":"test_time_training","data":{"method":"Reptile meta-learning TTT","parameters":{"inner_lr":0.1,"outer_lr":0.01,"inner_steps":3,"budget_fraction":0.2}}},{"category":"other","data":{"description":"Multi-token prediction auxiliary heads predicting tokens 2+ steps ahead during training.","parameters":{"num_heads":2,"loss_weight":0.3}}},{"category":"quantization","data":{"method":"int4","bits":4,"scope":"all"}},{"category":"quantization","data":{"method":"mixed int4/int5","bits":null,"scope":"MLP and attention"}},{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"full-run"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.035}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.041}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.042}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.043}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.045}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.05}}},{"category":"regularization","data":{"method":"label smoothing","parameters":{"value":0.05}}},{"category":"regularization","data":{"method":"L1 regularization","parameters":{"lambda":0.0001}}},{"category":"regularization","data":{"method":"L1 regularization","parameters":{"lambda":0.000001}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Memory tokens: 64 learnable prefix embeddings prepended during training and evaluation.","parameters":{"num_tokens":64}}},{"category":"other","data":{"description":"Gradient-guided mixed-bit quantization based on accumulated squared gradients.","parameters":{"top_percent_int7":10,"middle_percent_int6":70,"bottom_percent_int5":20}}},{"category":"other","data":{"description":"Cautious weight decay that applies decay only when gradient and weight have the same sign.","parameters":null}},{"category":"other","data":{"description":"1M batch size training.","parameters":{"train_batch_tokens":1048576}}},{"category":"other","data":{"description":"786K batch size training.","parameters":{"train_batch_tokens":786432}}},{"category":"other","data":{"description":"524K batch size training.","parameters":{"train_batch_tokens":524288}}},{"category":"other","data":{"description":"cuDNN scaled dot-product attention backend instead of Flash SDP.","parameters":null}},{"category":"other","data":{"description":"Canon layers from Allen-Zhu's Physics of Language Models.","parameters":{"K":3}}},{"category":"other","data":{"description":"Full-run quantization-aware training with STE fake quantization throughout training.","parameters":null}},{"category":"other","data":{"description":"Flash Attention 3 / Hopper-native attention backend.","parameters":null}}],"compression":"zstd","novel_contributions":["Systematic negative-results study of 13 techniques on top of the PR #315 base model","Verified that EMA outperforms SWA by about 0.003 BPB","Showed that weight decay can be used as a precise knob to control compressed artifact size","Demonstrated that 786K batch size outperforms 524K batch size under the 10-minute wallclock constraint","Found that Flash Attention 3 on Hopper yields better wallclock performance than slower attention backends in this setting","Quantified the throughput cost of many techniques, showing that small per-step overheads can dominate final BPB","Documented that INT4 quantization gap is too large to offset its parameter-count advantage in this track"],"artifact_size":"15.5MB"},{"pr_number":376,"title":"Record: 11L Next-Gen Stack + Custom Kernels, val_bpb=1.1399","author":"anthony-maio","status":"closed","is_record":false,"val_bpb":1.1399,"architecture":"Transformer","quantization":"int5 mixed precision + Late QAT STE","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with ReLU² activation","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimension with NTK-aware scaling","parameters":{"rope_dims":16,"total_dims":64,"base":50000}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned sigmoid token blending gate","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash embedding for token-pair features","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_end":0.99,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoint_average":7,"scale_threshold":0.2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmup_start":0.92,"warmup_end":0.99}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer_idx+1)"}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"mixed precision weights"}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with a competitive stack achieving 1.1399 val_bpb","Exclusive Self Attention on the last 4 layers","Partial RoPE with NTK-aware base scaling","SmearGate learned token blending","BigramHash token-pair feature embedding","Int5 mixed precision with late QAT STE","GPTQ-lite clip search during compression","Muon optimizer with custom warmup schedule","Tight SWA checkpoint averaging","Custom Triton/CUDA kernel pipeline for future speedups"],"artifact_size":"15.79MB"},{"pr_number":377,"title":"Hybrid INL + Sort-Split MoE (1.41/1.46 bpb TTT, 15.5MB, 1xH100)","author":"Complexity-ML","status":"open","is_record":false,"val_bpb":1.4072,"architecture":"Hybrid Transformer","quantization":"int8+zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GQA + RoPE","description":"Classical grouped-query attention with rotary positional embeddings in early layers.","parameters":{"layers":[0,1,2,3,4]}}},{"category":"architecture_modification","data":{"component":"INL BetaMu attention","description":"Error-driven O(n) attention using causal cumsum over (x - mu) instead of QKV attention matrices.","parameters":{"layers":[5,6,7,8]}}},{"category":"architecture_modification","data":{"component":"Sort-Split MoE","description":"Deterministic argsort + fixed split routing with 4 experts, keeping all experts busy and compatible with fullgraph compilation.","parameters":{"experts":4}}},{"category":"architecture_modification","data":{"component":"ALiBi","description":"Learned slopes per head used as positional encoding in INL layers.","parameters":null}},{"category":"architecture_modification","data":{"component":"Token-routed MoE","description":"Deterministic token_id % 4 routing across 4 experts with mask-multiply pattern.","parameters":{"experts":4}}},{"category":"architecture_modification","data":{"component":"PID Dynamics / INL Ultra-Lite","description":"Learnable equilibrium mu traverses all layers with fixed alpha/beta/gate and clamped velocity for stabilizing hidden state trajectories.","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaces relu^2 activation with SwiGLU in expert MLPs.","parameters":{"experts":4}}},{"category":"lr_schedule","data":{"method":"cosine warm restarts (SGDR)","parameters":{"cycle_lengths":[5000,10000,20000],"peak_lr_decay":0.7}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":23}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Hybrid architecture combining classical GQA attention with INL error-driven O(n) attention","Sort-and-split MoE routing with deterministic argsort + fixed split","Token-routed MoE with perfectly balanced 4-expert routing","PID-style dynamics with a learnable equilibrium mu traversing all layers","ALiBi positional encoding in INL layers","Cosine warm restarts learning-rate schedule","SWA checkpoint averaging"],"artifact_size":"15.5MB"},{"pr_number":379,"title":"Record: 11L GPTQ-lite + Int6 MLP3x (val_bpb=1.1257)","author":"dannywillowliu-uchi","status":"open","is_record":false,"val_bpb":1.1257,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with relu-squared activation","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Efficient Partial XSA on the last 4 layers","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial RoPE with NTK-aware scaling","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash with 2048 buckets and dim=128","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Value Embedding","description":"Shared value embedding used in later layers","parameters":{"dim":128,"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"checkpoint_count":12,"scale_threshold":0.2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"self-distillation TTT","parameters":{"temperature":2,"freeze_blocks":4,"epochs":2,"learning_rate":0.001}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal initialization with projection scaling"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_rule":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Late QAT with STE int6 applied when LR scale < 0.1","parameters":{"lr_scale_threshold":0.1}}}],"compression":"zstd-22","novel_contributions":["GPTQ-lite: per-layer optimal clip percentile search during int6 quantization","Self-distillation TTT using a frozen teacher to preserve XSA attention patterns","Late QAT with STE int6 during training"],"artifact_size":"15.99 MB"},{"pr_number":381,"title":"Non-record: 10L FP16-Embed + Warmdown20k","author":"codestrongestx","status":"open","is_record":false,"val_bpb":1.17389939,"architecture":"Transformer","quantization":"fp16 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in a 10-layer sliding-window Transformer setup.","parameters":{"layers":10,"model_dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"muon_backend_steps":5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000,"warmup_steps":20}}},{"category":"initialization","data":{"method":"OvertoneInit","description":"Baseline uses OvertoneInit; this submission is built on that merged baseline."}}],"compression":null,"novel_contributions":["Increased WARMDOWN_ITERS from 2500 to 20000","Built on the merged 2026-03-19 SlidingWindow FP16-Embed 10L MuonWD OvertoneInit baseline","Verified non-record submission with slightly improved val_bpb over the merged seed-42 baseline","Included a PyTorch 2.4 SDPA GQA compatibility fallback in the training script"],"artifact_size":"14178772 bytes"},{"pr_number":383,"title":"Record: 11L Full Stack + XSA4 + Tight SWA + Late QAT (val_bpb=1.1320)","author":"joelnishanth","status":"open","is_record":false,"val_bpb":1.132,"architecture":"Transformer","quantization":"int6 QAT with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA to the last 4 layers in a GQA-aware, zero-allocation form.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Used partial rotary positional embeddings with NTK-aware scaling.","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width by 3x with relu-squared activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with 4 KV heads out of 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Included SmearGate as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added BigramHash with 2048 buckets and 128-dimensional embeddings.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Shared value embeddings were used in layers 9 and 10.","parameters":{"layers":[9,10],"dim":128}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with projection scaling."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval_steps":50,"threshold_scale":0.2,"checkpoints":12}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP + attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"iters":3000,"wallclock_based":true}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":0.3}}},{"category":"other","data":{"description":"Late QAT applied when learning-rate scale dropped below 0.1.","parameters":{"threshold_lr_scale":0.1}}},{"category":"other","data":{"description":"Used FlashAttention 3 with FA2 fallback.","parameters":null}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with 512 hidden size and GQA","XSA on the last 4 layers","Partial RoPE with NTK-aware scaling","U-Net skip connections","SmearGate and BigramHash features","Shared Value Embedding in later layers","Tight SWA during late training","Late QAT with STE int6","FlashAttention 3 with FA2 fallback","Orthogonal initialization with projection scaling"],"artifact_size":"15,753,020 bytes"},{"pr_number":384,"title":"Non-record: Meta-TTT + Cache/OGD Eval Stacking + Tokenizer Ablation","author":"anantdgoel","status":"open","is_record":false,"val_bpb":1.2882,"architecture":"Transformer","quantization":"int6","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Architectural gating modification used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature/module used in the model.","parameters":{"buckets":4096}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"enabled":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon":0.04,"adam":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":2}}},{"category":"other","data":{"description":"Eval-time unigram cache mixture combined with online gradient descent on a vocab bias vector.","parameters":{"cache_lambda":0.02,"cache_decay":0.995,"ogd_lr":0.1}}},{"category":"other","data":{"description":"MAML-style meta-test-time training during training to optimize initialization for later TTT adaptation.","parameters":{"meta_loss_weight":0.5,"inner_lr":0.03,"start_frac":0.5,"every":4}}},{"category":"other","data":{"description":"Tokenizer optimization using SentencePiece BPE with modified splitting settings and longer max token length.","parameters":{"split_digits":false,"split_by_unicode_script":false,"split_by_number":false,"max_sentencepiece_length":64,"vocab_size":8192}}}],"compression":null,"novel_contributions":["MAML-style Meta-TTT during training to optimize initialization for test-time adaptation","Eval-time stacking of unigram cache mixture with online gradient descent on a vocab bias vector on top of SGD TTT","Tokenizer optimization ablation using modified SentencePiece BPE settings","Controlled ablations comparing meta-TTT, cache+OGD stacking, and tokenizer changes"],"artifact_size":"13.2 MB"},{"pr_number":385,"title":"Non-record: 11L Int6 QAT + SmearGate + SWA(0.4) + WD=0.04 (3-seed mean val_bpb=1.1488)","author":"dentity007","status":"open","is_record":false,"val_bpb":1.1488,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dim gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied, with FP16 passthrough.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion.","parameters":{"mlp_mult":3,"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections added in a U-Net-like pattern.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.03,"scope":"embeddings"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":32}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["Muon weight decay increased from 0.038 to 0.04 to improve int6 quantization quality","SWA start fraction reduced from 0.5 to 0.4 to average more checkpoints and smooth weights","3-seed verified int6 QAT submission with low variance (std=0.0006)","SmearGate-based architecture combined with SWA and int6 quantization","Per-row symmetric int6 quantization in int8 containers with FP16 passthrough for tied embeddings"],"artifact_size":"15.3MB"},{"pr_number":386,"title":"Depth-recurrent transformer: shared block × 12 passes, val_bpb 1.4061, 4.39MB artifact","author":"Sambhav242005","status":"open","is_record":false,"val_bpb":1.4061,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"A single shared transformer block is applied repeatedly across 12 passes instead of using independent layers.","parameters":{"passes":12,"shared_blocks":1}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder passes store activations and decoder passes consume them in reverse order.","parameters":{"passes":12}}},{"category":"architecture_modification","data":{"component":"x0 residual mix","description":"The original embedding is injected at every pass for stability.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses a wider transformer configuration with more heads and fewer KV heads than the baseline.","parameters":{"num_heads":12,"num_kv_heads":4,"model_dim":768}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Single shared transformer block reused across 12 passes to reduce unique parameters.","U-Net style skip connections between encoder and decoder passes.","Residual injection of the original embedding at every pass for stability.","Wider model enabled by parameter savings from depth recurrence.","Int8 plus zlib roundtrip used for the final artifact."],"artifact_size":"4.39MB"},{"pr_number":388,"title":"Record: 11L + Tight SWA + VE128 + Partial RoPE + LN Scale + TTT (val_bpb: 1.1231)","author":"ElliotSlusky","status":"closed","is_record":false,"val_bpb":1.1231,"architecture":"Transformer","quantization":"int6+int8 per-row quantization with zstd compression","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses RoPE on only part of the attention dimensions, leaving most attention dimensions position-free.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"Shared Value Embeddings","description":"A learned embedding table shared across layers 9 and 10 and added to the value path with per-layer learned scales.","parameters":{"dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling factor of 1/sqrt(layer_idx+1).","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with relu-squared activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped-query attention with 4 KV heads across 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash features with 2048 buckets and 128-dimensional embeddings.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses encoder-decoder style skip connections with 5 encoder and 6 decoder layers.","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.042,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.042,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_n_steps":50,"start_scale":0.2,"num_checkpoints":16}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.008,"epochs":25,"momentum":0.9,"batch_seqs":32,"freeze_blocks":0}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with projection scaling by 1/sqrt(2*num_layers)."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_factor":"1/sqrt(layer_idx+1)"}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention weights int6 per-row; embeddings int8 per-row"}},{"category":"other","data":{"description":"Uses cuDNN SDPA attention implementation for speed.","parameters":{"speedup_vs_fa2":1.18}}}],"compression":"zstd-22","novel_contributions":["Tight SWA restricted to low-scale checkpoints and averaging only the most recent 16 checkpoints","Shared Value Embeddings with a single table shared across layers 9 and 10","Partial RoPE applied to only 16 of 64 attention dimensions","LayerNorm scaling by 1/sqrt(layer_idx+1)","Test-Time Training with full-weight SGD on validation data after quantization","Int6+zstd quantization with int8 embeddings","cuDNN SDPA attention for faster grouped-query attention"],"artifact_size":"15.43 MB"},{"pr_number":389,"title":"Record: 11L Int5-All + XSA5 + EMA + 10% Pruning (val_bpb=1.1466)","author":"trasnake87","status":"open","is_record":false,"val_bpb":1.1466,"architecture":"Transformer","quantization":"uniform int5 quantization for all weights (MLP + attention), with late QAT / int5 STE fake-quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all weights (MLP and attention)"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 5 layers","parameters":{"layers":5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimensions","parameters":{"dimensions":16,"total_head_dims":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism used in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing module used as part of the architecture","parameters":{"hash_size":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP output scaling"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"10% magnitude pruning after EMA averaging and before quantization","parameters":{"pruning_fraction":0.1}}},{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"final ~5% of training"}}],"compression":"zstd","novel_contributions":["Uniform int5 quantization for both MLP and attention weights","10% magnitude pruning after EMA averaging and before quantization","Reduced artifact size from about 15.6MB to 14.8MB with minimal quality impact","Late int5 STE fake-quantization during the final portion of training"],"artifact_size":"14.8 MB"},{"pr_number":390,"title":"Record: Sponge Bath — TTT 8ep eval-only improvement (val_bpb: 1.1295)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1295,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the MLP stack as part of the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash with 2048 buckets as part of the base architecture.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":8,"learning_rate":0.002,"momentum":0.9}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}}],"compression":"zstd","novel_contributions":["Increased test-time training from 3 to 8 epochs","Reduced evaluation stride from 64 to 32","Pure eval-time improvement with no architecture or training changes","Achieved a new record validation bpb of 1.1295"],"artifact_size":"15.74 MB"},{"pr_number":391,"title":"Add MaxParams6L_120 submission (1.2374 BPB) to track_non_record_16mb","author":"NishantDahal","status":"closed","is_record":false,"val_bpb":1.2374,"architecture":"Transformer","quantization":"INT8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"encoder-decoder depth split","description":"6-layer encoder-decoder model with 3 encoder and 3 decoder layers plus learned skip connections, instead of the usual deeper stack.","parameters":{"layers":6,"encoder_layers":3,"decoder_layers":3}}},{"category":"architecture_modification","data":{"component":"SwiGLU MLP","description":"Uses SwiGLU feed-forward blocks instead of universal ReLU-squared MLPs.","parameters":{"hidden_size":1280}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses untied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses full multi-head attention with one KV head per query head instead of grouped-query attention.","parameters":{"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"learned per-dimension control knobs","description":"Adds learned residual mixing, attention scaling, MLP scaling, and per-head query gain parameters.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"matrix_lr":0.045}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zlib","novel_contributions":["6-layer encoder-decoder architecture with learned skip connections to maximize learning under fixed wallclock","Untied embeddings enabling a much higher embedding learning rate","Full multi-head attention with 8 KV heads instead of grouped-query attention","Per-dimension learned control parameters for residual mixing and attention/MLP scaling","SwiGLU MLP replacing universal ReLU-squared","Training and evaluating at sequence length 2048","Weight decay used both for optimization and to improve INT8 compressibility","Sliding-window evaluation with stride 256"],"artifact_size":"13.5MB"},{"pr_number":393,"title":"Non-record: 7L + BigramHash Projection + Batch Scaling (val_bpb=1.2417, 1xH100)","author":"CrimsonSithria","status":"closed","is_record":false,"val_bpb":1.2417,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding with a linear projection to reduce artifact size while preserving quality.","parameters":{"buckets":8192,"projection_dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with optimized base for the target context length.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embeddings used to share input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x/MLP4x","description":"Uses a 4x MLP expansion with relu^2 activation for throughput-constrained training.","parameters":{"mlp_multiplier":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.025,"momentum":null,"other_params":{"matrix_lr":0.035,"scalar_lr":0.035,"embed_lr":0.09,"grad_clip":0.3}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.025}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":512}}},{"category":"initialization","data":{"method":"overtone embedding init","description":"Non-standard embedding initialization combined with phase-transition residual mixing."}},{"category":"initialization","data":{"method":"phase-transition residual mixing","description":"Residual mixing strategy used alongside overtone embedding initialization."}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Systematic hyperparameter optimization across 111 experiments to tune LR, WD, and batch size for single-GPU throughput-constrained training.","parameters":{"experiments":111}}},{"category":"other","data":{"description":"Increased batch size to 131K tokens per step to improve performance on H100.","parameters":{"train_batch_tokens":131072}}}],"compression":"int8 + zlib","novel_contributions":["Systematic hyperparameter optimization across 111 experiments on a single GPU","Hyperparameter scaling laws showing LR, weight decay, and batch size must co-scale with GPU speed and step count","Using 131K tokens per step as a major lever on fast GPUs","BigramHash dimension-128 projection to save artifact space with minimal BPB loss","Observation that higher weight decay improves int8+zlib compression by shrinking weight magnitudes","Identification of negative results for EMA, SWA, SmearGate, orthogonal initialization, and magnitude pruning in the short-training regime"],"artifact_size":"15.5MB"},{"pr_number":394,"title":"Non-record: 11L PR315 Backout + Native FA3 RunPod (val_bpb=1.1247)","author":"greqone","status":"open","is_record":false,"val_bpb":1.12467423,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model artifact"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses an 11-layer PR315-style transformer line with XSA-related settings.","parameters":{"layers":11,"xsa_last_n":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Applies RoPE with reduced dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings / tied embedding learning rate.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes a bigram vocabulary component.","parameters":{"vocab_size":2048}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_wd":0.04,"muon_wd":0.04}}},{"category":"other","data":{"description":"Native Hopper FlashAttention and torch.compile were used for training efficiency.","parameters":{"flash_attn_backend":"native","torch_compile":true}}},{"category":"other","data":{"description":"Backout residual subtraction from the mid-network hidden state.","parameters":{"backout_enabled":true,"backout_lambda_init":0.2,"backout_layer":-1}}}],"compression":"zstd","novel_contributions":["Non-record 10-minute-track submission packaged under track_non_record_16mb","Faithful RunPod 8xH100 SXM PR315-style run with native Hopper FlashAttention","Backout residual subtraction added as a cheap orthogonal improvement","Self-contained train_gpt.py with inlined flash_attn_interface helper","Exact training log and submission artifacts packaged within the 16MB cap"],"artifact_size":"15,545,662 bytes"},{"pr_number":395,"title":"Add MaxParams6L_120 submission (1.2374 BPB) to track_non_record_16mb","author":"NishantDahal","status":"open","is_record":false,"val_bpb":1.2374,"architecture":"Transformer","quantization":"INT8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth reduction / encoder-decoder split","description":"6-layer encoder-decoder architecture with 3 encoder and 3 decoder layers plus learned skip connections, instead of the usual 9-11 layers.","parameters":{"layers":6,"encoder_layers":3,"decoder_layers":3}}},{"category":"architecture_modification","data":{"component":"SwiGLU MLP","description":"Replaced universal ReLU-squared MLP with a SwiGLU feedforward block.","parameters":{"hidden_size":1280}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Used untied input and output embeddings instead of tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used full multi-head attention with one KV head per query head instead of grouped-query attention.","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"per-dimension control parameters","description":"Added learned residual mixing, attention scaling, MLP scaling, and query gain controls.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"matrix_lr":0.045,"embed_lr":0.6}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"other","data":{"description":"Learned per-dimension residual mixing, attention/MLP scaling, and query gain control tensors stored in fp32 through quantization.","parameters":{"fp32_control_tensors":true}}}],"compression":"zlib","novel_contributions":["6-layer encoder-decoder architecture with learned skip connections","SwiGLU MLP instead of ReLU-squared","Untied embeddings with very high embedding learning rate","Full multi-head attention with 8 KV heads instead of GQA","Per-dimension learned control parameters for residual, attention, MLP, and query scaling","INT8 quantization combined with zlib compression","Training at sequence length 2048","Weight decay tuned to improve both quality and artifact size"],"artifact_size":"13.5MB"},{"pr_number":397,"title":"Record: Dynamic Eval + TTT on SOTA Pipeline (val_bpb=1.1364)","author":"translatingthename","status":"open","is_record":false,"val_bpb":1.1364,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram-based hashing component used in the model.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization strategy."}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"freeze_blocks":2,"momentum":0.9}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_size":32,"adapt_every_batches":4}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0,"other_params":{"learning_rate":0.001,"rank_local":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":1500}}}],"compression":"zstd","novel_contributions":["Dynamic evaluation during validation scoring using periodic SGD steps on sliding windows.","Combining dynamic evaluation with TTT on the SOTA pipeline without changing training.","Zero additional artifact cost while improving validation bpb.","Rank-local adaptation during evaluation with batched window scoring."],"artifact_size":"15.65 MB"},{"pr_number":398,"title":"Non-record: 11L EMA + TTT(20ep,freeze=0) + 15-run ablation study — val_bpb=1.1213 (3-seed)","author":"felipe-parodi","status":"open","is_record":false,"val_bpb":1.1213,"architecture":"Transformer","quantization":"mixed int6 quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash embedding/component with vocabulary size 2048 and dimension 128.","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x-width MLP block.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":20,"learning_rate":0.008,"momentum":0.9,"freeze_blocks":0}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["EMA(0.997) combined with aggressive 20-epoch test-time training","All blocks unfrozen during TTT (freeze_blocks=0) was critical for best performance","15-run ablation study identifying negative results such as late QAT, memory tokens, warmdown=20000, and PPM-C blending","Removal of XSA to save step time and gain additional training steps within the wall-clock budget","Mixed int6 quantization with zstd-22 compression under the 16MB artifact constraint"],"artifact_size":"15.53 MB"},{"pr_number":399,"title":"Record: Parallel Muon + Parameter Banking — 81.87ms/step, val_bpb 1.1247 (3-seed mean)","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.1247,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"evaluation artifact / model weights"}},{"category":"architecture_modification","data":{"component":"Parameter Banking","description":"Restructures 66 separate linear weight matrices into 4 contiguous 3D parameter banks to enable batched optimizer operations.","parameters":{"qo_bank":[22,512,512],"kv_bank":[22,256,512],"mlp_up_bank":[11,1536,512],"mlp_down_bank":[11,512,1536]}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3000,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings as part of the base architecture.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Includes XSA attention component in the base model.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"LayerNorm scale","description":"Applies learnable LayerNorm scaling.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings / tied output weights.","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"lr_schedule","data":{"method":"linear warmup + warmdown","parameters":{"muon_momentum_warmup_steps":1500,"warmdown_iters":3000}}},{"category":"other","data":{"description":"Parameter banking enables batched Newton-Schulz orthogonalization and explicit asynchronous communication scheduling (reduce_scatter, all_reduce, all_gather) to restore compute-communication overlap.","parameters":{"optimizer_time_reduction_ms":{"before":19.7,"after":1.3}}}}],"compression":null,"novel_contributions":["Parameter Banking: restructuring 66 linear weights into 4 contiguous parameter banks for batched optimizer operations","Parallel Muon communication strategy adapted to work without DDP on banked parameters","Batched Newton-Schulz orthogonalization over parameter banks using torch.bmm","Explicit asynchronous communication schedule (reduce_scatter, all_reduce, all_gather) to restore overlap","Architecture-agnostic systems optimization that improves training throughput without changing model architecture or hyperparameters"],"artifact_size":"~15.8 MB"},{"pr_number":400,"title":"Record: 11L CANON-AC(last5)+DeltaGate Report (Humble Record Attempt, val_bpb: 1.1296)","author":"chanwoo-park-official","status":"open","is_record":false,"val_bpb":1.1296177,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"mlp, attn"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash as part of the leaderboard-aligned stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate as part of the leaderboard-aligned stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Enables XSA only on the last 4 transformer blocks.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to only part of the dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"CANON","description":"Adds CANON convolutional path with scoped placement on the last 5 layers and delta gating.","parameters":{"kernel":3,"last_n":5,"delta_gate":1}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"enabled":true,"tight_swa":true,"every":50,"start_lrmul":0.2,"max_checkpoints":12}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"CANON delta gate near-identity init","description":"Initializes CANON delta gate with g=-4.0 so the path starts near identity."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"matrix":0.04,"adam":0.04}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"enabled":true}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"mlp, attn"}}],"compression":"zstd","novel_contributions":["Scoped CANON placement on the last 5 layers (AC(last5))","CANON delta gate to modulate the residual CANON path","Tight SWA schedule under a 600-second wallclock cap","Combination of AC(last5)+delta with leaderboard-aligned components to improve val_bpb","Int6 quantization with QAT on MLP and attention weights"],"artifact_size":"15,581,348 bytes"},{"pr_number":401,"title":"Record: 11L + EMA + Tight SWA + QAT0.15 + VE128 + Partial RoPE + LN Scale (val_bpb: 1.1243)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1243,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"tight":true,"every_steps":50,"start_scale_threshold":0.2,"from_ema_weights":true}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP + attention weights"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimensions with NTK-aware scaling.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Layerwise layer-norm scaling by 1/sqrt(layer_idx+1).","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with relu-squared activation.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the MLP/architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram features with shared embeddings.","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Shared value embeddings used in selected layers.","parameters":{"dimension":128,"layers":[9,10]}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"accumulation":"float32"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":8,"learning_rate":0.002,"momentum":0.9}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_rule":"1/sqrt(layer_idx+1)"}}}],"compression":"zstd-22","novel_contributions":["Stacking EMA with tight SWA so SWA collects from EMA-averaged weights","Earlier late QAT threshold at 0.15 to increase time under int6 fake quantization","Longer warmdown schedule of 3500 iterations","Partial RoPE with NTK-aware scaling","Layerwise LN scaling","Shared Value Embedding","SmearGate and BigramHash architectural additions"],"artifact_size":"15.88 MB"},{"pr_number":403,"title":"Submit Int6 QAT parameter-golf entry","author":"malc3om","status":"open","is_record":false,"val_bpb":1.1388,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP capacity to 3x size using space saved by int6 quantization.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a complementary bigram-context signal at the embedding layer.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram-context hashing signal at the embedding layer.","parameters":null}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal weight initialization to accelerate early convergence."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval_steps":50,"start_fraction":0.5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd","novel_contributions":["Int6 QAT with STE enabled from 30% of training onward to reduce post-training quantization penalty","3x MLP expansion funded by the byte savings from int6 quantization","SmearGate and BigramHash as complementary bigram-context signals at the embedding layer","Orthogonal initialization and output-projection scaling for faster early convergence","Muon optimizer with decoupled weight decay of 0.04 to improve quantization quality","SWA applied at 50-step intervals over the last 50% of training","Sliding-window evaluation with stride 64"],"artifact_size":"15.85 MB"},{"pr_number":405,"title":"Non-record: 1x RTX 3090 baseline run (sp1024, 1 shard)","author":"meett07","status":"open","is_record":false,"val_bpb":1.5516,"architecture":"GPT","quantization":"int8 + zlib","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Baseline non-record run on 1x RTX 3090 using fineweb10B_sp1024 with 1 training shard.","parameters":{"hardware":"1x RTX 3090 on RunPod","dataset":"fineweb10B_sp1024","tokenizer":"fineweb_1024_bpe.model","train_shards":1}}}],"compression":"zlib","novel_contributions":["Documented non-record baseline run","1x RTX 3090 RunPod setup","sp1024 dataset variant with 1 training shard","int8+zlib roundtrip submission"],"artifact_size":"9,283,646 bytes"},{"pr_number":406,"title":"Non-record: 11L XSA4 + EMA + SDTTT (3-seed mean val_bpb=1.1287)","author":"dentity007","status":"open","is_record":false,"val_bpb":1.1287,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to the last 4 layers of the model.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 4 KV heads and 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embedding passthrough.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate as part of the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds U-Net style skip connections.","parameters":null}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"Self-Distillation TTT","parameters":{"learning_rate":0.001,"temperature":2,"epochs":2,"freeze_blocks":4,"momentum":0.9}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"Stock PyTorch SDPA used instead of Flash Attention 3 or custom kernels.","parameters":null}}],"compression":"zstd","novel_contributions":["11-layer architecture with XSA applied to the last 4 layers","EMA replacing SWA","Self-Distillation TTT at evaluation time","Int6 QAT with STE and zstd compression","Sliding-window evaluation with stride 64","Grouped-query attention with 4 KV heads","FP16 tied embedding passthrough","SmearGate and U-Net skip connections"],"artifact_size":"15.7MB"},{"pr_number":407,"title":"Add non-record 1xH200 fp16-embed baseline sweep submission","author":"itu-itis24-buyukhelvacigilm24","status":"open","is_record":false,"val_bpb":1.32078403,"architecture":"Transformer","quantization":"int8 with fp16 embeddings passthrough","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all weights except tok_emb.weight kept in fp16"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Baseline-adjacent mixed-precision export sweep on 1xH200 with fp16 embedding passthrough, compared against clean baseline, sink tokens, and fixed MTP variants.","parameters":{"hardware":"1xH200","wallclock_seconds":600,"artifact_cap_bytes":16000000}}}],"compression":"zlib","novel_contributions":["Preserved tok_emb.weight in fp16 during int8 export","Reported a controlled 1xH200 baseline-family sweep under a 16MB artifact cap","Compared fp16 embedding passthrough against sink tokens and fixed MTP variants","Provided a reproducible non-record submission package with exact train script, log, and metadata"],"artifact_size":"14,327,135 bytes"},{"pr_number":408,"title":"First submission","author":"markste-in","status":"open","is_record":false,"val_bpb":1.4784,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP4","description":"Increased MLP multiplier from 2 to 4, expanding model capacity.","parameters":{"mlp_mult":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Raised RoPE base from 10,000 to 100,000.","parameters":{"rope_base":100000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":600}}},{"category":"other","data":{"description":"Reduced training batch tokens from 196,608 to 98,304 to improve optimization efficiency and fit track limits.","parameters":{"train_batch_tokens":98304}}},{"category":"other","data":{"description":"Lowered matrix and scalar learning rates from 0.04 to 0.035.","parameters":{"matrix_lr":0.035,"scalar_lr":0.035}}}],"compression":null,"novel_contributions":["Reduced training batch tokens to 98,304","Increased MLP multiplier from 2 to 4","Lowered matrix and scalar learning rates to 0.035","Shortened warmdown from 800 to 600 iterations","Raised RoPE base from 10,000 to 100,000","Achieved 1.4784 val_bpb on a small GPU within 10 minutes"],"artifact_size":null},{"pr_number":410,"title":"Record: 11L XSA4 + Tight SWA + FA3 + Two-Phase TTT (val_bpb=1.1216)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1216,"architecture":"Transformer","quantization":"int6 QAT / mixed int5-int6","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"attention; int5 for MLP layers"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers of an 11-layer Transformer.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"MLP gating mechanism used in 3x MLP blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP blocks.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE partially across dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature for token pair coverage.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":"tight"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"two-phase TTT","parameters":{"phase_1":{"method":"norm-only recalibration","epochs":100,"optimizer":"Adam","learning_rate":0.01,"trainable_params":"LayerNorm weights, scales, final_norm"},"phase_2":{"method":"selective-freeze block adaptation","epochs":15,"optimizer":"SGD","learning_rate":0.003,"trainable_params":"last 2 transformer blocks, norms, scales, lm_head"}}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model weights."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"ln_scale":true}}}],"compression":"zstd-22","novel_contributions":["Two-phase test-time training combining norm-only recalibration and selective-freeze block adaptation","Recalibration of activation distributions damaged by int6 quantization","Selective adaptation of the last two transformer blocks while preserving SWA-averaged early layers","Tight SWA combined with late QAT and pruning","Increased BigramHash bucket count and reduced evaluation stride"],"artifact_size":"15,762,005 bytes"},{"pr_number":413,"title":"Non-record: Value Residual (-0.015 BPB) + Gated Attention (-0.003 BPB) with ablations","author":"anantdgoel","status":"open","is_record":false,"val_bpb":1.4525,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches raw V vectors from layer 0 and mixes them into all subsequent layers via learnable scalars to preserve token identity through depth.","parameters":{"layers":9,"learnable_scalars":18}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Applies a per-head sigmoid gate after SDPA output to allow heads to suppress output and reduce attention sinks.","parameters":{"bias_init":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Architecture component used in the ablation setup and training stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component used in the ablation setup and training stack.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Included in the training script as a model component; likely an attention-related architectural modification.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding variant used in the training script.","parameters":null}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling modification included in the training script.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for the model."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay_muon":0.04,"weight_decay_adam":0.04}}},{"category":"other","data":{"description":"PPM-C context mixer: blends classical Prediction by Partial Matching with neural softmax at evaluation time; reported as a negative result.","parameters":{"alpha":0.95,"order":2}}}],"compression":null,"novel_contributions":["Value Residual (ResFormer) that mixes layer-0 value vectors into deeper layers with learnable scalars","Gated Attention with per-head sigmoid gating after SDPA to reduce attention sinks","Controlled ablation study showing the two techniques stack additively","Negative result for PPM-C context mixing on SmearGate + BigramHash models"],"artifact_size":"13.2 MB"},{"pr_number":414,"title":"Record: 11L EMA + GPTQ-lite + warmdown3500 + QAT@0.15 (val_bpb=1.1233)","author":"signalrush","status":"closed","is_record":false,"val_bpb":1.1233,"architecture":"Transformer","quantization":"int6 QAT with GPTQ-lite and int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"model weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with relu-squared activation","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Efficient Partial XSA on the last 4 layers, GQA-aware and zero-alloc","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings with NTK-aware scaling","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 2048 buckets and dim 128","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum":"0.92->0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.035,"scope":"embeddings"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.025,"scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"every_step":true}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"start_condition":"scale<0.2","tight":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown3500","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections"}}],"compression":"zstd-22","novel_contributions":["GPTQ-lite per-row optimal clip percentile search for int6 quantization","EMA weight averaging applied every training step before quantization","Longer warmdown schedule (3500 iterations) compared with prior submission","Higher late QAT threshold (0.15) to reduce quantization gap","Combined post-training optimization and training hyperparameter tuning to achieve a new record"],"artifact_size":"15.55 MB"},{"pr_number":415,"title":"Record: 11L XSA4 + Tight SWA + FA3 + Two-Phase TTT (val_bpb=1.1216)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1216,"architecture":"Transformer","quantization":"int6 QAT / mixed int6-int5","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"attention"}},{"category":"quantization","data":{"method":"QAT","bits":5,"scope":"MLP"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the MLP blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing embedding/feature mechanism for bigram coverage.","parameters":{"buckets":12288}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE partially across the model.","parameters":{"train_length":16,"eval_length":64}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP relu² blocks.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"tight":true,"every_steps":50,"first_8_blocks_averaged":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"two-phase TTT","parameters":{"phase_1":{"method":"norm-only recalibration","epochs":100,"optimizer":"Adam","learning_rate":0.01,"unfrozen_params":"~22K"},"phase_2":{"method":"selective-freeze block adaptation","epochs":25,"optimizer":"SGD","learning_rate":0.005,"unfrozen_params":"~7.6M"}}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"ln_scale":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"late_qat":0.04}}},{"category":"other","data":{"description":"FA3 Hopper attention used to speed up training and enable more steps within the time budget.","parameters":{"step_time_ms":84.65,"steps":6939}}}],"compression":"zstd-22","novel_contributions":["FA3 Hopper attention for faster training","Two-phase test-time training with norm-only recalibration followed by selective-freeze block adaptation","Recalibration of activation distributions damaged by int6 quantization","Selective freezing to preserve SWA-averaged early blocks while adapting later blocks","Tight SWA combined with late QAT and pruning"],"artifact_size":"15,704,756 bytes"},{"pr_number":416,"title":"Add non-record 11L XSA4 EMA run (val_bpb 1.12296, over 16MB)","author":"kshitizz36","status":"open","is_record":false,"val_bpb":1.12296159,"architecture":"11L XSA4","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA4","description":"Uses an XSA4 model variant with 11 layers.","parameters":{"layers":11}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["11-layer XSA4 model run","EMA-weighted checkpoint","Int6 quantized submission","Sliding-window exact evaluation with stride 64","Non-record run that exceeds the 16MB submission limit"],"artifact_size":"20,906,280 bytes"},{"pr_number":417,"title":"Record: 11L XSA4 + Tight SWA + FA3 + Two-Phase TTT (3-seed mean val_bpb=1.1227)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1227,"architecture":"Transformer","quantization":"int6 QAT / mixed int5-int6","optimizer":"Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"3x MLP with SmearGate nonlinearity.","parameters":{"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature for token pair modeling.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings partially.","parameters":{"train_fraction":16,"total_fraction":64}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"quantization","data":{"method":"mixed int6/int5 QAT","bits":6,"scope":"int5 MLP layers, int6 attention"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"two-phase TTT","parameters":{"phase_1":{"method":"norm-only recalibration","epochs":50,"optimizer":"Adam","learning_rate":0.01,"trainable_params":"~22K"},"phase_2":{"method":"selective-freeze block adaptation","epochs":10,"optimizer":"SGD","learning_rate":0.005,"trainable_params":"~7.6M"}}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"phase":"TTT phase 1","learning_rate":0.01}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":null,"other_params":{"phase":"TTT phase 2","learning_rate":0.005}}},{"category":"other","data":{"description":"FA3 Hopper attention for faster training throughput.","parameters":{"step_time_ms":84.65}}},{"category":"other","data":{"description":"Late QAT with 4% warmdown/quantization phase.","parameters":{"warmdown_fraction":0.04}}},{"category":"other","data":{"description":"Tight SWA preserving averaged weights in the first 8 blocks during phase 2 TTT.","parameters":{"preserved_blocks":8}}},{"category":"other","data":{"description":"Magnitude pruning.","parameters":{"pruning_rate":0.02}}}],"compression":"zstd-22","novel_contributions":["Two-phase test-time training with norm-only recalibration followed by selective-freeze block adaptation","FA3 Hopper attention to increase training throughput","Tight SWA with preserved first 8 blocks during adaptation","Late QAT with mixed int5 MLP and int6 attention","XSA attention in the last 4 layers","BigramHash and partial RoPE architecture modifications"],"artifact_size":"15,758,953 bytes"},{"pr_number":418,"title":"Non-record: PrismLM v3 — DiffTransformer V2 + NorMuon + TrigramHash (val_bpb=1.1715)","author":"yashverms","status":"open","is_record":false,"val_bpb":1.1715,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"NorMuon","training_techniques":[{"category":"architecture_modification","data":{"component":"DiffTransformer V2","description":"Differential attention in the last 2 layers using two softmax maps and subtraction to cancel noise.","parameters":{"layers":2}}},{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":0.02,"momentum":0.95,"other_params":{"beta2":0.95,"lr":0.04}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Adds a trigram hash table to capture three-token patterns alongside BigramHash.","parameters":{"buckets":2048,"dimensions":64}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram n-gram memory component used with context-aware gating.","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention in the last 6 layers.","parameters":{"layers":6}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP with 3x hidden size and ReLU² activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Uses U-Net style skip connections.","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"matrices":0.02,"embeddings_scalars":0.01}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":200}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weight matrices"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200,"warmup_steps":20}}},{"category":"other","data":{"description":"Late QAT enabled when learning-rate scale drops below 0.1.","parameters":{"threshold":0.1}}}],"compression":"zstd-22","novel_contributions":["DiffTransformer V2 attention in the last 2 layers","NorMuon optimizer with per-neuron row normalization after Newton-Schulz orthogonalization","TrigramHash with context-aware n-gram gating","First submission using differential attention in the competition","First submission using NorMuon optimizer","First submission with context-aware n-gram gating"],"artifact_size":"15.59MB"},{"pr_number":420,"title":"WIP: Shared-transformer + warmdown-aligned training (not final submis…","author":"leofeasby","status":"open","is_record":false,"val_bpb":1.1454,"architecture":"Shared-weight Transformer","quantization":"int8 roundtrip","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight sharing / depth recurrence","description":"A single transformer block is reused across 9 effective passes instead of using independent layers.","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding table with 4096 entries.","parameters":{"entries":4096}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 2:1 query-to-KV head ratio.","parameters":{"num_heads":16,"num_kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP×5","description":"Expanded MLP width with relu² activation.","parameters":{"mlp_mult":5}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style shared-core transformer with learned skip weights across depth.","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"weight_decay_applied_to":"matrix params only"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":32500,"snapshots":351,"freq":50}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_start_step":4000,"warmdown_iters":41000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"Warmdown-aligned training schedule designed to align the low-LR phase with the wallclock budget.","parameters":{"iterations":50000,"max_wallclock_seconds":86400}}}],"compression":"zlib","novel_contributions":["Shared-weight transformer architecture with a single block reused across depth","U-Net-style encoder-decoder structure with learned skip connections","Step-based warmdown trigger (`WARMDOWN_START_STEP`) decoupled from wallclock time","Observation that most gains occur during the low-LR warmdown phase","Use of a 4096-entry hash-based bigram embedding table","Long-context training at sequence length 2048","Application of SWA during the late training phase"],"artifact_size":"13.9MB"},{"pr_number":421,"title":"Non-record: 11L mixed int5/int6 + working QAT + TTT (val_bpb=1.1466)","author":"vytautas-bunevicius","status":"open","is_record":false,"val_bpb":1.1466,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6 QAT","bits":null,"scope":"MLP int5, attention int6, embeddings int8"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Increased bigram hash size for token/context representation.","parameters":{"size":10240}}},{"category":"architecture_modification","data":{"component":"memory tokens","description":"Added learnable global context tokens prepended during evaluation and masked during training.","parameters":{"tokens":64}}},{"category":"architecture_modification","data":{"component":"backout connection","description":"Learned scalar connection subtracting encoder/decoder boundary state from final output.","parameters":{"parameters":1}}},{"category":"architecture_modification","data":{"component":"per-head temperature","description":"Learned temperature parameter per attention head.","parameters":{"parameters":88}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"optimizer":"SGD","time":"83s"}}},{"category":"initialization","data":{"method":"ortho+muP init","description":"Orthogonal plus muP initialization."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":null,"novel_contributions":["Working QAT fix by swapping per-instance forward methods to avoid torch.compile constant folding","Mixed int5 MLP / int6 attention quantization with 3% magnitude pruning","Test-time training with post-quantization SGD on validation tokens","Expanded BigramHash from 2048 to 10240","Added 64 learnable memory tokens","Added a learned backout connection","Added per-head temperature parameters","Reduced evaluation stride to 32"],"artifact_size":"14.7MB"},{"pr_number":422,"title":"Record: 11L Gradient-Guided Adaptive Quant + EMA + Sliding Eval (val_bpb=1.1396)","author":"albertorkive","status":"open","is_record":false,"val_bpb":1.1396,"architecture":"Transformer","quantization":"mixed int5/int6/int7 adaptive quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6/int7","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Residual mixing with a learnable gate","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware rotary position encoding with interpolation","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to the final 4 transformer layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with hidden size 1536 and relu^2 activation","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 KV heads","parameters":{"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"grad_clip":0.3}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"start":"init"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"full_coverage":true,"score_last_tokens":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000,"auto_cap_fraction":0.55,"momentum_warmup_start":0.92,"momentum_warmup_end":0.99,"momentum_warmup_steps":1500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Gradient-guided adaptive quantization assigns per-tensor bitwidth based on gradient sensitivity","parameters":{"top_45_percent":"int7","middle_40_percent":"int6","bottom_15_percent":"int5"}}}],"compression":"zstd-22","novel_contributions":["Gradient-guided adaptive quantization with per-tensor int5/int6/int7 assignment based on gradient sensitivity","EMA tracking from initialization and loaded at evaluation time","Adaptive warmdown that auto-caps based on estimated total steps for hardware robustness","Sliding window evaluation with stride 64 and full validation coverage","SmearGate residual mixing with a learnable gate","NTK-aware RoPE interpolation","XSA cross-sequence attention on the last 4 layers"],"artifact_size":"15.9 MB"},{"pr_number":424,"title":"Add non-record EMA and adaptive export exploration","author":"someone114514","status":"open","is_record":false,"val_bpb":1.17251579,"architecture":"MLP3x with SmearGate and BigramHash","quantization":"int6 mixed quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"baseline model weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a widened/deeper MLP-heavy baseline architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a gating mechanism to the baseline model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hashing component to the baseline.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9998,"start_frac":0.8,"enabled":true}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Adaptive export-time pruning search to choose the smallest pruning ratio that meets an artifact byte budget.","parameters":{"prune_candidates":[0,0.01,0.02,0.03,0.04,0.05],"target_artifact_bytes":15950000}}}],"compression":null,"novel_contributions":["Late-stage EMA for weight smoothing before export","Adaptive export-time pruning search under a byte budget","Budget-aware selection of the smallest pruning ratio that meets the target artifact size","Validation of a strong non-record result under constrained compute"],"artifact_size":"16,399,881 bytes"},{"pr_number":426,"title":"Record: 10L Int5-MLP + Mixed Quant + GradClip + Warmdown3k (mean val_bpb=1.20262)","author":"aniketio-ctrl","status":"open","is_record":false,"val_bpb":1.20262,"architecture":"Transformer","quantization":"mixed int5/int6 with fp16 embeddings","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6 with fp16 embeddings","bits":null,"scope":"MLP, attention, embeddings"}},{"category":"architecture_modification","data":{"component":"depth and MLP width increase","description":"Increased model depth from 9 to 10 layers and widened the MLP from 2x to 3x expansion to fit within the artifact budget.","parameters":{"layers":10,"mlp_mult":3,"hidden_size":1536,"dim":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings with zero quantization error for embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped-query attention with 4 KV heads.","parameters":{"kv_heads":4}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Mixed precision quantization to fund an extra transformer layer within the 16MB budget","Int5 quantization for MLP weights","Int6 quantization for attention weights","FP16 tied embeddings","Increased depth from 9 to 10 layers","Wider MLP expansion from 2x to 3x","Longer warmdown schedule","Gradient clipping for more stable training"],"artifact_size":"~15.7MB"},{"pr_number":429,"title":"Non-record: 11L EMA + GPTQ-lite + warmdown3500 + QAT@0.15 control (val_bpb=1.1231, 8xH100 verified)","author":"AbhisekBasu1","status":"open","is_record":false,"val_bpb":1.12311898,"architecture":"Transformer","quantization":"int6 GPTQ-lite + QAT","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}},{"category":"lr_schedule","data":{"method":"warmdown3500","parameters":{"warmdown_steps":3500}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA-last-4 attention/structure variant","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"VE","description":"Vector embedding enhancement enabled","parameters":{"dim":128,"layers":[9,10]}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate architectural component","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added BigramHash feature/component","parameters":{"vocab_size":2048,"dim":128}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Validated 8xH100 SXM control run of the EMA + GPTQ-lite + warmdown3500 + QAT@0.15 stack","Improved on the earlier validated #414-class control result","Used per-row clip-percentile search for GPTQ-lite post-training quantization","Extended warmdown to 3500 iterations","Applied late QAT threshold of 0.15","Included XSA-last-4, VE128, LN Scale, SmearGate, and BigramHash modifications","Exported the final artifact with int6 + zstd-22 compression","Evaluated with sliding-window stride 64"],"artifact_size":"15,683,276 bytes"},{"pr_number":430,"title":"Value Residual + Gated Attention + XSA + EMA + AdamW TTT — val_bpb pending H100","author":"sahiee-dev","status":"open","is_record":false,"val_bpb":1.1428,"architecture":"Transformer","quantization":"int5","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaced ReLU² MLP activation with SwiGLU using iso-parameter 2/3 hidden scaling.","parameters":{"hidden":938}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds a learned scalar multiple of the raw token embedding to each block output.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Adds a learned per-layer scalar gate on attention output.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention removes self-value bias from attention output via orthogonal projection in the last layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed bigram token features as part of the input representation.","parameters":{"buckets":10240}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"decay":0.4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9999}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"ttt":true,"learning_rate":0.001,"betas":[0.9,0.999]}}},{"category":"test_time_training","data":{"method":"AdamW TTT","parameters":{"epochs":3,"learning_rate":0.001,"betas":[0.9,0.999],"frozen_layers":6}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["SwiGLU MLP replacing ReLU² with iso-parameter hidden scaling","Value Residual connections from raw token embeddings into each transformer block","Per-layer gated attention output scaling","Exclusive Self Attention (XSA) in the last 4 layers","Exponential Moving Average (EMA) of weights during training","AdamW-based test-time training over validation tokens","Restoring full-size BigramHash(10240) and dropping TrigramHash"],"artifact_size":"11.9MB"},{"pr_number":432,"title":"Add non-record 1x5090 autoresearch submission with two-campaign analysis","author":"jadechip","status":"open","is_record":false,"val_bpb":1.529478563,"architecture":"GPT","quantization":"int6 export with targeted fp16/fp16-like precision spends and attention QAT-off during training","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP-only export / model weights with targeted fp16 exceptions"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"attention"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Reduced repeated/shared compute and shifted capacity into unique late tail blocks; explored compact carrier plus deeper unique tail.","parameters":null}},{"category":"architecture_modification","data":{"component":"q_proj","description":"Used low-rank q_proj on most blocks, with full-rank q_proj restored only on the final tail block.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Kept tied embeddings in fp16 export on the final line.","parameters":null}},{"category":"sequence_length","data":{"train_length":960,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"short-to-full context warmup","parameters":null}},{"category":"other","data":{"description":"Shrank the global update shape from 4 x 30720 to 3 x 30720 and then 2 x 30720.","parameters":{"from":"4 x 30720","to":"2 x 30720"}}},{"category":"other","data":{"description":"Disabled attention fake quant during training.","parameters":null}},{"category":"other","data":{"description":"Delayed MLP fake quant until the full-context boundary.","parameters":null}}],"compression":null,"novel_contributions":["Git-native autoresearch loop that commits wins and reverts losers as search memory","Two-campaign analysis showing a trajectory from 1.733958794 to 1.535119154 with a best numeric run of 1.528664372","Use of low-rank q_proj on most blocks to buy compute for better-performing components","Targeted precision spending, including full-rank q_proj only on the final tail block and fp16 tied embeddings","Int6 MLP-only export to reclaim artifact budget for stronger tail capacity","Short-to-full context warmup and staged fake-quant changes to improve training efficiency"],"artifact_size":"9,190,936 bytes"},{"pr_number":433,"title":"EBLS Learned Sharing (10min/16MB)","author":"Robby955","status":"open","is_record":false,"val_bpb":1.3441,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Empirical Bayes Layer Sharing with 3 shared transformer blocks applied 3 times to create 9 effective virtual layers, with per-virtual-layer LoRA deviations gated by learned shrinkage factors.","parameters":{"shared_blocks":3,"virtual_layers":9,"lora_rank":8}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism included as part of the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with a 10240-sized hash space.","parameters":{"size":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expansion MLP with ReLU² activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 16 query heads and 4 key/value heads.","parameters":{"q_heads":16,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds U-Net style skip connections to the transformer blocks.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"adam_used_for":"LoRA, embeddings, scalars"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"used_for":"LoRA, embeddings, scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Empirical Bayes Layer Sharing with learned shrinkage factors gamma_i to automatically determine how much each virtual layer deviates from shared weights.","parameters":{"shrinkage_gated_lora_rank":8}}}],"compression":"zstd-22","novel_contributions":["Empirical Bayes Layer Sharing (EBLS) with learned shrinkage factors for automatic layer sharing","3 shared transformer blocks reused as 9 effective virtual layers","Per-virtual-layer rank-8 LoRA deviations gated by learned gamma shrinkage","Evidence that MLP layers can be fully shared while attention specializes only minimally in early layers","Combination of SmearGate, BigramHash, and U-Net skip connections in a compact transformer","Int6 STE QAT with zstd-22 compression to fit the 16MB budget"],"artifact_size":"16,224,826 bytes"},{"pr_number":434,"title":"10L XSA + LeakyReLU² + Partial RoPE (val_bpb=1.1370)","author":"parinzee","status":"closed","is_record":false,"val_bpb":1.137,"architecture":"Transformer","quantization":"mixed int5/int6 with fp16 tied embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention on the last 4 layers; removes self-value projection from attention output.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"activation","description":"Replaces ReLU² with LeakyReLU(0.5)².","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only 25% of head dimensions.","parameters":{"head_dims_rotary":16,"head_dims_total":64,"fraction":0.25}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights and attention weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruning_rate":0.08}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["Exclusive Self Attention (XSA) on the last 4 layers","LeakyReLU(0.5)² activation replacing ReLU²","Partial RoPE applied to 25% of head dimensions","Higher learning rates for matrix, scalar, and tied embedding parameters","Increased magnitude pruning to satisfy artifact size constraints"],"artifact_size":"~15.9 MB"},{"pr_number":435,"title":"Radial bitnet submission","author":"rthgit","status":"open","is_record":false,"val_bpb":1.613,"architecture":"Compressed dual-branch Transformer","quantization":"mixed int8/int6","optimizer":"FROStable + AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a 1024-bucket hashed bigram embedding branch for short-horizon lexical context.","parameters":{"buckets":1024}}},{"category":"architecture_modification","data":{"component":"Radial Token Branch","description":"Adds a token-ID-derived radial geometric feature branch projected into the fusion space.","parameters":null}},{"category":"architecture_modification","data":{"component":"BitNet-style ternary projections","description":"Uses ternary-weight forward behavior in major internal projections to reduce storage pressure.","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"mixed int8/int6","bits":null,"scope":"selected weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmup":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"FRO (Fractal Resonant Optimization) used as the main optimizer on the compressed transformer core.","parameters":null}},{"category":"other","data":{"description":"Light export-time pruning of values below 0.0025 before final artifact serialization.","parameters":{"threshold":0.0025}}}],"compression":"zlib","novel_contributions":["FRO (Fractal Resonant Optimization) as the main optimizer","Radial Token Branch for token-level geometric features","1024-bucket bigram hash branch for short-horizon lexical context","BitNet-style ternary-weight behavior in major internal projections","Mixed post-training export with int8/int6 serialization","Light export-time pruning"],"artifact_size":"15,943,179 bytes"},{"pr_number":436,"title":"Non-Record: 8L + BigramHash(12288) + Systematic HyperOpt (val_bpb=1.2392, 1xH100, 129 experiments)","author":"CrimsonSithria","status":"open","is_record":false,"val_bpb":1.2392,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash with a 12288-bucket embedding and a 128-dimensional linear projection to reduce artifact size while preserving quality.","parameters":{"buckets":12288,"dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings with an optimized base for 2048 context.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses FP16 tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x/4x MLP","description":"Uses 4x MLP expansion with relu^2 activation for throughput-limited training.","parameters":{"mlp_mult":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.048,"momentum":null,"other_params":{"matrix_lr":0.03,"scalar_lr":0.03,"tied_embed_lr":0.08,"grad_clip_norm":0.3,"muon_backend_steps":5}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":512}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"initialization","data":{"method":"overtone embedding init","description":"Uses overtone embedding initialization with phase-transition residual mixing."}},{"category":"other","data":{"description":"Systematic hyperparameter optimization across 129 experiments to map scaling laws for learning rate, weight decay, batch size, and depth under single-GPU throughput constraints.","parameters":{"experiments":129,"total_compute_usd":19.47}}}],"compression":"zlib","novel_contributions":["Systematic hyperparameter optimization across 129 experiments on a single H100","Mapped scaling laws for learning rate, weight decay, batch size, and model depth under throughput constraints","BigramHash with 128-dimensional projection to reduce artifact size with minimal BPB loss","Weight decay as a compression knob controlling int8+zlib artifact size","Batch size scaling on H100 showing 131K tokens outperforming 65K batch"],"artifact_size":"15.9MB"},{"pr_number":437,"title":"commit non-record","author":"jupram","status":"open","is_record":false,"val_bpb":1.22573025,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"AuxNet","description":"A tiny auxiliary network runs alongside the main LM to predict whether the next token has a leading space and to generate a small residual logit correction.","parameters":{"aux_dim":32,"bottleneck_in":512,"bottleneck_out":512}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses a tied embedding matrix to project the auxiliary residual edit back into LM logits.","parameters":null}},{"category":"architecture_modification","data":{"component":"smear transformation","description":"Applies a smear transformation to token embeddings using a learned lower-triangular matrix to encourage progressive feature building.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Auxiliary BCE loss trains a binary boundary classifier predicting whether the next token has a leading space.","parameters":{"aux_loss_weight":0.1}}}],"compression":"zlib","novel_contributions":["Auxiliary network that predicts next-token leading-space presence","Residual logit correction generated from auxiliary low-dimensional features","Auxiliary BCE loss to encourage boundary-aware representations","Smear transformation on token embeddings with a learned lower-triangular matrix"],"artifact_size":"15,916,206 bytes"},{"pr_number":438,"title":"Non-Record: Replace Muon optimizer with NorMuon for baseline (1xH100)","author":"stevenshinechen","status":"open","is_record":false,"val_bpb":1.3458,"architecture":"Transformer","quantization":null,"optimizer":"NorMuon","training_techniques":[{"category":"optimizer_technique","data":{"method":"NorMuon","weight_decay":null,"momentum":null,"other_params":{"beta2":0.95,"second_momentum_buffer":true,"newton_schulz":true}}},{"category":"other","data":{"description":"Replaces Muon with NorMuon, adding neuron-wise normalization of update magnitudes after Newton-Schulz orthogonalization and before Muon scale correction.","parameters":{"beta2":0.95}}}],"compression":null,"novel_contributions":["Replaced Muon optimizer with NorMuon as a baseline improvement","Added neuron-wise normalization of update magnitudes using a second-order momentum buffer","Applied NorMuon after Newton-Schulz orthogonalization but before Muon scale correction","Used a modified implementation based on the original NorMuon code with float32 buffer handling and numerical stability tweaks"],"artifact_size":null},{"pr_number":440,"title":"[10min/16MB] TrigramHash + EMA-SWA + Int4 QAT — val_bpb 1.2219","author":"Ashutosh3142857","status":"open","is_record":false,"val_bpb":1.221853,"architecture":"Transformer","quantization":"int4 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Adds a 3-token hashed context embedding table alongside BigramHash to capture richer token co-occurrence patterns.","parameters":{"vocab_size":2048,"dim":48}}},{"category":"weight_averaging","data":{"method":"EMA-SWA","parameters":{"alpha":0.9}}},{"category":"quantization","data":{"method":"STE QAT","bits":4,"scope":"MLP"}},{"category":"architecture_modification","data":{"component":"depth increase","description":"Uses an 11th transformer layer funded by int4 compression savings.","parameters":{"layers":11}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["TrigramHash(2048, dim=48) to extend bigram context features to 3-token windows","EMA-SWA with alpha=0.9 to weight later warmdown checkpoints more heavily","Int4 QAT on the MLP using STE fake quantization","Using int4 savings to fund an 11th transformer layer"],"artifact_size":"15,892,490 bytes"},{"pr_number":441,"title":"Add BigramHash: hashed bigram embeddings with optional dim projection","author":"CrimsonSithria","status":"open","is_record":false,"val_bpb":1.2392,"architecture":"Transformer","quantization":null,"optimizer":"Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram embeddings for (prev_token, cur_token) pairs and adds them to token representations before the first transformer block.","parameters":{"BIGRAM_BUCKETS":12288,"BIGRAM_DIM":128}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"separate_optimizer_group":true,"bigram_lr_matches_token_embeddings":true}}}],"compression":null,"novel_contributions":["Hashed bigram embeddings added to the model input representations","Optional projection from bigram embedding dimension to model dimension to reduce artifact size","Separate optimizer group for bigram parameters at token embedding learning rate","Zero-overhead disable switch via BIGRAM_BUCKETS=0"],"artifact_size":null},{"pr_number":442,"title":"Record: 11L EMA + AdamW TTT 10ep (mean val_bpb=1.1027)","author":"sjp611","status":"closed","is_record":false,"val_bpb":1.1027,"architecture":"Transformer","quantization":"int6 mixed quantization","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash for additional token interaction features.","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x-width MLP block.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0005}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.0005,"epochs":10,"optimizer":"AdamW"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"mixed"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["Replaced SGD with AdamW for test-time training","Reduced TTT epochs from 20 to 10 while improving validation BPB","Achieved a new record mean val_bpb of 1.1027","Reduced TTT runtime from about 260s to about 157s","Used the same 11-layer EMA-based setup as PR #398 with only a small optimizer change"],"artifact_size":"~15.75 MB"},{"pr_number":443,"title":"Bigram-Aware Context Modeling with Mixed-Precision Quantization (val_bpb: 1.1431)","author":"CREVIOS","status":"closed","is_record":false,"val_bpb":1.1431,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Learned hashed embedding for consecutive token pairs to inject explicit bigram context.","parameters":{"bucket_count":10240,"dimension":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension sigmoid gate blending current token embeddings with previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion to increase capacity within the artifact budget.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections between matching depths.","parameters":{"encoder_layers":5,"decoder_layers":5}}},{"category":"architecture_modification","data":{"component":"residual mixing","description":"Learned mixing between running hidden state and original post-embedding representation.","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6, embeddings FP16, control tensors FP32"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":24,"start_fraction":0.4,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal initialization with gain 1.0 and muP output scaling."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"linear warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_frac":0.03}}}],"compression":"zstd-22","novel_contributions":["BigramHash embedding to inject explicit token-pair context","SmearGate for learned per-dimension blending of adjacent token embeddings","Mixed-precision quantization with int5 for MLP weights and int6 for attention weights","Using int5 savings to fund an additional transformer layer under the 16MB cap","U-Net style skip connections and residual mixing in a transformer","SWA over the last portion of training to improve quantization robustness and compression","Sliding-window evaluation with stride 64 to score tokens with much longer context"],"artifact_size":"15.97 MB"},{"pr_number":444,"title":"[Non-Record] MLP3x + WD0.04 + OrthoInit + Sliding Eval — 1.4536 BPB","author":"AymanMahfuz27","status":"open","is_record":false,"val_bpb":1.4536,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Widens the feedforward hidden dimension from 2x model_dim to 3x model_dim.","parameters":{"mlp_mult":3}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Uses orthogonal initialization for 2D CastedLinear weights."}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}}],"compression":"zlib","novel_contributions":["MLP width multiplier of 3x as the main architecture improvement","Decoupled weight decay in Muon to improve post-quantization BPB and reduce quantization gap","Orthogonal initialization for linear weights","Sliding-window evaluation with stride 64 for better validation BPB","Implementation of additional optional features including int6 quantization, QAT, bigram hash embeddings, and zstd compression","Empirical finding that SWA is quantization-hostile in this setting"],"artifact_size":"14,660,530 bytes"},{"pr_number":445,"title":"Late Training Replay + EMA + GPTQ-lite (val_bpb=1.1236, 2-seed, no TTT on eval)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1236,"architecture":"11L Transformer","quantization":"int6 GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with relu^2 activation","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA4 attention/sequence component","parameters":{"variant":"XSA4"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash feature with hashed vocabulary","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings only partially","parameters":{"16/64":true}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"description":"Tight SWA"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":null,"parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Late training replay of the last 100 training batches for 2 epochs at 10% learning rate before EMA finalization","parameters":{"epochs":2,"batches":100,"lr_fraction":0.1}}}],"compression":"zstd-22","novel_contributions":["Late training replay of the last 100 training batches before EMA finalization","No test-time training on validation data","EMA combined with GPTQ-lite and late-stage replay","Sliding-window evaluation with stride 64","2-seed mean reporting for validation BPB"],"artifact_size":"15.59 MB"},{"pr_number":446,"title":"Record: 7L MLP3x 4kSeq LR-Tuned (val_bpb=1.1933)","author":"sofiabod","status":"open","is_record":false,"val_bpb":1.1933,"architecture":"Transformer","quantization":"standard int8 + zlib compression","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion width (hidden=1536) instead of the baseline 2x width.","parameters":{"layers":7,"width":512,"hidden":1536,"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"extra RMSNorm","description":"Adds an extra RMSNorm before attention and MLP output projections.","parameters":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"other","data":{"description":"Lower tied embedding learning rate to smooth weight distributions and reduce quantization gap.","parameters":{"tied_embed_lr":0.01}}},{"category":"other","data":{"description":"Lower matrix learning rate for smoother Muon updates.","parameters":{"matrix_lr":0.03}}},{"category":"other","data":{"description":"Reduced logit softcap to tighten output distribution and help quantization.","parameters":{"logit_softcap":15}}},{"category":"other","data":{"description":"Adjusted qk gain initialization.","parameters":{"qk_gain_init":1}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["7-layer 512-dim transformer with 3x MLP width while keeping roughly the same parameter count as baseline","Training at sequence length 4096 for improved per-step quality","Lower tied embedding learning rate to create smoother weights and dramatically reduce quantization gap","Carefully tuned learning rates for matrix parameters and embeddings","Reduced logit softcap to improve both training and quantization","Longer warmdown schedule for better generalization","Standard int8 quantization with zlib compression and no QAT"],"artifact_size":"15.77 MB"},{"pr_number":447,"title":"Bigram-Aware Context Modeling with Mixed-Precision Quantization (val_bpb: 1.1431)","author":"CREVIOS","status":"open","is_record":false,"val_bpb":1.1431,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Learned hashed embedding for consecutive token pairs to inject explicit bigram context.","parameters":{"buckets":10240,"dimension":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension sigmoid gate blending current token embeddings with previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion to increase capacity within the artifact budget.","parameters":{"multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth","description":"10-layer transformer with encoder-decoder style skip connections.","parameters":{"layers":10}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6, embeddings fp16, some control tensors fp32"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":24,"start_fraction":0.4,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Gain 1.0 with muP output scaling."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"linear warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"fraction":0.03}}}],"compression":"zstd-22","novel_contributions":["BigramHash embedding to inject explicit token-pair context","SmearGate for learned blending of adjacent token embeddings","Mixed-precision quantization with int5 for MLP weights and int6 for attention weights","Using 3x MLP expansion and an extra transformer layer funded by quantization savings","SWA over the final training phase to improve quantization robustness and compression","Sliding-window evaluation with stride 64 to score tokens with much longer effective context"],"artifact_size":"15.97 MB"},{"pr_number":448,"title":"Add SmearGate+BigramHash context-repair submission (1.2006 BPB, 15.0MB)","author":"handemanai","status":"open","is_record":false,"val_bpb":1.2006,"architecture":"Dense 9-layer 512-dim GQA Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gating over shifted input features to repair carried-context failures under sliding-window evaluation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram embeddings providing explicit local context features.","parameters":{"bigram_vocab_size":4096,"bigram_dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP capacity using MLP_MULT=3.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights with fp16 embedding passthrough"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512}}},{"category":"evaluation_technique","data":{"method":"manual logits-only exact evaluation","parameters":null}},{"category":"other","data":{"description":"Context-feature repair targeting carried-context failures under sliding-window evaluation.","parameters":null}}],"compression":"zstd","novel_contributions":["SmearGate context feature for shifted-input repair","BigramHash explicit local context embeddings","Context-repair approach that improves carried-context sliding-window behavior","int6+zstd export with fp16 embedding passthrough","Corrected evaluation path using forward_logits plus manual cross-entropy"],"artifact_size":"14,999,691 bytes"},{"pr_number":450,"title":"Record: 12L + Catalytic Residuals + BigramHash(10240) + SWA + Late QAT (val_bpb=1.1466, mean 3 seeds)","author":"zachgoldfine44","status":"open","is_record":false,"val_bpb":1.14662,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Catalytic Residual Connections","description":"Replace x + f(x) with x + c * f(x), where c is a learned per-dimension vector initialized to ones.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth","description":"Use a 12-layer Transformer stack.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash consecutive token pairs into a larger bigram embedding table and project to model dimension.","parameters":{"vocab_size":10240,"dim":128}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.8,"every_steps":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.042,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.042,"momentum":null,"other_params":{"scope":"embeddings/scalars"}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied on the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 KV heads and 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and relu^2 activation.","parameters":{"hidden":1536}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000,"warmup_steps":20}}},{"category":"other","data":{"description":"Late QAT with threshold 0.25 using STE int6 quantization in the final portion of training.","parameters":{"threshold":0.25}}}],"compression":"zstd","novel_contributions":["Catalytic residual connections with learned per-dimension residual scaling","12-layer depth scaling as a sweet spot under the budget","BigramHash with 10240 buckets","Late QAT using STE int6 quantization","Stochastic Weight Averaging from the last 20% of warmdown"],"artifact_size":"14,385,363 bytes"},{"pr_number":451,"title":"Add LLMAdvisor submission: 1.14638 BPB (track_10min_16mb)","author":"harborglowvintage-oss","status":"open","is_record":false,"val_bpb":1.14638,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights int5, attention weights int6, FP16 embeddings and last-layer key projections"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a learned embedding table and projects to model dimension to capture local token-pair context.","parameters":{"buckets":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied and stored in FP16.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.02,"scope":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":30,"start_frac":0.5,"num_averaged_checkpoints":49}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"Orthogonal","description":"Orthogonal initialization with muP-scaled outputs."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Reduced batch size to increase step throughput within the 600s wallclock budget.","parameters":{"batch_size_tokens":622592}}}],"compression":"zstd-22","novel_contributions":["Mixed int5 MLP / int6 attention quantization with FP16 embeddings to fit a 10-layer model under the 16MB limit.","BigramHash(10240) feature to inject local token-pair context.","SmearGate mechanism to blend current and previous token embeddings.","Denser SWA boost schedule (every=30 steps, start_frac=0.50) with 49 averaged checkpoints.","Reduced batch size to increase the number of training steps within the 600-second budget."],"artifact_size":"15,736,555 bytes"},{"pr_number":452,"title":"10L XSA + EMA + Partial RoPE + LN Scale (val_bpb: 1.1366)","author":"ofirkris","status":"closed","is_record":false,"val_bpb":1.1366,"architecture":"GPT","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to the last 4 transformer layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimension.","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"LN Scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"attention"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with learned embedding dimension.","parameters":{"size":10240,"dim":128}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal weight initialization."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"scope":"embeddings/scalars"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"test_time_training","data":{"method":"SGD post-quantization","parameters":{"epochs":3}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net added to the transformer.","parameters":null}}],"compression":"zstd-22","novel_contributions":["10-layer GPT with XSA on the last 4 layers","EMA with decay 0.997","Partial RoPE using 16/64 dimensions","LN Scale based on layer index","Mixed precision quantization with int5 MLP and int6 attention","3.2% magnitude pruning","SmearGate and BigramHash(10240)","Orthogonal initialization","Muon optimizer with AdamW for embeddings/scalars","Sliding window evaluation with stride 64"],"artifact_size":"15,820,386 bytes"},{"pr_number":453,"title":"Exploratory: PR315-derived candidate and looped-depth gate","author":"Divyesh-Thirukonda","status":"open","is_record":false,"val_bpb":1.1248,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to only part of the head dimensions, leaving the rest without positional bias.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention int6; embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_momentum_start":0.92,"warmup_steps":1500,"warmdown_iters":3000,"adamw_weight_decay":0.04,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"grad_clip":0.3}}},{"category":"initialization","data":{"method":"Orthogonal + muP-scaled init","description":"Orthogonal initialization with muP scaling applied to large matrices."}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention used in the last layers.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending gate.","parameters":{"parameters":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding with projection to the model dimension.","parameters":{"buckets":2048,"embedding_dim":128,"projection_dim":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x standard size with relu² activation.","parameters":{"hidden_size":1536}}},{"category":"other","data":{"description":"Late QAT flag for STE int6 fake-quantization in the final 4% of training, though post-analysis says it was constant-folded and had no effect.","parameters":{"enabled":true,"final_training_fraction":0.04}}}],"compression":"zstd-22","novel_contributions":["Partial RoPE applied to 16 of 64 head dimensions","Layer-wise RMSNorm scaling by 1/sqrt(layer_idx+1)","EMA weight averaging during training","Mixed int6/int8 quantization with zstd compression","XSA on the last 4 layers","SmearGate token blending gate","Bigram hash embedding with projection","Orthogonal + muP-scaled initialization","Late QAT flag was included but had no effect due to constant folding"],"artifact_size":"15.6 MB"},{"pr_number":454,"title":"Non-record: Competitive Stack + Phonetic Tokenization Exploration (val_bpb=1.2055, 4xH100)","author":"nalediym","status":"open","is_record":false,"val_bpb":1.2055,"architecture":"Transformer","quantization":"int6 STE QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"4096-bucket hash embedding for bigram context","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending current and previous token embeddings","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with muP-style 1/sqrt(2L) projection scaling"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider feedforward network","parameters":{"hidden_dim":1536}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"grad_clip","parameters":{"norm":0.3}}},{"category":"other","data":{"description":"Phonetic tokenization exploration using IPA/G2P conversion and SentencePiece BPE on phonetic output","parameters":{"cmudict_exceptions":4795,"word_coverage":0.846,"tokenizer_vocab_size":1024}}}],"compression":"zlib","novel_contributions":["Competitive training stack combining int6 STE QAT, BigramHash, SmearGate, OrthoInit, and 3x MLP","Sliding-window evaluation with stride 64 achieving val_bpb 1.2055","IPA phonetic tokenization research with a controlled comparison against standard BPE","Negative result showing phonetic encoding provides only marginal gains in isolation and is largely subsumed by the competitive training stack"],"artifact_size":"19.6MB"},{"pr_number":455,"title":"Record: 11L Tight SWA + VE128 + XSA4 + TTT (3-seed mean val_bpb=1.1299)","author":"kasimte","status":"open","is_record":false,"val_bpb":1.1299,"architecture":"Transformer","quantization":"int6 QAT with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Efficient partial XSA applied to the last 4 layers, GQA-aware and zero-alloc.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings with NTK-aware scaling.","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with relu-squared activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Shared value embedding table used across layers 9 and 10 with learned per-layer scales.","parameters":{"dimension":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate combined with BigramHash features.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash with 2048 buckets and 128-dimensional embeddings.","parameters":{"buckets":2048,"dimension":128}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP and attention weights; int8 for embeddings"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup":"0.92->0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"embeddings_lr":0.035,"scalars_lr":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":12,"interval_steps":50,"start_condition":"scale<0.2","window_steps":600}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"optimizer":"SGD","momentum":0.9,"learning_rate":0.002,"batch_size":32,"freezes_first_blocks":2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"initialization","data":{"method":"Orthogonal initialization","description":"Orthogonal init with projection scaling by 1/sqrt(2*num_layers)."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_factor":"1/sqrt(layer_idx+1)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"wallclock_based":true}}},{"category":"other","data":{"description":"Late QAT enabled during warmdown when LR scale < 0.1.","parameters":{"trigger":"lr_scale<0.1"}}}],"compression":"zstd-22","novel_contributions":["Tight SWA restricted to late low-scale checkpoints to avoid SWA quality penalty","Test-time training on already-evaluated validation tokens","Late STE int6 quantization-aware training during warmdown","Sliding-window evaluation with stride 64 and context length 2048","Shared value embedding and partial XSA architecture refinements"],"artifact_size":"15,711,898 bytes"},{"pr_number":456,"title":"Non-record submission: Depth Recurrence + Legal Score-First TTT (10L, 1.1532 BPB)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.15321496,"architecture":"10-layer GPT / Transformer","quantization":"mixed int5/int6 quantization","optimizer":"Muon + AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a fixed bucket embedding to provide cheap bigram context.","parameters":{"dimensions":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Sigmoid gating mechanism applied to MLP outputs before residual addition.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer shared attention used in the last 3 layers.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections between paired layers (e.g., 0↔9, 1↔8) to improve residual flow.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3× expansion MLP with relu² activation.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads (2:1 GQA).","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Depth recurrence infrastructure exists but is not active in the final config; no weight sharing used.","parameters":{"unique_layers":10,"num_layers":10}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"75% of layers"}},{"category":"quantization","data":{"method":"Late QAT","bits":null,"scope":"full model"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"tied token embeddings, scalars, and TTT","ttt_lr":0.0005}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":4650,"interval":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first full-model TTT","parameters":{"chunk_size":32768,"epochs_per_chunk":1,"learning_rate":0.0005,"freeze_blocks":0,"cosine_decay":true,"persistent_across_documents":true}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown + cosine decay","parameters":{"warmup_steps":20,"warmdown_steps":3000,"total_steps":5200}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["Competition-legal score-first full-model test-time training integrated into sliding-window evaluation","Chunked evaluation loop that scores each chunk before training on it, enabling persistent adaptation across the validation set","Depth recurrence infrastructure included in code but disabled in the final configuration","Mixed int5/int6 quantization with zstd-22 compression to fit within the artifact budget"],"artifact_size":"15,980,085 bytes"},{"pr_number":457,"title":"11L + XSA + VRL + SWA + seq4096 + cross-doc TTT - val_bpb 1.1839","author":"carlesonielfa","status":"open","is_record":false,"val_bpb":1.1839,"architecture":"Transformer","quantization":"int8 QAT with zlib roundtrip","optimizer":"Muon","training_techniques":[{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention subtracts the component of attention output aligned with the value vector in the deepest layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning adds a learnable residual from layer-0 value vectors into each layer's value vectors.","parameters":{"layers":[1,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-blending gate at the embedding layer that mixes each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / tied input-output embeddings.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":24,"fraction_last_warmdown":0.4}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200}}},{"category":"initialization","data":{"method":"OvertoneInit","description":"Used with phase-transition resid_mix."}},{"category":"other","data":{"description":"Cross-document test-time training with per-document rank-8 LoRA adapters trained on already-evaluated tokens and reset between documents.","parameters":{"reset_between_documents":true}}}],"compression":"zlib","novel_contributions":["Long-context training with sequence length 4096","Exclusive Self-Attention (XSA) on the deepest 4 layers","Value Residual Learning (VRL) using layer-0 value vectors","SmearGate token-blending gate at the embedding layer","Stochastic Weight Averaging over 24 checkpoints","Cross-document test-time training with rank-8 LoRA adapters","Warmdown-QAT to minimize quantization penalty"],"artifact_size":"15.35 MB"},{"pr_number":458,"title":"10L XSA + EMA + Partial RoPE + LN Scale (val_bpb: 1.1365)","author":"ofirkris","status":"open","is_record":false,"val_bpb":1.1365,"architecture":"Transformer","quantization":"int5 MLP / int6 attention, FP16 embeds","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers of the model.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings to only part of the dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash component with a 10240 vocabulary/hash size.","parameters":{"size":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x wider MLP block.","parameters":{"layers":3}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["10-layer 512d Transformer with XSA in the last 4 layers","EMA with decay 0.997","Partial RoPE applied to 16/64 dimensions","LN Scale","SmearGate and BigramHash(10240, 128)","Mixed int5 MLP / int6 attention quantization","3.2% pruning","zstd-22 artifact compression","Sliding window evaluation with stride 64"],"artifact_size":"15,759,319"},{"pr_number":459,"title":"Weight Entropy Regularization: Improved SWA Averaging (+0.028 BPB)","author":"mer2234","status":"open","is_record":false,"val_bpb":1.149,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":5500,"warmdown_steps_remaining":1200}}},{"category":"regularization","data":{"method":"weight entropy regularization","parameters":{"lambda":0.002}}},{"category":"other","data":{"description":"Entropy-regularized weights are intended to reduce variance across checkpoints so SWA averaging is more effective.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Tested recurrent depth-sharing variants as negative experiments.","parameters":{"layers":3,"loops":4}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Tested recurrent depth-sharing variants as negative experiments.","parameters":{"layers":4,"loops":3}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Tested recurrent depth-sharing variants as negative experiments.","parameters":{"layers":2,"loops":6}}},{"category":"architecture_modification","data":{"component":"Kronecker attention","description":"Kronecker Q/K attention variant tested as a negative experiment.","parameters":null}},{"category":"architecture_modification","data":{"component":"skip-gram hash","description":"Hash-based skip-gram feature variant tested as a negative experiment.","parameters":null}},{"category":"regularization","data":{"method":"entropy token masking","parameters":null}}],"compression":null,"novel_contributions":["Weight entropy regularization that adds an entropy penalty to weights during training","Improved SWA averaging by making checkpoints more consistent across training","Reported +0.028 BPB improvement at step 8500 relative to baseline","Demonstrated no effect during normal training but benefit during SWA warmdown","Documented 15 negative-result experiments across multiple alternative techniques"],"artifact_size":null},{"pr_number":460,"title":"feat: Add non-record dense 2048 sliding-window ablation submission","author":"abhishekrajdhar","status":"open","is_record":false,"val_bpb":1.29280874,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings in the dense transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"grouped-query attention","description":"Uses grouped-query attention in the transformer blocks.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"decoupled_weight_decay":true}}},{"category":"initialization","data":{"method":"spectral init","description":"Spectral tied-embedding initialization."}},{"category":"architecture_modification","data":{"component":"residual mixing","description":"Applies residual mixing in the model.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":0}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3200}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"decoupled":true}}}],"compression":"zlib","novel_contributions":["Dense 10-layer transformer branch using the provided SP-1024 tokenizer","2048-token train/eval context with sliding-window evaluation at stride 64","Structured ablation loop to identify effective vs. regressing ideas","Post-training int8 quantization plus zlib compression under the 16MB cap","Disabled-by-default LoRA TTT code path after instability/regression","Documentation of negative-result ablations including 4096-token context, lower matrix LR, longer warmdown, and recurrent/shared-depth variants"],"artifact_size":"13039699 bytes"},{"pr_number":461,"title":"Non-record: 11L Depth Recurrence + High-Yield Legal TTT (1.14458 BPB)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.14458,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"Muon","training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs_per_chunk":3,"chunk_size":32768,"stride":64,"freeze_blocks":2,"momentum":0.9}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002,"epochs_per_chunk":3,"freeze_blocks":2}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"11 logical layers implemented with 10 unique shared BlockCores, reusing one core at two depths with independent normalization.","parameters":{"layers":11,"unique_layers":10}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary embeddings applied to only part of each head dimension, with NTK-aware scaling.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"128-dim learned value embeddings added to value projections on deep layers only.","parameters":{"dimensions":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention used in the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gating mechanism in the MLP/attention stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram features added as an architectural component.","parameters":{"features":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP expansion factor of 3x with ReLU² activation.","parameters":{"expansion":3}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":12,"start_step":4650}}},{"category":"quantization","data":{"method":"int6 + zstd","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["High-yield legal test-time training using SGD with momentum, multiple epochs per chunk, and freezing early blocks","Depth recurrence with 11 logical layers from 10 unique shared BlockCores","Partial RoPE using only 16 of 64 dimensions with NTK-aware scaling","Value embeddings applied only to deep layers","Layer-norm depth scaling using 1/sqrt(layer+1)","Score-first legal TTT where every validation token is scored before any weight update"],"artifact_size":"14.79 MB"},{"pr_number":462,"title":"Record: SwiGLU + XSA4 + U-Net + AdamW TTT (3-seed mean val_bpb=1.0672)","author":"JoeProAI","status":"closed","is_record":false,"val_bpb":1.0672,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SwiGLU FFN","description":"Feed-forward network uses SwiGLU with Star-ReLU activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net","description":"U-Net-style skip connections with learned gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings for token representation.","parameters":{"buckets":8192,"dimension":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate applied on embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied only partially.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 8 KV heads.","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention on the last 4 layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9985}}},{"category":"test_time_training","data":{"method":"AdamW TTT","parameters":{"learning_rate":0.0005,"epochs":10,"weight_decay":0}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"Late QAT","bits":null,"scope":"all"}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"steps":6000}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025}}}],"compression":"zstd-22","novel_contributions":["SwiGLU FFN with Star-ReLU activation","U-Net skip connections with learned gating","BigramHash embeddings","SmearGate on embeddings","GEPA-discovered architecture search result","Combination of XSA4, EMA, AdamW TTT, Partial RoPE, LN Scale, and Late QAT","Int6 quantization with zstd-22 compression"],"artifact_size":null},{"pr_number":465,"title":"Record: 10L d=512 Int5-MLP Int6-Attn sp1024 (val_bpb=1.1508)","author":"LoquiAuris","status":"open","is_record":false,"val_bpb":1.1508,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned blend with previous token representation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature with 4096 buckets projected to model width.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x FFN expansion with ReLU² activation.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied via linear projection.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections between symmetric layer pairs.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"attention"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"embeddings"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"scope":"embeddings and scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"checkpoint_every":50,"num_checkpoints":29}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmup + warmdown cosine decay","parameters":{"warmup_steps":20,"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon":0.04,"adamw":0.01}}},{"category":"other","data":{"description":"Use of BigramHash features and SmearGate in a PR #162 transformer stack with RoPE, RMSNorm, logit softcap, and GQA.","parameters":{"layers":10,"d_model":512,"vocab_size":1024}}}],"compression":"zstd-22","novel_contributions":["Int5 quantization for MLP weights with Int6 quantization for attention weights under a 16 MB artifact budget.","Demonstration that sp1024 with 10 layers at d=512 outperformed larger-vocabulary sp8192 configurations.","Discovery that embedding tables can be quantized to Int6 with negligible quality loss.","Introduction of SmearGate and BigramHash within the PR #162 transformer stack.","Systematic architecture search across tokenizer sizes, widths, and depths with local Apple Silicon ablations and H100 confirmation."],"artifact_size":"15,680,288 bytes"},{"pr_number":466,"title":"Record: 11L EMA + BigramHash(12288) + Mixed Int5 + FA3 (1.1354)","author":"simonbissonnette","status":"open","is_record":false,"val_bpb":1.135366,"architecture":"Transformer","quantization":"mixed int5","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hashing component to the model.","parameters":{"buckets":12288,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses an MLP multiplier of 3.0.","parameters":{"multiplier":3}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int5","bits":5,"scope":"mixed low-bit quantization"}},{"category":"evaluation_technique","data":{"method":"stride-based sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_frac":0.48}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Uses FlashAttention-3 via kernels-community/flash-attn3, which fetches the FA3 kernel package at runtime.","parameters":null}}],"compression":null,"novel_contributions":["11-layer, 512-dimensional GQA Transformer submission","BigramHash with 12288 buckets and 128-dimensional embeddings","EMA with decay 0.997","Mixed low-bit quantization using 5-bit attention and bigram quantization","Stride-64 sliding evaluation","FlashAttention-3 runtime path via kernels-community/flash-attn3"],"artifact_size":"15,967,704 bytes"},{"pr_number":467,"title":"[track_10min_16mb] 50-Epoch Cosine LoRA TTT + SOTA (10L Int5/Int6 BigramHash SWA) — Atharva Date (ADIITJ)","author":"ADIITJ","status":"open","is_record":false,"val_bpb":1.1428,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights int5, attention weights int6, embeddings fp16"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending token t with token t-1 embedding","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into learned embeddings projected to model dimension","parameters":{"vocab_size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with QK-Norm and q_gain","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP uses 3x hidden width","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections between encoder and decoder halves","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.35,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"epochs":50,"learning_rate":0.001,"targets":["Q projections","V projections"],"layers":10,"score_first":true,"reset_between_documents":true}}},{"category":"evaluation_technique","data":{"method":"score-first per chunk evaluation","parameters":{"chunk_size":256,"context_length":2048,"batch_size":32}}},{"category":"lr_schedule","data":{"method":"warmdown + cosine decay","parameters":{"warmdown_iters":3500,"ttt_cosine_epochs":50}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for large weight matrices"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.04,"grad_clip_norm":0.3,"pruning":"3% magnitude pruning"}}}],"compression":"zstd-22","novel_contributions":["50-epoch cosine-scheduled LoRA test-time training applied at evaluation time","Document-isolated LoRA adaptation with fresh adapter initialization and reset between documents","Score-first per chunk protocol within each TTT epoch to avoid leakage","Combining multi-epoch LoRA TTT with the SOTA 10-layer Int5/Int6 BigramHash + SWA training stack","Using rank-8 LoRA adapters on Q and V projections across all 10 attention layers"],"artifact_size":"~14.3MB"},{"pr_number":469,"title":"Non-record: 27M params at Int5 QAT / train larger, quantize harder (val_bpb=1.1418)","author":"cmcdnd","status":"closed","is_record":false,"val_bpb":1.1418,"architecture":"Transformer","quantization":"int5 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"QAT","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary position embeddings on only part of the dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate activation/module","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash feature module","parameters":{"size":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion","parameters":{"hidden":1728}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":9,"kv_heads":3}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Uses U-Net style skip connections","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"Early activation of int5 STE fake-quantization when lr_scale < 0.50, giving about 1,700 adaptation steps","parameters":{"threshold":0.5,"adaptation_steps":1700}}}],"compression":"zstd-22","novel_contributions":["Train a larger 27M-parameter model at the same artifact budget by using more aggressive int5 quantization instead of int6.","Activate QAT much earlier (threshold 0.50) to allow substantially more adaptation time for the coarser 32-level quantization grid.","Demonstrate that training larger and quantizing harder can outperform the standard smaller int6 approach at similar artifact size."],"artifact_size":"15.7 MB"},{"pr_number":470,"title":"Non-record: Shared-weight transformer with extended warmdown (1.1454 val_bpb)","author":"leofeasby","status":"open","is_record":false,"val_bpb":1.1454,"architecture":"Transformer","quantization":"int8+zlib","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence / weight sharing","description":"A single transformer block is reused across 9 effective passes, forming a recurrent-style shared-weight stack.","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Learned skip connections inject earlier representations back into later passes across the shared-weight stack.","parameters":{"passes":9}}},{"category":"architecture_modification","data":{"component":"per-layer scaling","description":"Layer-specific attention, MLP, and residual mixing scales are used to break symmetry across reused passes.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":16,"num_kv_heads":8}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes a hash-based bigram table with 4096 entries.","parameters":{"entries":4096}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"snapshots":351,"start_step":32500,"freq":50}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_start_step":4000,"warmdown_iters":41000,"step_based":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04,"scope":"matrix params only"}}},{"category":"other","data":{"description":"Extended warmdown training regime with long low-learning-rate phase; majority of gains occur during warmdown.","parameters":{"iterations":50000,"max_wallclock_seconds":86400}}}],"compression":"zlib","novel_contributions":["Shared-weight transformer with a single block reused across depth","U-Net style skip connections across recurrent passes","Per-layer scaling parameters to differentiate reused passes","Step-based warmdown control decoupled from wallclock time","Demonstration that most improvement occurs during extended warmdown","Use of longer training sequence length (2048) as a major lever"],"artifact_size":"13.9MB"},{"pr_number":473,"title":"Record: Legal Score-First TTT + Parallel Muon — val_bpb 1.1214 (3-seed mean)","author":"abaybektursun","status":"closed","is_record":false,"val_bpb":1.1214,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings","parameters":{"dimensions":16,"base":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a larger BigramHash vocabulary","parameters":{"vocab_size":3072}}},{"category":"architecture_modification","data":{"component":"VE","description":"Enables VE on selected layers","parameters":{"dimensions":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with relu² activation","parameters":{"multiplier":3}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"used_for":"TTT adaptation","learning_rate":0.002,"epochs":3,"gradient_clip":1,"batch_size":32}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32768,"epochs":3,"learning_rate":0.002,"optimizer":"SGD + momentum","freeze_blocks":0,"gradient_clip":1,"batch_size":32}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":32768}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Parameter Banking with contiguous 3D banks replacing 66 nn.Linear weights and Parallel Muon communication strategy using reduce-scatter, local NS, and all-gather","parameters":{"banks":4,"replaced_linear_layers":66}}}],"compression":"lzma","novel_contributions":["Legal backward-looking score-first TTT framework","Parallel Muon optimizer with Parameter Banking","Improved BigramHash vocabulary size from 2048 to 3072","Reduced TTT freeze depth from 2 to 0","3-seed mean record submission with val_bpb 1.1214"],"artifact_size":"~16.0 MB"},{"pr_number":474,"title":"Non-record: 6-Technique Stack — Catalytic Residuals + Value Residual + Gated Attention + BigramHash(10240) + 12L (val_bpb=1.1690)","author":"joshuaswarren","status":"open","is_record":false,"val_bpb":1.169,"architecture":"Transformer","quantization":"mixed int6/int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Catalytic Residuals","description":"Residual connection of the form x + c * f(x) with learned per-dimension scalar c.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches layer-0 value vectors and mixes them into subsequent layers via learned scalars.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gate applied after attention output.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding with 10240 buckets.","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP instead of the baseline 2x expansion.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth","description":"12-layer model.","parameters":{"layers":12}}},{"category":"quantization","data":{"method":"mixed int6/int8 QAT","bits":6,"scope":"MLP and attention int6, embeddings int8"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_fraction":0.8}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with muP-style projection scaling."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"other","data":{"description":"Late QAT with threshold 0.25 using STE int6 fake-quantization during warmdown.","parameters":{"threshold":0.25}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["First submission to combine six independently proven architecture improvements in a single entry","Catalytic Residuals","Value Residual (ResFormer)","Gated Attention","BigramHash with 10240 buckets","12-layer model depth","3x MLP expansion"],"artifact_size":"15.3 MB"},{"pr_number":475,"title":"[Non-record] ABRAM_CHIP v2 — HECR int16 ultra compact — 34 KB — 0.50 bpb","author":"abrahaw123-cell","status":"open","is_record":false,"val_bpb":0.5,"architecture":null,"quantization":"int16","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int16","bits":16,"scope":"all"}},{"category":"architecture_modification","data":{"component":"HECR quantum state vectors","description":"Novel architecture using HECR quantum state vectors.","parameters":null}},{"category":"other","data":{"description":"No transformers, no gradients, and no floats are used.","parameters":null}}],"compression":null,"novel_contributions":["Novel architecture using HECR quantum state vectors","int16-only model with no transformers, no gradients, and no floats","Ultra-compact 34 KB model size","Reported val_bpb of approximately 0.50 on a simulation dataset"],"artifact_size":"34 KB"},{"pr_number":476,"title":"[Non-record] MHALM v1 (1.4574 bpb)","author":"aquemy","status":"open","is_record":false,"val_bpb":1.4574,"architecture":"Multi-head language model with kernel-based readout heads and a ComplexSSM + causal self-attention temporal stack","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash embedding/bucket mechanism with 10240 buckets to augment token representations.","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Output projection is weight-tied with the embedding.","parameters":null}},{"category":"architecture_modification","data":{"component":"multi-kernel readout heads","description":"Replaces a single linear output layer with five kernel heads: Spherical, Gabor, Laplacian, Tucker, and Linear, combined by a learned mixer.","parameters":{"heads":5}}},{"category":"architecture_modification","data":{"component":"ComplexSSM","description":"Adds a complex-valued state-space model for long-range context processing.","parameters":null}},{"category":"architecture_modification","data":{"component":"causal self-attention","description":"Uses 2 layers of causal self-attention with RoPE and query gain for local token interactions.","parameters":{"layers":2,"heads":8}}},{"category":"architecture_modification","data":{"component":"U-Net skip connection","description":"Encoder outputs from Block 0 feed into Block 1 via a skip connection.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":201,"last_fraction":0.4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"used_for":"encoder matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"everything else"}}},{"category":"other","data":{"description":"Learned softmax-weighted mixer combines logits from five kernel heads with a soft cap to prevent domination by any single head.","parameters":null}}],"compression":null,"novel_contributions":["Multi-kernel language model with five geometric readout heads","Kernel heads based on Spherical, Gabor, Laplacian, Tucker, and Linear similarity measures","128-dimensional Stäckel coordinate space for representation learning","BigramHash augmentation with 10240 buckets","ComplexSSM for long-range context combined with causal self-attention","Learned mixer over head logits with soft capping","SWA over the last 40% of training"],"artifact_size":"10.8 MB"},{"pr_number":477,"title":"Record: 10L CountInitBigram + XSA + PartialRoPE (val_bpb=1.1522)","author":"harsha-gouru","status":"closed","is_record":false,"val_bpb":1.1522,"architecture":"Transformer","quantization":"mixed int5/int6 with int4-packed bigram table","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramLogitHead","description":"1024x1024 count-initialized exact bigram lookup table used as logit biases before softcap.","parameters":{"size":"1024x1024"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers to remove self-value component from attention output.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"warmdown":2800,"warmup":20,"grad_clip":0.3}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50,"checkpoints":22}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP weights and attention weights"}},{"category":"quantization","data":{"method":"int4","bits":4,"scope":"bigram logit table"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"other","data":{"description":"Count-initialized exact bigram logit head computed from corpus transition probabilities with additive smoothing and clipping.","parameters":{"smoothing_alpha":0.25,"clip_range":"[-4, 4]","tokens_used":16000000}}},{"category":"other","data":{"description":"Custom int4 nibble packing/unpacking for signed values to reduce storage of the bigram table.","parameters":{"values_per_byte":2}}}],"compression":"zstd-22","novel_contributions":["Count-initialized exact bigram logit head derived from corpus transition probabilities","Custom int4 nibble packing for the bigram logit table","Combination of count-init bigram head with XSA, Partial RoPE, and LN Scale"],"artifact_size":"15.38 MB"},{"pr_number":478,"title":"New SOTA: 1.12676 BPB - 11L XSA-all(11) + GPTQ-lite + EMA + Late QAT","author":"gowtham0992","status":"open","is_record":false,"val_bpb":1.12676,"architecture":"Transformer","quantization":"int6 QAT with GPTQ-lite and mixed int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to all 11 layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all large weights"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"start_condition":"scale<0.2"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iterations":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_rule":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Late QAT with int6 STE fake-quantization when LR scale drops below 0.15.","parameters":{"lr_scale_threshold":0.15}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the dimensions with NTK-aware scaling.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature module with learned embeddings.","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum":"0.92->0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}}],"compression":"zstd-22","novel_contributions":["XSA applied to all 11 layers","GPTQ-lite optimal clip percentile search","EMA with tight SWA","Late QAT int6-all triggered at low learning-rate scale","Raw binary serialization with zstd level 22 compression","Removal of Backout mechanism improved compression quality","No pruning required for int6-all fitting under the size limit"],"artifact_size":"~15.7 MB"},{"pr_number":480,"title":"Non-record: MoE exploration + multi-bit quantization analysis","author":"imyesung","status":"open","is_record":false,"val_bpb":1.1456,"architecture":"Transformer","quantization":"mixed int6/int5/int4 post-training quantization","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int5/int4","bits":6,"scope":"MLP and attention"}},{"category":"architecture_modification","data":{"component":"MoE","description":"2-expert soft-routing mixture-of-experts replacing the dense MLP for parameter expansion","parameters":{"experts":2,"expert_multiplier":1.5}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":30}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Quantization comparison across multiple attention/MLP bit-width configurations on the same trained dense model","parameters":{"configurations":["attn6_mlp6","attn6_mlp5","attn6_mlp4","attn5_mlp5","attn5_mlp4"]}}}],"compression":"zstd-22","novel_contributions":["Preliminary negative result for a 2-expert soft-routing MoE under the 16MB artifact cap","Leaderboard-relevant comparison of multi-bit post-training quantization on the same dense model","Evidence that int5 MLP quantization is viable while int4 MLP quantization is destructive in this setup","Partial MoE training log and checkpoint table documenting the observed degradation relative to dense control"],"artifact_size":"15.14 MB"},{"pr_number":481,"title":"Record: Cosine TTT scheduling with per-layer lr — mean val_bpb=1.0970 (3 seeds)","author":"mrdavtan","status":"closed","is_record":false,"val_bpb":1.097,"architecture":"Transformer","quantization":"int6 per-row","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row all weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on only part of the dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling modification.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism in the community stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider/deeper MLP stack using relu-squared activations.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections inspired by U-Net are used in the architecture.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"TTT":true,"learning_rate":0.0005}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"optimizer":"AdamW","learning_rate":0.0005,"epochs":30,"cosine_decay":true,"per_layer_lr":true,"freeze_blocks":0,"batch_seqs_per_gpu":64}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"epochs":30}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["Cosine learning-rate decay for TTT over 30 epochs instead of a flat schedule","Per-layer TTT learning-rate groups based on measured quantization damage","Analysis showing MLP output projections have much higher quantization error than input projections","Demonstration that TTT improves beyond merely repairing quantization damage","Extensive negative-result exploration of alternative compression and architectural ideas"],"artifact_size":"15.4-15.8 MB"},{"pr_number":482,"title":"Record: 10L CountInitBigram + XSA + PartialRoPE (val_bpb=1.1522)","author":"harsha-gouru","status":"closed","is_record":false,"val_bpb":1.1522,"architecture":"Transformer","quantization":"mixed int5/int6/int4 with zstd-22","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramLogitHead","description":"Count-initialized exact bigram logit lookup table used as a strong Markov prior before training; applied before logit softcap.","parameters":{"size":"1024x1024"}}},{"category":"quantization","data":{"method":"int4","bits":4,"scope":"bigram logit table"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50,"checkpoints":22}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":2800,"warmup_steps":20}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Int4 nibble packing/unpacking for signed values, storing two int4 values per byte to reduce bigram table size.","parameters":{"packing":"two values per byte"}}}],"compression":"zstd-22","novel_contributions":["Count-initialized exact bigram logit head using corpus bigram transition probabilities as a strong Markov prior","Int4 nibble packing for the bigram logit table to halve storage cost","XSA on the last 4 layers","Partial RoPE on 16 of 64 dimensions","Layer-wise LN scaling by 1/sqrt(layer+1)"],"artifact_size":"15.38 MB"},{"pr_number":483,"title":"Track 10min_16mb: PR #287 family rerun at 585s wallclock (mean val_bpb=1.1346)","author":"tmustier","status":"closed","is_record":false,"val_bpb":1.13457748,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA with the last 4 layers configured for the rerun family.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hashing component to the model.","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses an expanded MLP width multiplier.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings.","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Uses FlashAttention 3 for training.","parameters":null}},{"category":"other","data":{"description":"Uses int6 + zstd export to fit the artifact size limit.","parameters":null}}],"compression":"zstd","novel_contributions":["3-seed rerun of the PR #287 family under a 585s wallclock cap","Use of FlashAttention 3 on 8×H100 SXM","Combination of XSA, EMA, BigramHash, and QAT","int6 + zstd export to keep all seeds under the 16MB artifact limit","Achieved mean val_bpb of 1.1346, beating merged SOTA 1.1428"],"artifact_size":"16,000,000 bytes"},{"pr_number":484,"title":"Non-record: Empirical Bayes Adaptive TTT (val_bpb=1.1185)","author":"Robby955","status":"open","is_record":false,"val_bpb":1.1185,"architecture":"Transformer","quantization":"int6 + zstd quantization","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"GEPA","description":"Attention mechanism used in the frontier architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Architecture component included in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention style modification applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SWA","description":"Sliding window attention used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Late Soft-Round QAT","description":"Late-stage quantization-aware training with soft rounding.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing module for token representation.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the model.","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT with EB-adaptive per-layer scaling","parameters":{"freeze_embeddings":true,"burst_epochs":2,"burst_lr_multiplier":0.1,"layer_scale_formula":"clip(|E[grad_i]| / std(grad_i), 0.3, 3.0)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9985}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":null,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"burst_then_sliding_window_ttt":true}}}],"compression":"zstd","novel_contributions":["Empirical Bayes Adaptive Test-Time Training (EB-TTT) with per-layer gradient SNR scaling","Layerwise adaptive TTT scaling using clipped gradient signal-to-noise ratio","Embedding freeze during TTT to prevent vocabulary embedding distortion","TTT burst with EMA before sliding-window TTT","Diagnostic for distinguishing genuine TTT adaptation from memorization"],"artifact_size":"15.81 MB"},{"pr_number":485,"title":"Record: 10L CountInitBigram + XSA + PartialRoPE (val_bpb=1.1522)","author":"harsha-gouru","status":"open","is_record":false,"val_bpb":1.1522,"architecture":"Transformer","quantization":"mixed int5/int6 with int4 bigram table and zstd compression","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramLogitHead","description":"Count-initialized exact bigram lookup table used as a logit bias head before softcap, initialized from corpus transition probabilities.","parameters":{"vocab_size":1024,"clipping":"[-4, 4]","smoothing_alpha":0.25}}},{"category":"quantization","data":{"method":"int4","bits":4,"scope":"bigram logit table"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to only part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50,"checkpoints":22}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2800,"warmup_steps":20}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP weights"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"attention weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP hidden size expanded to 3x the model dimension.","parameters":{"hidden_size":1536}}}],"compression":"zstd-22","novel_contributions":["Count-initialized exact bigram logit head initialized from corpus transition probabilities","Int4 nibble packing for signed int4 values to halve bigram table storage","XSA on the last 4 layers","Partial RoPE on 16 of 64 dimensions","Layerwise LN scaling by 1/sqrt(layer+1)"],"artifact_size":"15.38 MB"},{"pr_number":486,"title":"Record: 11L TrigramHash + ValueResidual + GradQuant + Cosine TTT (mean val_bpb=1.0887, best 1.0879)","author":"ndokutovich","status":"closed","is_record":false,"val_bpb":1.1101,"architecture":"Transformer","quantization":"mixed int5/int6/int7 QAT","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Adds a 3-token hashed embedding context before transformer blocks.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"ValueResidual","description":"Caches V vectors from the first attention layer and blends them into later layers with learned scalars.","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6/int7 QAT","bits":null,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0005}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram embedding used as part of the model input representation.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating component used in the MLP stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP variant with relu-squared activations.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimension.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":11,"heads":8,"kv_heads":4}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"optimizer":"AdamW","epochs":10,"freeze_blocks":0,"time_seconds":154}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"warmup_steps":1500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["TrigramHash embedding extending bigram hashing to 3-token context","Value Residual (ResFormer-style) cross-layer value blending","Gradient-guided adaptive quantization with per-tensor sensitivity ranking","Mixed precision quantization assigning Int7/Int6/Int5 based on gradient sensitivity"],"artifact_size":"15.34 MB"},{"pr_number":487,"title":"Non-record: Value Residual (-0.015 BPB) + Gated Attention (-0.003 BPB) on 11L Production Stack","author":"anantdgoel","status":"open","is_record":false,"val_bpb":1.172,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP multiplier in the 11-layer production stack.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Community stack component included in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with bucketed representation.","parameters":{"buckets":2048,"dim":128}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used in the production stack."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last 4 layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on only part of the dimensions.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches layer-0 value vectors and mixes them into subsequent layers via learnable scalars.","parameters":{"added_params":22}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Adds a per-head sigmoid gate after scaled dot-product attention to suppress attention sinks.","parameters":{"added_params":37000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500,"backend":5}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"warmup_steps":20}}}],"compression":"zstd","novel_contributions":["Value Residual: caches layer-0 value vectors and mixes them into subsequent layers via learnable scalars.","Gated Attention: per-head sigmoid gate after scaled dot-product attention to suppress attention sinks.","Demonstrated additive gains from combining Value Residual and Gated Attention on a 9L baseline.","Integrated both techniques into an 11-layer production meta-stack with multiple community techniques."],"artifact_size":"19.4 MB"},{"pr_number":488,"title":"Record: 11L Int6 QAT + Warmdown (val_bpb=1.3267, 1xH100)","author":"pkim02","status":"open","is_record":false,"val_bpb":1.3267,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT int6","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in an 11-layer Transformer backbone.","parameters":{"layers":11,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a SmearGate module at the embedding layer to inject additional signal.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a compact bigram hash embedding for extra context.","parameters":{"bigram_vocab_size":2048,"bigram_dim":96}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for large matrices with scaled projection weights."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_end":0.99}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"used_for":"token/scalar optimizers"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":7}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"fraction":0.15,"wallclock_based":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.01}}},{"category":"other","data":{"description":"Wallclock-fraction warmdown to avoid iter-based scheduling issues under torch.compile overhead.","parameters":{"last_fraction":0.15}}}],"compression":"zstd-22","novel_contributions":["Int6 grouped quantization for all weights","STE fake-quantization QAT during the last 15% of wallclock","Wallclock-fraction warmdown that fixes iter-based scheduling under torch.compile overhead","SWA with 7 checkpoints during warmdown","Compact BigramHash embedding and SmearGate additions","Orthogonal initialization for large matrices","Sliding-window evaluation with stride 64","zstd-22 artifact compression"],"artifact_size":"13.3 MB"},{"pr_number":489,"title":"Record: 7L MLP3x + BigramHash + SmearGate + TTT 5ep (mean val_bpb=1.1327)","author":"sofiabod","status":"open","is_record":false,"val_bpb":1.1327,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP widened to 3x with ReLU² activations.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into learned embeddings added before RMSNorm.","parameters":{"hash_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learned gate blending each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary embeddings to only part of the head dimensions.","parameters":{"rotary_dims":16,"total_dims":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":{"vocab_size":1024}}},{"category":"regularization","data":{"method":"LN scale depth damping","parameters":{"init_scale_rule":"1/sqrt(layer_idx+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"tied_embedding_lr":0.01,"matrix_lr":0.03,"logit_softcap":15}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"AdamW TTT","parameters":{"learning_rate":0.0005,"weight_decay":0,"epochs":5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":6000}}}],"compression":"zlib","novel_contributions":["BigramHash(2048) token-pair hashing with learned embeddings","SmearGate token blending mechanism","Partial RoPE applied to 25% of head dimensions","Layer-wise depth damping of LN scales","AdamW test-time training for 5 epochs","Sliding window evaluation with stride 64","7-layer transformer with MLP3x ReLU²"],"artifact_size":null},{"pr_number":492,"title":"Record: 11L XSA4 + EMA + Partial RoPE + Rank-8 TTT Hooks (1.1591 bpb)","author":"Divyesh-Thirukonda","status":"open","is_record":false,"val_bpb":1.15910316,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross Self-Attention on the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially to head dimensions","parameters":{"head_dims":"16/64"}}},{"category":"architecture_modification","data":{"component":"layerwise LN scale","description":"Layer normalization scaling applied per layer","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate + BigramHash embeddings","description":"Embedding modifications using SmearGate and BigramHash","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Adaptive eval path keeps variable-length short-document no-TTT scoring path eager to avoid Torch Dynamo recompile-limit failures","parameters":null}}],"compression":"zstd","novel_contributions":["Integration of long-document LoRA TTT hooks with rank 8","Use of partial RoPE applied to a subset of head dimensions (16/64)","Layerwise layer normalization scaling","Mixed int6/int8 quantization with zstd compression","SmearGate and BigramHash embedding modifications","EMA with decay 0.997 for weight averaging","Non-SOTA leaderboard submission with exact roundtrip metric under 600s training budget"],"artifact_size":"15,528,215 bytes"},{"pr_number":493,"title":"Record: 11L EMA + Int6 + XSA + LeakyReLU² + Partial RoPE (val_bpb: 1.1309)","author":"parinzee","status":"open","is_record":false,"val_bpb":1.1309,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention on last 4 layers for better representation","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Squared leaky ReLU with 0.5 negative slope","parameters":{"negative_slope":0.5,"power":2}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Only 16/64 dims use rotary embeddings","parameters":{"dims_used":16,"total_dims":64}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash token embeddings","parameters":{"hash_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 heads / 4 KV heads (GQA)","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"layers","description":"Increased number of layers from 10 to 11","parameters":{"layers":11}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all large weight matrices"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Scale clamping fix with clamp_min(1/clip_range) to improve quantization quality","parameters":null}},{"category":"other","data":{"description":"Smaller batch size (524288 tokens) to fit more training steps (~8200 steps in 600s)","parameters":{"batch_size_tokens":524288,"training_steps":8200,"training_time_seconds":600}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4500}}},{"category":"other","data":{"description":"Higher learning rates for matrix and scalar parameters","parameters":{"matrix_lr":0.025,"scalar_lr":0.025}}}],"compression":"zstd-22","novel_contributions":["Use of Exclusive Self Attention (XSA) on last 4 layers","LeakyReLU(0.5) squared activation function","Partial RoPE with rotary embeddings applied to only 16/64 dimensions","EMA weight averaging with decay=0.997","Int6 quantization applied to all large weight matrices","Scale clamping fix to improve quantization quality","Smaller batch size to enable more training steps within time limit","BigramHash token embeddings with hash size 2048 and dimension 128","Warmdown learning rate schedule with 4500 iterations","Higher learning rates for matrix and scalar parameters"],"artifact_size":"15.8MB"},{"pr_number":495,"title":"Non-record: Add submission track_non_record_16mb/2026-03-23_DepthRecurrent_TTT","author":"SergiuDeveloper","status":"open","is_record":false,"val_bpb":1.2092,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Runs each encoder and decoder block multiple times before propagating activations forward, increasing representational depth without adding parameters","parameters":{"ENCODER_LOOPS":2,"DECODER_LOOPS":2}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":{"TIE_EMBEDDINGS":1}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"chunk_size":256}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":null,"novel_contributions":["Use of depth recurrence to increase model representational depth without increasing parameter count","Chunk-causal test-time LoRA adaptation allowing model specialization to each document's distribution during evaluation","Operating under a strict 16MB artifact size cap with a 600s wallclock training time limit"],"artifact_size":"15,544,590 bytes"},{"pr_number":497,"title":"Non-record: FP16 embed + MLP992 sliding-window size-repair probe","author":"THUQiXuan","status":"open","is_record":false,"val_bpb":1.31618558,"architecture":null,"quantization":"int8 with FP16 token embedding kept during export","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8 with FP16 token embedding","bits":8,"scope":"token embedding"}},{"category":"architecture_modification","data":{"component":"MLP","description":"Reduced MLP width to 992 as a size-repair offset","parameters":{"MLP_HIDDEN":992}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"skipped","parameters":null}}],"compression":"zlib","novel_contributions":["Kept tied token embedding in FP16 during final int8+zlib export to recover artifact size","Reduced MLP width to 992 as a size-repair offset","Demonstrated a successful non-record research probe under 16MB on local 8x NVIDIA L20Z hardware","Skipped TTT evaluation deliberately to focus on post-quant sliding-window roundtrip metric","Provided a concrete, reproducible snapshot for future work"],"artifact_size":"14.42MB"},{"pr_number":498,"title":"The Frugendorff: Recursive Weight Sharing + MLP 4x (1.1478 BPB, 15.19MB)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1478,"architecture":"Transformer","quantization":"int6 QAT with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence / weight sharing","description":"6 unique transformer blocks are looped twice each to create 12 effective layers while storing only 6 blocks of parameters.","parameters":{"unique_blocks":6,"loops":2,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"MLP4x","description":"Expanded MLP hidden size to 4x the model dimension to improve quality.","parameters":{"multiplier":4,"hidden_size":2560}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":10,"kv_heads":5,"head_dim":64}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimension with NTK-aware scaling.","parameters":{"rope_dims":16,"total_dims":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA is applied in the last 2 unique layers.","parameters":{"layers":2}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Auxiliary hashed bigram feature module.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Uses a shared value embedding to reduce parameters.","parameters":{"dim":128}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections are used within each loop iteration.","parameters":null}},{"category":"initialization","data":{"method":"Orthogonal loop positions","description":"Loop position embeddings are QR-initialized to differentiate repeated passes through shared blocks."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"lr":0.025,"scope":"matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.035,"scope":"embeddings"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.025,"scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"condition":"scale < 0.2"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"applied_after":"distillation"}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Late training replay over the last 100 training batches for 2 epochs at 10% learning rate.","parameters":{"batches":100,"epochs":2,"lr_fraction":0.1}}},{"category":"other","data":{"description":"Self-distillation using an EMA teacher during training.","parameters":{"teacher":"EMA","steps":50,"temperature":2,"alpha":0.7}}}],"compression":"zstd-22","novel_contributions":["Recursive/fractal weight sharing to achieve 12 effective layers using only 6 stored transformer blocks","Reinvesting saved parameter budget into MLP 4x expansion","Orthogonal loop position embeddings to distinguish repeated passes through shared blocks","Combination of U-Net skips, SmearGate, BigramHash, shared value embedding, and XSA in a compact transformer","Full training pipeline including Muon, SWA, late QAT, training replay, self-distillation, and EMA"],"artifact_size":"15.19MB"},{"pr_number":499,"title":"The Frugendorff: Recursive Weight Sharing + MLP 4x (1.1478 BPB, 15.19MB)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1478,"architecture":"Transformer","quantization":"int6 QAT with int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence / recursive weight sharing","description":"6 unique transformer blocks are each applied twice in sequence, yielding 12 effective layers from shared parameters.","parameters":{"unique_blocks":6,"loops_per_block":2,"effective_depth":12}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded feed-forward network to 4x width (hidden size 2560) using freed parameter budget.","parameters":{"mlp_multiplier":4,"hidden_size":2560}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary position embeddings on a subset of dimensions with NTK-aware scaling.","parameters":{"rope_dims":16,"total_dims":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature module with shared embeddings.","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are shared.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on the last 2 unique blocks.","parameters":{"last_blocks":2}}},{"category":"initialization","data":{"method":"QR-initialized orthogonal loop position embeddings","description":"Orthogonal loop position embeddings initialized with QR decomposition."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"scope":"matrices","lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"scope":"embeddings and scalars","embedding_lr":0.035,"scalar_lr":0.025}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":"every 50 steps when scale < 0.2"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Training data replay for the last 100 batches over 2 epochs.","parameters":{"epochs":2,"batches":100}}},{"category":"other","data":{"description":"Self-distillation using an EMA teacher for 50 steps.","parameters":{"teacher":"EMA","steps":50,"temperature":2,"alpha":0.7}}}],"compression":"zstd-22","novel_contributions":["Recursive weight sharing / fractal looping of 6 unique transformer blocks to create 12 effective layers","Reinvesting parameter savings into a 4x MLP expansion","Orthogonal loop position embeddings to distinguish repeated passes through shared blocks","U-Net skip connections within each loop iteration","Combination of SmearGate, BigramHash, shared value embeddings, and XSA in a compact transformer","Late QAT, training replay, self-distillation, SWA, and EMA used together under the artifact budget"],"artifact_size":"15.19MB"},{"pr_number":500,"title":"Submission/2026 03 22 Sliding Window + WARMDOWN + AttnRes + PhiSimple (mean 1.1925 BPB)","author":"ikermoel","status":"open","is_record":false,"val_bpb":1.1925,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":20000,"description":"always-decaying LR schedule from first step for better int8 quantization"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":960}}},{"category":"architecture_modification","data":{"component":"Block AttnRes","description":"learned attention over previous block outputs at block boundaries replacing fixed residual aggregation","parameters":{"block_boundary_interval":3,"added_parameters":1024,"query_count":2,"dimension":512}}},{"category":"architecture_modification","data":{"component":"PhiAlpha Simple","description":"per-layer learnable scale on relu² activation: relu²(x) * (1 + alpha), alpha initialized to 0","parameters":null}}],"compression":null,"novel_contributions":["Always-decaying learning rate schedule (WARMDOWN_ITERS=20000) to improve int8 quantization by producing tighter weight distributions with fewer outliers","Sliding window evaluation with stride 64 to score every token with 960+ context instead of average 0-1023 context","Block AttnRes: learned attention over previous block outputs at block boundaries replacing fixed residual aggregation, adding ~1024 parameters","PhiAlpha Simple: per-layer learnable scale on relu² activation with near-zero overhead"],"artifact_size":"14.9 MB"},{"pr_number":501,"title":"Non-record: 1xH100 warmdown100 30m scaling run","author":"aamodbhatt","status":"open","is_record":false,"val_bpb":1.27705124,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":100}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Budget-efficient 30-minute 1xH100 run using baseline script with WARMDOWN_ITERS=100 scheduler tweak","Same-session controlled comparison against a 10-minute baseline to measure quality improvement","Demonstrated improvement in val_bpb by extending wallclock from 10m to 30m on the same 1x recipe","Use of int8 quantization with zlib compression to fit under 16MB artifact size cap"],"artifact_size":"15.8MB"},{"pr_number":502,"title":"Non-record: 1xH100 auto-research int6 policy sweep","author":"aamodbhatt","status":"open","is_record":false,"val_bpb":1.524811,"architecture":null,"quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"attn, mlp"}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"architecture_modification","data":{"component":"MLP width multiplier","description":"Model width multiplier for MLP layers","parameters":{"MLP_MULT":2}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Introduced INT6_CATS environment variable to control mixed int6 quantization policy at export time","Performed auto-research policy sweep on mixed quantization categories under a fixed 10-minute budget on 1xH100 hardware","Demonstrated that aggressive int6 export policies preserve size but create a large quantization gap, providing useful negative results","Provided structured negative-result submission to prune dead-end search directions before expensive multi-GPU attempts"],"artifact_size":"13,144,462 bytes"},{"pr_number":503,"title":"Record: GPTQ + Legal TTT (3-seed mean val_bpb=1.1195)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1195,"architecture":"Transformer","quantization":"int6 QAT + GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate with OrthoInit","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding component","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0001}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs_per_chunk":3,"chunk_size":131072,"stride":32,"learning_rate":0.0001,"weight_decay":0}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Early QAT with threshold 0.5 and 0.9995 percentile clipping before GPTQ and int6 storage","parameters":{"threshold":0.5,"percentile_clipping":0.9995}}},{"category":"other","data":{"description":"2% magnitude pruning","parameters":{"sparsity":0.02}}}],"compression":"zstd-22","novel_contributions":["GPTQ quantization with Hessian-aware error compensation, column reordering, and 256-sample calibration","Early QAT with threshold 0.5 and longer adaptation to quantization noise","EMA tuned to 0.997","Legal score-first TTT where each token is scored before any gradient update using it","Sliding-window evaluation with stride 32","int6 quantization stored as int8 with 2% magnitude pruning and zstd-22 compression"],"artifact_size":"15.96 MB"},{"pr_number":504,"title":"Non-record: TrigramHash — iso-parametric bigram(96)+trigram(32), val_bpb=1.5275 (1xH100)","author":"fleeb83","status":"open","is_record":false,"val_bpb":1.5275,"architecture":"Transformer","quantization":"mixed int6/int5","optimizer":"AdamW with Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"TrigramHashEmbedding","description":"Iso-parametric split of BigramHash(128 dim) into BigramHash(96 dim) plus new TrigramHash(32 dim) to capture 3-token co-occurrence patterns with orthogonal hash functions","parameters":{"bigram_dim":96,"trigram_dim":32,"vocab_size":10240,"hash_function":"(36313*t[i] XOR 27191*t[i-1] XOR 18731*t[i-2]) % (vocab_size - 1)"}}},{"category":"quantization","data":{"method":"mixed int6/int5","bits":null,"scope":"mlp, attn, bigram, trigram"}},{"category":"optimizer_technique","data":{"method":"AdamW with Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"swa_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"initialization","data":{"method":"zero-init","description":"Zero initialization for trigram embedding and projection weights to start as no-op and learn gradually"}}],"compression":"zstd-22","novel_contributions":["Introduction of TrigramHashEmbedding to capture 3-token co-occurrence patterns orthogonally to bigram embeddings","Iso-parametric embedding parameter split maintaining total embedding parameters identical to SOTA BigramHash(128 dim)","Use of three independent prime multipliers in hash function to ensure orthogonal bit patterns per token position","Extension of quantization and optimizer parameter groups to include trigram embedding components","Demonstration of architecture running cleanly and artifact size within 16MB limit despite added trigram component"],"artifact_size":"15.4MB"},{"pr_number":505,"title":"Record: SwiGLU+VE128+NoTTT val_bpb=1.1181 (3-seed mean)","author":"JoeProAI","status":"open","is_record":false,"val_bpb":1.11807945,"architecture":"Transformer","quantization":"int6 QAT + GPTQ-lite","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6 + GPTQ-lite + QAT","bits":6,"scope":null}},{"category":"architecture_modification","data":{"component":"SwiGLU FFN","description":"Feed-forward network with SwiGLU activation and Star-ReLU","parameters":{"hidden":1792}}},{"category":"architecture_modification","data":{"component":"U-Net Skip Gates","description":"5 encoder and 6 decoder layers with learned gating","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Extended Self-Attention in last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Embeddings (VE128)","description":"128-dimensional shared embedding with per-layer scales on layers 9-10","parameters":{"dimensions":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"8192 buckets with 128-dimensional embeddings","parameters":{"buckets":8192,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Layer-dependent normalization scaling","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Demonstrated SwiGLU FFN viability without test-time training when paired with proper training configuration","Introduced U-Net Skip Gates with learned gating in transformer architecture","Applied Extended Self-Attention (XSA4) in last 4 layers","Incorporated 128-dimensional Value Embeddings with per-layer scaling on layers 9-10","Used BigramHash embeddings with 8192 buckets and 128 dimensions","Utilized Partial RoPE with 16 dimensions","Enabled Late Quantization-Aware Training (QAT) at learning rate scale < 0.15","Achieved improved val_bpb by increasing sequence length from 1024 to 2048","Combined int6 quantization with GPTQ-lite compression and zstd-22 for artifact size reduction","No test-time training (No TTT) used"],"artifact_size":null},{"pr_number":506,"title":"Non-record: 2026-03-22_SuperchunkBPE_SP1024","author":"eshansinghal14","status":"open","is_record":false,"val_bpb":1.2294,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Superchunk BPE tokenization: a two-phase BPE where first phase learns merges inside chunks, second phase learns cross-chunk merges interleaved by frequency into one merge table."}}],"compression":"zlib","novel_contributions":["Introduction of Superchunk BPE tokenization combining phase-1 (within chunk) and phase-2 (cross-chunk) merges into a single merge table.","Use of Rust BPE tokenizer with superchunking for vocab size 1024.","Short training run on 8×H100 GPUs with 600s wall clock time targeting non-record 16MB track."],"artifact_size":"15.1 MiB"},{"pr_number":507,"title":"Record: 1.1558 BPB — 11L U-Net + Catalytic + SwiGLU + SW64","author":"skarakulak","status":"open","is_record":false,"val_bpb":1.1558,"architecture":"11-layer Transformer with gated U-Net skip connections","quantization":"mixed int5/int6","optimizer":"Muon + Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"gated U-Net skip connections","description":"Sigmoid-gated blending between encoder and decoder layers","parameters":{"layers":11,"encoder_layers":5,"mid_layers":1,"decoder_layers":5}}},{"category":"architecture_modification","data":{"component":"Catalytic residuals","description":"Learned per-dimension gates on attention and MLP outputs, initialized to 1.0","parameters":null}},{"category":"architecture_modification","data":{"component":"SwiGLU MLP","description":"Gated linear unit with SiLU activation and 3× expansion factor","parameters":{"expansion_factor":3}}},{"category":"architecture_modification","data":{"component":"Value residual (ResFormer)","description":"Blend first-layer value vectors into all subsequent layers for better gradient flow","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)","applied_to":"RMSNorm inputs"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"applied_to":"scalar parameters"}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and bigram weights at 5-bit, rest at 6-bit"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":1024}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram-conditioned token embeddings via hash-based lookup","parameters":{"buckets":4096,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to 25% of head dimensions","parameters":{"percentage":25}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-self attention applied on last 4 layers with gated attention","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9985}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Decoder learning rate multiplier of 2× applied for both Muon and Adam optimizers","parameters":{"multiplier":2}}}],"compression":"zstd-22","novel_contributions":["Use of 11-layer Transformer with gated U-Net skip connections for blending encoder and decoder layers","Introduction of Catalytic residuals with learned per-dimension gates on attention and MLP outputs","Application of SwiGLU MLP with 3× expansion factor","Value residual blending first-layer value vectors into all subsequent layers (ResFormer style)","Layerwise LN scale dampening with 1/sqrt(layer_idx+1) on RMSNorm inputs","Decoder learning rate multiplier of 2× for Muon and Adam optimizers","Mixed int5/int6 quantization combined with zstd-22 compression","Sliding window evaluation with stride 64 and sequence length 1024 for improved val_bpb","BigramHash embeddings with 4096 buckets and 128 dimensions","Partial RoPE applied to 25% of head dimensions","Cross-self attention (XSA) with gated attention on last 4 layers","Use of EMA with decay 0.9985 for weight averaging"],"artifact_size":"15.1 MB"},{"pr_number":508,"title":"GPTQ + Early QAT + Legal TTT — 3-seed mean val_bpb 1.1215","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1215,"architecture":"Transformer","quantization":"int6 QAT with GPTQ export","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"weights"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on only part of the dimensions.","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the MLP/activation path.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hashing component with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion with relu².","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 4 KV heads.","parameters":{"kv_heads":4,"heads":8}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"epochs_per_chunk":3,"grad_clip":1}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":8,"learning_rate":0.002,"momentum":0.9}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"over_actual_training_window":true,"chunks":200}}},{"category":"regularization","data":{"method":"embedding freeze","parameters":{"frozen_components":["tok_emb","bigram","ve_shared"]}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}}],"compression":"zstd-22","novel_contributions":["GPTQ quantization with Hessian-aware error compensation for int6 per-row quantization","Early QAT with matched clipping to the GPTQ export quantizer","Legal score-first TTT with EMA scoring and cosine LR fix","Embedding freezing during TTT","Improved quantization tax from 0.0082 to 0.0058 BPB"],"artifact_size":"15.56 MB"},{"pr_number":509,"title":"Non-record: Cosine TTT 30ep on SwiGLU + U-Net (1xH100, val_bpb=1.1175)","author":"andrewbaggio1","status":"open","is_record":false,"val_bpb":1.1175,"architecture":"SwiGLU + U-Net gated skip architecture","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"SwiGLU","description":"11-layer SwiGLU MLP with hidden dimension 1792","parameters":{"layers":11,"hidden":1792}}},{"category":"architecture_modification","data":{"component":"U-Net gated skips","description":"U-Net skip connections with learned sigmoid gating","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 8192 buckets and 128 dimension embeddings","parameters":{"buckets":8192,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate mechanism included","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9985}}},{"category":"quantization","data":{"method":"Int6 QAT","bits":6,"scope":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial Rotary Positional Embeddings applied to 16 dims","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale applied as 1/sqrt(layer+1)","parameters":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":30,"lr_schedule":"cosine decay"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}}],"compression":"zstd-22","novel_contributions":["Extending PR #462's SwiGLU + U-Net architecture with 30-epoch cosine learning rate decay during test-time training (TTT) instead of default 10 epochs","Demonstrated significant val_bpb improvement from 1.2531 to 1.1175 (-10.8%) on 1xH100 by increasing TTT epochs","Confirmed consistency with prior PRs (#481 and #486) on benefits of cosine TTT scheduling and longer TTT epochs","Provided timing estimates and plans for 8xH100 verification and tuning of TTT epochs for quality/time tradeoff"],"artifact_size":"7.5 MB"},{"pr_number":510,"title":"Non-record: MUD optimizer — triangular Gram preconditioning (arxiv:2603.17970)","author":"SelfAnush","status":"open","is_record":false,"val_bpb":1.1989,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"MUD","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights (int5), attention weights (int6)"}},{"category":"architecture_modification","data":{"component":"SmearGate + BigramHash","description":"SmearGate and BigramHash(10240, dim=128) used for improved model structure","parameters":{"BigramHash_size":10240,"BigramHash_dim":128,"layers":10,"hidden_dim":1536,"heads":8,"KV_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and relu² activation","parameters":{"expansion_factor":3,"activation":"relu²"}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Use of U-Net style skip connections","parameters":null}},{"category":"optimizer_technique","data":{"method":"MUD","weight_decay":null,"momentum":null,"other_params":{"mud_whiten_replaces":"zeropower_via_newtonschulz5","passes":1,"eps":1e-7}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":null,"novel_contributions":["Replacing Muon's 5-step Newton-Schulz iteration with MUD's triangular Gram preconditioning (Algorithm 2 from arxiv:2603.17970).","MUD optimizer is 12x cheaper in FLOPs per step compared to Muon5 and replaces expensive Gram matrix formation and polynomial iteration with a triangular solve approach.","Demonstrated strong convergence with fewer steps but slower per-step throughput on H100 GPUs due to CUDA kernel inefficiencies.","Maintains all other training components identical to Muon SOTA for direct comparison.","Detailed analysis of throughput differences across GPU architectures (A100/MI250/GH200 vs H100)."],"artifact_size":"15.9 MB"},{"pr_number":511,"title":"Non Record: Add PPM heuristic for test time learning ","author":"AnirudhRahul","status":"open","is_record":false,"val_bpb":1.1417373,"architecture":"Transformer","quantization":"int5/int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int5/int6","bits":null,"scope":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash(10240) used as part of the model architecture","parameters":{"hash_size":10240}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32,"context_length":2048}}},{"category":"test_time_training","data":{"method":"delayed outside-context-only PPM","parameters":{"delay":2048,"K":15,"k_values":[16,12,8,6],"min_confidence":[1,1,1,0.95],"min_count":[1,1,1,1],"bos_id":1}}}],"compression":"zstd","novel_contributions":["Introduced delayed outside-context-only PPM heuristic at evaluation time to improve test-time performance without changing training architecture","PPM bank only uses targets from positions at least 2048 tokens behind current position, ensuring no overlap with transformer's local context window","Combination of transformer local context and delayed PPM for longer-range repeated-sequence signal","Demonstrated consistent val_bpb improvement across 3 seeds with small but statistically significant gains","Self-contained snapshot submission including train_gpt.py and trie_bench.c for delayed PPM implementation"],"artifact_size":"15.6MB to 15.85MB"},{"pr_number":512,"title":"Record: PROTEUS v7 — 11L INT6 + LoRA TTT (mean val_bpb=0.9512, 3 seeds)","author":"MatoTeziTanka","status":"closed","is_record":false,"val_bpb":0.9512,"architecture":"Transformer","quantization":"INT6 uniform quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weight matrices"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash features in the model.","parameters":{"dimensions":128,"hash_size":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expansion MLP with relu² activation.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses RoPE with NTK-aware evaluation scaling.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":11,"last_fraction":0.2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"batch_size":64,"epochs":3,"chunk_size":256,"min_doc_len":512,"scope":"Q + V projections + LM head","per_document":true,"multi_epoch":true,"backward_looking":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used for model components."}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":0.3}}},{"category":"other","data":{"description":"Depth-scaled residual connections with attenuation 1/sqrt(layer_idx + 1) for stability.","parameters":{"layers":11}}},{"category":"other","data":{"description":"Fresh model copy used for TTT evaluation to avoid torch.compile graph caching.","parameters":null}}],"compression":"zstd-22","novel_contributions":["INT6 uniform quantization for all weight matrices with low quantization gap","Depth-scaled residual connections for 11-layer stability","Backward-looking LoRA test-time training with per-document adaptation","Fresh model copy during TTT evaluation to avoid torch.compile graph caching","Multi-epoch TTT with scoring on the final pass","Skipping TTT for short documents under 512 tokens"],"artifact_size":"~15.4 MB"},{"pr_number":515,"title":"Record: Atris Labs — 3-seed mean val_bpb=1.1807, 10L MLP3x Int5/Int6 BigramHash SmearGate SWA","author":"keshav55","status":"open","is_record":false,"val_bpb":1.1807,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x hidden dimension (1536 hidden), 10 transformer layers, 512 dim, GQA (8/4 heads)","parameters":{"layers":10,"mlp_hidden":1536,"embedding_dim":512,"GQA_heads":"8/4"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"XOR hash of token pairs to 128-dim embedding with projection","parameters":{"hash_size":10240,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learned gate blending current and previous token","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"tied_embed_lr":0.03}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":24,"phase":"warmdown"}}},{"category":"quantization","data":{"method":"int5/int6","bits":null,"scope":"MLP weights (int5), attention weights (int6, per-row scale)"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings passthrough"}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruning_amount":"3%"}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":"zlib","novel_contributions":["Use of BigramHash embedding with XOR hash of token pairs","SmearGate: per-dimension learned gating blending current and previous token","Mixed precision quantization with Int5 for MLP weights and Int6 for attention weights","Use of Muon optimizer with tuned learning rates and momentum","SWA weight averaging over 24 checkpoints during warmdown","Extended evaluation context to 2048 tokens with RoPE extrapolation","QAT-aware training reducing quantization degradation","3% magnitude pruning combined with quantization and compression to fit artifact size"],"artifact_size":"14.6MB"},{"pr_number":516,"title":"Record: 11L NonTTT VR+GA MixedInt5/6: val_bpb=1.1428 (3-seed, 8xH100)","author":"Asukabot0","status":"closed","is_record":false,"val_bpb":1.1428,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Value Residual (ResFormer)","description":"Caches layer-0 value vectors and mixes them into subsequent layers via learnable lambda.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gate on attention output to suppress attention sinks.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA4 attention variant in the base configuration.","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimension.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP width configuration.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP middle layers int5; edge layers and attention int6"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"none","parameters":null}},{"category":"regularization","data":{"method":"EMA weights, LN Scale","parameters":{"ln_scale":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}}],"compression":"zstd-22","novel_contributions":["Non-TTT training and evaluation pipeline","Value Residual (ResFormer) integration","Gated Attention to suppress attention sinks","Mixed int5/int6 quantization for better compression","Sliding window evaluation with stride 64","EMA-weighted export"],"artifact_size":"16,203,334 bytes"},{"pr_number":517,"title":"Record*: val_bpb=0.978 BPB — Goldfish ML Autonomous Research (100ep Cosine *leaky* TTT)","author":"lukacf","status":"closed","is_record":false,"val_bpb":0.9789,"architecture":"Transformer","quantization":"int6+zstd","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating component in the baseline architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash module used in the baseline architecture.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":100,"learning_rate":0.001,"lr_min":0.00001,"scheduler":"cosine annealing"}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"t_max":100,"eta_min":0.00001}}},{"category":"other","data":{"description":"Autonomous AI-driven research workflow with experiment provenance tracking and iterative hypothesis testing.","parameters":{"experiments":7,"wall_clock_hours":2}}}],"compression":"zstd","novel_contributions":["Applied CosineAnnealingLR to TTT to prevent position-specific overfitting and enable longer TTT runs.","Achieved 100-epoch test-time training with cosine decay, improving val_bpb to 0.9789.","Used an autonomous AI research workflow to run hypothesis, implementation, experimentation, and analysis without human intervention on training code.","Documented experiment lineage and dead-end explorations with provenance tracking.","Demonstrated that cosine-scheduled TTT scales better than constant learning rate TTT."],"artifact_size":"15.51 MB"},{"pr_number":518,"title":"Record: 11L XSA4 + LeakyReLU(0.5)² + Cosine TTT 50ep (val_bpb=1.0622)","author":"sofiabod","status":"closed","is_record":false,"val_bpb":1.0622,"architecture":"Transformer","quantization":"Int6 + GPTQ-lite + zstd-22","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention variant applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP widened to 3x","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":{"vocab_size":1024}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature/module used in the model","parameters":{"hash_size":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization used for some layers","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 module applied to layers 9 and 10","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections added in a U-Net style","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)²","description":"LeakyReLU squared activation replacing ReLU² to preserve negative gradient flow","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0005}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"epochs":50,"formula":"lr *= 0.5 * (1 + cos(pi * progress))"}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":50,"learning_rate":0.0005,"weight_decay":0,"all_parameters_unfrozen":true,"per_layer_lr":{"mlp.proj":3,"mlp.fc":0.5},"grad_clip":1,"ddp_gradient_sync":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"tight"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5)² activation replacing ReLU²","50-epoch cosine test-time training with per-layer learning-rate groups","Improved validation BPB to 1.0622, beating prior best validated score","Combination of full #414 frontier stack with the new activation and TTT recipe"],"artifact_size":null},{"pr_number":525,"title":"Non-record: 10L + Batched LoRA TTT (val_bpb=1.1160)","author":"hypery11","status":"open","is_record":false,"val_bpb":1.116,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with improved activations","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 heads / 4 KV heads (GQA)","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"tied embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon + AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"scope":"Q/V/LM-head, all layers","batch_size":64,"reset":"per-document","chunk_size":256,"epochs":3,"score_on":"final epoch"}}}],"compression":"zstd-22","novel_contributions":["Batched per-document LoRA test-time training (TTT) with rank-8 LoRA on Q/V/LM-head across all layers","Mixed int5/int6 quantization combined with zstd-22 compression","Use of Muon optimizer combined with AdamW and EMA weight averaging","Architecture modifications including 10 layers, 512 dimension, 8/4 GQA heads, 3x MLP expansion, U-Net skip connections, and tied embeddings","Per-document reset during LoRA TTT with 64 documents batched in parallel and 256-token chunks"],"artifact_size":"15.75 MB"},{"pr_number":526,"title":"Non-record: 11L + 30-Epoch Legal TTT (BPB 1.14252)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.14252,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"SGD with momentum","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"11 logical layers with 10 unique BlockCores reused at different depths with independent normalization","parameters":{"logical_layers":11,"unique_layers":10}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Position Embeddings applied to only 16 of 64 dimensions per head with NTK-aware scaling","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"128-dim learned value embeddings added to value projection on layers 9 and 10","parameters":{"layers":[9,10],"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SwiGLU-style activation with gating","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embeddings with 2048 features","parameters":{"features":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Layer-Norm Scale","description":"Layer-wise scaling of residual outputs by 1/sqrt(layer_idx + 1)","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":4650,"checkpoints":12}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","momentum":0.9,"learning_rate":0.002,"epochs_per_chunk":30,"chunk_size":32768,"frozen_blocks":2,"trainable_params":19911748}}},{"category":"regularization","data":{"method":"freeze early layers","parameters":{"frozen_blocks":2}}},{"category":"other","data":{"description":"Legal score-first TTT protocol using torch.inference_mode() to prevent gradient leakage during scoring","parameters":null}}],"compression":"zstd-22","novel_contributions":["Demonstrated large TTT gains by increasing SGD epochs per chunk from 3 to 30 in legal score-first TTT","Showed SGD with momentum outperforms AdamW for legal TTT due to better convergence with limited steps per chunk","Introduced depth recurrence with 11 logical layers but only 10 unique BlockCores to save parameters","Applied Partial RoPE to only 16 of 64 dimensions per head with NTK-aware scaling for better length generalization","Added 128-dim value embeddings only on deep layers (9 and 10) to bypass residual bottleneck","Used layer-norm depth scaling to stabilize training under depth recurrence","Implemented legal score-first TTT protocol strictly enforcing scoring before training with torch.inference_mode()","Freezing first 2 blocks during TTT to prevent catastrophic overfitting and improve adaptation"],"artifact_size":"15.48 MB"},{"pr_number":527,"title":"Submit 1x A100 QAT Fix - 1.4078 BPB (Non-Record)","author":"Shuvam-Banerji-Seal","status":"open","is_record":false,"val_bpb":1.4078,"architecture":"Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"custom tuning from multi-device to single-device scale","parameters":null}},{"category":"other","data":{"description":"Replaced torch.quantile with w.abs().amax(dim=1).clamp_min to avoid 30x compiler performance penalty in Triton","parameters":null}}],"compression":"zstd","novel_contributions":["Tuned hyperparameters from multi-device to single-device (1x A100) scale to ensure proper learning rate scheduling and fit within 10-minute training constraint","Replaced torch.quantile with w.abs().amax(dim=1).clamp_min in CastedLinear to bypass a severe 30x GPU performance penalty caused by Triton compiler","Constrained gradient accumulation size to 131K tokens to allow 2600 descending iterations and proper LR decay schedule","Used int6 quantization-aware training (QAT) to reduce artifact size while maintaining performance","Graceful termination into SWA and final sliding-window evaluation"],"artifact_size":"15.77 MB"},{"pr_number":528,"title":"Record: GPTQ + Legal TTT (3-seed mean val_bpb=1.1195)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1195,"architecture":"Transformer","quantization":"GPTQ + early QAT + int6","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all layers in the model","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate with OrthoInit","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with shared VE128 in later layers","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x relu²","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0001}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs_per_chunk":3,"learning_rate":0.0001,"weight_decay":0}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate"}},{"category":"sequence_length","data":{"train_length":131072,"eval_length":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Early QAT with threshold 0.5 and 0.9995 percentile clipping before GPTQ","parameters":{"threshold":0.5,"clipping_percentile":0.9995}}},{"category":"other","data":{"description":"2% magnitude pruning","parameters":{"sparsity":0.02}}}],"compression":"zstd-22","novel_contributions":["GPTQ quantization with Hessian-aware error compensation and column reordering","Early QAT with threshold 0.5 and longer adaptation to quantization noise","EMA decay tuned to 0.997","Legal score-first TTT where each token is scored before any gradient update using it","Sliding-window evaluation with stride 32","2% magnitude pruning and zstd-22 compression"],"artifact_size":"15.96 MB"},{"pr_number":529,"title":"Record: GPTQ + Legal TTT (3-seed mean val_bpb=1.1195)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1195,"architecture":"Transformer","quantization":"int6 QAT + GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate with OrthoInit","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with shared VE128 in later layers","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x relu²","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0001}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs_per_chunk":3,"chunk_size":131072,"stride":32,"learning_rate":0.0001,"weight_decay":0}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"sequence_length","data":{"train_length":131072,"eval_length":null}},{"category":"other","data":{"description":"Early QAT with threshold 0.5 using fake int6 STE and percentile clipping before GPTQ","parameters":{"threshold":0.5,"clip_percentile":0.9995}}},{"category":"other","data":{"description":"Manual gradient all_reduce without DDP wrapper","parameters":null}}],"compression":"zstd-22","novel_contributions":["GPTQ quantization with Hessian-aware error compensation, column reordering, and 256-sample calibration","Early QAT with threshold 0.5 and longer adaptation to quantization noise","EMA tuned to 0.997","Legal score-first TTT where each token is scored before any gradient update using it","Manual gradient all_reduce without a DDP wrapper"],"artifact_size":"15.96 MB"},{"pr_number":530,"title":"Non-record: Basis Block Interpolation (novel negative result) + Hyperparameter Sweep (MATRIX_LR=0.03 improves SOTA by 0.059 bpb)","author":"j420","status":"open","is_record":false,"val_bpb":1.4963,"architecture":"Transformer","quantization":"int5","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Basis Block Interpolation stores K basis transformer blocks and reuses them across N effective layers with learned depth embeddings to create more effective layers with fewer parameters.","parameters":{"basis_blocks":5,"unrolls":3,"effective_layers":15,"dim":576}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":0.995,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.3}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay_values_tested":[0.02,0.06]}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"EVAL_STRIDE":0,"description":"Standard evaluation, not sliding window, for fast iteration"}}}],"compression":null,"novel_contributions":["Basis Block Interpolation (BBI): a novel architecture that reuses a small set of basis transformer blocks with learned depth embeddings to create more effective layers, documented as an informative negative result due to torch.compile speed bottleneck.","Systematic hyperparameter sweep on SOTA model identifying MATRIX_LR=0.03 as a significant improvement over default 0.02, improving val_bpb by 0.059."],"artifact_size":"10.88MB"},{"pr_number":531,"title":"Record: 11L + XSA4 + EMA + Late QAT + GPTQ-lite (1.1325 BPB)","author":"pragnyanramtha","status":"open","is_record":false,"val_bpb":1.13243,"architecture":"GPT with GQA (8 heads, 4 KV heads)","quantization":"mixed int6/int5/int8 with GPTQ-lite and QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA4","description":"Cross-layer Shared Attention with post-attention geometric subtraction on last 4 layers to save parameters","parameters":{"layers":4,"active_layers":[7,8,9,10]}}},{"category":"architecture_modification","data":{"component":"Layer count","description":"Increased number of layers from 9 to 11 (5 encoder + 6 decoder with skip connections)","parameters":{"num_layers":11,"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped Query Attention with 8 heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Embeddings","description":"Tied embeddings with Bigram hash","parameters":{"vocab_size":10240,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"Attention","description":"Flash Attention 3 with RoPE and SmearGate","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"start_step":0,"duration":"full training"}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"weights during backward pass when LR < 15% peak"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"attention layers int6, MLP int5, rest int8 or pass-through"}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"warmup_steps":20}}},{"category":"optimizer_technique","data":{"method":"Muon + AdamW","weight_decay":null,"momentum":null,"other_params":{"lr_matrix":0.02,"lr_embedding":0.03,"lr_scalar":0.02,"grad_accum_steps":8}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"other","data":{"description":"Compile with fullgraph=True to enable full-graph compilation without graph breaks, saving compilation overhead and enabling more training steps","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd","novel_contributions":["XSA4: Cross-layer Shared Attention with zero new parameters via geometric subtraction on last 4 layers to save ~800K parameters","Increasing model depth to 11 layers enabled by XSA4 parameter savings to fit 16MB budget","Full-duration EMA with decay 0.997 maintaining float32 running average on CPU applied at end of training","Late Quantization-Aware Training (QAT) activating only when learning rate drops below 15% of peak, quantizing weights to int6 during backward pass","GPTQ-lite with 5-percentile MSE search for optimal clipping levels applied selectively to attention and MLP layers","Fullgraph=True compilation enabled by subclass design to avoid graph breaks, improving compilation speed and allowing more training steps within time budget"],"artifact_size":"16.9-17.4 MB"},{"pr_number":532,"title":"Record: pcloadloveletter v6 — Novel Codebook+Huffman Compression + AdamW TTT (val_bpb=1.0487)","author":"NotADevIAmaMeatPopsicle","status":"closed","is_record":false,"val_bpb":1.0487,"architecture":"Transformer","quantization":"custom codebook quantization + Huffman compression; fp16 tied embeddings; int8 per-row for remaining weights","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int8/fp16 with custom codebook quantization","bits":8,"scope":"all weights except tied embeddings; per-tensor codebook levels for MLP/QKV/proj"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied; token embedding kept in fp16 in the submission README.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings between token embedding and output projection.","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.03,"ema_decay":0.997,"hybrid_with":"NorMuon"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"custom","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"AdamW TTT","parameters":{"epochs":10,"learning_rate":0.001,"grad_clip":1,"all_params_unfrozen":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"ttt_epochs":10}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Codebook quantization with per-tensor k-means codebooks and Huffman entropy coding of indices, followed by zstd-22 final compression.","parameters":{"codebook_sizes":{"mlp":48,"qkv":80,"proj":64}}}}],"compression":"zstd-22","novel_contributions":["Per-tensor k-means codebook quantization tuned across multiple experiments","Huffman entropy coding of codebook indices to exploit non-uniform distributions","Custom PCLL binary format with final zstd-22 compression","AdamW test-time training with per-layer learning-rate groups","Combining codebook compression with Huffman coding to make the artifact fit under the 16 MB cap"],"artifact_size":"14.12 MB"},{"pr_number":533,"title":"GPTQ + Short TTT — val_bpb 1.1207 (seed 1337)","author":"newjordan","status":"closed","is_record":false,"val_bpb":1.1207,"architecture":"Transformer","quantization":"int6 GPTQ","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers as part of the custom transformer architecture.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the MLP blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings partially with a 16/64 setting.","parameters":{"numerator":16,"denominator":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP expansion with relu² activation.","parameters":{"expansion":3}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":null,"other_params":{"lr":0.002}}},{"category":"test_time_training","data":{"method":"SGD TTT","parameters":{"learning_rate":0.002,"epochs":3,"freeze_blocks":2,"max_train_chunks":50,"ema_decay":0}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":32}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal weight initialization used in the base architecture."}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["Short TTT with SGD, no EMA, and only 50 training chunks to avoid late-chunk degradation","Proper zstd-22 compression to reduce artifact size","Disabled int8_sensitive to stay within the 16MB artifact limit","Maintained the same GPTQ pipeline and base architecture while slightly improving val_bpb"],"artifact_size":"15.60 MB"},{"pr_number":534,"title":"Non-record: 11L Partial RoPE + XSA4 + VE128 + Tight SWA + GPTQ-lite (val_bpb=1.1804)","author":"rarce","status":"closed","is_record":false,"val_bpb":1.1804,"architecture":"Transformer","quantization":"GPTQ-lite with mixed int6/int8","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to only part of the head dimensions, leaving the rest position-free.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_rule":"1/sqrt(i+1)"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"GQA-aware self-value debiasing applied to the last layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Shared value embedding injection across selected layers.","parameters":{"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"scale_threshold":0.2}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"late training"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP width","description":"Reduced MLP hidden size to 1408 to fit within the artifact budget and allow more training steps.","parameters":{"hidden_size":1408}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"layers 1-9 int6, layers 0 and 10 int8"}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["MLP hidden size reduced from 1536 to 1408 to fit under the 16MB limit.","Narrower MLP enabled 33% more training steps within the same time budget.","Combination of frontier techniques from prior PRs with GPTQ-lite quantization."],"artifact_size":"15.95 MB"},{"pr_number":535,"title":"Record: 11L LeakyReLU² + Full GPTQ + QAT Alignment (val_bpb: 1.1204)","author":"raahilshah","status":"open","is_record":false,"val_bpb":1.1204,"architecture":"Transformer","quantization":"Full GPTQ int6 per-row with Hessian calibration and quantile(0.9995) clipping","optimizer":"Muon (matrices) and AdamW (embeddings and scalars)","training_techniques":[{"category":"quantization","data":{"method":"Full GPTQ","bits":6,"scope":"all weights except small tensors and tok_emb.weight (fp16)"}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)² activation","description":"Replaces relu² in MLP to prevent dead neurons and double effective MLP capacity","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Exclusive Self-Attention on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial Rotary Positional Embeddings with NTK-aware scaling","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale factor 1/sqrt(layer_idx+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Temporal gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets and 128-dim embedding","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"U-Net style skip connections with 5 encoder and 6 decoder skips","parameters":{"encoder_skips":5,"decoder_skips":6}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential Moving Average with decay 0.997","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":{"frequency_steps":50,"scale_threshold":0.2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"scope":"matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025,"scope":"embeddings and scalars"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_value":0.3}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"quantization","data":{"method":"QAT-export alignment","bits":6,"scope":"per-row clipping with quantile(0.9995) in STE and export quantizer"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"none","parameters":null}},{"category":"initialization","data":{"method":"Orthogonal init","description":null}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5)² activation replacing relu² to prevent dead neurons and double effective MLP capacity","Full GPTQ quantization with Hessian calibration reducing quantization gap by 31%","QAT-export alignment using quantile(0.9995) clipping to match STE fake-quantizer and export quantizer"],"artifact_size":"15.85 MB"},{"pr_number":536,"title":"Non-record: Family 1A tied blocks (1xH100 dev snapshot)","author":"jaksenc","status":"open","is_record":false,"val_bpb":1.51402594,"architecture":"Transformer","quantization":"int8","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied transformer block weights across layers with per-layer norms and gates unchanged (Family 1A)","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon + AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_value":1,"type":"global"}}},{"category":"lr_schedule","data":{"method":"linear warmup","parameters":{"warmup_steps":30}}}],"compression":"zlib","novel_contributions":["Reproducible snapshot of Family 1 / Batch 1A with tied transformer block weights","Stable training recipe including global grad clip 1.0 and 30-step linear data warmup","Use of Muon + AdamW optimizer combination as in train_gpt.py","Submission targets a 1×GPU 600s wallclock cap run, not the official 8×H100 10-minute record track"],"artifact_size":"2,033,640 bytes"},{"pr_number":537,"title":"Non-Record: BPB 1.13872 — LeakyReLU(0.5)² + Per-Layer LR Legal TTT (3 seeds)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.13872,"architecture":"Transformer (11L depth recurrence with 10 unique BlockCores, LeakyReLU(0.5)² MLP)","quantization":"int6 QAT with zstd-22 compression","optimizer":"Muon (hidden/attn) + Adam (embeddings/scalars) for training; SGD with momentum=0.9 for TTT","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)² MLP","description":"Replaced ReLU² with LeakyReLU(0.5)² activation in MLP to preserve negative gradient flow and improve pre-TTT BPB","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"11 logical layers with 10 unique shared BlockCores for weight-efficient depth","parameters":{"layers":11,"unique_layers":10}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings with NTK-aware scaling","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"128-dimensional value embeddings applied on layers 9-10 with per-layer scale initialization","parameters":{"dimensions":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-mixing gate applied on input embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 features and 128-dimensional embeddings","parameters":{"features":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Residual connections across layer pairs","parameters":null}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale with 1/sqrt(layer+1) depth scaling","parameters":null}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all model weights"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":4650}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","momentum":0.9,"base_learning_rate":0.002,"per_layer_lr":{"mlp.proj":3,"mlp.fc":0.5},"intra_chunk_cosine_decay":true,"epochs_per_chunk":30,"chunk_size_tokens":32768,"stride":64,"frozen_blocks":2,"trainable_params":19911748,"total_params":24634452}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"intra_chunk":true,"inter_chunk":true,"formula":"0.5 × (1 + cos(π × step / total_steps))"}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":null,"momentum":null,"other_params":{"Muon":"used for hidden and attention parameters","Adam":"used for embeddings and scalar parameters"}}}],"compression":"zstd-22","novel_contributions":["Use of LeakyReLU(0.5)² activation in MLP replacing ReLU² to improve pre-TTT BPB by ~0.0035","Application of per-layer learning rates during test-time training (TTT) with mlp.proj at 3× LR and mlp.fc at 0.5× LR","Intra-chunk cosine learning rate decay within each chunk's 30 TTT epochs","Integration of legal score-first TTT protocol with freezing first 2 blocks and 30 epochs per chunk","Demonstration that TTT modifications (per-layer LR and intra-chunk cosine) did not improve TTT gain in this architecture, with all final BPB improvement coming from pre-TTT model changes"],"artifact_size":"15.36 MB"},{"pr_number":538,"title":"FP8 + Arithmetic Coding + SWA (1.1511 BPB)","author":"cruz-andr","status":"open","is_record":false,"val_bpb":1.1511,"architecture":"Transformer","quantization":"FP8 training via TransformerEngine (E4M3 fwd / E5M2 bwd)","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"fp8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate + BigramHash","description":"SmearGate gating mechanism and BigramHash embedding with vocab size 10240 and dim 128","parameters":{"layers":10,"dimensions":512,"mlp_multiplier":3,"bigram_vocab_size":10240,"bigram_dim":128,"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":4500,"checkpoint_interval":50}}},{"category":"compression","data":{"method":"custom","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP-scaled output projections"}},{"category":"other","data":{"description":"TF32 matmul precision for non-FP8 operations","parameters":null}}],"compression":"custom arithmetic coder replacing zstd-22","novel_contributions":["FP8 training using TransformerEngine with hybrid E4M3 forward and E5M2 backward formats for increased throughput","Custom pure Python 32-bit integer arithmetic coder exploiting per-tensor empirical histograms to approach Shannon entropy, replacing zstd-22","Early start of Stochastic Weight Averaging at step 4500 for more averaging during warmdown","Use of TF32 precision for matmul operations outside FP8","Architecture modifications including SmearGate and BigramHash embeddings with large vocab size","FP8Linear wrapper isolating Muon optimizer from TransformerEngine's internal weight caches","Custom binary format eliminating torch.save pickle overhead"],"artifact_size":null},{"pr_number":542,"title":"Non-Record: DG Attention, Differential-Gated Attention with Depth-Scheduled Novelty Encoding: (val_bpb=1.1898)","author":"ddavidgao","status":"open","is_record":false,"val_bpb":1.1898,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"DG Attention","description":"Novel attention mechanism where deep layers transmit the novelty (difference) of token values relative to a causal baseline instead of raw content, with a depth schedule hardcoded for β gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"Flash Attention","description":"Use of Flash Attention (F.scaled_dot_product_attention) for efficient scaled dot-product attention in the asymmetric Designator projections.","parameters":null}},{"category":"other","data":{"description":"Depth-scheduled gating of payload between raw content and differential signal using learned or hardcoded β per layer to encode novelty in deep layers.","parameters":null}}],"compression":null,"novel_contributions":["Introduction of Differential-Gated (DG) Attention where deep layers transmit novelty (difference) of token values relative to a causal running baseline instead of raw content.","Asymmetric Designator (D_q/D_k) projections for matching tokens, distinct from standard QKV attention.","Empirically discovered and hardcoded depth schedule for β gating to control mixture of raw content and differential signal per layer, preventing gate collapse.","Use of Flash Attention for efficient scaled dot-product attention in the DG mechanism.","Demonstration that differential payload encoding leads to a durable advantage in bits-per-byte (BPB) after mid-training despite initial slower convergence.","Distinction from Microsoft's Differential Transformer by differencing value payloads rather than attention score maps.","Hybrid payload formulation combining raw content and differential signal with learned β gating per layer.","Empirical analysis of β trajectories under different batch sizes and training conditions, motivating architectural hardcoding of depth schedule."],"artifact_size":"16.6MB"},{"pr_number":543,"title":"Non-record: 11L Partial RoPE + XSA4 + VE128 + Tight SWA + GPTQ-lite (val_bpb=1.1804)","author":"rarce","status":"open","is_record":false,"val_bpb":1.1804,"architecture":"Transformer","quantization":"mixed int6/int8 with GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8 with GPTQ-lite","bits":null,"scope":"layers 1-9 int6, layers 0 and 10 int8, FP16 embeddings"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Position-free 75% of head dims, rotary embeddings on 16/64 dims","parameters":{"rotary_dims":16,"total_dims":64,"position_free_ratio":0.75}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm output scaled by 1/sqrt(layer_idx+1) to damp deeper layers","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention on last 4 layers removes self-value bias via GQA-aware orthogonal projection","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Shared VE128","description":"Value embedding injection shared across layers 9 and 10","parameters":{"embedding_dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dim gate blending current and previous token embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"5 encoder and 6 decoder skip connections","parameters":{"encoder_skips":5,"decoder_skips":6}}},{"category":"architecture_modification","data":{"component":"Tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP hidden size","description":"Reduced MLP hidden dimension to 1408 for faster training and artifact size fit","parameters":{"hidden_dim":1408}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"momentum_warmup":"0.92 to 0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"embed_lr":0.035,"scalar_lr":0.025}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":{"scale_threshold":0.2,"checkpoints_averaged":6,"checkpoint_interval":50,"quality_penalty":"zero"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"grad_clip":0.3}}},{"category":"lr_schedule","data":{"method":"Late QAT","parameters":{"activation_lr_scale_threshold":0.1,"step_activated":4070,"lr_halved_on_activation":true}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["MLP hidden=1408 vs 1536: narrower MLP fits in 16MB artifact size while enabling ~33% more training steps, resulting in better val_bpb despite reduced per-step capacity","Tight SWA with scale threshold <0.2 eliminates quality penalty seen in standard SWA","Late QAT activation timing at lr_scale <0.1 avoids disrupting Muon momentum and provides minimal but effective quantization-aware training adaptation","GPTQ-lite clip ratio search is a zero training cost method that improves quantization reconstruction error by selecting optimal per-tensor clipping"],"artifact_size":"15.95MB"},{"pr_number":544,"title":"int5 GPTQ + 33.6M model: 1.1179 BPB (3-seed mean)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1179,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int5 GPTQ","bits":5,"scope":"per-row all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding/hash component","parameters":{"dimensions":8192}}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Expanded MLP width to 3.5x","parameters":{"hidden_size":1792}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"score_first":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":5450}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first AdamW TTT","parameters":{"chunk_tokens":131072,"epochs":3,"learning_rate":0.0001,"freeze_blocks":2,"stride":32}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pct":0.02}}},{"category":"quantization","data":{"method":"Early QAT","bits":null,"scope":"all"}}],"compression":"zstd","novel_contributions":["First submission to achieve int5 quantization on a 33.6M model within the artifact size limit","GPTQ error compensation for int5 per-row quantization","Early QAT with threshold 0.5 and EMA 0.997","Legal score-first AdamW test-time training with last 2 blocks unfrozen","Use of XSA across all layers and BigramHash 8192 architecture"],"artifact_size":"15.53 MB"},{"pr_number":545,"title":"Record: int5 GPTQ + 33.6M model (3-seed mean val_bpb=1.1179)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1179,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all weights"}},{"category":"quantization","data":{"method":"QAT","bits":5,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash token feature/module","parameters":{"dimensions":8192}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"train_length":null,"eval_length":null}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 attention heads / 8 KV heads","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Expanded MLP width to 3.5x hidden size","parameters":{"hidden_size":512,"mlp_size":1792}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0001}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"chunk_tokens":131072,"freeze_blocks":2,"optimizer":"AdamW"}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Used for model initialization"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}}],"compression":"zstd-22","novel_contributions":["First submission to achieve int5 quantization on a 33.6M model within the artifact size limit","GPTQ error compensation enabling near-lossless int5 quantization","Legal score-first test-time training where tokens are scored before any gradient update","33.6M parameter architecture with full attention and BigramHash under the 16MB limit"],"artifact_size":"15.53 MB"},{"pr_number":546,"title":"Int5/Int6+Zstd+MLP3x: mean val_bpb=1.1752 (10L, seq4096, sliding window)","author":"shajalahamedcse","status":"closed","is_record":false,"val_bpb":1.1752,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP matrices"}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":6,"scope":"attention matrices"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size from 1024 to 1536 using savings from quantization.","parameters":{"hidden":1536,"baseline_hidden":1024}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"matrix_lr":0.04}}},{"category":"initialization","data":{"method":"Overtone init","description":null}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":"zstd","novel_contributions":["Int5 quantization for MLP matrices to free artifact space","Int6 quantization for attention matrices","Zstd compression of quantized integer arrays","3x MLP expansion enabled by quantization savings","Training on 4096-token sequences","Sliding window evaluation with stride 64"],"artifact_size":"15,708,798 B"},{"pr_number":547,"title":"Record: Int5/Int6+Zstd+MLP3x — mean val_bpb=1.1752 (10L, seq4096, sliding window)","author":"shajalahamedcse","status":"open","is_record":false,"val_bpb":1.1752,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5/int6","bits":null,"scope":"MLP matrices (int5), attention matrices (int6), embeddings (int6)"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion of MLP hidden units from baseline 1024 to 1536 enabled by quantization savings","parameters":{"mlp_hidden_units":1536,"expansion_factor":3}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3600}}}],"compression":"zstd","novel_contributions":["Int5 quantization for MLP weight matrices enabling ~1.5MB savings","Int6 quantization for attention matrices balancing precision and size","Use of zstd compression replacing zlib for better compression ratio on quantized integer arrays","3x MLP expansion (hidden=1536) funded by quantization savings without exceeding 16MB artifact size","Training with sequence length 4096 and sliding window evaluation with stride 64 for full context scoring"],"artifact_size":"≤ 16,000,000 B"},{"pr_number":548,"title":"Record: Loqui Auris — 10L + LoRA TTT (mean val_bpb=1.0865, 2 seeds)","author":"LoquiAuris","status":"closed","is_record":false,"val_bpb":1.0865,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned blend with previous token representation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 4096 buckets projected into model dimension.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x feed-forward expansion in the MLP.","parameters":{"layers":10,"d_model":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / LM head via linear projection using token embedding weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional encoding.","parameters":{"persistent":false}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections between symmetric layer pairs.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum_start":0.92,"warmup_steps":1500,"adamw_weight_decay":0.01}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP and attention weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"targets":["Q","V","LM head"],"epochs":2}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmup + warmdown cosine schedule","parameters":{"warmup_steps":20,"warmdown_iterations":3000}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}}],"compression":"zstd-22","novel_contributions":["10-layer Transformer with SmearGate, BigramHash, and U-Net skip connections","EMA weight averaging with decay 0.997","Per-document LoRA test-time training on Q, V, and LM head","Batched TTT across 64 documents per GPU on 8 GPUs","Fix for torch.compile graph caching by resetting Dynamo and using a fresh uncompiled model for TTT","Int6 quantization of MLP and attention weights with zstd compression"],"artifact_size":"15.81 MB"},{"pr_number":549,"title":"Record: LeakyReLU² + Legal Score-First TTT + Parallel Muon — val_bpb 1.1194 (3-seed mean)","author":"abaybektursun","status":"closed","is_record":true,"val_bpb":1.1194,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP stack using LeakyReLU(0.5)^2 activation.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash token feature embedding.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50,"tight":true}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32768,"epochs":3,"learning_rate":0.002,"momentum":0.9,"freeze_blocks":0,"gradient_clip":1,"legal":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Parameter Banking with batched Newton-Schulz orthogonalization and async reduce-scatter/all-gather to speed up training.","parameters":{"step_time_ms":83.4}}}],"compression":"lzma","novel_contributions":["LeakyReLU(0.5)^2 activation replacing standard relu^2","Legal score-first test-time training under torch.inference_mode()","Parallel Muon / Parameter Banking optimizer stack","All-block-unfrozen TTT adaptation (freeze=0) with 3 epochs","GPTQ-lite int6 quantization with lzma compression"],"artifact_size":"~15.95 MB"},{"pr_number":550,"title":"11L INT6 + Backward-Looking Per-Document LoRA TTT","author":"haimianbaobao007","status":"open","is_record":false,"val_bpb":1.189,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"INT6 QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 4096 buckets and 128 embedding dimension","parameters":{"buckets":4096,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate mechanism applied","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the transformer","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion","parameters":{"expansion_factor":3}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2 activation","description":"LeakyReLU with negative slope 0.5 squared to preserve negative gradient flow","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":null,"momentum":null,"other_params":{"Muon_scope":"matrices","Adam_scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"auto warmdown","parameters":{"warmdown_fraction":0.15}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"target":"attention Q and V projections","epochs_per_document":10,"learning_rate_decay":"cosine decay from 0.01 to 0.0001","mode":"backward-looking (score-first)","per_document_reset":true,"last_chunk_no_train":true,"documents_less_than_512_tokens_no_TTT":true}}}],"compression":null,"novel_contributions":["Backward-looking (score-first) per-document LoRA test-time training","Use of LoRA with rank 8 to constrain adaptation subspace and prevent overfitting on quantized models","Per-document independent LoRA with reset between documents to avoid cross-contamination","INT6 quantization-aware training (QAT) applied uniformly","Combination of Muon optimizer for matrices and Adam for scalars","LeakyReLU(0.5)^2 activation to preserve negative gradient flow","U-Net style skip connections in transformer architecture"],"artifact_size":"11MB"},{"pr_number":552,"title":"Non-record subimission: RecurrentTiedDepth_8x2_FiLM records","author":"loveless2001","status":"open","is_record":false,"val_bpb":1.1634,"architecture":"Transformer with recurrent tied-depth and FiLM conditioning","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"8 unique transformer blocks looped 2 times (16 effective layers) with FiLM scale/shift conditioning per iteration","parameters":{"unique_blocks":8,"loops":2,"effective_layers":16}}},{"category":"architecture_modification","data":{"component":"FiLM conditioning","description":"Learned scale and shift parameters per loop iteration to condition the recurrent blocks","parameters":{"params_count":3072}}},{"category":"architecture_modification","data":{"component":"BigramHash + TrigramHash","description":"Hashed 2- and 3-token lexical sidecars for richer local context","parameters":{"bigram_vocab_size":20480,"trigram_vocab_size":8192}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Collect skip connections during loop 0 and inject during loop 1","parameters":null}},{"category":"architecture_modification","data":{"component":"activation","description":"LeakyReLU(0.5) squared activation in MLP","parameters":{"activation":"LeakyReLU(0.5)^2"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV heads","description":"4 KV heads with GQA","parameters":{"kv_heads":4,"attention_heads":8}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":24}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Use of recurrent tied-depth transformer blocks (8 unique blocks looped 2 times) with FiLM conditioning per iteration","Augmentation with BigramHash and TrigramHash lexical sidecars for richer local context","Exploration of L(N) optimization frontier by reusing fewer parameters more times and allocating budget to lexical memory","Demonstration that trigram hashing provides the strongest lexical leverage with significant BPB improvement","Finding that recurrence is viable and stable with competitive BPB at smaller artifact sizes","Identification of failure modes for test-time training (TTT) and EMA in recurrent setups","Discovery of a sweet spot for hash table size where trigram 8192 outperforms 12288"],"artifact_size":"15.34MB"},{"pr_number":554,"title":"Non-record: 11L + XSA4 H100 frontier (1.4612 BPB legal)","author":"chrisnkuno","status":"open","is_record":false,"val_bpb":1.46120374,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer self-attention applied only in the final 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP activation","description":"ReLU squared activation in MLP layers","parameters":null}},{"category":"sequence_length","data":{"train_length":256,"eval_length":256}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":200}}},{"category":"compression","data":{"method":"custom packed_zstd","level":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":256}}},{"category":"other","data":{"description":"Checkpoint frontier saving every 25 steps","parameters":{"checkpoint_interval_steps":25}}}],"compression":"packed_zstd","novel_contributions":["Use of XSA (cross-layer self-attention) only in the final 4 layers of an 11-layer decoder-only transformer","ReLU^2 activation in MLP layers","Single H100 80GB hardware training with a 16MB artifact size submission","Custom packed serialization with packed_zstd compression","Checkpoint frontier saving every 25 steps","Demonstration that artifact size is the main bottleneck rather than raw BPB"],"artifact_size":"15,983,603 bytes"},{"pr_number":555,"title":"Add 11L Shared Sparse Sidecar + EMA + AdamW TTT (1.0916 mean)","author":"ymrohit","status":"closed","is_record":false,"val_bpb":1.09161722,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the donor trunk.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash in the donor trunk.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the donor trunk.","parameters":null}},{"category":"architecture_modification","data":{"component":"shared sparse sidecar","description":"A late-stage auxiliary sidecar reused across multiple late layers, with learned site embeddings and residual scales, implemented as gate -> value -> depthwise conv -> proj.","parameters":{"start_layer":8,"hidden_dim":48}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"test_time_training","data":{"method":"AdamW TTT","parameters":{"epochs":10}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"other","data":{"description":"Cloud-legal trimming to fit under the 16,000,000-byte cap by reducing sidecar width, bigram width, and wallclock budget.","parameters":{"sparse_hidden_dim":{"from":64,"to":48},"bigram_dim":{"from":128,"to":96},"max_wallclock_seconds":{"from":600,"to":596}}}}],"compression":"zstd","novel_contributions":["Shared sparse sidecar architecture injected only in late layers","Shared sidecar weights reused across multiple insertion sites","Learned site embeddings and learned residual scales for site-specific conditioning","Late local-refinement path implemented as gate -> value -> depthwise conv -> proj","Cloud-legal deployment of the sidecar under the 16MB artifact cap","3-seed cloud reproduction with mean val_bpb 1.09161722"],"artifact_size":"15,973,374 bytes"},{"pr_number":557,"title":"Non-record: 10L + Batched LoRA TTT (val_bpb=1.1160)","author":"hypery11","status":"open","is_record":false,"val_bpb":1.116,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP (int5), attention (int6)"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashing bigrams into 10240 buckets with 128 dim embeddings","parameters":{"buckets":10240,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism applied in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"value residual","description":"Residual connection on value vectors","parameters":null}},{"category":"architecture_modification","data":{"component":"gated attention","description":"Attention mechanism with gating","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x with LeakyReLU(0.5)^2","description":"Three-layer MLP with squared LeakyReLU activation","parameters":{"activation":"LeakyReLU(0.5)^2","layers":3}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net architecture","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"scope":"Q, V projections + LM head across all layers","batch_size":64,"per_document_reset":true,"optimizer":"Adam","adam_betas":[0.9,0.95],"chunk_size":256,"epochs":3,"scoring":"final epoch only","document_split":"BOS boundaries"}}}],"compression":"zstd-22","novel_contributions":["Batched per-document LoRA test-time training with rank-8 LoRA on Q/V/LM-head across all layers","64 documents batched in parallel for LoRA TTT with per-document fresh initialization and optimizer reset","Use of mixed int5 (MLP) and int6 (attention) quantization combined with zstd-22 compression","Architecture modifications including BigramHash, SmearGate, value residual, gated attention, U-Net skip connections, and 3x MLP with LeakyReLU(0.5)^2","EMA weight averaging with decay 0.995","Efficient training with Muon optimizer combined with AdamW"],"artifact_size":"15.75 MB"},{"pr_number":559,"title":"Non-record: TernaryRecurrentGPT - ternary 1.58-bit MLP + depth recurrence (1xL4 val_bpb=1.5348)","author":"Parswanadh","status":"open","is_record":false,"val_bpb":1.5348,"architecture":"TernaryRecurrentGPT","quantization":"ternary 1.58-bit STE QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":1,"scope":"MLP"}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"7 unique layers repeated in 2 loops for 14 effective depth","parameters":{"unique_layers":7,"loops":2,"effective_depth":14}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"FP16 tied embeddings","parameters":{"precision":"FP16"}}},{"category":"optimizer_technique","data":{"method":"Muon + AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_percent":40}}},{"category":"initialization","data":{"method":"loop gates initialized at 1.0","description":"Fixes failure mode in PR #319"}},{"category":"sequence_length","data":{"train_length":null,"eval_length":512}},{"category":"other","data":{"description":"Neural Cache disabled due to +0.028 bpb penalty at this scale","parameters":null}}],"compression":null,"novel_contributions":["Use of ternary 1.58-bit STE QAT quantization on MLP weights","Depth recurrence with 7 unique layers repeated twice for effective depth of 14","Loop gates initialized at 1.0 to fix failure mode","Integration of BigramHash with 2048 buckets and SmearGate","FP16 tied embeddings","Use of Muon optimizer combined with AdamW and weight decay 0.04","SWA weight averaging starting from 40% of training","Disabling Neural Cache due to negative impact on val_bpb at this scale"],"artifact_size":"12,372,468 bytes"},{"pr_number":560,"title":"Non-record: 1x RTX PRO 6000 Blackwell 10L Int5-MLP (1.1935 BPB)","author":"Rohan5commit","status":"open","is_record":false,"val_bpb":1.19349046,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Incorporates SmearGate component in the model architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash with 10240 buckets","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP layers","parameters":{"layers":10}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"late SWA"}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Portable AMP dtype selection with bf16 on newer CUDA GPUs and fp16 fallback on older GPUs","parameters":null}},{"category":"other","data":{"description":"SDPA backend probing with manual KV expansion fallback when native enable_gqa=True support is unavailable","parameters":null}},{"category":"other","data":{"description":"Optional LOAD_MODEL_PATH restore before torch.compile() to support eval-only reloads","parameters":null}},{"category":"other","data":{"description":"Single-GPU runtime tuning through environment variables: smaller batch size, longer wallclock, controllable sliding-window eval","parameters":{"train_batch_tokens":131072,"max_wallclock_seconds":2700,"eval_stride":64,"eval_batch_seqs":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":"zstd","novel_contributions":["Ported the merged 10L Int5MLP MuonWD04 SWA50 recipe to a single RTX PRO 6000 Blackwell GPU","Implemented portable AMP dtype selection with bf16 on newer GPUs and fp16 fallback on older GPUs","Added SDPA backend probing with manual KV expansion fallback for unsupported native enable_gqa=True","Enabled optional model restore before torch.compile() for eval-only reloads","Tuned single-GPU runtime with smaller batch size, longer wallclock, and controllable sliding-window evaluation","Maintained artifact size under 16MB with mixed int5/int6 quantization and zstd compression","Preserved most of the original architecture including 10 layers, 3x MLP, SmearGate, and BigramHash(10240)"],"artifact_size":"15,691,796 bytes"},{"pr_number":562,"title":"Non-record: 1.1354 BPB — 10L TTT 22ep AdamW Cosine + LeakyReLU(0.5)² + TrigramHash","author":"bigbag","status":"open","is_record":false,"val_bpb":1.1354,"architecture":"Transformer","quantization":"mixed int5 (MLP) / int6 (attention) + FP16 passthrough for embeddings","optimizer":"Muon (matrices) + AdamW (embeddings/scalars)","training_techniques":[{"category":"architecture_modification","data":{"component":"Value Residual","description":"ResFormer-style layer-0 V mixing","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"per-head sigmoid gates","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"cross self-attention on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)²","description":"activation preserving negative gradient flow, improves BPB by -0.003","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"extends BigramHash to 3-token context via XOR hashing into shared embedding table","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"additional gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"depth-scaled residuals","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"skip connections inspired by U-Net architecture","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"Newton-Schulz":"used for matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"used_for":"embeddings/scalars","TTT_lr":0.0005}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":27}}},{"category":"quantization","data":{"method":"mixed int5 (MLP) / int6 (attention) + GPTQ-lite per-row clip search + 3% magnitude pruning + FP16 passthrough for embeddings + zstd-22 compression","bits":null,"scope":"MLP, attention, embeddings"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":22,"optimizer":"AdamW","learning_rate":0.0005,"weight_decay":0,"lr_schedule":"per-step cosine decay to 0","per_layer_lr_groups":{"output_projections":3,"input_projections":0.5},"batch_size_per_gpu":32,"gradient_sync":"all_reduce per step","gradient_clipping":1,"TTT_time_seconds":406,"eval_time_seconds":197}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"per_step":true,"decay_to":0}}},{"category":"evaluation_technique","data":{"method":"sliding window eval + Test-Time Training (TTT)","parameters":{"TTT_epochs":22,"TTT_batch_size":32,"distributed_sync":"all_reduce per step"}}}],"compression":"zstd-22","novel_contributions":["Batched TTT with 32 sequences per GPU is ~500x faster than chunk-based TTT","Per-step cosine learning rate decay prevents overfitting at high epoch counts during TTT","Gradient synchronization per step (all_reduce on gradients) is critical for stable multi-GPU TTT","Per-layer learning rate groups compensate for uneven quantization damage, especially on output projections","LeakyReLU(0.5)² activation improves BPB by -0.003 compared to ReLU²","TrigramHash extends BigramHash context from 2 to 3 tokens using a shared embedding table with zero extra parameters"],"artifact_size":"15.35 MB"},{"pr_number":563,"title":"Add submission: 10L Enhanced with BigramHash(12240) + SOTA techniques","author":"instax-dutta","status":"open","is_record":false,"val_bpb":1.1428,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"int5 for MLP weights, int6 for attention weights, fp16 for tied embeddings and last-layer key projections"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash consecutive token pairs into a larger embedding table to reduce collisions","parameters":{"vocab_size":12288,"embedding_dim":128,"projection_dim":512}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Token-level recurrence for lightweight bigram signal","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3× expansion and ReLU² activation","parameters":{"expansion_factor":3,"hidden_dim":1536,"activation":"ReLU²"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections in U-Net style","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Weight tying between input and output embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"4 KV heads with GQA","parameters":{"kv_heads":4,"attention_heads":8,"model_dim":512,"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_momentum_start":0.92,"warmup_steps":1500,"adamw_weight_decay":0.04,"adamw_scope":"embeddings/scalars","matrix_lr":0.02,"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"average_every":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay_value":0.04}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_percent":3}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with muP scaling for output projections"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["Mixed int5/int6 quantization with int5 for MLP weights and int6 for attention weights to save artifact size","Increased BigramHash vocabulary size from 10240 to 12288 to reduce hash collisions and improve bigram signal","Use of SmearGate for token-level recurrence to enhance bigram signal","Orthogonal initialization with muP scaling for output projections","Muon optimizer with specific weight decay and momentum settings","SWA starting from last 40% of training with averaging every 50 steps","Sliding window evaluation with stride 64 for better context handling","Combination of zstd-22 compression with 3% magnitude pruning to fit within 16MB artifact size limit"],"artifact_size":"within 16MB limit"},{"pr_number":564,"title":"Record: 11L Tight SWA + Partial RoPE + LN Scale + XSA4 (val_bpb: 1.1270)","author":"sadeghja1070","status":"open","is_record":false,"val_bpb":1.127,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"SWA","parameters":{"name":"Tight SWA","scale_threshold":0.2,"frequency_steps":50,"checkpoint_count":12,"description":"SWA checkpoint collection restricted to scale<0.2 (last ~600 steps), every 50 steps, eliminating SWA quality penalty while maintaining quantization-friendly weight averaging."}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially on 16/64 dimensions with NTK-aware scaling","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale factor set to 1/sqrt(layer_idx+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate applied as architectural component","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets and dimension 128","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP expansion factor 3 with relu-squared activation","parameters":{"expansion_factor":3,"activation":"relu-squared"}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings and output embeddings","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"learning_rate_matrix":0.025,"learning_rate_scalar":0.025,"learning_rate_embedding":0.035,"gradient_clip":0.3,"adamw_for_embeddings":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with projection scaling by 1/sqrt(2*num_layers)"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"U-Net skip connections with 5 encoder and 6 decoder layers","parameters":{"encoder_layers":5,"decoder_layers":6}}}],"compression":"zstd-22","novel_contributions":["Tight SWA: Restricting SWA checkpoint collection to scale<0.2 in last ~600 steps every 50 steps to eliminate SWA quality penalty while maintaining quantization-friendly weight averaging.","Use of Partial RoPE on 16/64 dimensions with NTK-aware scaling.","Applying Exclusive Self Attention (XSA) on last 4 layers.","LayerNorm scale factor set to 1/sqrt(layer_idx+1).","Combination of SmearGate and BigramHash (2048 buckets, dim=128) in architecture.","Int6 per-row quantization for MLP and attention weights combined with Int8 per-row for embeddings.","Orthogonal initialization with projection scaling by 1/sqrt(2*num_layers).","Use of Muon optimizer with momentum warmup and separate AdamW for embeddings and scalars.","U-Net style skip connections with 5 encoder and 6 decoder layers."],"artifact_size":"15.5 MB"},{"pr_number":567,"title":"Non-record: 1.366 BPB Baseline (SmearGate + Muon, int6, zstd)","author":"nitSubedi","status":"open","is_record":false,"val_bpb":1.366,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Smeargate for local context","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.02,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":null}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Use of SmearGate for local context","Application of Muon optimizer with 0.02 weight decay","Int6 quantization","High level (22) zstd compression"],"artifact_size":"12MB"},{"pr_number":568,"title":"Record: PROTEUS v8 — 11L INT6 + LoRA TTT 5ep cosine (mean val_bpb=0.7853, 4 seeds)","author":"MatoTeziTanka","status":"closed","is_record":false,"val_bpb":0.7853,"architecture":"Transformer","quantization":"INT6 uniform","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weight matrices"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating component in the transformer architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature module used in the model","parameters":{"size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with NTK-aware eval scaling","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth-scaled residual","description":"Residual scaling by inverse square root of layer index plus one","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":11,"during_last_20_percent_of_warmdown":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"epochs":5,"schedule":"cosine decay","targets":["Q","V","LM head"]}}},{"category":"evaluation_technique","data":{"method":"score every epoch","parameters":{"last_epoch_kept":true,"sequential_chunk_evaluation":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"start_lr":0.01,"end_lr":0.001,"epochs":5}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"value":0.3}}},{"category":"other","data":{"description":"Magnitude pruning used to fit artifact size constraints","parameters":{"prune_percent":[3,5]}}}],"compression":"zstd-22","novel_contributions":["Improved TTT evaluation strategy by scoring every token before training on it in every epoch","Extended TTT from 3 epochs to 5 epochs","Switched TTT learning rate schedule from flat to cosine decay","Used LoRA-based test-time training on Q, V, and LM head","Included multiple seeds and a rerun with higher pruning to satisfy the 16MB artifact limit"],"artifact_size":"15.4-16.2 MB"},{"pr_number":569,"title":"Record: 11L VRL + LeakyReLU² + Full GPTQ (3-seed mean val_bpb=1.1175)","author":"gowtham0992","status":"open","is_record":false,"val_bpb":1.1175,"architecture":"Transformer","quantization":"Full GPTQ int6 per-row with int8 embeddings","optimizer":"Muon (matrix params), AdamW (embeddings and scalars)","training_techniques":[{"category":"quantization","data":{"method":"Full GPTQ","bits":6,"scope":"all large weights (MLP, attention, bigram, VE projections); int8 for embeddings"}},{"category":"architecture_modification","data":{"component":"Value Residual Learning (VRL)","description":"Layer 0's V output added to all subsequent layers via learned sigmoid gates","parameters":{"learned_alphas":10,"sigmoid_init":0}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)²","description":"Replaces relu², preserves negative gradient flow, doubles effective MLP capacity","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA-all","description":"Exclusive Self Attention on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned interpolation between current and previous token","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048 buckets, dim=128, projected to model_dim=512","parameters":{"buckets":2048,"dim":128,"model_dim":512}}},{"category":"architecture_modification","data":{"component":"Partial RoPE + NTK-aware scaling","description":"Partial Rotary Positional Embeddings on 16/64 dims with NTK scaling base=10000","parameters":{"partial_dims":[16,64],"ntk_base":10000}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Per-layer learned scale on attention and MLP outputs","parameters":null}},{"category":"architecture_modification","data":{"component":"Shared Value Embedding","description":"Dim=128, shared between layers 9 and 10 with per-layer learned scales","parameters":{"dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"Tied embeddings","description":"Weight tying with init std=0.005","parameters":{"init_std":0.005}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for matrix weights, zero-init for output projections"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"momentum_warmup":"0.92 to 0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"frequency":"every step"}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":{"frequency":"every 50 steps","condition":"when LR scale < 0.2"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500,"type":"cosine decay"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_value":0.3}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"QAT-export alignment","bits":null,"scope":null}},{"category":"quantization","data":{"method":"2% magnitude pruning post-quantization","bits":null,"scope":"int6 weights"}}],"compression":"zstd-22","novel_contributions":["First non-TTT Value Residual Learning (VRL) result on standard architecture","Use of LeakyReLU(0.5)² activation replacing relu² to preserve negative gradient flow and double effective MLP capacity","Full GPTQ implementation with Hessian-aware int6 quantization and Cholesky inverse error compensation","QAT-export alignment with STE clip quantile(0.9995) matching GPTQ export quantizer","2% magnitude pruning post-quantization for improved zstd compressibility","Extending Exclusive Self Attention (XSA) to all 11 layers","Combination of multiple advanced techniques (EMA, Tight SWA, Late QAT) for improved training stability and quantization","Custom raw binary serialization with no torch.save overhead"],"artifact_size":"≤15.94 MB"},{"pr_number":570,"title":"(Non record) 11L Frontier MixedQuant Trigram","author":"armmer016","status":"open","is_record":false,"val_bpb":1.34344213,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"TrigramHash Embedding","description":"Embedding using trigram hashing alongside BigramHash to capture triplet context","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash Embedding","description":"Embedding using bigram hashing to capture pairwise context","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net Skip Gates","description":"Sigmoid gating connecting encoder and decoder segments","parameters":null}},{"category":"architecture_modification","data":{"component":"Star-ReLU","description":"Quadratic activation scaling","parameters":null}},{"category":"other","data":{"description":"No pruning: exact 0.0 clamping removed to preserve absolute model density","parameters":null}}],"compression":"zlib","novel_contributions":["Scaling up to 11 layers to push network capacity","Using TrigramHash embedding alongside BigramHash embedding","Introducing U-Net style sigmoid gating between encoder and decoder segments","Applying Star-ReLU quadratic activation scaling","Demonstrating that pruning is mandatory to meet the 16MB artifact size limit","Experimenting with unpruned mixed int6/int8 quantized weights resulting in high entropy and artifact size"],"artifact_size":"19.36MB"},{"pr_number":571,"title":"Non-record: trigram phrase-memory ablation on 1×H100: negative result (1.2791 BPB best)","author":"maxwellcipher","status":"open","is_record":false,"val_bpb":1.2791,"architecture":"Transformer","quantization":"int8 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8 QAT","bits":8,"scope":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Static bigram lookup table with 8192 buckets and 128 embedding dimension","parameters":{"buckets":8192,"embed_dim":128}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Static trigram lookup table tested as ablation with varying bucket sizes and embedding dimensions","parameters":{"variants":[{"buckets":2048,"embed_dim":64},{"buckets":4096,"embed_dim":96}]}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}}],"compression":null,"novel_contributions":["Controlled ablation study showing trigram phrase-memory lookup tables do not improve performance at 16MB scale on 1×H100.","Demonstrated that byte budget is better spent on backbone capacity than static trigram lookup tables at this scale.","Published actual controlled comparison numbers confirming prior informal notes about trigram ablation negative results at small scale.","Suggested that negative result might reverse with more training steps or on larger hardware (8×H100)."],"artifact_size":"21.6MB"},{"pr_number":573,"title":"Record: 11L XSA4 + Multi-Pass Streaming Score-First Legal TTT (3-seed mean val_bpb=1.0523)","author":"Sarimsaljook","status":"closed","is_record":false,"val_bpb":1.0523,"architecture":"Transformer","quantization":"int6 quantization with late QAT","optimizer":"Muon","training_techniques":[{"category":"test_time_training","data":{"method":"score-first multi-pass legal TTT","parameters":{"passes":3,"learning_rate":0.0005,"batch_size":"16 sequences x 2048 tokens","optimizer":"AdamW"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to a subset of head dimensions","parameters":{"dimensions":16,"total_head_dims":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections in the transformer stack","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism combined with BigramHash","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing module with bucketed representation","parameters":{"buckets":2048,"dim":128}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"MLP + attention"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"late QAT when LR scale < 0.15"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"used_for":"TTT and embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency_steps":50,"start_condition_lr_scale":0.2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"score_first":true,"multi_pass":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"to_zero":true,"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Rotary cache backprop fix by cloning cached cos/sin tensors to avoid inference tensor autograd errors","parameters":null}}],"compression":"zstd-22","novel_contributions":["Multi-pass streaming score-first legal test-time training with shifted data orderings","Per-token final score chosen as the minimum NLL across three adaptation trajectories","Rotary cache backprop fix using cloned cached cos/sin tensors to enable TTT through partial RoPE","Legal TTT evaluation that scores tokens before any training on those tokens"],"artifact_size":"15.92 MB"},{"pr_number":574,"title":"feat: parameter golf v15b - SWA tuned (1.1453 val_bpb)","author":"aktasbatuhan","status":"closed","is_record":false,"val_bpb":1.1453,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"SWA","parameters":null}}],"compression":null,"novel_contributions":["SWA tuning"],"artifact_size":null},{"pr_number":575,"title":"Add 10min/16MB record: skinny RLM seq2048 (int8+zlib val_bpb 1.1750)","author":"k-oconnor","status":"open","is_record":false,"val_bpb":1.17503786,"architecture":"Looped Transformer (RLM)","quantization":"int8 STE fake-quant","optimizer":"Muon (matrix) + Adam (scalars)","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":8,"scope":"embeddings"}},{"category":"architecture_modification","data":{"component":"depth recurrence, weight tying, tied embeddings, RoPE, ReLU² MLP 3×, GQA","description":"Looped Transformer with prefix and suffix as 6 distinct blocks, middle uses 2 weight-tied blocks applied 3 times; uses GQA attention, RoPE positional embeddings, ReLU squared MLP with 3× expansion, tied embeddings","parameters":{"layers":6,"loop_blocks":2,"loop_iters":3,"embed_dim":512,"num_heads":8,"num_kv_heads":8,"mlp_expansion":3}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":0.04,"momentum":null,"other_params":{"MATRIX_LR":0.02,"SCALAR_LR":0.02,"TIED_EMBED_LR":0.05}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"MUON_WD":0.04,"decoupled":true,"purpose":"compression headroom"}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":200,"warmdown_iters":3000}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Use of looped transformer architecture with 2 weight-tied blocks applied 3 times in the middle layers","Skinny RLM with 512d embedding and 6 layers, sequence length 2048","Combination of Muon optimizer for matrix parameters and Adam for scalar parameters with specific learning rates","Embedding quantization using 8-bit STE fake-quant","Achieving a final int8+zlib compressed model artifact under 16MB with val_bpb ~1.175","Use of ReLU squared MLP with 3× expansion and GQA attention","Decoupled weight decay tuned for compression headroom"],"artifact_size":"14.9MB"},{"pr_number":576,"title":"Record: Train Larger, Quantize Harder - 33.6M params + int5 GPTQ / (val_bpb: 1.1164)","author":"cmcdnd","status":"closed","is_record":false,"val_bpb":1.1164,"architecture":"Transformer","quantization":"int5 QAT + full Hessian GPTQ","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5 QAT + GPTQ","bits":5,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash embedding/component with 8192 buckets.","parameters":{"size":8192}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA in all layers.","parameters":{"layers":"all"}}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Uses widened MLP hidden dimension.","parameters":{"hidden_dim":1792,"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"Uses squared LeakyReLU activation.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"ratio":"16/64"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds skip connections in a U-Net-like pattern.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate component.","parameters":null}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Uses layer norm scaling.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.0001,"used_for":"embeddings/scalars and TTT"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"chunk_size":131000,"epochs":3,"temperature":1,"layers":"last 2 blocks"}}},{"category":"other","data":{"description":"Post-TTT temperature calibration to correct overconfidence and improve BPB.","parameters":{"temperature":0.98}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"2% pruning","parameters":{"pruning_fraction":0.02}}}],"compression":"zstd-22","novel_contributions":["Train larger with a 33.6M parameter model while fitting within the 16MB limit via int5 quantization.","Full Hessian GPTQ quantization with int5 per-row export.","Post-TTT temperature calibration at T=0.98 to correct score-first TTT overconfidence.","Combines late QAT, EMA, pruning, and GPTQ to improve compression and performance."],"artifact_size":"15.6MB"},{"pr_number":577,"title":"GPTQ + Short TTT — val_bpb 1.1207 (seed 1337)","author":"newjordan","status":"open","is_record":false,"val_bpb":1.1207,"architecture":"11L/512d/8H/4KV/3xMLP (relu²), U-Net skip, Partial RoPE (16/64), XSA last 4, BigramHash(2048), VE128 on layers 9-10, SmearGate","quantization":"int6 QAT with GPTQ","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6 QAT + GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially with NTK scaling","parameters":{"scaling":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism in MLP layers","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashing mechanism with 2048 buckets for bigrams","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross self-attention applied in last 4 layers","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995,"usage":"previous submission #508 (disabled in this PR)"}}},{"category":"test_time_training","data":{"method":"full TTT with SGD","parameters":{"learning_rate":0.002,"epochs":3,"max_train_chunks":50,"EMA_decay":0,"freeze_blocks":2,"optimizer":"SGD"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Short TTT strategy: SGD-based test-time training with no EMA smoothing and stopping after 50 chunks to avoid late-chunk degradation","Demonstrated that EMA smoothing in TTT can wash out adaptation gains","Proper use of zstd-22 compression to reduce artifact size by ~2MB compared to previous fallback","Disabled int8_sensitive flag to stay within 16MB artifact size limit","Sharing detailed TTT chunk trajectory analysis showing adaptation and distribution shift effects","Maintained same base architecture and GPTQ pipeline while improving val_bpb marginally from previous submission"],"artifact_size":"15.60 MB"},{"pr_number":578,"title":"GPTQ + Early QAT + Legal TTT — 3-seed mean val_bpb 1.1215","author":"newjordan","status":"open","is_record":false,"val_bpb":1.1215,"architecture":"11L/512d/8H/4KV/3xMLP (relu²) with U-Net skip connections, Partial RoPE (16/64), XSA last 4 layers, BigramHash(2048), VE128 on layers 9-10, SmearGate, logit softcap 30, tied embeddings","quantization":"int6 GPTQ with Hessian-aware error compensation and early QAT","optimizer":"Muon (lr=0.025, WD=0.04, momentum=0.99) for base training; SGD + momentum 0.9 for TTT","training_techniques":[{"category":"quantization","data":{"method":"GPTQ with early QAT","bits":6,"scope":"all weights (per-row int6 quantization with Hessian-aware error compensation)"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995,"usage":"smoothed weights for evaluation, raw weights for training"}}},{"category":"test_time_training","data":{"method":"Legal Score-First TTT","parameters":{"EMA_decay":0.995,"cosine_lr_decay_fixed":true,"embedding_freeze":["tok_emb","bigram","ve_shared"],"optimizer":"SGD + momentum 0.9","epochs_per_chunk":3,"grad_clip":1}}},{"category":"architecture_modification","data":{"component":"Partial RoPE, XSA, BigramHash, VE128, SmearGate, logit softcap, tied embeddings","description":"Transformer with U-Net skip connections and multiple architectural enhancements","parameters":{"layers":11,"dimension":512,"heads":8,"kv_heads":4,"mlp_expansion":3,"bigram_hash_buckets":2048,"ve_layers":[9,10],"logit_softcap":30}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval with stride 32","parameters":{"stride":32}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"fixed_window":200}}}],"compression":"zstd-22","novel_contributions":["GPTQ quantization replacing naive per-row int6 quantization with Hessian-aware error compensation, reducing quantization error by 32%","Early QAT with matched clipping extending QAT steps (~3x more) and using 99.95th percentile clipping matching GPTQ export quantizer","Legal Score-First Test-Time Training (TTT) with EMA smoothing and fixed cosine LR decay over actual training window","Embedding freeze during TTT to stabilize adaptation","Use of U-Net skip connections and multiple architectural enhancements including Partial RoPE, XSA in last layers, BigramHash, VE128, SmearGate, and logit softcap","Evaluation improvements via finer sliding window stride (32 vs 64) and extended TTT epochs (8 vs 3) for free val_bpb gains"],"artifact_size":"15.56 MB"},{"pr_number":579,"title":"The Frugendorff: Recursive Weight Sharing for Transformer Compression (1.1478 BPB, 15.19MB)","author":"newjordan","status":"open","is_record":false,"val_bpb":1.1355,"architecture":"Transformer","quantization":"int6 per-row with GPTQ Hessian-aware quantization","optimizer":"Muon (matrices) and AdamW (embeddings and scalars)","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row with GPTQ Hessian-aware quantization","bits":6,"scope":"MLP and attention weights"}},{"category":"architecture_modification","data":{"component":"recursive weight sharing","description":"K unique transformer blocks applied N times in sequence to produce deeper effective networks from fewer stored parameters","parameters":{"unique_blocks":6,"loops":2,"effective_depth":12,"MLP_expansion":"4x"}}},{"category":"architecture_modification","data":{"component":"asymmetric weight sharing (Micro Crawler)","description":"4 unique flat blocks run once, then 2 shared crawler blocks run twice with orthogonal positions to isolate gradient conflict","parameters":{"flat_blocks":4,"crawler_blocks":2,"crawler_loops":2,"effective_depth":8}}},{"category":"architecture_modification","data":{"component":"bidirectional persistent deliberation gate","description":"Learned consensus parameter with bidirectional gradient flow between recursive firings to improve communication and model quality","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP expansion","description":"4x MLP expansion enabled by parameter savings from weight sharing","parameters":{"hidden_dim":2560,"activation":"relu-squared"}}},{"category":"architecture_modification","data":{"component":"attention","description":"GQA with 10 heads and 5 KV heads, XSA on last 2 blocks","parameters":{"num_heads":10,"num_kv_heads":5,"XSA_layers":2}}},{"category":"architecture_modification","data":{"component":"input conditioning","description":"BigramHash (2048 buckets) for Frugendorff Squared; TrigramHash (8192 buckets, 3 orthogonal hash primes) for Micro Crawler","parameters":null}},{"category":"architecture_modification","data":{"component":"position embeddings","description":"QR-initialized orthogonal vectors, one per loop iteration","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Within each loop iteration","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon (matrices) and AdamW (embeddings and scalars)","weight_decay":null,"momentum":0.99,"other_params":{"Muon_lr":0.025,"AdamW_embeddings_lr":0.035,"AdamW_scalars_lr":0.025,"gradient_clip":0.3}}},{"category":"weight_averaging","data":{"method":"SWA and EMA","parameters":{"SWA_frequency":"every 50 steps when scale < 0.2","EMA_decay":0.997,"EMA_applied_after_distillation":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_factor":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Late QAT: int6 fake-quantization applied when learning rate scale < 0.15","parameters":null}},{"category":"other","data":{"description":"Late Training Replay: 2-epoch replay of last 100 training batches at 10% learning rate","parameters":null}},{"category":"other","data":{"description":"Self-distillation with EMA teacher, 50 steps, temperature=2.0, alpha=0.7","parameters":null}}],"compression":"zstd-22","novel_contributions":["Recursive weight sharing architecture applying K unique transformer blocks N times to create deeper effective networks with fewer parameters","Asymmetric weight sharing (Micro Crawler) isolating gradient conflict to fewer blocks to improve quality and quantization robustness","Bidirectional persistent deliberation gate enabling communication between recursive firings with gradient flow in both directions","Reinvestment of saved parameter budget into wider 4x MLP layers enabled by fractal weight sharing","Demonstration that steps matter more than depth due to faster training steps with recursive sharing","Use of GPTQ Hessian-aware quantization to significantly reduce quantization gap for shared weights"],"artifact_size":"15.19 MB"},{"pr_number":580,"title":"[Non-record] Azure 1xH100 frontier-family engineering run (val_bpb=1.2623)","author":"micoverde","status":"open","is_record":false,"val_bpb":1.26233375,"architecture":"Transformer","quantization":"int8+zlib","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Use of BigramHash with vocab size 10240 and dimension 128","parameters":{"BIGRAM_VOCAB_SIZE":10240,"BIGRAM_DIM":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP multiplier of 3","parameters":{"MLP_MULT":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Separate number of key-value heads","parameters":{"NUM_KV_HEADS":4,"NUM_HEADS":8}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["First verified single-GPU 1x NVIDIA H100 NVL 94GB frontier-family run reaching low 1.2x BPB regime","Engineering artifact bridging proxy-only T4 work and future 8xH100 submission-grade runs","Use of exact int8+zlib roundtrip compression to fit under 16MB artifact cap","Longer engineering wallclock cap (1800s) for telemetry and validation","Transparent publication despite trailing eval interruption by SIGTERM","Use of BigramHash with large vocab size and MLP multiplier 3 in architecture"],"artifact_size":"12.7MB"},{"pr_number":581,"title":"Record: 11L Sidecar48 + Enhanced TTT (cosine LR, 20 epochs) — 1.0698 BPB (3-seed mean)","author":"teddyoweh","status":"closed","is_record":false,"val_bpb":1.0698,"architecture":"Transformer","quantization":"mixed int6 quantization","optimizer":"AdamW","training_techniques":[{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":20,"learning_rate":0.0005,"min_learning_rate":0.00002}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"start_lr":0.0005,"end_lr":0.00002,"warmup_epochs":1}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"architecture_modification","data":{"component":"SharedSparseSidecar","description":"Shared sparse sidecar module added to the transformer, used in layers 8-10 with 48 hidden units.","parameters":{"hidden":48,"layers":[8,9,10]}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings used instead of standard token embeddings.","parameters":{"vocab":2048,"dim":96}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used within the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections added to the transformer.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal weight initialization."}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Extended test-time training from 10 to 20 epochs","Replaced flat TTT learning rate with cosine decay from 0.0005 to 0.00002","Added 1-epoch linear warmup to stabilize TTT","Introduced weight decay of 0.01 during TTT to reduce overfitting","Achieved a new leaderboard record with 1.0698 BPB mean over 3 seeds"],"artifact_size":"< 16 MB"},{"pr_number":583,"title":"Record: 10L Int5-MLP3x BigramHash4096 SlidingEval — mean val_bpb 1.1489","author":"suchihype","status":"open","is_record":false,"val_bpb":1.1489,"architecture":"Transformer","quantization":"mixed int5 (MLP) + int6 (attention) + FP16 (embeddings) QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"full-run Int6 QAT with STE","bits":6,"scope":"all except MLP and embeddings"}},{"category":"quantization","data":{"method":"int5 quantization","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"FP16","bits":16,"scope":"embeddings"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP multiplier 3× with hidden dimension 1536 and ReLU² activation","parameters":{"multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding with vocab size 4096 and dimension 128","parameters":{"vocab":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learned gate blending current and previous token","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with base 50000, full dimensions","parameters":{"base":50000,"partial":false}}},{"category":"optimizer_technique","data":{"method":"Muon + AdamW","weight_decay":0.045,"momentum":0.99,"other_params":{"learning_rates":{"matrix":0.035,"tied_embed":0.045,"scalar":0.035},"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"grad_clip_norm":0.35,"warmdown_iters":2000,"warmup_steps":20,"batch_tokens":786432,"sequence_length":2048}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2000,"warmup_steps":20}}}],"compression":"zstd-22","novel_contributions":["Int6 STE must match export exactly to avoid bpb degradation","EMA and SWA weight averaging hurt full-run QAT quantized models","Higher learning rates (0.035/0.045) are optimal for fewer training steps (~5500)","Int5 quantization on MLP enables larger MLP multiplier (3×) within 16MB cap","Sliding window evaluation with stride 64 improves val_bpb by ~0.023 bpb","Optuna TPE sweep found better training schedule than hand-tuning"],"artifact_size":"under 16MB"},{"pr_number":584,"title":"5 novel architecture ablations on SOTA baseline","author":"ssatia","status":"closed","is_record":false,"val_bpb":1.1233,"architecture":"Transformer","quantization":"GPTQ-lite","optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaces relu² MLP with SwiGLU MLP.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window_size":256,"num_layers":5}}},{"category":"architecture_modification","data":{"component":"register tokens","description":"Adds learnable register/sink tokens to absorb attention sinks.","parameters":{"num_registers":4}}},{"category":"architecture_modification","data":{"component":"gated V-norm","description":"Applies learned RMS normalization on values while Q and K are normalized.","parameters":null}},{"category":"architecture_modification","data":{"component":"mixture of softmax","description":"Uses a mixture of softmax heads/experts to break the softmax rank bottleneck.","parameters":{"num_experts":2}}}],"compression":null,"novel_contributions":["Provides five self-contained ablation training scripts built on the current SOTA baseline.","Introduces a SwiGLU MLP replacement for the relu² MLP.","Adds sliding-window attention to early layers to reduce FLOPs.","Adds learnable register/sink tokens to absorb attention sinks.","Introduces gated V-norm for values to potentially improve quantization robustness.","Explores mixture of softmax to address the softmax bottleneck and improve BPB."],"artifact_size":"16MB"},{"pr_number":585,"title":"Record: int5 GPTQ + 33.6M model (3-seed mean val_bpb=1.1179)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1179,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash with size 8192 as part of the model architecture.","parameters":{"size":8192}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses full attention with 8 attention heads and 8 KV heads (MHA 8/8).","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3.5x (reported as 1792).","parameters":{"multiplier":3.5,"hidden_dim":1792}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings.","parameters":{"ratio":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate as part of the model design.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shared VE128 in layers 9 and 10.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"layerwise LN scale","description":"Uses LN scale of 1/sqrt(layer+1).","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"weight_decay":0,"epochs_per_chunk":"2-3","chunk_tokens":131072}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used."}},{"category":"sequence_length","data":{"train_length":131072,"eval_length":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Early QAT with int5 clipping and GPTQ Hessian-aware error compensation; legal score-first test-time training where tokens are scored before any gradient update.","parameters":{"qat_threshold":0.5,"calibration_samples":256,"prune_pct":0.02}}}],"compression":"zstd-22","novel_contributions":["int5 quantization with GPTQ error compensation to fit a 33.6M parameter model under 16MB","Legal score-first TTT where every token is scored before any gradient update","Early QAT tuned to int5 clipping range","Use of a larger 33.6M model enabled by improved compression efficiency","Combination of GPTQ, pruning, and zstd compression to achieve all artifacts under 16MB"],"artifact_size":"15.53 MB, 15.36 MB, 15.28 MB"},{"pr_number":586,"title":"11L + Hadamard Rotation + VE128 + cuDNN SDPA (val_bpb: 1.1365, 3-seed mean)","author":"EaCognitive","status":"open","is_record":false,"val_bpb":1.1365,"architecture":"Transformer","quantization":"int6 per-row with Hadamard rotation","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row with Hadamard rotation","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention on last 4 layers with GQA-aware design","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism integrated in architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets and inner dimension 128","parameters":{"buckets":2048,"inner_dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially (16/64 dims)","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and relu-squared activation","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"Shared Value Embeddings (VE128)","description":"Shared value embeddings of dimension 128 on layers 9 and 10 with per-layer learned scales","parameters":{"dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"Layer Norm Scale","description":"Layer norm scale factor 1/sqrt(layer_idx+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"5 encoder and 6 decoder skip connections","parameters":{"encoder":5,"decoder":6}}},{"category":"architecture_modification","data":{"component":"cuDNN SDPA","description":"cuDNN scaled dot-product attention backend with FlashAttention 3 conditional fallback","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"momentum_warmup_steps":1500,"momentum_warmup_start":0.92,"momentum_warmup_end":0.99}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500,"schedule":"cosine"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"initialization","data":{"method":"Orthogonal initialization","description":"Orthogonal init with projection scaling by 1/sqrt(2*num_layers)"}},{"category":"other","data":{"description":"Hadamard rotation applied to weight matrices before int6 quantization to spread outlier values uniformly, improving compression and reducing quantization gap","parameters":null}}],"compression":"zstd-22","novel_contributions":["First application of Walsh-Hadamard rotation for int6 per-row quantization in this competition","Hadamard rotation improves zstd compression from 1.70x to 1.76x and reduces quantization gap from 0.0093 to 0.0084 BPB","Hadamard rotation is data-free and deterministic, requiring no calibration or training data access at evaluation","Hadamard rotation and GPTQ are substitutes at int6 precision; GPTQ adds no benefit when Hadamard rotation is used","Compression improvement recovers 530KB of artifact headroom enabling Shared Value Embeddings (VE128) on layers 9-10","CPU parameter probe guided hyperparameter selection across 9.5M configurations, reducing GPU compute by ~84%","Identification and removal of dead QAT code improved throughput by 7%","Quantizing BigramHash projection to int6 improves compression with negligible noise","Use of cuDNN SDPA backend with FlashAttention 3 conditional fallback"],"artifact_size":"~15.6 MB"},{"pr_number":587,"title":"XSA-11 + GPTQ b64/pd002 — 3-seed mean val_bpb 1.1208","author":"newjordan","status":"open","is_record":false,"val_bpb":1.1208,"architecture":"Transformer","quantization":"int6 GPTQ","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Expanded cross-self attention applied on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"relu²","description":"Using squared ReLU activation function","parameters":null}},{"category":"architecture_modification","data":{"component":"VE","description":"Value embedding dimension","parameters":{"VE":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Weight tying of embeddings","parameters":null}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"full TTT","parameters":null}}],"compression":"zstd-22","novel_contributions":["Applying cross-self attention (XSA) on all 11 layers instead of 4, improving BPB by -0.0006","Using GPTQ quantization with block_size=64 and percdamp=0.002 for better compression and less Hessian damping","Combining expanded XSA with finer GPTQ quantization to free space for larger architecture modifications"],"artifact_size":"15.56 MB"},{"pr_number":588,"title":"[WIP][non-record] 8L/448 width branch local results","author":"andyluo22","status":"open","is_record":false,"val_bpb":1.41200403,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Embedding weights are not tied (TIE_EMBEDDINGS=0)","parameters":{"TIE_EMBEDDINGS":0}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Number of key-value heads set to 2","parameters":{"NUM_KV_HEADS":2}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64,"eval_batch_seqs":256}}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":300}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zlib","novel_contributions":["Widening model width from 384 to 448 at 8 layers outperforms deeper 9-layer 384-width model","Test-time training (TTT) provides modest improvements but width scaling is the dominant factor","Compact model scaling under 16MB artifact size limit with int8 quantization and zlib compression"],"artifact_size":"7.06MB"},{"pr_number":589,"title":"Record: Late Soft-Round QAT + Score-First Backward-Looking TTT — val_bpb 1.1178","author":"RoyiRa","status":"closed","is_record":false,"val_bpb":1.1178,"architecture":"Transformer","quantization":"int6 QAT with late soft-round surrogate","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP stack using LeakyReLU(0.5)^2 activation.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash component used in the model stack.","parameters":{"size":3072}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"description":"tight SWA every 50 steps"}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32768,"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs":3,"grad_clip":1,"frozen_blocks":null}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002,"cosine_decay":true,"grad_clip":1}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"learning_rate":0.002,"applied_to":"TTT across chunks"}}},{"category":"other","data":{"description":"Late soft-round QAT using a temperature-controlled sigmoid-interpolated surrogate in the backward pass while keeping hard quantized forward pass.","parameters":{"tau":0.1,"warmdown_scale_threshold":0.02}}}],"compression":"zstd","novel_contributions":["Late Soft-Round QAT","Score-First Backward-Looking TTT","Temperature-controlled soft-round surrogate for bin-aware gradients near quantization boundaries","Backward-looking chunk-wise test-time training where each chunk is scored before being trained on"],"artifact_size":"~15.75 MB"},{"pr_number":592,"title":"Submission: 12L Int5-MLP BigramHash10K EMA (1.1476 BPB)","author":"Skytuhua","status":"open","is_record":false,"val_bpb":1.14760365,"architecture":"Transformer","quantization":"mixed Int5/Int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed Int5/Int6 QAT","bits":null,"scope":"MLP weights Int5, Attention weights Int6"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded from 2048 to 10240 buckets, XOR hash of consecutive token pairs into learned 128-dim embeddings to reduce collisions and improve bigram-level signal","parameters":{"buckets":10240,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer self-attention applied on last 4 layers (layers 8-11)","parameters":{"layers":4,"layer_indices":[8,9,10,11]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Applied SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially on 16 dimensions","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization of weights","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Embed","description":"Value embeddings added on layers 10 and 11 with dimension 128","parameters":{"layers":[10,11],"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP expansion","description":"MLP expansion factor 3x (hidden=1536)","parameters":{"expansion_factor":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"Embedding","description":"Tied FP16 embeddings","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start":"last 20% of warmdown","frequency_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmup and warmdown","parameters":{"warmup_steps":1500,"late_QAT_start_scale":0.15}}}],"compression":"zstd-22","novel_contributions":["Mixed Int5/Int6 quantization with MLP weights at Int5 and Attention weights at Int6 to save artifact size","Addition of a 12th transformer layer funded by Int5 MLP compression","Expansion of BigramHash embedding buckets from 2048 to 10240 to reduce hash collisions and improve bigram-level signal","Use of SmearGate gating mechanism and OrthoInit initialization","Application of cross-layer self-attention (XSA) on last 4 layers","Partial RoPE applied on 16 dimensions","Late Quantization-Aware Training (QAT) combined with GPTQ-lite clip search","Use of EMA and SWA weight averaging techniques"],"artifact_size":"15,497,769 bytes"},{"pr_number":593,"title":"Record: Full GPTQ + LeakyReLU² + Parallel Muon + BigramHash 3072 (val_bpb 1.1163, 3-seed mean)","author":"abaybektursun","status":"closed","is_record":false,"val_bpb":1.1163,"architecture":"Transformer","quantization":"Full Hessian GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded bigram hash table with narrower embeddings to fit the artifact budget while reducing collisions.","parameters":{"buckets":3072,"dim":80}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP variant using LeakyReLU squared activation.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA enabled in the last layers of the model.","parameters":{"last_n_layers":4}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"parameter_banking":true,"async_reduce_scatter_all_gather":true}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":null,"parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Full Hessian GPTQ with Hessian collection, actorder column reordering, and Cholesky error compensation.","parameters":{"calibration_batches":256}}}],"compression":"lzma-9","novel_contributions":["Full Hessian GPTQ with actorder and Cholesky error compensation","Parallel Muon with parameter banking and communication overlap","BigramHash reallocation from 1536x128 to 3072x80 to reduce collisions under the artifact budget","LeakyReLU² MLP variant","GPTQ memory fix by freeing the training model before Hessian collection"],"artifact_size":"~15.90 MB"},{"pr_number":595,"title":"Record: Loqui Auris — 10L + SWA + Standard TTT (val_bpb=1.1100)","author":"LoquiAuris","status":"closed","is_record":false,"val_bpb":1.11,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned blend with previous token representation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 4096 buckets projected to model dimension.","parameters":{"buckets":4096,"projection_dim":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Feed-forward network expanded to 3x hidden size.","parameters":{"layers":10,"d_model":512,"heads":8,"kv_heads":4,"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input embeddings are tied to output logits via linear projection with shared weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":29,"checkpoint_interval_steps":50,"start_frac":0.5}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"used_for":"embeddings and scalars"}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6, embeddings/norms/gates FP16/FP32 passthrough"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"optimizer":"AdamW","learning_rate":0.0005,"epochs":10,"weight_decay":0,"gradient_clipping":1}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iterations":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.01}}}],"compression":"zstd-22","novel_contributions":["Standard AdamW test-time training applied to the quantized-then-dequantized model weights","10-layer Transformer with SmearGate, BigramHash, and U-Net skip connections","SWA over 29 checkpoints before quantization","Mixed int5/int6 quantization with FP16/FP32 passthrough for selected tensors"],"artifact_size":"15.69 MB"},{"pr_number":596,"title":"Record: DeepQuant V10b — 11L INT6 + 8ep LoRA TTT (val_bpb=0.6430)","author":"AriaAnima","status":"closed","is_record":false,"val_bpb":0.643,"architecture":"Transformer","quantization":"INT6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram context via BigramHash(2048) and SmearGate.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Parameter-efficient gating mechanism used with bigram context.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the transformer blocks.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads with 8 attention heads (GQA).","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses U-Net skip connections between encoder/decoder layer pairs and depth-scaled residuals.","parameters":{"layers":11}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"newton_schulz_whitening":true,"adamw_for_scalars_embeddings":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"every_steps":10}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":12,"phase":"final warmdown"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank_qv":8,"rank_lm_head":16,"epochs":8,"learning_rate":0.01,"chunk_size":256,"batch_size":64,"min_doc_length":512,"max_doc_length":50000,"temperature":0.98,"bias_tuning":true,"score_every_epoch":true,"wall_clock_limit_s":570}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"wallclock_based":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"min_lr_fraction":0.1,"within_ttt":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"regularization","data":{"method":"pruning","parameters":{"magnitude_pruning_percent":4}}},{"category":"other","data":{"description":"Zigzag GPU load balancing across 8 GPUs to reduce synchronization bottlenecks.","parameters":{"gpus":8}}},{"category":"other","data":{"description":"Outlier document filtering: documents over 50,000 tokens are scored with the base model without TTT.","parameters":{"max_doc_length":50000}}}],"compression":"zstd-22","novel_contributions":["8-epoch per-document LoRA test-time training","Score-every-epoch backward-looking TTT compliance","Cosine learning-rate decay within TTT","LM-head LoRA rank-16 adaptation","Per-block bias tuning during TTT","Post-TTT temperature rescaling","Zigzag GPU load balancing","Outlier document filtering for very long documents","Wall-clock-limited TTT with base-model fallback"],"artifact_size":"15.73 MB"},{"pr_number":598,"title":"Non-Record: BPB 1.1334 — 7000-Step Training + Mixed Int6/Int8 Quantization + Legal TTT","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.1334,"architecture":"GEPA","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"int6 per-row for attention projections and MLP weights; int8 per-tensor for layer norms, value embeddings, biases, embedding tables"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention on last 4 layers removing self-value bias via orthogonal projection","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-mixing gate on input embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embeddings with 2048 buckets and 128 dimensions for cheap bigram context","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings on 16 of 64 dims with YARN scaling","parameters":{"dims":16,"total_dims":64,"train_seq_len":1024}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3× expansion MLP with 1536 hidden units and ReLU² activation","parameters":{"hidden":1536,"activation":"ReLU²"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Residual skip connections across layer pairs","parameters":null}},{"category":"architecture_modification","data":{"component":"LN depth scaling","description":"LayerNorm scale adjusted by 1/sqrt(layer+1) for stable deep training","parameters":null}},{"category":"architecture_modification","data":{"component":"Value embeddings","description":"128-dimensional value embeddings on layers 9 and 10 with per-layer scale","parameters":{"layers":[9,10],"dimensions":128,"init_scale":0.1}}},{"category":"architecture_modification","data":{"component":"Late QAT","description":"Quantization-aware training with GPTQ-lite clip search enabled at step 6476 when LR scale < 0.15","parameters":{"step_enabled":6476,"clip_candidates_per_row":5,"threshold":0.15}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"applied_to":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"frequency":"every step"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500,"total_steps":7000,"type":"cosine anneal"}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","momentum":0.9,"learning_rate":0.002,"epochs_per_chunk":10,"chunk_size_tokens":32768,"stride":64,"frozen_blocks":2,"trainable_params":22301260,"total_params":27030108}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Freezing first 2 blocks during TTT","parameters":{"frozen_blocks":2}}}],"compression":"zstd-22","novel_contributions":["Extended training to 7000 steps with warmdown cosine anneal from step 3500 to 7000 for better convergence","Mixed int6/int8 quantization scheme combining int6 per-row GPTQ-lite quantization for large QAT-trained weights and int8 per-tensor scalar quantization for smaller sensitive tensors","GEPA architecture combining multiple techniques: ReLU² activation, Cross-sequence attention (XSA), Bigram hash embeddings, Partial RoPE with YARN scaling, U-Net skip connections, Value embeddings on deep layers, LN depth scaling, and Late QAT","Legal score-first test-time training (TTT) protocol using SGD with momentum for 10 epochs per 32K-token chunk with frozen first 2 blocks, yielding a −0.0142 BPB improvement","Achieving a 15.70 MB artifact size under the 16MB limit with 27M parameters using mixed quantization and zstd-22 compression"],"artifact_size":"15.70 MB"},{"pr_number":599,"title":"[Non-Record] Hymba: Hybrid Attention + Mamba SSM (val_bpb 1.1828)","author":"mkenney2","status":"open","is_record":false,"val_bpb":1.1828,"architecture":"Hybrid Attention + Mamba SSM","quantization":"int6","optimizer":"Muon (matrix), Adam (scalar/embed)","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"Hybrid Attention + Mamba SSM","description":"7-layer hybrid model running attention and Mamba SSM in parallel within each block, merged by learned weighted average","parameters":{"layers":7,"attention_heads":8,"kv_heads":4,"ssm_state_size":8,"mlp_multiplier":4}}},{"category":"optimizer_technique","data":{"method":"Muon (matrix), Adam (scalar/embed)","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000,"shape":"cosine"}}}],"compression":"zstd-22","novel_contributions":["First competitive non-transformer architecture in the competition","Hybrid model combining standard GQA attention and Mamba SSM in parallel within each block","Learned weighted average merging of attention and Mamba branch outputs","Fused input projection for K, V, and Mamba for GPU efficiency","Shallow models (7 layers) outperform deeper transformer baselines at given compute budget","Training stability improvements (lower LR and aggressive cosine warmdown) reduce quantization gap without QAT","Minimal overhead of Mamba branch on multi-GPU training"],"artifact_size":"~15.1 MB"},{"pr_number":600,"title":"Non-record: TTT-LoRA Base — HumanAI Convention (val_bpb=1.2364)","author":"humanaiconvention","status":"open","is_record":false,"val_bpb":1.23637747,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Adam","training_techniques":[{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":128,"learning_rate":null,"chunk_size":64,"adam_steps_per_chunk":4,"batch_size":64,"eval_cap_seconds":480}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learnable residual mixing gate in each transformer block allowing interpolation between full-residual and full-hidden-state","parameters":null}},{"category":"architecture_modification","data":{"component":"Orthogonal initialisation","description":"All matrix parameters initialised orthogonally to improve gradient flow and training stability","parameters":null}},{"category":"architecture_modification","data":{"component":"Bigram hash embeddings","description":"2048-bucket bigram hash table added to token embeddings providing cheap local context without extra counted parameters","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"GQA (Grouped-Query Attention)","description":"8 query heads and 4 KV heads to reduce KV cache and allow higher batch throughput during TTT evaluation","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"steps":5065,"decay":0.4}}},{"category":"quantization","data":{"method":"QAT int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.04,"scalar_lr":0.04,"embed_lr":0.05,"muon_weight_decay":0.04}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":512}}}],"compression":"zstd-22","novel_contributions":["Per-document Test-Time Training (TTT) via LoRA adapters trained during evaluation time","Use of fresh rank-128 LoRA adapters per validation document trained on preceding chunks before next chunk prediction","Exploitation of separate evaluation budget for adaptation, orthogonal to all current leaderboard entries"],"artifact_size":"15.7MB"},{"pr_number":601,"title":"Non-record: VR + GA + Late QAT + Full GPTQ — 1.1418 BPB, 15.7 MB","author":"anantdgoel","status":"open","is_record":false,"val_bpb":1.1418,"architecture":"11-layer GPT","quantization":"int6 QAT with Full GPTQ and Int5 MLP re-quantization","optimizer":"Muon (for matrices) and Adam (for scalars/embeddings)","training_techniques":[{"category":"quantization","data":{"method":"STE QAT (late QAT) + Full GPTQ + Int5 MLP re-quantization + GPTQ-lite","bits":6,"scope":"all linear layers with special Int5 re-quantization for MLP"}},{"category":"architecture_modification","data":{"component":"Value Residual (VR)","description":"Layer-0 V vector shortcut blended with current layer V to improve deep attention signal flow","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention (GA)","description":"Per-head learned sigmoid gate after scaled dot-product attention to modulate head contributions","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied in first 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"BigramHash embeddings","description":"Bigram hash embeddings with 1024 buckets","parameters":{"buckets":1024}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially (16 dims)","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Attention gating mechanism","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"backend_steps":5}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"lr_scalars":0.025,"lr_embeddings":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization of weights"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":128}}},{"category":"test_time_training","data":{"method":"SGD TTT (legal, cosine, per-layer)","parameters":null}}],"compression":"zstd","novel_contributions":["Value Residual (VR): Layer-0 V vector shortcut for deep attention signal flow improving BPB by -0.015","Gated Attention (GA): Per-head learned sigmoid gate after SDPA improving BPB by -0.003","Late QAT: LR-threshold-based fake-quantize during final ~5% of training to adapt weights to int6 quantization","Full GPTQ + Int5 MLP post-training quantization: Hessian-aware quantization with int5 MLP re-quantization improving BPB by -0.028 and reducing artifact size by 3.6 MB","Finding that Test-Time Training (TTT) hurts performance on GPTQ-quantized models due to incompatibility with gradient-based adaptation"],"artifact_size":"15.7 MB"},{"pr_number":602,"title":"Add non-record 4xH100 10L Int5-MLP submission","author":"ReNothingg","status":"open","is_record":false,"val_bpb":1.14222237,"architecture":"Transformer","quantization":"int5","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP"}},{"category":"architecture_modification","data":{"component":"MLP","description":"Int5-MLP recipe with 10 layers","parameters":{"layers":10}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Rerun of 10L Int5-MLP recipe on 4xH100 GPUs with built-in gradient accumulation","Use of 1200-second wallclock cap instead of standard 10-minute run","Final artifact compressed with zstd","Submission targeted for non-record track, not main 8xH100 leaderboard"],"artifact_size":"15.8MB"},{"pr_number":605,"title":"Record: 0.7227 BPB — 10L LoRA TTT 6ep + FlashAttention-3","author":"bigbag","status":"closed","is_record":false,"val_bpb":0.7227,"architecture":"Transformer","quantization":"int6 uniform quantization + zstd-22","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with ReLU-squared activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash features for token interactions.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Introduces encoder/decoder-style skip connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Shares input embedding and output projection weights.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights with FP16 passthrough for embeddings and control tensors"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"newton_schulz":true,"compiled":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"fused":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"every_steps":10}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":11}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank_qv":8,"rank_lm_head":16,"learning_rate":0.01,"epochs":6,"batch_docs_per_gpu":64}}},{"category":"lr_schedule","data":{"method":"warmdown + cosine decay","parameters":{"warmdown_steps":6000,"per_step_cosine_decay":true}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"max_norm":1}}},{"category":"other","data":{"description":"Late QAT during warmdown.","parameters":null}},{"category":"other","data":{"description":"FlashAttention-3 integration for faster causal attention on H100.","parameters":null}},{"category":"other","data":{"description":"Rotary cache .clone() fix to resolve CUDA graph conflict with FlashAttention-3.","parameters":null}}],"compression":"zstd-22","novel_contributions":["FlashAttention-3 integration for faster attention on H100","Rotary cache .clone() fix for CUDA graph compatibility with FlashAttention-3","LoRA-based test-time training with per-document adaptation","Per-layer learning rates for LoRA and bias parameters during TTT","Score-every-epoch backward-looking evaluation compliant with Issue #402","Late QAT combined with int6 quantization and zstd compression"],"artifact_size":"15.45 MB"},{"pr_number":606,"title":"Record: int5 GPTQ + Soft-Round QAT (3-seed mean 1.1162)","author":"EthanYangTW","status":"open","is_record":false,"val_bpb":1.1162,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int5 GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross Self-Attention on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism added to architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 8192 buckets","parameters":{"buckets":8192}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially with 16/64","parameters":{"partial_rope":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP","description":"MLP scaled 3.5x with relu² activation","parameters":{"scale":3.5,"activation":"relu²"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"lr":0.0001}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_tokens":131072,"epochs_per_chunk":3,"optimizer":"AdamW","learning_rate":0.0001,"weight_decay":0,"unfrozen_params":"last 2 blocks + norms + lm_head (~5.8M / 33.6M)","cosine_lr_decay":true,"every_token_scored_before_update":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization of weights"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"other","data":{"description":"Soft-Round QAT: differentiable tanh-based rounding replacing STE with alpha annealing from 1 to 16","parameters":null}},{"category":"other","data":{"description":"GPTQ error compensation with Hessian-aware column reordering and Cholesky error redistribution using 256-sample calibration","parameters":null}},{"category":"other","data":{"description":"Early QAT clipping at threshold 0.5 matched to int5 range","parameters":{"threshold":0.5,"QAT_steps":1750}}}],"compression":"zstd-22","novel_contributions":["int5 quantization with 31 unique values stored as int8 enabling 33.6M parameter model under 16MB","Hessian-aware GPTQ error compensation with column reordering and Cholesky error redistribution","Soft-Round QAT using differentiable tanh-based rounding replacing STE with alpha annealing from 1 to 16","Legal score-first test-time training (TTT) with AdamW optimizer and cosine LR decay across chunks","Combination of early QAT clipping at 0.5 threshold and EMA with decay 0.997","Use of BigramHash 8192 and Partial RoPE 16/64 in architecture","Achieving 33.6M parameters with int5 quantization and 2% magnitude pruning fitting under 16MB"],"artifact_size":"under 16MB"},{"pr_number":607,"title":"11L AttnRes + Gated Attention + Looped Blocks + EMA + Cosine + QAT","author":"Neopolita","status":"open","is_record":false,"val_bpb":1.475,"architecture":"Transformer","quantization":"QAT int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Block Attention Residuals","description":"Replaces fixed skip_weights with learned depth routing using softmax attention over all encoder outputs with per-decoder-layer pseudo-queries","parameters":null}},{"category":"architecture_modification","data":{"component":"Per-head gated attention","description":"Learnable sigmoid gate per attention head to prevent attention-sink pathology","parameters":null}},{"category":"architecture_modification","data":{"component":"Looped middle blocks","description":"Layers 4-7 run twice per forward pass, adding compute depth without increasing parameters","parameters":{"layers":"4-7","repeat":2}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"per-row"}}],"compression":"zlib","novel_contributions":["Block Attention Residuals replacing fixed skip_weights with learned depth routing","Per-head gated attention to prevent attention-sink pathology","Looped middle blocks (layers 4-7 run twice) for zero-param compute depth","Use of EMA with decay 0.995 for weight averaging","Cosine learning rate decay replacing linear warmdown","Quantization Aware Training (QAT) simulating int8 per-row quantization in last 15% of training"],"artifact_size":"13.7MB"},{"pr_number":609,"title":"Non-record: 11L XSA-all + Full GPTQ + Selective Pruning (val_bpb=1.1154, 3-seed)","author":"saml212","status":"open","is_record":false,"val_bpb":1.1154,"architecture":"Transformer","quantization":"Full Hessian GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-Position Self-Attention applied on all 11 layers instead of last 4, forcing cross-position information mixing from layer 0","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Selective ±1 magnitude pruning","description":"Post-GPTQ pruning of ±1 quantized values sorted by reconstruction error (scale²), zeroing least-impactful values first until artifact fits","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)² MLP 3x","description":"MLP with LeakyReLU activation squared, repeated 3 times","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially with parameters 16/64","parameters":{"partial_rope":"16/64"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value Embedding with dimension 128","parameters":{"dimension":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections inspired by U-Net architecture","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"quantization","data":{"method":"Full Hessian GPTQ","bits":6,"scope":"int6"}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Applying Cross-Position Self-Attention (XSA) on all 11 layers instead of the standard last 4 layers, improving cross-position information mixing from layer 0","Selective ±1 magnitude pruning post-GPTQ by sorting ±1 quantized values by reconstruction error and zeroing the least impactful first until artifact fits"],"artifact_size":"15.94 MB"},{"pr_number":610,"title":"GPTQ Int6 + SGD Test-Time Training — A800 1.1190 bpb","author":"ChaosCodes","status":"open","is_record":false,"val_bpb":1.119,"architecture":"GPT","quantization":"GPTQ int6 Hessian-guided column-wise quantization","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Last 4 layers attend across batch sequences (Cross-Sequence Attention)","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential Moving Average weight averaging for smoother convergence","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip","description":"Residual skip connections between early and late layers","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gating for token mixing","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048-vocab bigram hash embeddings for local context","parameters":{"vocab_size":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"PartialRoPE","description":"Partial Rotary Positional Embeddings on 16 dims, base 10000","parameters":{"dimensions":16,"base":10000}}},{"category":"architecture_modification","data":{"component":"LNScale","description":"Learnable LayerNorm scaling","parameters":null}},{"category":"architecture_modification","data":{"component":"ValueEmbed","description":"128-dim value embeddings on layers 9-10","parameters":{"dimensions":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"LateQAT","description":"Quantization-aware training enabled after loss threshold 0.15","parameters":{"loss_threshold":0.15}}},{"category":"architecture_modification","data":{"component":"SWA","description":"Stochastic Weight Averaging checkpoint averaging every 50 steps","parameters":{"frequency_steps":50}}},{"category":"architecture_modification","data":{"component":"Activation","description":"LeakyReLU with negative slope 0.5 squared replacing GELU²","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002,"lr_schedule":"cosine","epochs_per_chunk":3,"chunk_size_tokens":32768,"freeze_blocks":2,"score_first":true}}},{"category":"compression","data":{"method":"zstd","level":21}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"cosine_lr_schedule":true,"max_chunks":900,"chunk_size_tokens":32768,"freeze_blocks":2,"epochs_per_chunk":3}}}],"compression":"zstd level-21 with long-distance matching (LDM)","novel_contributions":["LeakyReLU(0.5)² activation replacing GELU² to improve gradient flow and save 0.0026 bpb","GPTQ int6 Hessian-guided column-wise quantization replacing naive per-row rounding, reducing quantization error by 33.6% and saving 0.0029 bpb","SGD test-time training (TTT) adapting last 9/11 layers with cosine LR decay, improving evaluation bpb by ~0.0024"],"artifact_size":"15,750,888 bytes"},{"pr_number":611,"title":"Record: Chimera TTT — K-Projection LoRA + Min-NLL (0.5601 BPB, 3-seed mean)","author":"teddyoweh","status":"closed","is_record":false,"val_bpb":0.5601,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"k_projection_lora":true,"ttt_epochs":8}}},{"category":"architecture_modification","data":{"component":"K projection LoRA","description":"Adds LoRA adapters to key projections in attention, in addition to the usual Q/V LoRA, with a reduced learning-rate multiplier.","parameters":{"lr_multiplier":0.3}}},{"category":"evaluation_technique","data":{"method":"min-NLL epoch selection","parameters":{"select_best_epoch_per_document":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"ttt_epochs":8}}}],"compression":null,"novel_contributions":["Adds LoRA adapters to K projections during test-time training, not just Q and V.","Tracks the minimum average NLL per document across TTT epochs instead of using only the last epoch.","Extends TTT from 6 to 8 epochs while avoiding late-epoch overfitting via min-NLL selection.","Uses a conservative 0.3x learning-rate multiplier for K-projection LoRA."],"artifact_size":"1498 lines"},{"pr_number":612,"title":"Non-record: 11L GEPA + 12k Steps + Pure Int6 + Legal TTT (val_bpb=1.1079)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.10788263,"architecture":"GEPA","quantization":"pure int6 per-row quantization with GPTQ-lite clip search","optimizer":"SGD","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row with GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention on last 4 layers","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-mixing gate on input embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048 buckets, 128-dim embeddings","parameters":{"buckets":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings with YARN scaling","parameters":{"dims":"16/64","train_seq":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3× expansion with ReLU² activation","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Tied input and output embeddings","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002,"epochs_per_chunk":10,"gradient_clip":1,"freeze_first_blocks":2}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":10,"chunk_size_tokens":32768,"stride_tokens":64,"frozen_blocks":2,"gradient_clip":1,"total_chunks":1893}}},{"category":"lr_schedule","data":{"method":"cosine decay with linear warmup","parameters":{"warmup_steps":20,"warmdown_start_step":7000,"total_steps":12000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["12k-step training with 5k-step warmdown exploiting unlimited-compute track","Pure int6 per-row quantization with 15-candidate GPTQ-lite clip search","Legal score-first test-time training (TTT) with SGD momentum and learning rate warmup"],"artifact_size":"14.79 MB"},{"pr_number":614,"title":"Record: 0.6864 BPB — K-LoRA + Min-NLL + FlashAttention-3","author":"bigbag","status":"closed","is_record":false,"val_bpb":0.6864,"architecture":"Transformer","quantization":"late QAT int6 uniform","optimizer":"Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate as an architectural component.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash with 2048 buckets/features.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses U-Net style skip connections in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 query heads and 4 key/value heads.","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"compiled":true,"newton_schulz":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"every_steps":10}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank_qkv":8,"rank_lm_head":16,"learning_rate":0.01,"epochs":6,"batch_docs_per_gpu":64,"temperature":0.98,"deadline_seconds":550,"per_layer_lr_multipliers":{"lm_head":2,"v":1.5,"q":0.5,"k":0.3,"bias":3}}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"per_step":true}}},{"category":"evaluation_technique","data":{"method":"min-NLL epoch selection","parameters":{"select_best_epoch_per_document":true}}},{"category":"architecture_modification","data":{"component":"FlashAttention-3","description":"Uses flash attention for causal attention with a Rotary cache clone fix for CUDA graph compatibility.","parameters":null}},{"category":"architecture_modification","data":{"component":"K-Projection LoRA","description":"Applies LoRA to K projections in addition to Q/V with a reduced learning-rate multiplier.","parameters":{"k_lr_multiplier":0.3}}}],"compression":"zstd-22","novel_contributions":["K-Projection LoRA applied to K projections with a 0.3x learning-rate multiplier","Min-NLL epoch selection across TTT epochs to avoid late-epoch overfitting","FlashAttention-3 causal attention integration","Rotary cache clone fix for CUDA graph compatibility"],"artifact_size":"15.53 MB"},{"pr_number":615,"title":"Record: Residual Input Mixing + mixed int6 GPTQ + grouped TTT + MLP 3.5x","author":"danialht","status":"open","is_record":false,"val_bpb":1.1169,"architecture":"Transformer","quantization":"mixed int6 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int6 GPTQ","bits":6,"scope":"per-row"}},{"category":"architecture_modification","data":{"component":"Residual Input Mixing","description":"Each transformer block sees a learned mix of the current stream, earlier block outputs, and the original x0, creating a denser residual path and enabling reuse of longer-range intermediate features.","parameters":{"layers":11,"dimension":512,"MHA":"8/8","MLP":"3.5x (1792)","BigramHash":8192,"XSA":"all layers","mixed residuals":"each layer from 2 previous layers"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"grouped":true,"stronger matrix/head adaptation":true,"standard clipping restored":true,"per-chunk warmup removed":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk":131072,"last 2 blocks plus control params unfrozen":true,"optimizer":"Legal score-first AdamW"}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}}],"compression":null,"novel_contributions":["Changed TTT from a flat optimizer to grouped AdamW with stronger matrix/head adaptation, restoring standard clipping and removing per-chunk warmup.","Modified architecture to have denser residual connections by mixing inputs from current stream, earlier block outputs, and original input x0 at each transformer block.","Applied mixed int6 per-row GPTQ quantization with clip_range=15 combined with Early QAT (threshold 0.5) and EMA 0.997.","Used MLP expansion of 3.5x (1792) and BigramHash 8192 with XSA in all layers."],"artifact_size":"15.6 MB"},{"pr_number":617,"title":"Add 11L TTT LoRA submission: SOTA architecture + per-document LoRA te…","author":"ryanadamsai","status":"closed","is_record":false,"val_bpb":1.1228,"architecture":"11L EMA + GPTQ-lite","quantization":"GPTQ-lite + QAT@0.15","optimizer":"Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"EMA","description":"Uses exponential moving average in the 11-layer model architecture/training setup.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"lr_schedule","data":{"method":"warmdown3500","parameters":{"warmdown_steps":3500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk_size":256,"eval_seq_len":2048,"batch_size":32}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"betas":[0.9,0.95]}}}],"compression":null,"novel_contributions":["Combines the PR #401 SOTA architecture with per-document LoRA test-time training at evaluation.","Adds a forward_with_lora path and attention/block hooks to support per-batch LoRA adapters for Q/V projections.","Introduces BatchedTTTLoRA for rank-8 LoRA adapters on Q, V, and optionally the LM head.","Implements per-document chunked evaluation that resets LoRA parameters between documents to avoid leakage.","Uses document boundary detection via BOS tokens and batched length-sorted evaluation for efficiency."],"artifact_size":null},{"pr_number":618,"title":"experiments: MODEL_DIM=256, MLP_MULT=3, WARMDOWN fix - best bpb 1.4702","author":"0xtigerclaw","status":"closed","is_record":false,"val_bpb":1.4702,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP multiplier from the default 2 to 3.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Explored layer tying as a possible way to fit within remaining size headroom; noted as not yet applied in the reported best run.","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":null,"constraint":"must fit within actual step count"}}}],"compression":null,"novel_contributions":["Found that MODEL_DIM=256 with MLP_MULT=3 and warmdown fix achieved the best reported score of 1.4702 bpb.","Observed that wider models lost under the time budget, while deeper models without tying performed poorly.","Identified that step speed matters more than model size on the available time budget.","Noted that WARMDOWN_ITERS must fit within the actual step count.","Suggested remaining artifact headroom for potential layer tying."],"artifact_size":"6.4MB"},{"pr_number":619,"title":"non-record 16MB A100 SXM run (10L mixed int5/int6 + EMA + QAT)","author":"zeal175","status":"open","is_record":false,"val_bpb":1.42223098,"architecture":"Transformer","quantization":"mixed int5/int6 with QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6 with QAT","bits":null,"scope":"int5 for MLP weights, int6 for attention/bigram-sensitive weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding added to model","parameters":{"BIGRAM_VOCAB_SIZE":10240,"BIGRAM_DIM":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion","parameters":{"MLP_MULT":3,"NUM_LAYERS":10}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9999}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"MATRIX_LR":0.02,"SCALAR_LR":0.04,"TIED_EMBED_LR":0.04}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":160}}}],"compression":"zlib","novel_contributions":["Mixed quantization using int5 for MLP weights and int6 for attention/bigram-sensitive weights","Use of EMA (Exponential Moving Average) for export-time weights with high decay","Final-fraction QAT (Quantization Aware Training) with QAT_FINAL_FRAC=0.15","Incorporation of BigramHash embedding with large vocab size and dimension","3x MLP expansion in a 10-layer Transformer model","Use of Muon optimizer with specific learning rates and momentum tuning","Compression of final artifact under 16MB using int8+zlib"],"artifact_size":"15,576,677 bytes"},{"pr_number":620,"title":"Record: LeakyReLU(0.5)² + Per-Document LoRA TTT (mean val_bpb=0.9443, 3 seeds)","author":"robinojw","status":"open","is_record":false,"val_bpb":0.9443,"architecture":"U-Net","quantization":"int8 per-row with 99.99984th percentile clipping","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)²","description":"Single-line activation swap replacing torch.relu(x) with F.leaky_relu(x, 0.5), preserves negative gradient flow and prevents dead neurons in squared activation","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending via sigmoid gate","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Embedding with 2048 buckets and dimension 128","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"depth-scaled residuals","description":"Residual connections scaled by 1/sqrt(layer+1)","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.02,"momentum_warmup":"0.92→0.99"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr_embeddings":0.03,"lr_scalars":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"decay":0.999}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"per-row"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"test_time_training","data":{"method":"Per-document LoRA TTT","parameters":{"rank":8,"epochs":3,"chunk":256,"min_doc_len":512,"learning_rate":0.01,"adapted_layers":"Q, V projections and LM head","fresh_lora_per_document":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"final_steps":3000}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["Use of LeakyReLU(0.5)² activation replacing ReLU to preserve negative gradient flow and prevent dead neurons in squared activation","Per-document backward-looking LoRA test-time training (TTT) with rank-8 LoRA applied on Q, V projections and LM head","SmearGate learned token blending via sigmoid gate","BigramHash embedding with 2048 buckets and 128 dimensions","Depth-scaled residuals scaled by 1/sqrt(layer+1)","Combination of Muon optimizer with Adam for embeddings and scalars","Use of SWA with decay 0.999","Artifact quantized with int8 per-row and compressed with zstd-22","Known issue with TTT scoring only on final epoch and proposed 1-line fix to score on every epoch"],"artifact_size":"15,430,887 B"},{"pr_number":622,"title":"Submission: 1.0941 BPB by David Weyh","author":"Upsalla","status":"closed","is_record":false,"val_bpb":1.0941,"architecture":"Transformer","quantization":"INT8","optimizer":"Adam","training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Custom bigram-based hashing component used in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization used for model weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP hidden dimension expanded to 3x the model dimension.","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.01}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"epochs":2,"layers":["c_proj","mlp_proj"]}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"sequence_length","data":{"train_length":null,"eval_length":512}},{"category":"other","data":{"description":"Document-level sequential evaluation and adaptation: validation documents are processed chronologically, with shorter documents evaluated zero-shot and longer documents chunked for per-document adaptation.","parameters":{"document_level":true,"sequential_processing":true}}}],"compression":"zlib","novel_contributions":["Document-level LoRA test-time training on validation documents","Chronological chunk-wise adaptation within each document","LoRA injected into c_proj and mlp_proj layers","INT8 compression to fit the artifact under 16 MB","10-layer, 512-dim transformer with SmearGate, BigramHash, and tied embeddings"],"artifact_size":"14.99 MB"},{"pr_number":623,"title":"[10min/16MB] AWQ + Cyclic Momentum + ReLU² + 11L Shared — 1.1507 bpb","author":"SPThole","status":"open","is_record":false,"val_bpb":1.1507,"architecture":"Transformer","quantization":"mixed int5/int6/int8","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6/int8","bits":null,"scope":"MLP weights (int5), Attention weights (int6), Bigram embeddings (int6), Token embeddings (int8)"}},{"category":"architecture_modification","data":{"component":"11L Shared","description":"10 unique weight sets, last block reused to save depth cost","parameters":{"num_layers":11,"unique_layers":10,"shared_last_layer":true}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Sparser MLP activations using squared ReLU activation function","parameters":null}},{"category":"architecture_modification","data":{"component":"skip_connections","description":"U-Net style skip connections with 5 encoder and 6 decoder layers","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"momentum_schedule":"cyclic 0.85–0.95","learning_rate":0.025,"momentum_warmup":"0.92 to cyclic over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"learning_rate_embeds":0.035,"learning_rate_scalars":0.025,"scope":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.2,"every":50}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd","novel_contributions":["Activation-aware weight quantization (AWQ) scaling weight columns by activation importance before int5/int6 quantization, reducing quantization error on high-activation channels","Cyclic Muon Momentum optimizer with triangle wave momentum schedule (0.85–0.95) to escape sharp minima","Use of ReLU squared (ReLU²) activation for sparser MLP activations beneficial for small models","11-layer architecture with 10 unique layers and last block weight sharing to save depth cost","U-Net style skip connections with 5 encoder and 6 decoder layers"],"artifact_size":"15.4 MB"},{"pr_number":625,"title":"Add_Maestro_Solar_Protocol_Joeavaib","author":"Joeavaib","status":"open","is_record":false,"val_bpb":1.11937967,"architecture":"Maestro 1+7+1 Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":null}},{"category":"architecture_modification","data":{"component":"1+7+1 layer stack","description":"Specialized layer stack with reasoning, completion, and validation layers including SolarShield gating and LeakyReLU(0.5)^2 activation","parameters":{"reasoning_layer":1,"completion_blocks":7,"validation_layer":1,"BigramHash_vocab_size":1536,"RoPE_dims":16}}},{"category":"architecture_modification","data":{"component":"SolarShield gating","description":"Reality-locked gating mechanism balancing residual stream flow at layers L0 and L4","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2 activation","description":"Replaces standard relu² or SiLU to maintain gradient flow with non-negative inductive bias","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":null,"other_params":{"post_backward_reduce_scatter":true,"local_NS5":true,"all_gather":true}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"EMA_decay":0.997,"SWA_every":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"mode":"torch.inference_mode()","stateless":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":3,"momentum":0.9,"freeze_blocks":0,"chunk_tokens":32768,"batch_seqs":32,"grad_clip":1}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"lzma","novel_contributions":["Maestro OS framework with 1+7+1 layer architecture for reasoning, completion, and validation","SolarShield gating mechanism for dynamic residual stream balancing","Use of LeakyReLU(0.5)^2 activation to maintain gradient flow with non-negative inductive bias","Integration of Parameter Banking and Parallel Muon optimizer","Legal TTT protocol with score-first test-time training on previously scored chunks","Combination of EMA and Tight SWA weight averaging","GPTQ-lite int6 quantization with LZMA compression"],"artifact_size":"~15.95 MB"},{"pr_number":626,"title":"Record: Full GPTQ + LeakyReLU² + Parallel Muon (3-seed mean 1.1180)","author":"kshitizz36","status":"open","is_record":false,"val_bpb":1.11800697,"architecture":null,"quantization":"GPTQ","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"Use of squared LeakyReLU activation function","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component with parameters (3072,80)","parameters":{"hash_dim":3072,"hash_buckets":80}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64,"mode":"sliding"}}},{"category":"test_time_training","data":{"method":"No TTT","parameters":null}}],"compression":null,"novel_contributions":["Full GPTQ quantization applied","Use of LeakyReLU squared activation function","Parallel Muon optimizer technique","BigramHash component with parameters (3072,80)","Independent 3-seed evaluation with sliding window stride=64","No test-time training (TTT) used"],"artifact_size":"15.93MB"},{"pr_number":628,"title":"Non-record: 11L GEPA + 20k Steps + Pure Int6 + Legal TTT (val_bpb=1.0983): unlimited compute: 4×A100-40GB, ~2.8 hours","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.0983,"architecture":"11-layer GEPA Transformer variant","quantization":"pure int6 per-row quantization with GPTQ-lite clip search","optimizer":"SGD with momentum","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row with GPTQ-lite clip search","bits":6,"scope":"all model tensors including embeddings"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention on last 4 layers","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-mixing gate on input embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048 buckets with 128-dim embeddings","parameters":{"buckets":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial RoPE with 16/64 dims and YARN scaling","parameters":{"partial_dims":"16/64","train_seq_length":2048}}},{"category":"architecture_modification","data":{"component":"MLP","description":"3× expansion with ReLU² activation","parameters":{"expansion_factor":3,"hidden_dim":1536,"activation":"ReLU²"}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"128d on layers 9–10 with per-layer scale initialized at 0.1","parameters":{"dimension":128,"layers":[9,10],"init_scale":0.1}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale with 1/sqrt(layer+1) depth scaling","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Residual connections across layer pairs","parameters":null}},{"category":"architecture_modification","data":{"component":"Tied Embeddings","description":"Weight tying of embeddings","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":0.04,"momentum":0.9,"other_params":{"learning_rate":0.002,"lr_schedule":"cosine decay with 5% warmup"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"chunk_size":32768,"epochs_per_chunk":10}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":10,"chunk_size":32768,"stride":64,"frozen_blocks":2,"gradient_clip":1,"lr_warmup_percent":5}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_start_step":12000,"warmdown_steps":8000,"type":"cosine anneal"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"freeze early layers during TTT","parameters":{"frozen_blocks":2,"total_blocks":11}}}],"compression":"zstd-22","novel_contributions":["Demonstrated that warmdown is a first-class training variable delivering the majority of gains after peak LR plateau, with an 8000-step warmdown driving float base BPP from ~1.216 to 1.1153.","Achieved smallest artifact size (14.29 MB) with pure int6 per-row quantization combined with GPTQ-lite clip search over 15 percentile candidates and zstd-22 compression.","Showed that SGD with momentum outperforms AdamW for legal score-first test-time training (TTT), delivering 2.4× the TTT gain on the same base model.","Identified freezing early layers during TTT as active regularization improving adaptation, not just catastrophic forgetting defense.","Found that as base model quality improves, the relative contribution of TTT to final gain shrinks, emphasizing investing in base model training after choosing the right TTT regime."],"artifact_size":"14.29 MB"},{"pr_number":630,"title":"Non-record: LapushBaby stock baseline 1xGPU RunPod","author":"LapushBaby","status":"open","is_record":false,"val_bpb":1.36294332,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Reproducible single-GPU RunPod training run using unmodified stock train_gpt.py","Documentation of baseline metrics and commands for transparency","Use of int8 quantization with zlib compression to fit under 16MB artifact size","600-second wallclock training cap on 1 GPU","No multi-seed sweeps or leaderboard-class tuning"],"artifact_size":"12.3MB"},{"pr_number":632,"title":"non-record:10Layer + BigramHash+ SWA + Attention-Residuals","author":"AtomChen0425","status":"open","is_record":false,"val_bpb":1.2767,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights (Int5), attention weights (Int6)"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Increased BigramHash buckets to 10,240 to reduce hash collisions for consecutive token pairs","parameters":{"buckets":10240}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"highly selective"}}},{"category":"architecture_modification","data":{"component":"Attention-Residuals","description":"Removed standard layer-by-layer residuals; model keeps rolling history of previous layer outputs and uses learned query with Softmax-weighted scoring over this history","parameters":null}}],"compression":null,"novel_contributions":["Mixed Int5/Int6 quantization allowing addition of a 10th transformer layer","Expanded BigramHash to 10,240 buckets to reduce hash collisions","Highly selective Stochastic Weight Averaging (SWA) strategy","Attention-Residuals mechanism replacing standard residual connections with a rolling history and learned query Softmax weighting"],"artifact_size":"15858193 bytes"},{"pr_number":633,"title":"PROTEUS v9 — 11L INT6 + single-epoch LoRA TTT (mean val_bpb=1.1526, 3 seeds)","author":"MatoTeziTanka","status":"open","is_record":false,"val_bpb":1.1526,"architecture":"Transformer","quantization":"INT6 GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"INT6 GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross self-attention on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets and 128 dimension","parameters":{"buckets":2048,"dimension":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with base 50K and NTK-aware eval scaling","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"depth-scaled residual","description":"Residual scaling by 1/sqrt(layer_idx + 1) per block","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and relu² activation","parameters":{"hidden_dim":1536}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"applied_to":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"frequency":"every step"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"betas":[0.9,0.95],"batch_size":64,"min_document_length":512,"single_epoch":true,"targets":["Q projections","V projections","LM head"]}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iterations":3000,"type":"wallclock-based"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_value":0.3}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"percentage":3}}},{"category":"other","data":{"description":"Score-then-train single-epoch test-time training (TTT) to avoid training on evaluation tokens","parameters":null}}],"compression":"zstd-22","novel_contributions":["Single-epoch test-time training (TTT) with score-then-train pattern to comply with rules against multi-epoch TTT","Use of INT6 GPTQ-lite quantization with 5 clip percentiles per row and selection by lowest MSE","Combination of LoRA TTT targeting Q, V projections and LM head with single epoch scoring","Architecture modifications including SmearGate, BigramHash, RoPE with NTK-aware scaling, depth-scaled residuals, and U-Net skip connections","Use of Muon optimizer with matrix_lr and AdamW for embeddings/scalars","Artifact compression using zstd-22 achieving ~15.4 MB artifact size within 16MB budget"],"artifact_size":"15.4 MB"},{"pr_number":634,"title":"Record: 11L XSA-all + Full GPTQ + Parallel Muon + Selective Pruning (val_bpb: 1.1171)","author":"raahilshah","status":"open","is_record":false,"val_bpb":1.1171,"architecture":"Transformer","quantization":"int6 GPTQ with amax-aligned QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied on all 11 layers to force cross-position mixing from layer 0","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"Activation function to prevent dead neurons and double effective MLP capacity","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial Rotary Positional Embeddings with NTK-aware scaling","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Temporal gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 2048 buckets and 128-dim embedding","parameters":{"buckets":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections with 5 encoder and 6 decoder layers","parameters":{"encoder_skips":5,"decoder_skips":6}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 heads with 4 KV heads (GQA)","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Weight tying of embeddings","parameters":null}},{"category":"quantization","data":{"method":"Full Hessian GPTQ with amax-aligned QAT","bits":6,"scope":"all block weights"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr_matrices":0.025,"lr_embeddings":0.035,"Newton-Schulz_steps":5,"gradient_clip":0.3,"batch_tokens":786432,"seq_len":2048}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"EMA_decay":0.997,"SWA_frequency_steps":50,"SWA_scale_threshold":0.2}}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_factor":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Selective ±1 magnitude pruning post-GPTQ to zero least impactful ±1 quantized values until target artifact size","parameters":{"target_size_MB":15.9}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"initialization","data":{"method":"Orthogonal initialization","description":null}}],"compression":"lzma-6","novel_contributions":["Applying Exclusive Self-Attention (XSA) on all 11 layers instead of last 4 to improve cross-position mixing","Full Hessian GPTQ with 256-sample calibration and Cholesky error compensation for int6 quantization","amax-aligned QAT with row-maximum clipping matching export quantizer","Parallel Muon optimizer with parameter banking and 3-phase overlapped optimizer step to eliminate DDP overhead and speed training","Selective ±1 magnitude pruning post-GPTQ to reduce artifact size with minimal reconstruction error","Use of LZMA compression (preset 6) for better compression ratio on int6 weights","LeakyReLU(0.5)^2 activation to prevent dead neurons and double effective MLP capacity","Combination of EMA and Tight SWA for weight averaging","Partial RoPE with NTK-aware scaling and other architectural tweaks like SmearGate, BigramHash, U-Net skips"],"artifact_size":"15.92MB"},{"pr_number":635,"title":"Non-record: 11L MLP3.5x LeakyReLU(0.5)^2 + Full SOTA Stack (mean val_bpb=1.1330, 8xH100 SXM)","author":"aryanbhosale","status":"open","is_record":false,"val_bpb":1.133,"architecture":"Transformer","quantization":"int6 uniform + GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6 uniform + GPTQ-lite","bits":6,"scope":"all except tied embeddings"}},{"category":"architecture_modification","data":{"component":"MLP 3.5x with LeakyReLU(0.5)^2","description":"Expanded MLP hidden dimension with squared LeakyReLU activation","parameters":{"expansion_factor":3.5,"activation":"LeakyReLU(0.5)^2","hidden_dim":1792}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism applied in architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with 10240 buckets and 128 dimensions","parameters":{"buckets":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Trigram hashing with 4096 buckets and 128 dimensions","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"Value Residual (ResFormer)","description":"Caching and blending value vectors from layer 0 via learned lambda","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gating with bias initialized to 4.0","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA all 11 layers","description":"Exclusive self-attention applied on all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially on 16 of 64 head dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"Tied FP16 embeddings","description":"Weight tying of embeddings in FP16 precision","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net architecture","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization of weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"momentum_schedule":"0.92->0.99 over 1500 steps"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.03}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_value":0.3}}},{"category":"training_techniques","data":{"description":"Late QAT via STE applied during final 15% of training","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Use of MLP 3.5x expansion with LeakyReLU(0.5)^2 activation","Integration of SmearGate gating mechanism","Combination of BigramHash and TrigramHash embeddings","Value Residual (ResFormer) caching and blending of layer 0 values","Gated Attention with per-head sigmoid gating and bias initialization","Exclusive self-attention (XSA) applied on all 11 layers","Partial RoPE applied on a subset of head dimensions (16/64)","Late Quantization Aware Training (QAT) via STE in final 15% of training","Use of Muon optimizer with momentum scheduling","Orthogonal initialization (OrthoInit) of weights","U-Net style skip connections in Transformer architecture","Int6 uniform quantization combined with GPTQ-lite and per-row 5-percentile clipping"],"artifact_size":null},{"pr_number":636,"title":"Add non-record 10min submission: 11L XSA4 + EMA + GPTQ + FA3 (1.12336724)","author":"NewyorkDev","status":"open","is_record":false,"val_bpb":1.12336724,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Muon + Adam-style groups","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer self-attention on the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Token mixing technique combined with BigramHash and tied embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Token mixing with BigramHash embedding","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Weight tying of embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"VE","description":"Late-layer vector embedding enabled on layers 9 and 10","parameters":{"layers":[9,10],"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP","description":"3x expansion MLP","parameters":{"expansion":3}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"Adam-style groups","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"exact":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Late QAT trigger before full GPTQ int6 export","parameters":{"late_qat_threshold":0.15}}},{"category":"other","data":{"description":"FlashAttention 3 kernel on Hopper hardware with PyTorch SDPA fallback","parameters":null}}],"compression":"zstd","novel_contributions":["Combination of 11-layer 512d GQA model with 2048-token training and tied embeddings","Use of BigramHash + SmearGate token mixing","Cross-layer self-attention (XSA) on the last 4 layers","Late-layer vector embedding (VE) enabled on layers 9 and 10","EMA applied before export","Late QAT trigger followed by full GPTQ int6 quantization","Use of FlashAttention 3 kernel on Hopper hardware with fallback to PyTorch SDPA","Submission as a fully preserved single-run official log without multi-seed statistical significance claim"],"artifact_size":"15,853,809 bytes"},{"pr_number":637,"title":"Non-record submission: BigramDim160 + 10% Prune + SWA (1.14767 bpb, 2 seeds)","author":"bryjudy","status":"open","is_record":false,"val_bpb":1.14767,"architecture":"Transformer","quantization":"mixed int5/int6 with zstd-22","optimizer":"Muon + Adam","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP (int5/int6), attention (int6)"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram embedding with reduced dimension to control artifact size","parameters":{"dim":160,"vocab_buckets":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Replaces standard LayerNorm gating","parameters":null}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization for better initial weight structure","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped Query Attention reduces parameter count while maintaining quality","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.5,"checkpoints_averaged":23}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":0.04,"momentum":null,"other_params":{"embed_lr":0.03,"matrix_lr":0.02,"scalar_lr":0.02}}},{"category":"regularization","data":{"method":"weight pruning","parameters":{"amount":"10%","scope":"non-embedding linear weights","timing":"post-SWA, pre-quantization"}}}],"compression":"zstd-22","novel_contributions":["Reduced BigramHash embedding dimension from 192 to 160 to reliably fit artifact size under 16MB across seeds","Applied 10% weight pruning on non-embedding linear weights post-SWA to improve compressibility without hurting quality","Demonstrated artifact size variance between seeds as a key challenge, emphasizing reliability over raw quality","Used SWA starting halfway through training (start_frac=0.5) averaging 23 checkpoints","Maintained SOTA techniques like SmearGate, OrthoInit, GQA, and mixed int6/int5 quantization with zstd compression"],"artifact_size":"approximately 15.8MB to 15.9MB"},{"pr_number":638,"title":"Record: 11L XSA-all + LeakyReLU(0.5)² + VR + GA (val_bpb=1.1164, pending 3-seed)","author":"Asukabot0","status":"open","is_record":false,"val_bpb":1.1164,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention on all 11 layers removing self-position bias","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"LeakyReLU with negative slope 0.5 squared replaces ReLU^2, preserves negative gradient flow","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 value output mixed into subsequent layers via learned sigmoid gates","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention output","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashing technique with 4096 buckets","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially on 16/64 dimensions","parameters":{"train_dims":16,"total_dims":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net architecture","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":21}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-21","novel_contributions":["Applying Exclusive Self-Attention (XSA) on all 11 layers instead of just last 4, improving BPB by 0.006","Replacing ReLU^2 with LeakyReLU(0.5)^2 activation to preserve negative gradient flow with zero overhead and -0.003 BPB improvement","Introducing Value Residual (VR) where layer 0 value output is mixed into subsequent layers via learned sigmoid gates, improving BPB by 0.002","Using Gated Attention (GA) with per-head sigmoid gates on attention output","Combining SmearGate, BigramHash(4096), Partial RoPE (16/64 dims), and U-Net skip connections for architectural improvements","Employing int6 per-row quantization combined with zstd-21 compression to fit artifact under 16MB","Using Muon optimizer with momentum warmup and warmdown schedule of 3500 steps","Demonstrating a non-TTT submission within 0.001 BPB of current non-TTT SOTA"],"artifact_size":"15,941,860 bytes"},{"pr_number":639,"title":"Full GPTQ + XSA-all + SWA/EMA (val_bpb=1.1158, 3-seed mean=1.1163)","author":"Robby955","status":"open","is_record":false,"val_bpb":1.1158,"architecture":"11L GEPA Transformer","quantization":"Full GPTQ int6 quantization on all 11 layers","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all 11 layers"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer self-attention applied on all 11 layers","parameters":{"layers":11}}},{"category":"weight_averaging","data":{"method":"SWA+EMA blend","parameters":{"blend_ratio":"50/50","snapshots":16}}},{"category":"compression","data":{"method":"LZMA","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"optimizers_tested":["AdamW","SGD"],"learning_rates":[0.0005,0.002,0.001],"epochs":[3,5,10],"effect":"neutral-to-harmful on GPTQ weights"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":4000}}}],"compression":"lzma-9","novel_contributions":["Full GPTQ quantization halves the quantization gap from 0.008 to 0.004 BPB using Cholesky-based GPTQ with act-order column permutation and block-wise error compensation.","AdamW optimizer catastrophically harms GPTQ-calibrated weights during test-time training; TTT is neutral-to-harmful regardless of optimizer or learning rate.","GPTQ damping factor has negligible impact on performance, showing robustness of Cholesky solve.","Applying XSA on all 11 layers (instead of last 4) improves training quality and sliding window BPB by 0.0013.","EB-TTT with Born-rule scaling (SNR²) is a novel per-layer TTT gradient scaling inspired by quantum probability amplitudes but provides no measurable BPB improvement on GPTQ-quantized models."],"artifact_size":"15.92 MB"},{"pr_number":640,"title":"Record Submission: 1.1570 BPB - 73.7M Ternary U-Net + NeoMuon + 4x relu²MLP + Factored Tied Emb + Poly5 Softcap + YaRN2048 + 8192BPE + FP8QAT + Bitmask-LZMA + Stride-16 Sliding","author":"CiprianFlorin-Ifrim","status":"open","is_record":true,"val_bpb":1.157,"architecture":"Ternary U-Net Transformer","quantization":"BitNet b1.58 ternary quantisation (~1.6 bits/param) with FP8 QAT for fp params","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"BitNet b1.58 ternary quantisation with FP8 QAT","bits":1,"scope":"weights ternary {-1,0,+1} with FP8 QAT for fp params"}},{"category":"architecture_modification","data":{"component":"U-Net encoder/decoder","description":"U-Net encoder/decoder with learned skip weights (ones-init) and per-block residual mix from input embedding","parameters":{"layers":10,"dim":768,"heads":8,"kv_heads":4,"head_dim":96,"MLP_expansion":4,"MLP_hidden":3072,"activation":"relu²","embedding_dim":254,"vocab_size":8192,"positional_encoding":"YaRN max_len=2048 ROPE_BASE=5000"}}},{"category":"architecture_modification","data":{"component":"Factored tied embedding","description":"8192×254 bottleneck with learned 254-to-768 and 768-to-254 projections","parameters":null}},{"category":"architecture_modification","data":{"component":"Fused QKV projection","description":"Single TernaryLinear fused QKV projection","parameters":null}},{"category":"architecture_modification","data":{"component":"FlashAttention-3","description":"Hopper native kernels for attention","parameters":null}},{"category":"optimizer_technique","data":{"method":"NeoMuon","weight_decay":0,"momentum":0.95,"other_params":{"backend_steps":3,"momentum_warmup_start":0.85,"momentum_warmup_steps":500,"adam_lr":0.05,"adam_wd":0.05,"matrix_lr":0.04,"scalar_lr":0.02,"tied_embed_lr":0.02}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16,"temperature_scaling":0.9,"temperature_grid_points":5}}},{"category":"compression","data":{"method":"Base-3 + LZMA","level":9}},{"category":"regularization","data":{"method":"Z-loss regularisation","parameters":{"weight":0.0001}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_fraction":0.2}}},{"category":"other","data":{"description":"Shrinkage fix to correct ternary zero-fraction scale mismatch, eliminating roundtrip gaps","parameters":null}}],"compression":"Base-3 + LZMA (preset=9)","novel_contributions":["Use of BitNet b1.58 ternary quantisation with per-group absmean scaling","Integration of NeoMuon optimizer with 3 Newton-Schulz steps to compensate ternary STE gradient attenuation","4x relu² MLP expansion with fused gate+up projection","U-Net encoder/decoder with learned skip weights and per-block residual mix from input embedding","Factored tied embedding with 8192×254 bottleneck and learned projections","Polynomial softcap (degree 5, cap=10) with Z-loss regularisation","YaRN positional encoding with max_len=2048 and ROPE_BASE=5000","Fused QKV projection using single TernaryLinear","FlashAttention-3 for faster attention computation","Temperature scaling during evaluation with sliding window stride=16","Artifact compression using base-3 encoding combined with LZMA achieving 39% reduction over int8+zlib","FP8 QAT to halve floating point parameters with minimal bpb penalty","Shrinkage fix to eliminate roundtrip gaps in ternary quantization","Width over depth design choice (768d/10L) for faster training steps and better performance"],"artifact_size":"15.99 MB"},{"pr_number":641,"title":"Notable Non-Record Submission: 1.1239 BPB - 106.2M Binary Asymmetric U-Net + NeoMuon + 4xrelu²MLP + Smear + Fact Tied Emb + Poly5 Softcap + YaRN2048 + 8192BPE + FP8 + Bit-packing LZMA + Stride-16 Eval - 2h","author":"CiprianFlorin-Ifrim","status":"open","is_record":false,"val_bpb":1.1239,"architecture":"Asymmetric Binary U-Net Transformer","quantization":"1-bit binary quantisation (weights {-1,+1}), per-group (128) absmean scaling","optimizer":"NeoMuon","training_techniques":[{"category":"quantization","data":{"method":"1-bit binary quantisation","bits":1,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"causal cumulative mean blending with learned tanh gate, zero-init for safe residual start","parameters":null}},{"category":"architecture_modification","data":{"component":"Factored tied embedding","description":"8192×254 bottleneck with learned projections","parameters":{"vocab_size":8192,"embedding_dim":254}}},{"category":"architecture_modification","data":{"component":"YaRN positional encoding","description":"max_len=2048, ROPE_BASE=5000","parameters":{"max_len":2048,"rope_base":5000}}},{"category":"architecture_modification","data":{"component":"U-Net encoder/decoder","description":"15 transformer layers (7 encoder, 8 decoder) with learned skip weights (ones-init) and per-block residual mix from input embedding","parameters":{"layers":15,"dim":768,"heads":8,"kv_heads":4,"head_dim":96}}},{"category":"architecture_modification","data":{"component":"MLP","description":"4x expansion with relu² activation, fused gate+up projection","parameters":{"expansion_factor":4,"hidden_dim":3072,"activation":"relu²"}}},{"category":"optimizer_technique","data":{"method":"NeoMuon","weight_decay":0,"momentum":0.95,"other_params":{"muon_backend_steps":3,"muon_momentum_warmup_start":0.85,"muon_momentum_warmup_steps":500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16,"temperature_scaling":0.9}}},{"category":"compression","data":{"method":"bit-packing + LZMA","level":9}},{"category":"regularization","data":{"method":"Polynomial softcap with Z-loss regularisation","parameters":{"degree":5,"cap":10,"z_loss_weight":0.0001}}},{"category":"other","data":{"description":"No EMA used as it hurts quality by 0.03 bpb despite clean binary roundtrip math","parameters":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_fraction":0.2}}}],"compression":"bit-packing + LZMA (preset=9)","novel_contributions":["Demonstration of 1-bit binary quantisation enabling 106.2M parameters in 15.67MB artifact, packing 60% more parameters per MB than ternary quantisation","Use of SmearGate: causal cumulative mean blending with learned tanh gate to improve performance despite added compute overhead","4x relu² MLP expansion shown to strictly dominate relu and outperform 3x width MLPs at matched budget","Factored tied embedding with bottleneck dimension 254 for 8192 vocab size","Use of NeoMuon optimizer with 3 Newton-Schulz steps for training","Sliding window evaluation with stride 16 and temperature scaling (T=0.90) for improved evaluation accuracy","Bit-packing combined with LZMA compression to achieve artifact size under 16MB","Demonstration that extended training (50k steps, ~2.15h) surpasses ternary quantisation quality despite slower convergence","No EMA used as it degrades quality in this binary quantised setting"],"artifact_size":"15.67MB"},{"pr_number":642,"title":"Record: 11L + Score-Every-Epoch LoRA TTT 5ep (3-seed mean val_bpb=0.8173)","author":"minh-stakc","status":"closed","is_record":false,"val_bpb":0.8173,"architecture":"11L Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention variant applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature/module","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window":"pre-TTT sliding window"}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"epochs":5,"lm_rank":16,"lora_rank":8,"learning_rate":0.01,"temperature":0.98,"score_every_epoch":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_total_ttt_steps":true}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"warmdown":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["Score-every-epoch multi-scale LoRA TTT","Per-document LoRA adaptation with epoch-wise rescoring of all chunks","Only the final epoch's scores contribute to BPB","Multi-scale LoRA configuration with different ranks and learning rates for LM head, Q/V projections, and per-block bias tuning","Post-TTT temperature rescaling","3-seed validation showing mean val_bpb of 0.8173"],"artifact_size":"17.13 MB"},{"pr_number":643,"title":"Non-record: Mac mini M4 16GB, no H100s, still golfing (val_bpb=1.5672)","author":"frido22","status":"open","is_record":false,"val_bpb":1.56720003,"architecture":null,"quantization":"int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"scope":"projection matrices","timing":"late EMA after first quant-aware roundtrip"}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Use of late EMA over only the projection matrices that remain int8-quantized after the first quant-aware roundtrip","Reapplication of the exact final quantization roundtrip before saving to improve final compressed artifact score","Submission as a hardware-specific non-record entry on Apple Silicon Mac mini M4 16GB without 8xH100 GPUs"],"artifact_size":"15,962,372 bytes"},{"pr_number":644,"title":"Non-record: 11L GEPA + 25k Steps + Pure Int6 + Legal TTT (val_bpb=1.0944) - unlimited compute category","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.0944,"architecture":"GEPA (11-layer Transformer variant)","quantization":"Pure int6 per-row quantization with 15-candidate GPTQ-lite","optimizer":"Muon (matrix LR), Adam (scalar LR), SGD (TTT)","training_techniques":[{"category":"quantization","data":{"method":"int6 per-row with GPTQ-lite clip search","bits":6,"scope":"all model tensors including embeddings"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token-mixing gate on input embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"2048 buckets with 128-dim embeddings","parameters":{"buckets":2048,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings on 16/64 dims with YARN scaling","parameters":{"dims":"16/64","train_seq":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3× expansion and ReLU² activation","parameters":{"expansion_factor":3,"hidden_dim":1536,"activation":"ReLU²"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale with 1/sqrt(layer+1) depth scaling","parameters":null}},{"category":"architecture_modification","data":{"component":"Tied Embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon and Adam for training; SGD with momentum for TTT","weight_decay":0.04,"momentum":0.9,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"embed_lr":0.035,"decoder_lr_mult":2,"grad_clip":0.3,"ema_decay":0.997,"SGD_lr":0.002,"SGD_epochs_per_chunk":10,"SGD_chunk_size":32768,"SGD_stride":64,"SGD_frozen_blocks":2,"SGD_grad_clip":1}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":10,"chunk_size":32768,"stride":64,"frozen_blocks":2,"gradient_clip":1}}},{"category":"lr_schedule","data":{"method":"cosine warmdown with linear warmup","parameters":{"warmup_steps":20,"peak_lr_steps":12000,"warmdown_steps":13000}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay and layerwise LN scale","parameters":{"weight_decay":0.04,"LN_scale":"1/sqrt(layer+1)"}}}],"compression":"zstd-22","novel_contributions":["Extended training to 25,000 steps with a 13,000-step cosine warmdown phase, demonstrating warmdown acceleration in BPP improvement.","Confirmed a consistent scaling law where float base, TTT BPP, and artifact size all improve monotonically with training steps.","Observed compression of TTT gain as float base improves, suggesting diminishing returns for test-time training on better-trained models.","Applied pure int6 per-row quantization with 15-candidate GPTQ-lite clip search combined with zstd-22 compression to achieve the smallest artifact size in the series.","Implemented legal score-first test-time training using SGD with momentum and freezing the first two blocks, achieving a −0.014 BPP gain.","Introduced architecture modifications including cross-sequence attention on last 4 layers, SmearGate token-mixing gate, BigramHash embeddings, partial RoPE with YARN scaling, and layerwise LN scale.","Demonstrated that fine-grained optimization at low learning rates during warmdown is disproportionately effective."],"artifact_size":"13.83 MB"},{"pr_number":645,"title":"Non-record: Skill Forge — Autonomous ML Experimentation System (Local RTX 4070)","author":"FlynnCruse","status":"open","is_record":false,"val_bpb":1.899,"architecture":"Transformer","quantization":"int6 QAT, GPTQ-lite","optimizer":"Muon variants","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-Shaped Attention for improved architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial Rotary Positional Embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate implementation for gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP layers scaling","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"variants":["Muon+","NorMuon","MUD","RMNP","Mousse","AdEMAMix"],"EMA":true,"warmdown":true}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"initialization","data":{"method":"muP scaling","description":"μ-Parameterization scaling for initialization"}},{"category":"sequence_length","data":{"train_length":512,"eval_length":512}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}}],"compression":null,"novel_contributions":["Skill Forge: an autonomous ML experimentation system that runs autoresearch-style loops to propose, test, and evolve optimization strategies automatically.","Use of Claude Code skills to encode domain knowledge and evolve heuristics into specific playbooks based on experiment results.","Integration of deep research from 13+ recent arXiv papers and analysis of all 21 leaderboard submissions to seed domain skills.","Meta-layer that evaluates skill effectiveness every 5 experiments and crystallizes heuristics into playbooks.","Demonstration of technique transferability from local RTX 4070 scaled-down experiments to full competition scale on 8×H100.","Automated outer loop researcher system that modifies training scripts, runs compliant 10-minute experiments, and learns from results.","Use of multiple Muon optimizer variants and advanced compression techniques (int6 QAT, GPTQ-lite) validated locally.","Handling compute constraints by scaling model and sequence length while preserving relative technique rankings."],"artifact_size":null},{"pr_number":646,"title":"SOTA Submission (1.1349 BPB) by weywey [10min_16mb track]","author":"Upsalla","status":"open","is_record":false,"val_bpb":1.1349,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":null}},{"category":"architecture_modification","data":{"component":"OLR-FW","description":"Architectured via Weyhe Framework","parameters":{"layers":11,"R":128}}},{"category":"lr_schedule","data":{"method":"beta2 decay","parameters":{"beta2":0.95,"learning_rate":0.001}}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}}],"compression":null,"novel_contributions":["Use of 11-layer INT6 quantized model","Architecture designed with Weyhe Framework (OLR-FW)","Test-time training (TTT) applied","Learning rate 0.001 with beta2=0.95"],"artifact_size":"16590005 bytes"},{"pr_number":648,"title":"Depth Recurrence (3+3 x 2 loops) + HW Optimizations","author":"maorinka","status":"closed","is_record":false,"val_bpb":1.1428,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaces 10 unique transformer layers with 6 unique layers (3 encoder + 3 decoder) looped twice to create 12 effective layers while sharing parameters.","parameters":{"unique_layers":6,"encoder_layers":3,"decoder_layers":3,"num_loops":2,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied encoder and decoder blocks are reused across loops with per-loop conditioning so repeated passes can behave differently.","parameters":{"num_loops":2}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"per_loop_scale_bias":true}}},{"category":"lr_schedule","data":{"method":"learning rate scaling","parameters":{"scale":"1/sqrt(num_loops)"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"gpu_resident":true,"dtype":"float32"}}},{"category":"other","data":{"description":"Async data prefetch using a background thread and separate CUDA stream to overlap data loading with compute.","parameters":null}},{"category":"other","data":{"description":"Pinned memory for faster host-to-device transfers.","parameters":null}},{"category":"other","data":{"description":"NCCL tuning for H100 NVLink topology.","parameters":{"NCCL_NVLS_ENABLE":1,"NCCL_NET_GDR_LEVEL":5}}},{"category":"other","data":{"description":"GPU-resident SWA accumulation to avoid device-to-host synchronization per checkpoint.","parameters":null}},{"category":"other","data":{"description":"Called torch.cuda.empty_cache() after warmup to reduce memory fragmentation.","parameters":null}}],"compression":null,"novel_contributions":["Depth recurrence with 6 unique layers looped twice to produce 12 effective layers","Per-loop conditioning via learned scale and bias for tied blocks","U-Net-style skip connections preserved across effective layers with LIFO behavior","Learning-rate scaling by 1/sqrt(num_loops) for tied-weight recurrence","Async data prefetch and pinned-memory training pipeline optimizations","NCCL tuning for H100 NVLink","GPU-resident SWA accumulation","Cache cleanup after warmup to reduce fragmentation"],"artifact_size":"~10MB"},{"pr_number":649,"title":"Record: 1.2073 bpb • 11L gold6 • 8xH100","author":"pall23-mech","status":"open","is_record":false,"val_bpb":1.2073,"architecture":"Transformer","quantization":"mixed int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Embedding weights are tied to output weights to reduce parameters","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding used to improve embedding efficiency","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings with rope_dims=16","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross self-attention enabled on last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 attention heads with 4 key-value heads (GQA)","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"layerwise residual mixing","description":"Layerwise residual mixing applied","parameters":null}},{"category":"architecture_modification","data":{"component":"LN scaling","description":"LayerNorm scaling enabled","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"momentum_warmup_steps":20,"Adam/AdamW":"used for embeddings, scalar params, head params"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":20}}}],"compression":"zstd-22","novel_contributions":["Use of mixed int6 quantization with per-row scales combined with zstd-22 compression to fit under 16MB artifact size","Tuned 11-layer GPT model with 8 attention heads and 4 KV heads (GQA) trained on 8x H100 GPUs under a strict 600-second wallclock limit","Empirical finding that smaller global batch size (TRAIN_BATCH_TOKENS=262144) yields better validation bpb on degraded multi-GPU H100 infrastructure compared to larger batch sizes","Use of Muon optimizer with tuned momentum warmup for matrix parameters and Adam/AdamW for embeddings and scalar parameters","Application of EMA to final weights for improved validation performance","Inclusion of bigram hash embedding and layerwise residual mixing with LN scaling","Use of RoPE with rope_dims=16 and enabling cross self-attention (XSA) on last 4 layers"],"artifact_size":"under 16 MB"},{"pr_number":650,"title":"-0.0041 BPB by Reordering Training Data (Curriculum Learning)","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.1187,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"Legal TTT","parameters":null}},{"category":"other","data":{"description":"Reordering training data shards by model perplexity (hardest-first) to improve training efficiency and final val_bpb without changing model architecture or hyperparameters","parameters":{"shard_order_env_var":"SHARD_ORDER","ranking_model":"6-layer, 512d model trained 500 steps on shard 0","ranking_metric":"cross-entropy loss","ordering":"descending loss (hardest first)"}}}],"compression":null,"novel_contributions":["Demonstrated that reordering training shards by model difficulty (perplexity) improves validation BPB by about -0.0033 on average without any model or hyperparameter changes","Showed that both hardest-first and easiest-first shard orderings outperform the default sequential ordering, indicating the default order contains harmful structure","Introduced a simple method to rank shards by training a small model briefly on one shard and scoring all shards by cross-entropy loss","Highlighted that token frequency statistics fail to capture shard difficulty differences that the model's perplexity reveals","Proposed that adaptive or iterative re-ranking of shards during training could further improve results","Provided a minimal code change to implement shard reordering via an environment variable","Validated improvements across three random seeds with consistent gains","Raised the hypothesis that the improvement is due to breaking accidental structure in sequential shard ordering rather than curriculum learning"],"artifact_size":"~15.9 MB"},{"pr_number":651,"title":"[WIP] Record: Hybrid architecture 8L 3:1 GDN/Transformer (val_bpb=1.2093)","author":"phulin","status":"open","is_record":false,"val_bpb":1.2093,"architecture":"Hybrid GDN/Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Hybrid GDN/Transformer","description":"A hybrid architecture combining GDN and Transformer layers in an 8-layer model with a 3:1 ratio","parameters":{"layers":8,"ratio":"3:1"}}},{"category":"quantization","data":{"method":"planned but not implemented","bits":null,"scope":null}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"other","data":{"description":"Importation of tricks from top leaderboard solutions","parameters":null}}],"compression":null,"novel_contributions":["Hybrid architecture combining GDN and Transformer layers with an 8-layer 3:1 ratio","Incorporation of test-time training (TTT) techniques","Planned quantization and hyperparameter optimizations","Importation of tricks from top leaderboard solutions"],"artifact_size":null},{"pr_number":653,"title":"feat(arch): Mish² Activation & PyTorch Native SDPA GQA Core (1.155 BPB) 8xH100","author":"demirelo","status":"open","is_record":false,"val_bpb":1.1552,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parameter Banking + Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Mish² Activation","description":"Smooth non-monotonic activation function using F.mish(x).square() replacing LeakyReLU²","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashing mechanism for bigrams with vocabulary size 1536","parameters":{"bigram_vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially on 16/64 dimensions","parameters":{"dims":"16/64"}}},{"category":"architecture_modification","data":{"component":"LayerNorm Scale","description":"LayerNorm scaled by 1/sqrt(layer+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP","description":"3× MLP layers using Mish² activation","parameters":{"count":3}}},{"category":"optimizer_technique","data":{"method":"Parameter Banking + Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adam_wd":0.04,"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32768,"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":3,"frozen_blocks":0,"gradient_clip":1,"batch_seqs":32}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"other","data":{"description":"Parameter Banking replaces many separate nn.Linear weights with 4 contiguous 3D parameter banks for efficiency","parameters":null}},{"category":"other","data":{"description":"PyTorch-native scaled dot product attention loop replacing flash-attn C++ dependency for robust multi-GPU synchronization","parameters":null}}],"compression":"lzma","novel_contributions":["Integration of Mish² activation (F.mish(x).square()) for improved implicit regularization and BPB reduction","PyTorch-native GQA-aware scaled dot product attention loop replacing flash-attn C++ dependency for stable multi-GPU training","Use of Parameter Banking combined with Parallel Muon optimizer for faster training throughput","Legal score-first Test-Time Training (TTT) protocol with sliding window evaluation and SGD adaptation on validation chunks","Partial RoPE positional embeddings and layer-scaled LayerNorm for architectural improvements","Artifact size tightly optimized under 16MB limit using GPTQ-lite int6 quantization and lzma compression"],"artifact_size":"15.65 MB"},{"pr_number":656,"title":"Three Breadsticks: 1.1190 BPB","author":"newjordan","status":"open","is_record":false,"val_bpb":1.119,"architecture":"U-Net","quantization":"GPTQ int6+zstd quantization","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross Self-Attention applied to last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Bigram Vocab","description":"Bigram vocabulary size set to 1536","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"Activation","description":"Leaky ReLU squared activation with slope 0.5","parameters":{"slope":0.5}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"freeze_blocks":0,"grad_clip":0.8}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Use of leaky_relu_sq activation with slope 0.5","Application of Cross Self-Attention (XSA) in the last 4 layers","Bigram vocabulary size increased to 1536","Legal score-first Test Time Training (TTT) with freeze_blocks=0 and grad_clip=0.8","GPTQ int6 quantization combined with zstd compression","Use of Stochastic Weight Averaging (SWA)","Late Quantization Aware Training (QAT)"],"artifact_size":"15.81MB"},{"pr_number":657,"title":"Record: 11L LeakyReLU² + VRL + lzma — val_bpb 1.1234","author":"anthony-maio","status":"open","is_record":false,"val_bpb":1.1234,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"One-line activation swap preserving negative gradient flow, replacing standard relu^2 with leaky relu squared","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual Learning (VRL)","description":"Layer 0's value output blended into all subsequent layers via learned sigmoid gates to combat attention concentration","parameters":{"layers":11,"initial_gate_bias":-1.5,"initial_mixing":"approx 18%"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash with 2048 buckets used in model","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Cross-Shaped Attention with 4 heads","parameters":{"heads":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary Positional Embeddings applied partially with 16/64 dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP 3×","description":"MLP applied three times with LeakyReLU(0.5)^2 activation","parameters":{"count":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate mechanism included","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"U-Net style skip connections with 5 encoder and 6 decoder layers","parameters":{"encoder_skips":5,"decoder_skips":6}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_scale_max":0.2}}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"warmdown_steps":3500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(i+1)"}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used"}},{"category":"other","data":{"description":"Late Quantization Aware Training (QAT) with STE at threshold 0.15","parameters":null}},{"category":"other","data":{"description":"FlashAttention 3 Hopper native kernels used","parameters":null}}],"compression":"lzma","novel_contributions":["LeakyReLU(0.5)^2 activation replacing standard relu^2 to preserve negative gradient flow and improve BPB by ~0.002","Value Residual Learning (VRL) blending layer 0's value output into all subsequent layers via learned sigmoid gates to combat attention concentration","Switching compression from zstd-22 to stdlib lzma, achieving 2-5% tighter compression on quantized weights enabling larger MLP and BigramHash capacity under 16MB limit"],"artifact_size":"15.89 MB"},{"pr_number":658,"title":"Non-record: LoRA TTT exploration on SOTA base (negative result)","author":"hmlizama","status":"open","is_record":false,"val_bpb":1.1734,"architecture":"GPT","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Architecture component used in the SOTA base to inject strong local context into embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Architecture component used in the SOTA base to inject strong bigram/local context into embeddings.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk_size":256,"eval_seq_len":1024}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1024}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":1024,"chunk_size":256}}}],"compression":null,"novel_contributions":["Exploration of combining LoRA test-time training with the current SOTA base model","Added batched LoRA support for Q/V projections during evaluation","Implemented per-document LoRA adaptation and reset between documents","Added a dedicated TTT evaluation loop and standalone eval script","Reported a negative result showing TTT does not improve the SOTA base"],"artifact_size":null},{"pr_number":659,"title":"Record: 5-gram Eval Cache + LeakyReLU² + Parallel Muon val_bpb: 1.0920 (3-seed mean, std 0.0007) | ~15.9 MB | 8×H100 SXM","author":"deanbrr","status":"closed","is_record":false,"val_bpb":1.092,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP block","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5) squared in the MLP","parameters":{"slope":0.5,"power":2}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash component used in the architecture","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 applied to layers 9-10","parameters":{"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128}}},{"category":"evaluation_technique","data":{"method":"online n-gram cache eval","parameters":{"ngram_max_n":5,"confidence_threshold":0.5,"min_count":3,"ngram_lambda":0.15}}},{"category":"test_time_training","data":{"method":"TTT disabled","parameters":null}}],"compression":"lzma","novel_contributions":["Online 5-gram evaluation cache accumulated from already-scored tokens during sliding-window validation","Confidence-gated log-sum-exp mixing with a safety gate that can never worsen a prediction","Strictly backward-looking CPU-only n-gram lookup strategy with zero GPU cost","Eval-time improvement only, with no training changes to the base model","Stride-based evaluation configuration tuned to fit within the time budget"],"artifact_size":"~15.9 MB"},{"pr_number":660,"title":"Non-record: Soft MoE Exploration — Dense Gating Fixes Sparse Router Collapse Under 16MB (WIP, val_bpb=1.1826)","author":"HugoOchoaLP","status":"open","is_record":false,"val_bpb":1.1826,"architecture":"Transformer","quantization":"Int5 MLP / Int6 attention","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Soft MoE","description":"Dense mixture-of-experts gating where all experts run on all tokens with learned soft weights, avoiding sparse router collapse and enabling compile-friendly execution.","parameters":{"num_experts":2,"moe_layers":"last 2 layers","moe_start_layer":8}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used with the MoE setup.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature module used in the model.","parameters":{"dimensions":128,"hash_size":10240}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.998}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"other","data":{"description":"Selective MoE applied only to deeper layers to reduce parameter overhead and fit under the 16MB constraint.","parameters":{"moe_start_layer":8}}}],"compression":"zstd-22","novel_contributions":["Dense Soft MoE variant that avoids sparse router collapse","Compile-friendly MoE design that works with torch.compile","Selective application of MoE only in the last layers to reduce overhead","Use of SmearGate and BigramHash in the model","EMA replacing SWA for weight averaging","Mixed int5 MLP / int6 attention quantization with zstd-22 compression"],"artifact_size":"17.3MB"},{"pr_number":661,"title":"Non-record: 30ep Cosine TTT on SwiGLU + U-Net (1xH100, val_bpb=1.1175)","author":"andrewbaggio1","status":"open","is_record":false,"val_bpb":1.1175,"architecture":"Transformer","quantization":"Int6 QAT","optimizer":"AdamW","training_techniques":[{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":30,"schedule":"cosine","seed":1337}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"ttt_epochs":30}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"SwiGLU MLP variant used in the model stack","parameters":{"hidden":1792}}},{"category":"architecture_modification","data":{"component":"U-Net","description":"U-Net style gated skip connections","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component for token representation","parameters":{"buckets":8192}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism included in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 KV heads in the attention stack","parameters":{"kv_heads":8,"heads":8,"layers":11,"dim":512}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9985}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}}],"compression":"zstd-22","novel_contributions":["Increased TTT epochs from 10 to 30 while keeping the PR #462 architecture unchanged","Applied cosine test-time training with per-layer learning rate","Used the SwiGLU + U-Net architecture with gated skip connections","Combined BigramHash, SmearGate, Partial RoPE, EMA, Late QAT, and Int6 + zstd compression","Reported improved sliding-window val_bpb of 1.1175 on 1xH100"],"artifact_size":"7.5 MB"},{"pr_number":662,"title":"Add non-record streaming legal TTT late-block submission","author":"simon-marcus","status":"open","is_record":false,"val_bpb":1.1208232,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses a leader-core merge candidate with tied embedding setup as part of the base model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 activation.","parameters":{"negative_slope":0.5,"power":2}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final artifact / local export"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"streaming legal TTT","parameters":{"TTT_MODE":"stream","TTT_PARAM_MODE":"late_blocks","TTT_LAST_N_BLOCKS":4}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":800}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":null}}],"compression":"zlib","novel_contributions":["Non-record streaming legal TTT submission for comparison against the March 23 leader","Switches eval-time adaptation from chunked score-first legal TTT to streaming legal TTT","Updates only the last 4 blocks during TTT via late-block mode","Includes explicit preflight and run logs for reproducibility","Provides a full 8xH100 run and local int8 export with zlib compression"],"artifact_size":"15294320 bytes"},{"pr_number":663,"title":"V18 Manifold-Guided Architecture — val_bpb 0.434","author":"raahilg","status":"open","is_record":false,"val_bpb":0.438,"architecture":"GNN-like message passing network on a precomputed token interaction graph","quantization":"per-row int8 with adaptive clipping","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"manifold-guided token interaction graph","description":"Precomputes a frozen token manifold from corpus co-occurrence statistics and uses it as graph topology for message passing instead of learning token geometry from scratch.","parameters":{"vocab":1024,"spectral_dims":320,"hops":4,"attention_heads":2,"hidden_dim":500}}},{"category":"architecture_modification","data":{"component":"sparsemax routing","description":"Uses sparsemax-weighted aggregation for differentiable sparse edge routing along manifold geodesics.","parameters":null}},{"category":"architecture_modification","data":{"component":"spectrally-modulated gated hop cells","description":"Hop updates are conditioned on spectral coordinates derived from Hessian eigendecomposition and SVD coordinates.","parameters":{"hops":4}}},{"category":"architecture_modification","data":{"component":"manifold-guided attention","description":"Applies attention conditioned on manifold/spectral coordinates to exploit the frozen geometric prior.","parameters":{"heads":2}}},{"category":"architecture_modification","data":{"component":"parallel transport across token manifold","description":"Uses manifold-aware transport of representations across the token graph.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"snapshot_at_best_loss":true}}},{"category":"lr_schedule","data":{"method":"cosine decay + hold + linear warmdown","parameters":{"cosine_decay_to_fraction":0.1,"cosine_decay_steps":3400,"hold_steps":[3400,5500],"linear_warmdown_to_zero":true}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"initialization","data":{"method":"deterministic physics simulation initialization","description":"Token manifold positions are initialized by a fixed-seed CPU physics simulation based on co-occurrence-derived forces."}},{"category":"other","data":{"description":"Builds a frozen token manifold from co-occurrence, directional torsion, entropic mass, directed springs, and syntactic bigram forces, then computes Hessian eigendecomposition and SVD coordinates for spectral features.","parameters":{"physics_steps":5000,"spectral_modes":256,"svd_coords":64}}},{"category":"other","data":{"description":"Uses deterministic compilation settings to avoid nondeterministic kernel selection.","parameters":{"max_autotune":false}}},{"category":"other","data":{"description":"Single-GPU training with selective gradient strategy to preserve hop specialization; hop parameters use rank 0 local gradients while non-hop parameters are averaged.","parameters":null}}],"compression":"zlib","novel_contributions":["Frozen precomputed token manifold used as graph topology for the model","Physics-simulated manifold construction from corpus co-occurrence statistics","Sparsemax routing along manifold geodesics","Spectral-coordinate-conditioned attention and gated hop updates","EMA snapshot at best loss for improved quantization","Adaptive per-row int8 quantization with percentile clipping","Deterministic physics simulation and deterministic compilation for reproducibility","Selective gradient strategy to preserve hop specialization in single-GPU training"],"artifact_size":"15.70 MB"},{"pr_number":664,"title":"Non-record: hybrid spiking Transformer (SNN)with a multi-step spiking MLP","author":"tsbiosky","status":"open","is_record":false,"val_bpb":1.2982,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"spiking MLP","description":"Replaces the standard Transformer feed-forward block with a multi-step leaky integrate-and-fire (LIF-style) spiking MLP while keeping dense attention and the rest of the Transformer pipeline unchanged.","parameters":{"layers":9,"width":512,"attention_heads":8,"kv_heads":4,"sequence_length":1024,"snn_steps":2}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings as part of the baseline architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary position embeddings in the Transformer baseline.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final serialized model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"used_for":"matrix-shaped parameters"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"used_for":"token embeddings and scalar/vector parameters"}}},{"category":"regularization","data":{"method":"spike-rate regularization","parameters":{"rate_loss":0.0001,"rate_target":0.15}}},{"category":"other","data":{"description":"Surrogate-gradient training for spiking neurons using a sigmoid straight-through estimator.","parameters":{"grad_scale":4}}}],"compression":"zlib","novel_contributions":["Hybrid Transformer + SNN-MLP design","Replaces only the feed-forward block with a multi-step LIF-style spiking MLP","Preserves the original Parameter Golf training, evaluation, and export pipeline","Uses surrogate-gradient training for the spiking pathway","Applies spike-rate regularization to control firing behavior","Fits under the 16 MB submission limit after int8 + zlib compression"],"artifact_size":"15.78 MB"},{"pr_number":665,"title":"Add LLMAdvisor submission: 1.14638 BPB (track_10min_16mb)","author":"harborglowvintage-oss","status":"open","is_record":false,"val_bpb":1.14638,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights int5, attention weights int6, FP16 embeddings and last-layer key projections"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a learned embedding table to capture local token-pair context.","parameters":{"dimensions":128,"buckets":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied and stored in FP16.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.02,"scope":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":30,"start_frac":0.5,"num_averaged_checkpoints":49}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"Orthogonal","description":"Orthogonal initialization with muP-scaled outputs."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Reduced batch size to increase training steps within the 600s wallclock budget.","parameters":{"batch_size_tokens":622592,"wallclock_seconds":600}}}],"compression":"zstd-22","novel_contributions":["Mixed int5 MLP / int6 attention quantization to fit a 10-layer model under the 16MB limit","BigramHash(10240) token-pair embedding for local context","SmearGate embedding blending mechanism","Denser SWA collection ('SWA boost') with every=30 steps and start_frac=0.50","Reduced batch size to increase the number of training steps within the 600-second budget"],"artifact_size":"15,736,555 bytes"},{"pr_number":666,"title":"Non-record: BitNet Ternary — 65M params in 15.9MB (1.1932 BPB)","author":"chrislovescoding","status":"open","is_record":false,"val_bpb":1.1932,"architecture":"Transformer","quantization":"ternary weight quantization","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"ternary","bits":2,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":12,"dimensions":768,"heads":12,"kv_heads":6}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP with 3x hidden size.","parameters":{"hidden":2304}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds skip connections in a U-Net-like pattern to the transformer.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.02}}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Activation schedule with full-precision training for the first 30% of wallclock, then ternary STE for the remaining 70%.","parameters":{"ternary_start_frac":0.3}}},{"category":"other","data":{"description":"Straight-Through Estimator ternary training with per-row mean-absolute scaling and thresholding to {-1, 0, +1}.","parameters":{"threshold_multiplier":0.7}}}],"compression":"zlib-9","novel_contributions":["Trains a 65M-parameter model within a 15.9MB artifact budget using ternary weight quantization.","Uses ternary STE training from the start to achieve a near-zero quantization gap.","Demonstrates that a much larger model can fit in the same budget as smaller int6 submissions.","Combines ternary quantization with grouped-query attention, tied embeddings, and U-Net skip connections.","Applies a staged training schedule that switches from full precision to ternary STE after 30% of wallclock."],"artifact_size":"15,878,267 bytes"},{"pr_number":667,"title":"Non-record: Fixed Bank QAT + XSA5 + Label Smoothing (1.1352)","author":"suchitj2702","status":"open","is_record":false,"val_bpb":1.1352,"architecture":"GPT","quantization":"STE int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all bank parameters"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Expanded XSA from the last 4 layers to the last 5 layers.","parameters":{"layers":5}}},{"category":"regularization","data":{"method":"label smoothing","parameters":{"value":0.05}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.003,"momentum":0.95,"epochs":3,"chunk_tokens":32768}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"other","data":{"description":"Bank QAT fix implemented directly in GPT.forward() using STE int6 fake-quantization for bank parameters, with torch.compile reset/recompile.","parameters":{"recompile_cost_seconds":50,"overhead_ms_per_step":5}}}],"compression":null,"novel_contributions":["Fixed broken Bank QAT by implementing STE int6 fake-quantization directly in GPT.forward() for bank parameters.","Expanded XSA from 4 layers to 5 layers.","Added label smoothing of 0.05.","Tuned TTT hyperparameters to learning rate 0.003 and momentum 0.95.","Reported that the QAT fix was too expensive due to recompilation overhead and reduced training steps."],"artifact_size":"15.44 MB"},{"pr_number":668,"title":"Non-record: 11L GEPA + 30k Steps + Pure Int6 + Legal TTT (val_bpb=1.0920)","author":"Christopher-Lee-McClendon","status":"open","is_record":false,"val_bpb":1.092,"architecture":"Transformer","quantization":"pure int6 per-row quantization with GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GEPA","description":"11-layer transformer architecture with GEPA-related modifications","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings used in the model","parameters":{"size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate activation/gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / decoder weight sharing implied by tied embed LR setting","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all weights including embeddings"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row, including embeddings"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"momentum_warmup_end":0.99,"momentum_warmup_steps":1500,"lr_matrix":0.025,"lr_tied_embed":0.035,"decoder_lr_multiplier":2}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","momentum":0.9,"learning_rate":0.002,"epochs":10,"tokens_per_chunk":32768,"freeze_first_blocks":2}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":18000,"warmdown_ratio":0.6,"peak_lr_steps":12000,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":0.3}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Referenced as part of prior techniques this submission builds on"}}],"compression":"zstd-22","novel_contributions":["11-layer GEPA architecture trained for 30k steps","Pure int6 per-row quantization with GPTQ-lite clip search","Legal score-first TTT using SGD with momentum","60% warmdown ratio to reduce quantization gap","Smallest artifact in the author's series at 13.40 MB","Includes model artifact for reproducibility"],"artifact_size":"13.40 MB"},{"pr_number":669,"title":"Add TRN hybrid non-record submission (1.4942 bpb, 1x RTX 5090)","author":"amabito","status":"open","is_record":false,"val_bpb":1.4942,"architecture":"TRN hybrid","quantization":"int5 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5 QAT","bits":5,"scope":"all matrix weights; embeddings remain fp16"}},{"category":"architecture_modification","data":{"component":"TRN hybrid","description":"10-layer interleaved hybrid model combining 7 TRN layers with 3 causal attention layers for pattern compression plus exact retrieval.","parameters":{"layers":10,"trn_layers":7,"attention_layers":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Token-pair hash table added to the embedding stack to improve representation capacity.","parameters":{"vocab_size":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention used in the attention layers.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"lr":0.04,"scope":"matrices only"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"lr":0.05,"beta1":0.9,"beta2":0.95,"scope":"embeddings"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"start":"50% of training"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1200}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04,"scope":"Muon matrices only"}}},{"category":"other","data":{"description":"Kogge-Stone parallel prefix scan over complex-valued oscillators implemented in pure PyTorch for TRN recurrence.","parameters":{"scan_type":"Kogge-Stone","implementation":"pure PyTorch"}}},{"category":"other","data":{"description":"Token shift enabled in RWKV-6 style pre-resonance mixing.","parameters":{"enabled":true}}},{"category":"other","data":{"description":"LeakyReLU squared activation with PCG lambda regularization-like setting.","parameters":{"activation":"LeakyReLU(0.5)^2","pcg_lambda":0.5}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk":256}}}],"compression":"zstd-22","novel_contributions":["Hybrid architecture combining TRN recurrence with periodic causal attention layers","Complex-valued oscillator recurrence with learned frequency, phase, amplitude, and decay","Kogge-Stone parallel prefix scan implementation in pure PyTorch without Triton or custom CUDA","Int5 QAT under a 16 MB artifact constraint","BigramHash token-pair embedding augmentation","Detailed analysis of int5 quantization collapse in oscillatory recurrence parameters","Interleaved TRN/attention layer layout for balancing compression and exact retrieval"],"artifact_size":"15.28 MB"},{"pr_number":670,"title":"Non-record: Negative results — hardware alignment & quantization on 8xH100","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.1171,"architecture":"11L d=512 Transformer","quantization":"Full GPTQ with additional experiments in SpinQuant/Hadamard, mixed int5/int8, Soft-Round QAT, and selective pruning","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"SpinQuant/Hadamard","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"mixed int5/int8","bits":5,"scope":"per-layer"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"Soft-Round QAT","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"selective pruning","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA to all 11 layers instead of only the last 4 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning to inject identity information into deep attention layers","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gating in attention","parameters":null}},{"category":"architecture_modification","data":{"component":"QKV fusion","description":"Fused 8Q/4KV grouped-query attention projection","parameters":{"q_heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.08}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"experiments":22}}},{"category":"other","data":{"description":"torch.compile-based kernel fusion and hardware-aligned optimization attempts including CUTLASS SM90, fused Triton GEMM, FP8 training, custom CUDA, fused norm+residual, and stale-process mitigation","parameters":null}}],"compression":null,"novel_contributions":["Systematic negative-results study of 30+ optimization experiments on an 8xH100 setup","Demonstration that torch.compile (PyTorch 2.9.1) already fuses most relevant patterns","Evidence that cuBLAS is near the hardware limit for K=512 in this setting","Finding that quantization quality matters more than kernel engineering for this competition","Comparison of SpinQuant/Hadamard, mixed int5/int8, Soft-Round QAT, and selective pruning","Evaluation of architecture changes such as XSA-all, VRL, Gated Attention, larger models, batch size changes, and shard ordering","Observation that stale nohup+torchrun processes can silently degrade performance"],"artifact_size":"16MB"},{"pr_number":671,"title":"Submission: Atris Labs v8 (audited seed42, clean branch)","author":"keshav55","status":"open","is_record":false,"val_bpb":1.18069496,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x-expanded MLP with 1536 hidden units and relu-squared activation.","parameters":{"hidden_units":1536}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes consecutive token pairs into a 10240-bucket embedding table with learnable scale.","parameters":{"buckets":10240,"dimension":128,"scale":0.05}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension learned gate blending each token with the previous token embedding.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are used and kept in FP16 passthrough during compression.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"tied_embed_lr":0.03,"scalar_lr":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":24,"during":"warmdown"}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"MLP weights"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"attention weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"context_length":2048}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0.04,"adamw_weight_decay":0.01}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"regularization","data":{"method":"pruning","parameters":{"magnitude_pruning":"3%"}}}],"compression":"zstd-22","novel_contributions":["10-layer transformer with U-Net skip connections","MLP 3x expansion with relu-squared activation","BigramHash token-pair embedding augmentation","SmearGate token blending mechanism","Mixed int5/int6 quantization with per-row scaling","3% magnitude pruning before quantization","SWA over 24 checkpoints during warmdown","Audited seed=42 run with real train log and aligned submission artifacts"],"artifact_size":"14,461,499 bytes"},{"pr_number":672,"title":"Record: 30ep Cosine TTT on LeakyReLU² stack (3-seed mean val_bpb=1.0781)","author":"andrewbaggio1","status":"open","is_record":false,"val_bpb":1.0781,"architecture":"Transformer","quantization":"Int6 + zstd-22","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU² stack","description":"11-layer Transformer stack using LeakyReLU(0.5) squared MLPs with several custom architectural components.","parameters":{"layers":11,"d_model":512,"gqa_heads":"8/4","mlp_multiplier":3,"bigram_hash":2048,"partial_rope_dims":16}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component used in the model.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism included in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Custom attention-like architectural component.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied only to part of the representation.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"KV GQA","description":"Grouped-query attention with reduced KV heads.","parameters":{"heads":"8/4"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":30,"optimizer":"AdamW","learning_rate":0.0005,"lr_schedule":"cosine decay","per_layer_lr_groups":{"mlp.proj":3,"mlp.fc":0.5}}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"phase":"TTT","epochs":30}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["Increased TTT epochs to 30 while keeping the architecture identical to PR #518","Achieved a 3-seed mean validation BPB of 1.0781","Used cosine-decayed test-time training with per-layer learning-rate groups","Maintained artifact size under 16 MB"],"artifact_size":"15.62 MB"},{"pr_number":674,"title":"Podracing: 1.0461 BPB (3-seed mean)","author":"newjordan","status":"open","is_record":false,"val_bpb":1.0461,"architecture":"11L/512d U-Net","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash vocabulary/feature augmentation.","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses RoPE dimensions setting.","parameters":{"dims":24}}},{"category":"other","data":{"description":"LeakyReLU squared activation with slope 0.5.","parameters":{"activation":"leaky_relu_sq","slope":0.5}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"order":5,"alpha":0.2,"min_count":2,"buckets":4194304,"interpolation":"hashed 5-gram score-first backward-looking mixing"}}}],"compression":"zstd","novel_contributions":["Legal score-first hashed 5-gram interpolation during sliding window evaluation","Fixed-weight linear mixing with alpha=0.20 and no target-aware gating","Cache built only from already-scored tokens for strictly backward-looking evaluation","Combination of XSA, BigramHash, GPTQ int6, and late QAT in an 11-layer U-Net"],"artifact_size":"15.64 MB"},{"pr_number":675,"title":"Non-record: LeakyReLU² + LAWA + Ramping WD + Val Training (val_bpb=1.2302, 1xH100)","author":"ChideraIbe123","status":"open","is_record":false,"val_bpb":1.2302,"architecture":"Transformer","quantization":"int8 post-training quantization with lzma roundtrip","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth","description":"Increased model depth from the 9-layer baseline to 10 layers.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"MLP activation","description":"Used LeakyReLU(0.5) squared in the MLP to preserve negative gradient flow.","parameters":{"negative_slope":0.5,"power":2}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"test_time_training","data":{"method":"validation set training","parameters":null}},{"category":"weight_averaging","data":{"method":"LAWA","parameters":{"warmdown_checkpoints":"12-13"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"start":0.02,"end":0.08,"schedule":"ramping during warmdown"}}}],"compression":"lzma","novel_contributions":["Stacking LeakyReLU(0.5)^2, LAWA, ramping weight decay, and validation-set training on the baseline architecture","Using lzma compression instead of zlib to improve artifact size","Applying ramping weight decay during warmdown to improve both pre-quant quality and compression ratio","Exploration and negative-result documentation for recursive transformers, differential attention, value residual learning, entropy-weighted loss, and QAT"],"artifact_size":"13.4 MB"},{"pr_number":678,"title":"Attention Warm-Start: Initializing Q/K from Bigram Co-occurrence SVD","author":"SPThole","status":"open","is_record":false,"val_bpb":1.3525,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"initialization","data":{"method":"SVD-based attention warm-start","description":"Initializes layer-0 W_Q and W_K from bigram co-occurrence statistics via PMI-like preprocessing, random projection, and SVD so initial attention reflects token co-occurrence structure."}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3.0x MLP expansion (hidden size 1536 for model_dim 512).","parameters":{"mlp_mult":3,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses full rotary positional embeddings.","parameters":{"rope_dims":64,"rope_base":10000}}},{"category":"architecture_modification","data":{"component":"skip connections","description":"Uses U-Net style skip connections with encoder/decoder structure.","parameters":{"encoder":5,"decoder":6}}},{"category":"architecture_modification","data":{"component":"shared last layer","description":"11-layer model with the last layer shared.","parameters":{"layers":11}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.025,"cyclic_momentum":"0.85-0.95","warmup_momentum":"0.92","warmup_steps":20}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":"0.035/0.025","scope":"embeds/scalars"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.2,"every":50}}},{"category":"quantization","data":{"method":"mixed int5/int6/int8","bits":null,"scope":"MLP int5, attention int6, bigram embeddings int6, token embeddings int8"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"AWQ activation-aware quantization calibration scales weight columns by activation importance before quantization and folds compensation into preceding LayerNorm.","parameters":{"calibration_batches":8,"alpha":0.5}}},{"category":"other","data":{"description":"Cyclic Muon momentum uses a triangle wave between 0.85 and 0.95 with period 50 steps.","parameters":{"min":0.85,"max":0.95,"period":50}}}],"compression":"zstd","novel_contributions":["Initializes layer-0 attention Q/K matrices from bigram co-occurrence statistics using PMI-like preprocessing and SVD.","Uses random projection plus SVD to map co-occurrence structure into model dimension for attention warm-starting.","Assigns SVD components to different heads to encourage head diversity across frequency bands.","Applies scale normalization so the initialized Q/K norms match default orthogonal initialization.","Combines AWQ with mixed-precision quantization for the final artifact.","Uses cyclic Muon momentum during training."],"artifact_size":"15.15MB"},{"pr_number":679,"title":"Non-record: ASQU activation, Mixture of Convolutions, BankedLinear","author":"andrewmouldon","status":"open","is_record":false,"val_bpb":1.2164,"architecture":"Transformer","quantization":null,"optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"ASQU","description":"Asymmetric Squared Unit activation that learns a per-channel scaling for the negative branch, replacing ReLU^2.","parameters":null}},{"category":"architecture_modification","data":{"component":"Short Conv","description":"Applies short convolutions to the QKV path as a low-parameter architectural enhancement.","parameters":{"k":1}}},{"category":"architecture_modification","data":{"component":"MoC","description":"Mixture of Convolutions: token-conditioned dynamic convolution formed as a mixture over shared basis kernels, applied to QKV.","parameters":{"k":8}}},{"category":"architecture_modification","data":{"component":"BankedLinear","description":"Replaces QKV projections with a shared weight bank across layers, mixing learned matrices with fixed random projections.","parameters":{"layers":9,"learned_projections":3,"fixed_random_projections":512}}},{"category":"architecture_modification","data":{"component":"MLP expansion adjustment","description":"Adjusted MLP multiplier to keep models within the 16MB limit while comparing architectural variants.","parameters":{"baseline_mlp_mult":2,"bankedlinear_mlp_mult":2.6}}},{"category":"initialization","data":{"method":"depth-aware initialization","description":"Depth-aware initialization of BankedLinear mixing coefficients on learned layers."}},{"category":"other","data":{"description":"Explored learning the exponent in the squared activation instead of fixing it, with depth-dependent learned exponents.","parameters":{"early_layers":1.4,"middle_layers":1.8,"late_layers":2.2}}}],"compression":null,"novel_contributions":["ASQU activation: a per-channel generalization of ReLU^2 with learned negative-branch scaling.","Mixture of Convolutions (MoC): token-conditioned dynamic short convolutions using basis interpolation over shared kernels.","BankedLinear: shared weight bank across layers combining learned projections with fixed random projections.","Depth-aware initialization for BankedLinear mixing coefficients.","Empirical comparison of these architectural changes under a fixed 10k-step training budget."],"artifact_size":"16MB"},{"pr_number":680,"title":"Add non-record 10min/16MB submission: Wavelet-Lite PR549 Parallel Muon (1.1483)","author":"bro4all","status":"open","is_record":false,"val_bpb":1.1482555,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"wavelet-lite mixer","description":"Adds a tiny causal Haar-style wavelet-lite mixer inside each residual block, splitting the first 16 post-attention channels into low/high bands using the current token and a one-token lagged copy, with a learned low-band drift scale.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Trims the bigram table to fit the byte budget by using a reduced bigram vocabulary.","parameters":{"bigram_vocab_size":1024}}},{"category":"architecture_modification","data":{"component":"TTT disabled","description":"Removes test-time training from the final budgeted run.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"enabled":true,"every":50}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"initialization","data":{"method":"wavelet init","description":"Uses WAVELET_INIT=0.25 for the wavelet-lite mixer."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Uses gated attention, value residuals, late QAT thresholding, and local NVMe staging for data/tokenizer to meet the 10-minute training budget.","parameters":{"gated_attention":true,"value_residual":true,"late_qat_threshold":0.15,"max_wallclock_seconds":600}}}],"compression":null,"novel_contributions":["Adds a tiny causal wavelet-lite mixer inside each residual block","Uses a PR #549-derived Parallel Muon stack with architectural changes rather than a pure retune","Disables TTT in the final budgeted run to fit the 16MB cap","Trims the bigram table to BIGRAM_VOCAB_SIZE=1024 to reduce artifact size","Recovers the final int6 artifact and exact roundtrip evaluation from a persisted full-precision checkpoint"],"artifact_size":"15,859,711 bytes"},{"pr_number":681,"title":"Non-record: BigramHash(4096) + Cosine EMA + LZMA-9","author":"Alfaxad","status":"open","is_record":false,"val_bpb":1.4775,"architecture":"Transformer","quantization":"GPTQ-lite int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded bigram hash embedding table to capture richer local context.","parameters":{"vocab_size":4096}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"schedule":"cosine","start_decay":0.99,"end_decay":0.999}}},{"category":"quantization","data":{"method":"GPTQ-lite int6","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"other","data":{"description":"Earlier late QAT activation to adapt sooner during warmdown.","parameters":{"threshold":0.1}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP with LeakyReLU squared activation.","parameters":{"activation":"LeakyReLU(0.5)^2"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50}}}],"compression":"lzma-9","novel_contributions":["Expanded BigramHash vocabulary from 2048 to 4096","Replaced fixed EMA decay with a cosine EMA schedule from 0.99 to 0.999","Activated late QAT earlier by lowering the threshold from 0.15 to 0.10","Increased LZMA compression preset from 6 to 9","Used ShinkaEvolve with GPT-5.4 and Gemini 3 Pro as mutation operators"],"artifact_size":"7.9MB"},{"pr_number":682,"title":"[WIP] Non-record: Local Ablation Pipeline — EMA + Int6 + Partial RoPE (GTX 1650)","author":"gthgomez","status":"open","is_record":false,"val_bpb":1.1233,"architecture":"Transformer","quantization":"int6 clip-search quantizer","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"large 2-D tensors / model weights"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embedding applied only to the first subset of head dimensions, with the remaining dimensions passed through unchanged.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"token-embedding and scalar parameters"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Float-supported MLP multiplier enabling 3.0x hidden expansion.","parameters":{"mlp_mult":3}}},{"category":"other","data":{"description":"GTX 1650 compatibility patches including NO_COMPILE, math SDP fallback, and MAX_VAL_SEQS cap.","parameters":{"no_compile":true,"max_val_seqs":256}}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":64}}],"compression":"zlib","novel_contributions":["GTX 1650 compatibility patches for running the pipeline on constrained hardware","EMA implementation with competition-scale and locally calibrated decay settings","Int6 clip-search quantizer with per-row percentile search and zlib-compressed export comparison","Partial RoPE applied to only the first 16 of 64 head dimensions","Layerwise LN scaling by 1/sqrt(layer_idx+1)","Muon decoupled weight decay plus AdamW for scalar/token optimizers","Float-supported MLP multiplier enabling MLP_MULT=3.0","Local ablation pipeline documenting export size and bpb tradeoffs"],"artifact_size":"6.7 MB"},{"pr_number":684,"title":"Record: 11L Sidecar48 + Enhanced Attention + Async Data Pipeline + AdamW TTT (20 epochs, cosine LR, 3-seed mean val_bpb=1.0573)","author":"DeepReinforce","status":"closed","is_record":false,"val_bpb":1.0574,"architecture":"11-layer Transformer","quantization":"int6 mixed quantization","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"Attention shift mixing","description":"Learned k_shift_mix and v_shift_mix blend each position's keys/values with the previous position's keys/values.","parameters":null}},{"category":"architecture_modification","data":{"component":"K gain","description":"Learned per-KV-head k_gain scales key norms independently of queries.","parameters":null}},{"category":"architecture_modification","data":{"component":"Local value residual","description":"Learned per-head local_v_mix adds a direct value shortcut to the attention output.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Adaptive rotary embedding dimension selection using 3/4 of head_dim when head_dim > 32.","parameters":{"dimensions":null}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding used for token representation.","parameters":{"vocab":2048,"dimensions":96}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate with U-Net skip connections in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer uses a 3x MLP expansion.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Model uses 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SharedSparseSidecar","description":"SharedSparseSidecar module with 48 hidden units at layers 8-10.","parameters":{"hidden":48,"layers":[8,9,10]}}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"model weights"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal weight initialization."}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"epochs":20}}},{"category":"lr_schedule","data":{"method":"cosine decay with linear warmup","parameters":{"start_lr":0.0005,"end_lr":0.00002,"warmup":"1 epoch"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":20}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Asynchronous memory-mapped data pipeline with coprime-stride shard sampling, background thread batching, CUDA stream prefetch, and adaptive shard mixing width.","parameters":{"mix_width_start":8,"mix_width_end":32}}}],"compression":"zstd-22","novel_contributions":["Learned attention shift mixing for keys and values","Learned per-KV-head key gain","Learned per-head local value residual","Adaptive rotary embedding dimension selection","Fully asynchronous memory-mapped data pipeline","Background thread and CUDA stream prefetching","Adaptive shard mixing schedule from 8 to 32 shards","Denser sliding-window evaluation with stride 32","Int6 mixed quantization and zstd-22 compression"],"artifact_size":"< 16 MB"},{"pr_number":685,"title":"Record: Chained TTT — Cosine Recovery + Multi-Pass Scoring (3-seed mean val_bpb=1.0366)","author":"andrewbaggio1","status":"closed","is_record":false,"val_bpb":1.0366,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x in the architecture stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses 4 KV grouped-query attention heads.","parameters":{"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU activation with slope 0.5.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes BigramHash component in the model stack.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate component in the model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA4","description":"Includes XSA4 component in the model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings.","parameters":null}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"phases":2,"phase_1":"cosine recovery","phase_2":"multi-pass score-first scoring","passes":3}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"epochs":20}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"per_layer_lr_groups":{"mlp.proj":3,"mlp.fc":0.5}}}}],"compression":"zstd-22","novel_contributions":["Two-phase chained TTT combining cosine recovery with multi-pass scoring","Cosine recovery phase to recover from int6 quantization damage","Multi-pass score-first scoring across three shifted adaptation trajectories","Using min(NLL) across passes to reduce early-token penalty","Synergistic combination of recovery and ensembling-style test-time adaptation"],"artifact_size":"15.62 MB"},{"pr_number":686,"title":"Record: Depth Recurrence (layers 4 and 5 repeated): val_bpb 1.1182","author":"msisovic","status":"open","is_record":false,"val_bpb":1.1182,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Re-executes mid-network layers with independent learnable block scalars to create more virtual layers without increasing model size much.","parameters":{"recur_layers":[4,5],"physical_layers":11,"virtual_layers":13}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_from":0.92,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"freeze_blocks":2,"untie":false}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"matrix_weight_decay":0.04,"adam_weight_decay":0.04}}},{"category":"other","data":{"description":"Uses independent learnable block scalars for recurrent layer passes.","parameters":{"added_params":"~2K"}}}],"compression":"lzma","novel_contributions":["Dual depth recurrence on layers 4 and 5 to create 13 virtual layers from 11 physical layers","Independent learnable block scalars for repeated layer passes","Achieves near-independent-depth performance gains while staying under the artifact budget","Confirms tied TTT performs equivalently to untied for recurrent layers"],"artifact_size":"~15.9MB"},{"pr_number":687,"title":"Record: 5-expert Hedge Mixer + TTT (3-seed mean val_bpb=1.0745)","author":"RoyiRa","status":"closed","is_record":false,"val_bpb":1.0745,"architecture":null,"quantization":"GPTQ","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"model weights"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"learning_rate":0.0001,"chunk_tokens":131072,"use_mixer":true}}},{"category":"other","data":{"description":"5-expert logistic context mixer using Hedge algorithm to blend neural, unigram, bigram, trigram, and entropy experts in log-probability space during TTT evaluation","parameters":{"experts":["neural","unigram","bigram","trigram","entropy"],"online_update":"log_w -= eta * loss"}}},{"category":"other","data":{"description":"Incremental n-gram table construction from already-scored tokens only","parameters":{"ngram_order":[1,2,3],"trigram_buckets":65536}}}],"compression":null,"novel_contributions":["5-expert Hedge-based logistic context mixer","Online blending of neural and n-gram experts in log-probability space during TTT evaluation","Incremental n-gram statistics built only from already-scored tokens","GPTQ calibration performed within the training budget","Three-seed mean record validation score"],"artifact_size":"<15.5 MB"},{"pr_number":688,"title":"Record: 5-expert Hedge Mixer + TTT (3-seed mean val_bpb=1.0745)","author":"RoyiRa","status":"open","is_record":false,"val_bpb":1.0745,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram table used as part of the 5-expert context mixer / model additions.","parameters":{"size":6144,"dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied across all layers.","parameters":{"layers":11,"window_size":8}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU activation.","parameters":{"activation":"LeakyReLU(0.5)^2"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 enabled in later layers.","parameters":{"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32,"seq_len":2048}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"chunk_tokens":131072,"epochs":3,"polyak_decay":0.998,"frozen_blocks":9}}},{"category":"sequence_length","data":{"train_length":131072,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"adaptive_lr_max_mult":3}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"5-expert Hedge/multiplicative-weights logistic context mixer blending neural, unigram, bigram, trigram, and entropy experts in log-probability space.","parameters":{"eta":0.1}}}],"compression":"zstd-22","novel_contributions":["5-expert Hedge-based logistic context mixer","Online GPU-vectorized context mixing in log-probability space","Incremental n-gram tables built only from already-scored tokens","Score-first test-time training pipeline","GPTQ-calibrated model with int5 quantization and zstd compression"],"artifact_size":"<15.5 MB"},{"pr_number":690,"title":"Record: CROWN-Q + Full GPTQ + SWA/EMA Blend — val_bpb 1.1186 (3-seed mean)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1186,"architecture":"Transformer","quantization":"int6 QAT + Full Cholesky GPTQ","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT + GPTQ","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature/module with size 3072","parameters":{"dimensions":3072}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"train_length":16,"eval_length":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP using LeakyReLU activations","parameters":{"layers":3}}},{"category":"weight_averaging","data":{"method":"SWA + EMA","parameters":{"blend_ratio":"50/50","ema_decay":0.997,"swa_interval_steps":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000,"late_qat_threshold":0.15}}},{"category":"regularization","data":{"method":"CROWN-Q penalty","parameters":{"lambda":0.01,"warmdown_only":true}}}],"compression":null,"novel_contributions":["CROWN-Q curvature-weighted quantization variance penalty during warmdown","Full Cholesky GPTQ with act-order and calibration within training budget","SWA/EMA 50/50 blend with EMA decay 0.997","Pure inference sliding-window evaluation with stride 64","11-layer architecture with XSA, VRL, BigramHash 3072, and partial RoPE"],"artifact_size":"15,947,742 bytes"},{"pr_number":691,"title":"PR #414 + 30-Epoch Cosine TTT (1.0988 BPB)","author":"xexyz","status":"open","is_record":false,"val_bpb":1.0988,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added gating mechanism in the PR #414 stack","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature component with 2048 buckets","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"chunk_tokens":32768,"learning_rate":0.002}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"base_lr":0.0005,"per_layer_lr_groups":{"mlp.proj":3,"mlp.fc":0.5,"others":1}}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"epochs":30}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":1}}}],"compression":"zstd-22","novel_contributions":["30-epoch cosine pre-eval test-time training on the PR #414 consensus stack","Legal score-first TTT protocol that scores each validation chunk before training on it","Per-layer learning-rate grouping during TTT","Sliding-window evaluation with stride 64 after TTT","Use of GPTQ-lite int6 quantization with zstd-22 compression"],"artifact_size":"15,900,191 bytes"},{"pr_number":692,"title":"Record: CROWN-Q + Full GPTQ + SWA/EMA Blend — val_bpb 1.1186 (3-seed mean)","author":"EthanYangTW","status":"closed","is_record":false,"val_bpb":1.1186,"architecture":"Transformer","quantization":"int6 QAT + Full Cholesky GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all weights"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with size 3072","parameters":{"dimensions":3072}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"train_length":16,"eval_length":64}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with LeakyReLU(0.5)^2","parameters":{"layers":3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"blend":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"blend":0.5}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000,"late_qat_threshold":0.15}}},{"category":"regularization","data":{"method":"CROWN-Q penalty","parameters":{"lambda":0.01,"warmdown_only":true}}},{"category":"other","data":{"description":"Full Cholesky GPTQ calibration with act-order and 256-sample calibration from training data within training budget","parameters":{"block_size":128,"calibration_samples":256}}}],"compression":null,"novel_contributions":["CROWN-Q curvature-weighted quantization variance penalty during warmdown","Full Cholesky GPTQ with act-order within the training budget","SWA/EMA 50/50 blend for final weights","Pure inference sliding-window evaluation with no test-time training","Architecture using XSA, BigramHash, GQA, and partial RoPE"],"artifact_size":"15,945,134 bytes"},{"pr_number":693,"title":"Record: CROWN-Q + Full GPTQ + SWA/EMA Blend — val_bpb 1.1186 (3-seed mean)","author":"EthanYangTW","status":"open","is_record":false,"val_bpb":1.1186,"architecture":"Transformer","quantization":"int6 QAT + full Cholesky GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"QAT + GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP using LeakyReLU activations","parameters":{"layers":3,"activation":"LeakyReLU(0.5)^2"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"layers":[7,8,9,10]}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with size 3072","parameters":{"dimensions":3072}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding","parameters":{"dimensions":"16/64"}}},{"category":"weight_averaging","data":{"method":"SWA + EMA","parameters":{"blend":"50/50","ema_decay":0.997,"swa_interval_steps":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"disabled","parameters":{"TTT_ENABLED":0}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000,"late_qat_threshold":0.15}}},{"category":"regularization","data":{"method":"CROWN-Q penalty","parameters":{"lambda":0.01,"warmdown_only":true}}},{"category":"other","data":{"description":"Full Cholesky GPTQ with act-order and block_size=128 using 256-sample calibration from training data","parameters":{"block_size":128,"calibration_samples":256,"act_order":true}}}],"compression":null,"novel_contributions":["CROWN-Q curvature-weighted quantization variance penalty during warmdown","Full Cholesky GPTQ with act-order after training as part of model export","50/50 blend of SWA and EMA","Architecture with GQA, XSA, BigramHash, and partial RoPE","Pure inference sliding-window evaluation with TTT disabled"],"artifact_size":"15,947,742 bytes"},{"pr_number":694,"title":"10L Int5-MLP + BigramHash(4096) + SWA (1.1507 BPB)","author":"Bortlesboat","status":"open","is_record":false,"val_bpb":1.1507,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6 QAT","bits":5,"scope":"MLP and attention"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hash embedding/cache-like component to the model.","parameters":{"size":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections inspired by U-Net are added to the transformer blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"layers":10,"heads":8,"kv_heads":4,"d_model":512}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.02}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"fraction":0.4}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal weight initialization."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"Neural cache used during evaluation to interpolate cached hidden-state predictions with model outputs.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Reduced BigramHash size for reliable artifact size margin across seeds","Mixed int5 MLP / int6 attention quantization with post-quantization roundtrip","Stochastic Weight Averaging over the last 40% of warmdown","Neural cache evaluation-time interpolation","Per-document LoRA test-time training","Quantization-aware training with STE fake quantization"],"artifact_size":"15.62MB"},{"pr_number":695,"title":"Record: 11L XSA6 + Warmdown3000 + QAT@0.30 (val_bpb=1.1352, 2-seed mean)","author":"0xNoramiya","status":"open","is_record":false,"val_bpb":1.136,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Extended efficient partial XSA to the last 6 layers instead of the last 4.","parameters":{"layers":6}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with muP-scaled output projections."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup":"0.92->0.99 over 1500 steps","lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr_embeddings":0.035,"lr_scalars":0.025}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash for token/context representation.","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings with NTK-aware scaling.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Extended XSA from the last 4 layers to the last 6 layers","Shortened warmdown from 3500 to 3000 iterations","Raised late QAT threshold from 0.15 to 0.30","Selected hyperparameters via 37 local ablation experiments on an RTX 4060 Ti","Used STE int6 QAT for MLP and attention weights with int8 embeddings","Submitted the best seed from a 2-seed run with 2-seed mean reporting"],"artifact_size":"15.88 MB"},{"pr_number":696,"title":"Add non-record JEPA byte-level encoder-decoder submission","author":"gravelBridge","status":"open","is_record":false,"val_bpb":1.2622,"architecture":"JEPA encoder-decoder","quantization":"int6 QAT","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"JEPA encoder-decoder","description":"Uses a two-stage JEPA architecture with a depth-recurrent encoder and a causal decoder conditioned on encoder latents instead of a standard causal GPT.","parameters":{"encoder_layers":5,"encoder_repeats":2,"decoder_layers":7,"model_dim":480,"encoder_heads":6,"encoder_kv_heads":3,"decoder_heads":4,"patch_size":8,"latent_dim":192}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weights"}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs_per_chunk":2,"stride":256,"chunk_tokens":32768,"batch_seqs":32,"all_parameters_adapt":true}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256}}},{"category":"sequence_length","data":{"train_length":2047,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"SIGReg","parameters":{"applied_to":"latent projection / encoder outputs"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"other","data":{"description":"Byte-level tokenizer with vocab 260 and no BPE.","parameters":{"vocab_size":260}}}],"compression":"lzma-9","novel_contributions":["JEPA encoder-decoder architecture as an alternative to standard causal GPT submissions","Pure byte-level tokenizer with vocab 260 and no BPE","Depth-recurrent encoder with patch-based latent projection","INT6 optimal-clip quantization with STE QAT during warmdown","Sliding-window test-time training over all parameters"],"artifact_size":"15.7MB"},{"pr_number":697,"title":"feat: depth recurrence + cosine recovery TTT","author":"Danishlynx","status":"open","is_record":false,"val_bpb":1.1194,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Repeats layers 4-5 to create 13 virtual layers from 11 physical layers, with per-repetition learnable scale parameters and U-Net skip connections adapted for the virtual layer count.","parameters":{"repeat_layers":[4,5],"physical_layers":11,"virtual_layers":13}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"recovery_epochs":20,"recovery_lr":0.001}}},{"category":"lr_schedule","data":{"method":"cosine recovery","parameters":{"epochs":20,"learning_rate":0.001}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Runs additional cosine-learning-rate epochs on all scored data after standard score-first TTT to repair int6 quantization damage, then re-scores with sliding window evaluation.","parameters":{"ttt_recovery_epochs":20,"ttt_recovery_lr":0.001}}}],"compression":null,"novel_contributions":["Depth recurrence by repeating layers 4-5 to expand 11 physical layers into 13 virtual layers","Per-repetition learnable scale parameters for recurrent depth","U-Net skip connections adapted for the virtual layer count","Enhanced test-time training with a cosine recovery phase after score-first TTT","Recovery phase uses additional cosine-LR epochs on all scored data to repair int6 quantization damage","Fallback from FlashAttention 3 to SDPA for non-Hopper GPUs with manual GQA head repeat for PyTorch <2.5 compatibility"],"artifact_size":null},{"pr_number":698,"title":"Add MergedTop3_v3 clean 8xH100 record-track submission","author":"hesong0222-dev","status":"open","is_record":false,"val_bpb":1.16417381,"architecture":"Transformer","quantization":"mixed int6","optimizer":"Muon/AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA on the last 4 layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Used 3x MLP blocks.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Included SmearGate in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Used BigramHash feature with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon/AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applied partial RoPE with reduced rotary dimensions.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"architecture_modification","data":{"component":"GPTQ-lite","description":"Used GPTQ-lite clip search.","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown3500","parameters":{"warmdown_steps":3500}}}],"compression":"zstd","novel_contributions":["Merged top-stack recipe built from public leaderboard lineage","11-layer model with XSA on the last 4 layers","EMA-only training","3x MLP blocks","SmearGate integration","BigramHash with 2048 buckets","Mixed int6 quantization with zstd compression","Sliding-window evaluation with stride 64","Partial RoPE with ROPE_DIMS=16","Layerwise LN scaling","GPTQ-lite clip search","Clean rerun package with strict runtime gates for uninterrupted 8x H100 execution"],"artifact_size":"15,635,201 bytes"},{"pr_number":700,"title":"Record Submission: 1.0541 BPB - 5-expert Hedge Mixer + CROWN-Q + stride=64","author":"RoyiRa","status":"open","is_record":false,"val_bpb":1.0541,"architecture":"Transformer","quantization":"Full GPTQ int5","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA across all 11 layers with window size 8.","parameters":{"layers":11,"ws":8}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added BigramHash feature with dimension 128.","parameters":{"size":6144,"dim":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Used a widened MLP with LeakyReLU activations.","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used 8 attention heads and 8 KV heads in an 11-layer, 512d model.","parameters":{"layers":11,"hidden_size":512,"heads":8,"kv_heads":8}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"evaluation_technique","data":{"method":"stride-based sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":4,"learning_rate":0.0001,"freeze_blocks":2,"chunk_tokens":131072}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"targets_seconds":582}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}},{"category":"other","data":{"description":"CROWN-Q training-time quantization-aware penalty during warmdown to reduce quantization sensitivity.","parameters":{"lambda":0.01}}},{"category":"other","data":{"description":"5-expert Hedge mixer combining neural, unigram, bigram, trigram, and entropy experts.","parameters":{"experts":5}}}],"compression":"zstd-22","novel_contributions":["Added a CROWN-Q quantization-aware training penalty during warmdown to improve quantization robustness.","Increased evaluation stride from 32 to 64 to halve eval cost while preserving BPB quality.","Used the saved evaluation time to increase test-time training from 3 to 4 epochs per chunk.","Combined a 5-expert Hedge mixer with GPTQ int5 compression and CROWN-Q for a new record score."],"artifact_size":"~15.7 MB"},{"pr_number":702,"title":"Record: 1.0240 BPB — Multi-Order N-gram Backoff + Entropy-Adaptive Alpha (100% autonomous research via goldfish)","author":"lukacf","status":"open","is_record":false,"val_bpb":1.0244,"architecture":"Transformer","quantization":"int6 + zstd QAT","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA-all attention variant used in the 11-layer transformer.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component included in the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature used in the base architecture and referenced in prior baseline.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial RoPE applied to the model.","parameters":{"dimensions":"16/64"}}},{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":100,"learning_rate":0.001}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"scheduler":"CosineAnnealingLR","t_max":100,"eta_min":0.00001}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"Entropy-adaptive n-gram mixing during evaluation, increasing reliance on n-gram predictions when model entropy is high.","parameters":{"alpha_formula":"0.05 + 0.35 * sigmoid(2 * (H - 4.0))"}}},{"category":"other","data":{"description":"Multi-order n-gram backoff cache used at evaluation time, backing off from 5-gram to 4-gram, 3-gram, and 2-gram contexts.","parameters":{"orders":[2,3,4,5]}}}],"compression":"zstd-22","novel_contributions":["Multi-order n-gram backoff across 2-gram to 5-gram contexts","Entropy-adaptive mixing weight based on model entropy","Score-first eval-time n-gram cache updated only after scoring each token","Proper distribution-preserving mixture of model and n-gram probabilities","Autonomous research workflow using Goldfish ML and Meerkat","3-seed validation of the submission"],"artifact_size":"15.79 MB"},{"pr_number":703,"title":"Record: PR549 + MiLe decay + 8-bit Muon + 1.04x LR + Cache+Backout — val_bpb 1.1176","author":"Gusanidas","status":"open","is_record":false,"val_bpb":1.1176,"architecture":"Transformer","quantization":"Full Hessian GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"Muon momentum buffers"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"MLP activation uses LeakyReLU(0.5) squared","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding/component used in the model","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale set to 1/sqrt(layer+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE enabled in layers 9-10 with dimension 128","parameters":{"layers":[9,10],"dimension":128}}},{"category":"architecture_modification","data":{"component":"Cache+Backout","description":"Caches hidden states after layer 7; later attention reads from cached clean context and applies a learned backout term","parameters":{"cache_after_layer":7,"backout_init":0.1}}},{"category":"other","data":{"description":"MiLe loss with entropy-weighted token loss and decay to standard cross-entropy during warmdown","parameters":{"gamma":1.1}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500,"lr_multiplier":1.04}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"lzma","novel_contributions":["MiLe loss with entropy-weighted token loss and decay during warmdown","8-bit blockwise symmetric int8 quantization of Muon momentum buffers","1.04x learning-rate boost","Cache+Backout mechanism using cached hidden states after layer 7 and learned backout scalar","Full Hessian GPTQ with Hessian-based column ordering and Cholesky error compensation","GPTQ quantization adapted for banked weights via temporary unbanked model Hessian collection"],"artifact_size":"~15.95 MB"},{"pr_number":705,"title":"Byte-Level Tokenizer-Free Transformer: 1.2151 BPB (beats baseline 1.2244)","author":"seanward","status":"open","is_record":false,"val_bpb":1.2151,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Shares the byte embedding table with the output projection.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate feature processing in the byte-level model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed byte-bigram embeddings to capture local byte-pair statistics.","parameters":{"buckets":4096,"dim":32}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x hidden-size MLP with LeakyReLU² activation.","parameters":{"hidden_multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"U-Net style skip connections","description":"Adds learned encoder-decoder skip connections across transformer layers.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512,"context_length":4096}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":4096}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":2500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"max_norm":0.3}}},{"category":"other","data":{"description":"Tokenizer-free raw UTF-8 byte-level modeling with no tokenizer, BPE, or SentencePiece.","parameters":{"vocab_size":256}}}],"compression":"zstd-22","novel_contributions":["First tokenizer-free byte-level model to beat the sp1024 baseline in Parameter Golf","Raw UTF-8 byte modeling with vocab size 256 and no tokenizer/BPE/SentencePiece","Hashed byte-bigram embeddings to capture local byte-pair statistics","SmearGate and U-Net style skip connections in a pure self-attention transformer","LeakyReLU² activation in the MLP","Sliding-window evaluation at stride 512 over 4096-byte contexts","Int6 quantization combined with zstd-22 compression","4-seed significance test showing consistent improvement over baseline"],"artifact_size":"15.795055 MB"},{"pr_number":706,"title":"Podracing: 1.0461 BPB (3-seed mean) — 5-gram eval + LeakyReLU²","author":"newjordan","status":"open","is_record":false,"val_bpb":1.0461,"architecture":"11L/512d U-Net","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention with the last 4 layers modified.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash component for hashed n-gram features.","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"dimensions":24}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"other","data":{"description":"LeakyReLU squared activation with slope 0.5.","parameters":{"slope":0.5}}},{"category":"evaluation_technique","data":{"method":"5-gram eval interpolation","parameters":{"alpha":0.2,"order":5,"min_count":2,"buckets":4194304,"score_first":true,"legal":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"disabled":true}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["5-gram eval interpolation using a fixed-weight hashed n-gram cache built from already-scored tokens only","Score-first legal evaluation with no safety gate or target-aware selection","LeakyReLU squared activation","XSA last-4 configuration with BigramHash and partial RoPE","GPTQ int6 quantization with late QAT"],"artifact_size":"15.64 MB"},{"pr_number":707,"title":"Submit 1x A100 QAT Fix - 1.4078 BPB (Non-Record) [v2]","author":"Shuvam-Banerji-Seal","status":"open","is_record":false,"val_bpb":1.4078,"architecture":"modded-nanogpt-derived Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"LR scheduling tuned for single-device run","parameters":{"gradient_accum_tokens":131000,"iterations":2600}}},{"category":"other","data":{"description":"Replaced torch.quantile with w.abs().amax(dim=1) / w.amax().clamp_min-based clip factor estimation to avoid Triton compiler performance penalty","parameters":null}}],"compression":"zstd","novel_contributions":["Adjusted hyperparameters from multi-device scales to single-A100 scales so the LR schedule completes properly","Replaced torch.quantile with amax-based clip factor estimation to avoid a severe Triton compiler performance penalty","Reduced gradient accumulation sizing to 131K tokens so training reaches 2600 iterations within the time budget","Addressed prior review feedback on unused dependencies and imports"],"artifact_size":"15.77 MB"},{"pr_number":709,"title":"Results of 2026-03-23_MixedQAT_Int5MLP_Int6Attn","author":"StolbaJ","status":"open","is_record":false,"val_bpb":1.14777536,"architecture":"Transformer","quantization":"mixed int5/int6 STE QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":5,"scope":"MLP"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attention and bigram-proj"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned previous-token blending at the embedding layer","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding table","parameters":{"dimensions":128,"table_size":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 KV heads and 8 attention heads","parameters":{"heads":8,"kv_heads":4,"layers":10,"dim":512}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":{"vocab_size":1024}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"scalar_lr":0.02,"tied_embed_lr":0.03}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every_steps":50,"checkpoints_averaged":24}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization with muP output-projection scaling"}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adamw_wd":0.04}}}],"compression":"zstd-22","novel_contributions":["Mixed-precision QAT with int5 STE for MLP and int6 STE for attention/bigram projection","STE quantization aligned exactly with the export-time per-row quantization scheme","QAT enabled from step 0 on the full SOTA stack","Combination of QAT with the existing SOTA architecture features such as SmearGate and BigramHash"],"artifact_size":"15,957,281 bytes"},{"pr_number":710,"title":"Submission: 11L EMA + GPTQ-lite + Int6 (val_bpb: 1.1240)","author":"Dhruba531","status":"open","is_record":false,"val_bpb":1.124,"architecture":"Transformer","quantization":"GPTQ-lite int6 with late QAT and int8 embeddings","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"MLP and attention weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with relu-squared activation","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections across layers","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Efficient partial XSA applied to the last layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions with NTK-aware scaling","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism used in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with bucketed representation","parameters":{"buckets":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"Shared value embeddings used in later layers with learned per-layer scales","parameters":{"layers":[9,10],"dim":128}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025,"warmup_momentum_start":0.92}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.035,"scope":"embeddings"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.025,"scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"scale_threshold":0.2}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with muP-scaled output projections"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale_rule":"1/sqrt(layer_idx+1)"}}},{"category":"other","data":{"description":"Late QAT with STE int6 fake-quantization when LR scale drops below 0.15","parameters":{"threshold":0.15}}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with 3x MLP expansion and U-Net skip connections","Efficient partial XSA on the last 4 layers","Partial RoPE with NTK-aware scaling","SmearGate, BigramHash, and shared value embeddings","EMA plus tight SWA during training","GPTQ-lite per-row optimal clip percentile search for int6 quantization","Late QAT with STE int6 fake-quantization","Int6 roundtrip evaluation with zstd-compressed artifact"],"artifact_size":"15.58 MB"},{"pr_number":712,"title":"Submit 1x A100 QAT Fix - 1.4078 BPB (Non-Record) [v3]","author":"Shuvam-Banerji-Seal","status":"closed","is_record":false,"val_bpb":1.4078,"architecture":"modded-nanogpt-derived Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"LR scheduling tuned for single-device run","parameters":{"gradient_accum_tokens":131000,"iterations":2600}}},{"category":"other","data":{"description":"Replaced torch.quantile with w.amax().clamp_min / w.abs().amax(dim=1) to avoid a Triton compiler performance penalty","parameters":null}},{"category":"other","data":{"description":"Fixed bigram embeddings validation when size < 2","parameters":null}}],"compression":"zstd","novel_contributions":["Tuned hyperparameters down from multi-device scales for a single A100 run","Replaced torch.quantile with amax-based clipping to avoid a severe Triton compiler performance penalty","Adjusted gradient accumulation sizing to 131K tokens so the run completes the intended training iterations","Added validation handling for bigram embeddings when size < 2","Cleaned up unused dependencies/imports and corrected compressor variable logging"],"artifact_size":"15.77 MB"},{"pr_number":713,"title":"Record: 10L + Batched LoRA TTT (mean val_bpb=1.1180, 3 seeds)","author":"hypery11","status":"open","is_record":false,"val_bpb":1.118,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"10-layer transformer with 3x MLP blocks using LeakyReLU(0.5)^2 activation.","parameters":{"layers":10,"dim":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a BigramHash component with bucketed hashing and learned projection.","parameters":{"buckets":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate and value residual connections with per-head gated attention.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings with a 1024-vocab setup.","parameters":{"vocab_size":1024}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"learning_rate":0.02}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"batch_size_docs":64,"chunk_length":256,"epochs":3,"targets":["Q","V","LM head"]}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Per-document batched test-time training with fresh initialization and optimizer reset for each document; short documents under 512 tokens are scored without TTT.","parameters":{"short_doc_threshold":512}}}],"compression":"zstd-22","novel_contributions":["10-layer transformer with several custom architectural additions","Per-document batched LoRA test-time training","64 documents processed in parallel during TTT","Mixed int5/int6 quantization with zstd-22 compression","EMA weight averaging and Muon optimizer training","Score on final TTT epoch only"],"artifact_size":"15.75 MB"},{"pr_number":714,"title":"Add 11L RotaryFix + LegalTTT + BIGRAM3072 — val_bpb 1.11869 (3-seed m…","author":"Upsalla","status":"open","is_record":false,"val_bpb":1.11869,"architecture":"Transformer","quantization":"GPTQ-lite int6 with late QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary NTK-scaling bug fix; train_seq_len=2048 is correctly propagated to both base_model and eval_model instead of being hardcoded to 1024.","parameters":{"train_seq_len":2048}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded bigram vocabulary size for the hash-based bigram component.","parameters":{"vocab_size":3072}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with LeakyReLU(0.5)^2.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings using 16 of 64 dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE enabled in layers 9-10.","parameters":{"dim":128,"layers":[9,10]}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"chunk_size":32768}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs_per_chunk":3,"optimizer":"SGD","momentum":0.9,"freeze_blocks":0}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Late QAT threshold tuning to extend quantization-aware adaptation time.","parameters":{"threshold":0.57}}}],"compression":"lzma","novel_contributions":["Fixed a Rotary NTK-scaling bug by correctly propagating train_seq_len=2048 to both training and evaluation models.","Applied a previously unreported eval_model Rotary fix affecting the causal TTT scoring window.","Increased BigramHash vocabulary size to 3072.","Raised the late QAT threshold to 0.57 to allow substantially more QAT steps.","Used torch.no_grad() instead of torch.inference_mode() during TTT scoring to avoid Autograd graph corruption across RoPE cache boundaries.","Introduced Legal TTT: score-first, backward-looking test-time training on already-scored chunks."],"artifact_size":"~16.06 MB"},{"pr_number":715,"title":"Record: XSA-all + LeakyReLU² + VR + GA + 7-gram cache (val_bpb=1.0337)","author":"Asukabot0","status":"open","is_record":false,"val_bpb":1.0337,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5)^2 activation used in place of ReLU^2 to preserve negative gradient flow","parameters":{"negative_slope":0.5,"squared":true}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 value output is mixed into subsequent layers via learned sigmoid gates","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention output","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP uses 3x expansion","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with 4096 buckets","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component used in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections added to the transformer","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"7-gram backward-looking eval cache with fixed alpha mixing applied during evaluation","parameters":{"alpha":0.4,"order":7,"eval_time_only":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}}],"compression":"zstd-16","novel_contributions":["Exclusive Self-Attention applied to all 11 layers","LeakyReLU(0.5)^2 activation","Value Residual mixing from layer 0 into later layers","Per-head Gated Attention","7-gram backward-looking evaluation cache with fixed alpha mixing","Int6 quantization with zstd compression"],"artifact_size":"~15.99MB"},{"pr_number":716,"title":"Add non-record 4090 warmdown submission","author":"SHN2004","status":"open","is_record":false,"val_bpb":1.42394278,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU2","description":"Replaces the default MLP activation with a LeakyReLU-squared variant.","parameters":{"slope":0.5}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":300}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"torch.compile enabled for training/evaluation speedup on a single RTX 4090.","parameters":{"hardware":"1x RTX 4090","wallclock_seconds":300}}}],"compression":"zlib","novel_contributions":["Compiled execution with torch.compile","Quarter batch sizing to increase optimizer steps in fixed wall-clock time","Longer warmdown schedule (300 iterations)","LeakyReLU2 activation in the MLP","Single-GPU 4090 proxy search documenting a non-record 16MB submission"],"artifact_size":"14,624,248 bytes"},{"pr_number":717,"title":"Grant nonrecord tied blocks","author":"Jaksenc","status":"open","is_record":false,"val_bpb":1.35151831,"architecture":"GPT","quantization":"FAKE_QUANT_INT8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"GQA attention","description":"Uses grouped-query attention in the model stack.","parameters":null}},{"category":"other","data":{"description":"Late-window STE applied on CastedLinear during fake int8 quantization.","parameters":{"module":"CastedLinear","window":"late"}}},{"category":"other","data":{"description":"torch.compile used with fullgraph disabled.","parameters":{"fullgraph":false}}}],"compression":"zlib","novel_contributions":["Non-record work-in-progress paired submission bundle","FAKE_QUANT_INT8 with late-window STE on CastedLinear","torch.compile with fullgraph=False","GQA attention","Int8 export clipped at the 99.995th percentile"],"artifact_size":"12,622,882 bytes"},{"pr_number":719,"title":"Submit 1x A100 QAT Fix - 1.5252 BPB (Non-Record) [v4]","author":"Shuvam-Banerji-Seal","status":"closed","is_record":false,"val_bpb":1.52523098,"architecture":"modded-nanogpt-derived Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"sequence_length","data":{"train_length":131000,"eval_length":null}},{"category":"lr_schedule","data":{"method":"standard LR scheduling tuned for single-device run","parameters":{"scaled_down_from_multi_device":true}}},{"category":"other","data":{"description":"Replaced torch.quantile with w.abs().amax(dim=1).clamp_min to avoid Triton compilation slowdown","parameters":null}},{"category":"architecture_modification","data":{"component":"bigram embedding guard","description":"Added guard for small-vocab edge cases in the bigram embedding path","parameters":null}},{"category":"other","data":{"description":"Made compressor-dependent labels and final-roundtrip labels explicit in training logs","parameters":null}}],"compression":"zstd","novel_contributions":["Tuned hyperparameters down from multi-device scales for a single A100 run to preserve proper LR scheduling","Replaced torch.quantile with w.abs().amax(dim=1).clamp_min to avoid a large Triton compilation slowdown","Added a guard for small-vocab edge cases in the bigram embedding path","Made compressor-dependent labels and final-roundtrip labels explicit in training logs","Used final post-export sliding-window roundtrip metric as the reported submission val_bpb"],"artifact_size":"15.77 MB"},{"pr_number":720,"title":"Record Submission: 1.1078 BPB — XSA6 + BigramHash4K on Hedge Mixer Stack","author":"agalimova","status":"open","is_record":false,"val_bpb":1.1078,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last layers of the model.","parameters":{"layers":6}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed bigram embeddings in the Hedge Mixer stack.","parameters":{"vocab_size":4096,"embedding_dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on a subset of dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"parameter_banking":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency_steps":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":4,"optimizer":"AdamW"}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown":true}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}}],"compression":"zstd","novel_contributions":["Systematic combinatorial search over hyperparameters using autoresearch-multi","Increasing XSA_LAST_N from 4 to 6","Increasing BIGRAM_VOCAB_SIZE from 2048 to 4096","Combination of XSA=6 and BigramHash vocab size 4096 with superadditive improvement","Hedge Mixer stack with BigramHash embeddings and XSA on the last 6 layers"],"artifact_size":"15.3MB"},{"pr_number":721,"title":"Middle-Out Compression: 0.0000 bpb (Shannon Limit Broken)","author":"hypery11","status":"open","is_record":false,"val_bpb":0,"architecture":"Middle-Out Autoregressive Compressor (MOAC)","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Middle-Out Autoregressive Compressor (MOAC)","description":"Replaces the transformer with a middle-out compressor that starts from the middle of the sequence and compresses outward in both directions simultaneously.","parameters":null}},{"category":"other","data":{"description":"Claims to break Shannon's limit by exploiting a middle-out symmetry where bits cancel out during compression.","parameters":null}},{"category":"compression","data":{"method":"custom","level":null}}],"compression":"custom","novel_contributions":["Middle-out autoregressive compression from the center of the sequence outward","Reported 0.0000 bpb on FineWeb validation","8-byte artifact size using the string \"PIED PPR\"","Claimed negative bpb / information generation during evaluation","No quantization needed because the model is encoded in spiritual energy"],"artifact_size":"8 bytes"},{"pr_number":722,"title":"parameter golf submission - Julius","author":"magicjulio","status":"open","is_record":false,"val_bpb":0.5588,"architecture":"Transformer","quantization":"INT6 quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Replaced ReLU(x)^2 with LeakyReLU(x, 0.5)^2 in all MLP blocks to avoid dead neurons while keeping squared non-negative outputs.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded BigramHashEmbedding capacity to reduce hash collisions.","parameters":{"buckets":3072}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"epochs":8}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["LeakyReLU(0.5)^2 activation replacement in MLP blocks","Increased training and TTT context length from 1024 to 2048","Expanded BigramHashEmbedding capacity from 2048 to 3072 buckets","Extended warmdown schedule from 3000 to 3500 iterations","LoRA-based test-time training with K-projection and Min-NLL epoch selection"],"artifact_size":"15,302,060 bytes"},{"pr_number":724,"title":"Record: 10L + 7-gram eval cache (mean val_bpb=1.0717)","author":"hypery11","status":"open","is_record":false,"val_bpb":1.0717,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer","description":"10-layer transformer with 512d hidden size, 8/4 GQA, 3x MLP LeakyReLU(0.5)^2, BigramHash, SmearGate, value residual, gated attention, U-Net skip connections, and tied embeddings.","parameters":{"layers":10,"dimensions":512,"gqa":"8/4","bigramhash_buckets":10240}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.995}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based token feature component with 10240 buckets and 128-dimensional representation.","parameters":{"buckets":10240,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the transformer blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval with backward-looking 7-gram cache","parameters":{"order":7,"alpha":0.4,"hash_buckets":4000000,"min_count":2,"score_first":true,"deterministic":true}}},{"category":"test_time_training","data":{"method":"score-first TTT-like cache update","parameters":{"gradient_updates":false,"ttt":false}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["10-layer transformer with a compact architecture tuned for the competition constraints","Backward-looking 7-gram evaluation cache to improve validation performance during inference","Score-first cache update strategy with deterministic evaluation and no gradient-based test-time adaptation","Mixed int5/int6 quantization combined with zstd-22 compression to fit within the artifact size limit","Use of EMA, pruning, and BigramHash/SmearGate/U-Net skip architectural enhancements"],"artifact_size":"15.75 MB"},{"pr_number":725,"title":"Submit 1x A100 QAT Fix - 1.5252 BPB (Non-Record) [v5]","author":"Shuvam-Banerji-Seal","status":"open","is_record":false,"val_bpb":1.52523098,"architecture":"modded-nanogpt-derived Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"CastedLinear clip factor estimator","description":"Replaces torch.quantile with w.abs().amax(dim=1).clamp_min for faster clip factor estimation and to avoid Triton compilation slowdown.","parameters":null}},{"category":"architecture_modification","data":{"component":"bigram embedding guard","description":"Adds a guard for small-vocab edge cases in the bigram embedding path.","parameters":null}},{"category":"other","data":{"description":"Makes compressor-dependent labels and final-roundtrip labels explicit in training logs.","parameters":null}},{"category":"sequence_length","data":{"train_length":131000,"eval_length":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Single-device A100 tuning of QAT hyperparameters to fit within the wallclock cap","Replaced torch.quantile with w.abs().amax(dim=1).clamp_min to avoid a large Triton compilation slowdown","Added a guard for small-vocab bigram embedding edge cases","Made compressor-dependent and final-roundtrip labels explicit in training logs","Reported final submission metric from post-export sliding-window roundtrip evaluation"],"artifact_size":"15.77 MB"},{"pr_number":726,"title":"Memmap multi-shard data pipeline + GPU prefetch + LeakyReLU² + Legal TTT + Parallel Muon","author":"DeepReinforce","status":"open","is_record":false,"val_bpb":1.1147,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA on the last four layers as part of the custom PR #549-style architecture stack.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE only partially across the model.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes BigramHash in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"MLP nonlinearity using leaky ReLU with negative slope 0.5 followed by squaring before the down projection.","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":50,"start_condition":"warmdown LR scale below 0.2"}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32768,"optimizer":"SGD","momentum":0.9,"learning_rate":0.002,"epochs":3,"frozen_blocks":2,"gradient_clip":1,"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Memmap multi-shard data pipeline with global window sampling, coprime stride over shards, merged slab reads, and asynchronous CPU/GPU prefetch using a daemon thread plus CUDA streams/events.","parameters":{"memmap":true,"multi_shard":true,"gpu_prefetch":true}}}],"compression":"lzma","novel_contributions":["Memmap-based multi-shard distributed token loader","Global training window sampling across shards with coprime stride and diversity-aware shard weighting","Merged slab reads to reduce mmap churn","Asynchronous CPU batch construction with GPU prefetch via CUDA streams and events","Legal score-first test-time training with chunk-wise adaptation","LeakyReLU² MLP nonlinearity","Parallel Muon optimizer usage"],"artifact_size":"~15.23 MB"},{"pr_number":727,"title":"Record: First Legal Sub-1.0 BPB — Multi-order N-gram Backoff + Entropy-Adaptive Alpha (val_bpb=0.9674, 3-seed)","author":"Asukabot0","status":"open","is_record":false,"val_bpb":0.96736,"architecture":"Transformer","quantization":"int6 + zstd-16","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"11L Transformer","description":"11-layer Transformer with 512-dimensional hidden size, GQA, MLP expansion, and several custom architectural components.","parameters":{"layers":11,"d_model":512,"gqa_heads":8,"kv_heads":4,"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Squared LeakyReLU activation with negative slope 0.5.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention across all layers.","parameters":{"last_n":11}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate embedding/attention component.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 4096 buckets.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings partially.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zstd","level":16}},{"category":"evaluation_technique","data":{"method":"n-gram eval cache","parameters":{"orders":"2-7","backoff":true,"entropy_adaptive_alpha":true}}},{"category":"other","data":{"description":"Entropy-adaptive interpolation between LM logits and n-gram statistics using model entropy.","parameters":{"alpha_formula":"0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}}],"compression":"zstd-16","novel_contributions":["Multi-order n-gram backoff over orders 2 through 7","Entropy-adaptive alpha for interpolating LM and n-gram statistics","First legal sub-1.0 BPB record claim","Score-first, backward-looking eval-time n-gram cache"],"artifact_size":"~15.99 MB"},{"pr_number":728,"title":"Record: Val-Calibrated GPTQ + XSA-all + BigramHash 3072×112","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.1142,"architecture":"Transformer","quantization":"Full Hessian GPTQ int6 (val-calibrated)","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA attention applied on all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Wider bigram hash embedding/table used to improve quality while staying under artifact budget","parameters":{"vocab_size":3072,"dimension":112}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times widened MLP with LeakyReLU squared","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Position-mixing gate","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Encoder-decoder skip connections","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Attention uses 8 GQA heads and 4 KV heads","parameters":{"gqa_heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Validation-data GPTQ calibration using forward-only Hessian collection on validation tokens instead of training tokens","parameters":{"calib_batches":64}}},{"category":"other","data":{"description":"Selective ±1 pruning by reconstruction error","parameters":null}},{"category":"other","data":{"description":"Parallel Muon optimizer with parameter banking and overlapped communication","parameters":{"parameter_banks":4}}}],"compression":"lzma-9","novel_contributions":["Validation-data GPTQ calibration to avoid eval-time training-data access","BigramHash widened to 3072 × 112","Full Hessian GPTQ int6 quantization with val calibration","XSA-all stack combined with selective pruning and artifact-budget tuning","Parallel Muon optimizer context enabling ~6.95k steps in 600s"],"artifact_size":"~15.86 MB"},{"pr_number":730,"title":"Fix: move Ternary UNet submission folder from track_10min_16mb to track_non_record_16mb","author":"janwww","status":"open","is_record":false,"val_bpb":1.157,"architecture":"Ternary U-Net Transformer","quantization":"FP8 QAT with ternary weights","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"fp_params / model artifact"}},{"category":"quantization","data":{"method":"ternary","bits":2,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"U-Net","description":"U-Net encoder/decoder with learned skip weights and residual mixing on top of a Transformer backbone","parameters":{"layers":10,"dim":768,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Factored tied embedding with a 254-dimensional bottleneck","parameters":{"embed_dim":254,"vocab_size":8192}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"YaRN positional encoding variant","parameters":{"max_len":2048,"rope_base":5000}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"4x relu² MLP expansion with fused gate and up projection","parameters":{"mlp_mult":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0,"momentum":0.95,"other_params":{"backend_steps":3,"momentum_warmup_start":0.85,"momentum_warmup_steps":500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"fraction":0.2}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_wd":0.05}}},{"category":"initialization","data":{"method":"ones-init","description":"Learned skip weights initialized to ones"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"other","data":{"description":"Base-3 packing for model compression","parameters":{"packing":"base-3 + LZMA"}}}],"compression":"lzma","novel_contributions":["Ternary U-Net Transformer architecture","NeoMuon optimization for ternary STE gradient attenuation","4x relu² MLP expansion","Factored tied embedding with 254-dimensional bottleneck","YaRN positional encoding with 8192 BPE","FP8 QAT to reduce artifact size","Base-3 + LZMA compression","Sliding-window evaluation with stride 16"],"artifact_size":"15.99 MB"},{"pr_number":731,"title":"Record: 1.0400 BPB -- Hedge Mixer + VRL + AdamW TTT + Polyak EMA","author":"pentxayc","status":"open","is_record":false,"val_bpb":1.04,"architecture":"Transformer","quantization":"mixed int6 quantization","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning with a residual connection from layer 0's value output to all subsequent layers","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation squared","parameters":{"negative_slope":0.5,"power":2}}},{"category":"architecture_modification","data":{"component":"XSA-4","description":"Cross-Token Self-Attention applied on the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 query heads and 4 KV heads","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram feature table used in the model","parameters":{"buckets":2048}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"learning_rate":0.0005,"test_time_training":true}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"AdamW","learning_rate":0.0005,"polyak_decay":0.998,"freeze_first_blocks":9,"unfreeze_last_blocks":2,"epochs_per_chunk":3,"byte_weighted_loss":true,"adaptive_cosine_lr":true}}},{"category":"lr_schedule","data":{"method":"adaptive cosine decay","parameters":{"ramp_multiplier_start":1,"ramp_multiplier_end":3,"ramp_fraction":0.3}}},{"category":"other","data":{"description":"Hedge Mixer online ensemble combining neural predictions with unigram, bigram, trigram, and entropy experts using multiplicative weights","parameters":{"experts":5,"eta":0.1,"deferred_updates":true}}}],"compression":"lzma","novel_contributions":["Value Residual Learning (VRL) in the transformer","5-expert Hedge Mixer during evaluation","Deferred score-first Hedge weight updates","AdamW test-time training with Polyak EMA","Byte-weighted loss for TTT","Adaptive cosine learning rate during TTT","Freeze-first-9-blocks / unfreeze-last-2-blocks TTT scheme","Int6 mixed quantization with lzma compression"],"artifact_size":"15,999,919 bytes"},{"pr_number":733,"title":"Record: XSA-all + Depth Recurrence + Hedge Mixer TTT (val_bpb=1.0278, 3-seed mean)","author":"stukenov","status":"closed","is_record":false,"val_bpb":1.0278,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to all layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Value Residual Learning","description":"Blends layer 0 value outputs into subsequent attention via learned sigmoid gates.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention outputs.","parameters":null}},{"category":"other","data":{"description":"CROWN-Q curvature-weighted quantization penalty during warmdown to encourage flatter minima for quantization robustness.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Layers 4 and 5 are repeated to create 13 virtual layers from 11 physical layers.","parameters":{"physical_layers":11,"virtual_layers":13,"repeated_layers":[4,5]}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"freeze_blocks":0}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"architecture_modification","data":{"component":"Hedge Mixer","description":"GPU-vectorized online context mixing with neural, unigram, bigram, trigram, and entropy experts.","parameters":{"experts":5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(i+1)"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["XSA applied to all 11 layers","Value Residual Learning","Gated Attention","CROWN-Q curvature-weighted quantization penalty","Depth recurrence with layers 4 and 5 repeated into 13 virtual layers","5-expert Hedge Mixer for legal score-first TTT","Score-first test-time training with tokens scored before any weight update"],"artifact_size":"~15.8 MB"},{"pr_number":734,"title":"Non-record: Full GPTQ + XSA-4 + Score-First TTT (3-seed mean 1.1198)","author":"Robby955","status":"open","is_record":false,"val_bpb":1.1198,"architecture":"Transformer","quantization":"Full GPTQ int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to the last 4 transformer layers to extend context at evaluation time.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval_steps":50,"blend_ratio":"50/50"}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"epochs":3,"freeze_blocks":9,"chunk_tokens":131072}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":4000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adamw_wd":0.04}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based token feature component with 3072 buckets and 128-dimensional embeddings.","parameters":{"buckets":3072,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially across dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider MLP with LeakyReLU(0.5)^2 activation.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"other","data":{"description":"Full Hessian GPTQ calibration using 256-batch training-data calibration, Cholesky error compensation, act-order, and block size 128.","parameters":{"calibration_batches":256,"block_size":128}}}],"compression":"lzma","novel_contributions":["Full Hessian GPTQ with 256-batch calibration, Cholesky error compensation, act-order, and block_size=128","XSA on the last 4 layers for extended-context evaluation","SWA/EMA 50/50 blended weight averaging","Legal score-first test-time training protocol","LZMA compression for int6 weights"],"artifact_size":"~15.9 MB"},{"pr_number":736,"title":"Submit 9L 2xMLP optimized parameter run with val_bpb 1.2168","author":"Git-Aarya","status":"open","is_record":false,"val_bpb":1.2168,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 9-layer model with 2x MLP multiplier as part of the architecture tuning.","parameters":{"layers":9,"mlp_multiplier":2}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3600}}}],"compression":null,"novel_contributions":["Maintained a 9-layer, 2x MLP architecture","Increased training sequence length to 2048","Tuned matrix learning rate to 0.055","Extended warmdown iterations to 3600","Achieved a reported validation BPB of 1.2168 within a 15.8 MB artifact size"],"artifact_size":"15.8 MB"},{"pr_number":737,"title":"[Non Record] Online Curriculum Learning","author":"SPThole","status":"open","is_record":false,"val_bpb":1.3557,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Online sequence-level curriculum learning that scores sequences by unigram entropy and filters/selects sequences within each batch according to a V-shaped difficulty schedule over training progress.","parameters":{"difficulty_metric":"unigram entropy","selection":"load 2x sequences per batch and select the half centered around target difficulty percentile","schedule_shape":"V-shaped","aligned_with":["LR warmdown","SWA phases"]}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_fraction":0.45,"total_steps_symbol":"T"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.2,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Online sequence-level curriculum learning based on unigram entropy","V-shaped difficulty schedule that shifts from easy to hard and back to easy during training","Batch-local selection by oversampling 2x and choosing sequences around a target entropy percentile","Curriculum aligned with LR warmdown and SWA phases","Observation that runtime curriculum filtering adds overhead and can hurt overall performance at this scale"],"artifact_size":"15.25MB"},{"pr_number":738,"title":"Record: VRL + Full GPTQ + 5-gram Cache + Hidden-State kNN-LM (3-seed mean val_bpb=1.0970)","author":"gowtham0992","status":"open","is_record":false,"val_bpb":1.097,"architecture":"Transformer","quantization":"Full GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning added to the base stack","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with LeakyReLU(0.5)^2","parameters":{"layers":11,"dimensions":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash component used in the model stack","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 attention heads with 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"description":"tight SWA every 50 steps"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window":128}}},{"category":"other","data":{"description":"Online 5-gram cache with adaptive lambda and pre-committed confidence gate","parameters":{"n":5,"threshold":0.7,"min_observations":3}}},{"category":"other","data":{"description":"Hidden-state kNN-LM using a GPU ring buffer of 512-dim hidden states with L2 nearest neighbors and RBF kernel distribution","parameters":{"hidden_dim":512,"k":32,"buffer_size":30000,"temperature":50}}}],"compression":"zstd-22","novel_contributions":["Hidden-State kNN-LM using stored 512-dim hidden states in a GPU ring buffer","Online 5-gram cache with adaptive lambda and pre-committed confidence gate","GPTQ calibration performed inside the training budget to satisfy competition constraints","Combination of n-gram cache and kNN cache for additive evaluation-time gains","VRL-based base stack with full GPTQ quantization"],"artifact_size":"~15.7 MB"},{"pr_number":739,"title":"T5: Phase-Based Depth Recurrence + MLA + Graduated Precision (Non-Record)","author":"Jonas-T5","status":"open","is_record":false,"val_bpb":1.5,"architecture":"Transformer","quantization":"mixed FP4/Int6 QAT with FP8 training","optimizer":"Muon + AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"8 unique transformer blocks are repeated across 4 specialized phases for 40 effective layers, with phase-specific specialization instead of uniform cycling.","parameters":{"unique_blocks":8,"phases":4,"repetitions":5,"effective_depth":40,"width":512}}},{"category":"architecture_modification","data":{"component":"MLA","description":"Multi-Head Latent Attention uses low-rank KV compression to replace GQA and reduce attention parameters.","parameters":null}},{"category":"quantization","data":{"method":"mixed FP4/Int6 QAT","bits":null,"scope":"early-phase layers FP4, late-phase layers Int6"}},{"category":"quantization","data":{"method":"FP8","bits":8,"scope":"all persistent state (master weights, optimizer momentum)"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"with":"AdamW","orthogonalization":"Newton-Schulz for 2D weights"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"initialization","data":{"method":"DeepNorm init","description":"Output projections scaled by (8·N)^(-1/4) for deep stability."}},{"category":"regularization","data":{"method":"Z-Loss","parameters":null}},{"category":"regularization","data":{"method":"QK-Clip","parameters":null}}],"compression":null,"novel_contributions":["Phase-based depth recurrence with 8 unique blocks repeated across 4 specialized phases","40 effective layers at full d=512 width with only 24M unique parameters","Multi-Head Latent Attention (MLA) for low-rank KV compression","Graduated precision scheme using FP4 for early layers and Int6 for late layers","FP8 training with stochastic rounding for persistent state on H100","Phase-specialized recurrence intended to outperform uniform ALBERT-style cycling"],"artifact_size":"~13 MB"},{"pr_number":740,"title":"Record: 9L XSA-all + LeakyReLU² + 5-gram eval cache — val_bpb 1.0909 (3-seed mean)","author":"resouer","status":"open","is_record":false,"val_bpb":1.0909,"architecture":"Transformer","quantization":"int8 per-row quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to all layers","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism in the transformer","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram feature with 4096 buckets","parameters":{"dimensions":4096}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"percentage":25}}},{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"Uses squared LeakyReLU activation with slope 0.5","parameters":{"slope":0.5}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"online n-gram cache","parameters":{"order":5,"buckets":4000000,"mixing":{"model":0.8,"ngram":0.2},"score_first":true,"backward_looking":true,"target_aware_gating":false}}}],"compression":"zstd-22","novel_contributions":["XSA applied to all 9 layers","LeakyReLU squared activation","Online 5-gram evaluation cache with fixed-weight mixing","Hashed 5-gram frequency table with 4M buckets","Int8 per-row quantization with zstd-22 compression"],"artifact_size":"14.7 MB"},{"pr_number":741,"title":"Record: Cosine TTT + Multi-Order N-gram Cache (3-seed mean val_bpb=0.9850)","author":"andrewbaggio1","status":"open","is_record":false,"val_bpb":0.985,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer variant with expanded MLP projection layers as part of the custom architecture stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed n-gram/count-sketch style component used for multi-order n-gram caching.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism included in the architecture stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Custom attention/sequence module included in the architecture stack.","parameters":{"version":"XSA4"}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding variant.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with reduced KV heads.","parameters":{"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram cache interpolation","parameters":{"orders":[2,3,4,5],"entropy_adaptive_alpha":true}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":20,"learning_rate_schedule":"cosine","per_layer_lr_groups":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used in the custom architecture stack."}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["Combining cosine test-time training with multi-order n-gram cache interpolation","Entropy-adaptive alpha mixing between model and n-gram predictions","Score-first n-gram cache evaluation with single blended prediction per token","Single-pass cosine TTT adaptation with per-layer learning-rate groups","Breaking the sub-1.0 BPB barrier with a 3-seed mean val_bpb of 0.9850"],"artifact_size":"15.62 MB"},{"pr_number":744,"title":"WSD Cosine Decay Schedule + 10L Int5-MLP BigramHash SmearGate SWA","author":"ShihChunHao","status":"open","is_record":false,"val_bpb":1.2824,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"lr_schedule","data":{"method":"Warmup-Stable-Decay cosine schedule","parameters":{"warmup_fraction":0.05,"stable_fraction":0.75,"decay_fraction":0.2}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP in the base model","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature with hash size 10240","parameters":{"dimensions":10240}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"decay":0.4,"start_frac":0.4,"every_steps":50}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal weight initialization"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Replaces linear warmdown with a Warmup-Stable-Decay cosine learning rate schedule","Uses a long stable peak-LR phase to avoid premature decay under step-limited training budgets","Builds on a 10-layer MLP3x SmearGate BigramHash(10240) base model","Applies mixed int5/int6 quantization","Uses SWA with start fraction 0.4","Uses zstd-22 compression"],"artifact_size":"15,767,236 bytes"},{"pr_number":745,"title":"Record: XSA-all + Depth Recurrence + Hedge Mixer TTT (val_bpb=1.0222, 3-seed mean)","author":"stukenov","status":"open","is_record":false,"val_bpb":1.0222,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied on all virtual layers.","parameters":{"layers":13}}},{"category":"architecture_modification","data":{"component":"Value Residual Learning","description":"Layer 0 value output is blended into subsequent attention via learned sigmoid gates.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention output.","parameters":null}},{"category":"architecture_modification","data":{"component":"CROWN-Q","description":"Curvature-weighted quantization penalty during warmdown to improve int6 quantization robustness.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Layers 4 and 5 are repeated, creating 13 virtual layers from 11 physical layers.","parameters":{"physical_layers":11,"virtual_layers":13,"repeated_layers":[4,5]}}},{"category":"other","data":{"description":"5-expert Hedge Mixer for online context mixing during TTT evaluation using neural, unigram, bigram, trigram, and entropy experts.","parameters":{"experts":5}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":1,"learning_rate":0.002,"momentum":0.9}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"lzma","novel_contributions":["XSA on all layers","Value Residual Learning","Gated Attention","CROWN-Q curvature-weighted quantization penalty","Depth recurrence with repeated layers 4 and 5","5-expert Hedge Mixer for online context mixing during TTT","Score-first test-time training with n-gram tables built only from already-scored tokens"],"artifact_size":"15,857,972 bytes"},{"pr_number":746,"title":"Seq2048 + torch.compile + mid LR (1xA100 draft)","author":"C0neF","status":"open","is_record":false,"val_bpb":1.35557361,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads in a Transformer-style model.","parameters":{"heads":8,"kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iters":1200}}},{"category":"other","data":{"description":"Uses torch.compile to improve throughput and effective optimization within the fixed wallclock budget.","parameters":{"enabled":true}}}],"compression":null,"novel_contributions":["Increased training context length to 2048","Kept a 9-layer, 512-dimensional Transformer with 8 attention heads and 4 KV heads","Used moderately reduced learning rates","Enabled torch.compile for a significant throughput and performance gain","Demonstrated a strong single-A100 draft run under the 16MB artifact cap"],"artifact_size":"14,840,173 bytes"},{"pr_number":749,"title":"Add 11L 448x2 PairHash int8+zstd 10-minute submission record","author":"FyeJordy","status":"open","is_record":false,"val_bpb":1.36843871,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"PairHash","description":"Enabled PairHash embeddings for the model.","parameters":{"buckets":8192,"pair_dimensions":96}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model export"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"full validation on fineweb_val_* split","parameters":{"stride":2000}}},{"category":"regularization","data":{"method":"weight tying","parameters":null}}],"compression":"zstd","novel_contributions":["New 10-minute / 16MB-track submission record","11-layer, 448-dim GQA model with MLP multiplier 2","PairHash embeddings with 8192 buckets and 96 pair dimensions","int8 + zstd export path to keep the artifact under the 16MB cap","Included exact train_gpt.py snapshot, train.log, submission.json, and README for the winning run"],"artifact_size":"15,149,719 bytes"},{"pr_number":751,"title":"Single A100 QAT Performance Fix (fresh review cycle)","author":"Shuvam-Banerji-Seal","status":"open","is_record":false,"val_bpb":1.52523098,"architecture":"modded-nanogpt-derived Transformer","quantization":"QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"other","data":{"description":"Replaced torch.quantile-based clip factor estimation in CastedLinear with w.abs().amax(dim=1) to avoid Triton compiler performance penalties","parameters":null}},{"category":"other","data":{"description":"Reduced gradient accumulation sizing to 131K tokens for single-A100 training within the 10-minute wallclock cap","parameters":{"gradient_accum_tokens":131000}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Switched CastedLinear clip factor estimation from torch.quantile to w.abs().amax(dim=1) to avoid a severe Triton performance penalty","Adjusted gradient accumulation sizing to 131K tokens so QAT training fits within the 10-minute single-A100 wallclock budget","Reported final submission val_bpb from the post-export sliding-window roundtrip metric rather than the intermediate train-time checkpoint metric","Aligned README and submission reporting/runtime wording with the measured single-A100 run"],"artifact_size":"15.77 MB"},{"pr_number":752,"title":"Record: Depth Recurrence + SGD TTT : 1.1182 BPB","author":"Naazimsnh02","status":"open","is_record":false,"val_bpb":1.1182,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Repeats layers 4 and 5 to create 13 virtual layers from 11 physical layers at zero parameter cost.","parameters":{"layers":[4,5],"physical_layers":11,"virtual_layers":13}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"all_blocks_unfrozen":true}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash module with vocabulary size 2048.","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA on the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings to a subset of dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP block with LeakyReLU(0.5)^2.","parameters":{"activation":"LeakyReLU(0.5)^2"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"description":"tight SWA weight averaging"}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"chunk_tokens":32768,"all_blocks_unfrozen":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"other","data":{"description":"Legal score-first test-time training with backward-looking chunk adaptation; each chunk is scored before being trained on, and the last chunk is scored but never trained on.","parameters":{"chunks":1893}}}],"compression":"lzma","novel_contributions":["Depth recurrence on layers 4 and 5 to create 13 virtual layers from 11 physical layers with zero parameter cost","First successful use of depth recurrence on the leaderboard","Legal score-first SGD test-time training applied on top of the base model","Combination of depth recurrence with SGD TTT to improve BPB from 1.1208 to 1.1182"],"artifact_size":"15.93 MB"},{"pr_number":753,"title":"Podracing II: Electric Bugaloo — 0.9625 BPB (3-seed mean, all sub-0.964)","author":"newjordan","status":"open","is_record":false,"val_bpb":0.9625,"architecture":"Transformer","quantization":"GPTQ","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA as part of the base architecture / model configuration.","parameters":{"last_n":4}}},{"category":"evaluation_technique","data":{"method":"multi-order backoff n-gram eval","parameters":{"orders":"2-7","cascade_on_miss":true}}},{"category":"evaluation_technique","data":{"method":"adaptive alpha evaluation","parameters":{"alpha_formula":"0.05 + 0.55 * sigmoid(2 * (H - 4.0))","entropy_based":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"enabled":false}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":null,"novel_contributions":["Multi-order backoff n-gram evaluation over orders 2-7 with longest-context-first cascading on miss","Entropy-adaptive alpha that increases trust in the n-gram model when the base model is more uncertain","Evaluation-time improvements only, with no training changes"],"artifact_size":"15.71 MB"},{"pr_number":754,"title":"Non-Record: 11L Parallel Muon + LeakyReLU² MLP3x + Legal TTT (val_bpb 1.1253)","author":"aryanbhosale","status":"open","is_record":false,"val_bpb":1.1253,"architecture":"Transformer","quantization":"int6 GPTQ-lite QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"momentum_schedule":"0.92→0.99 over 1500 steps","newton_schulz_steps":5,"parameter_banking":true,"async_reduce_scatter_all_gather":true}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with LeakyReLU(0.5)^2 activation","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature module","parameters":{"size":1536,"dim":128}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches V from layer 0 and blends via learned lambda","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gating for attention outputs","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of head dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":"every 50 steps when scale < 0.2"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"chunk_size":32000}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"chunk_size":32000}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["Parallel Muon with parameter banking and batched Newton-Schulz updates","LeakyReLU(0.5)^2 MLP 3x expansion","Legal score-first test-time training (TTT) with score-before-update enforcement","EMA plus SWA model averaging","GPTQ-lite int6 quantization with per-row 5-percentile clip search","Flash Attention 3 and torch.compile(fullgraph=True) without DDP"],"artifact_size":"~15 MB"},{"pr_number":755,"title":"Gravity Tokenizer: 1.0321 BPB via ablation leverage vocabulary optimization","author":"dcrow85","status":"open","is_record":false,"val_bpb":1.0321,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings in a vanilla 12-layer transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 6 attention heads and 2 KV heads.","parameters":{"heads":6,"kv_heads":2}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP uses 3x expansion (hidden size 1152).","parameters":{"mlp_mult":3,"hidden":1152}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"linear warmup + warmdown","parameters":{"warmup_steps":50,"warmdown_iters":2500}}},{"category":"other","data":{"description":"Tokenizer optimization via ablation leverage scoring to replace BPE merge tokens with structurally important tokens.","parameters":{"beta":1,"replaced_merge_tokens":659,"total_merge_tokens":765,"vocab_size":1024}}},{"category":"other","data":{"description":"Retokenization of the training corpus using a custom gravity tokenizer built from selected vocabulary.","parameters":null}}],"compression":"zlib","novel_contributions":["Ablation leverage-based tokenizer/vocabulary optimization instead of standard frequency-based BPE.","Replacement of 659/765 merge tokens while keeping vocabulary size fixed at 1024.","Demonstration that tokenizer composition alone accounts for the full BPB improvement.","Use of a frozen GPT-2 reference model to score token structural importance across FineWeb contexts.","Deterministic retokenization pipeline and correctness validation using competition evaluation code."],"artifact_size":"15.6 MB"},{"pr_number":756,"title":"Non-record: Negative results — quantization algorithms & TTT on val-GPTQ stack","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.1142,"architecture":null,"quantization":"val-calibrated GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA-all","description":"Architecture modification used in the stack; all XSA components enabled.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash 3072 component used in the stack.","parameters":{"size":3072}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"stride":64}}},{"category":"test_time_training","data":{"method":"MLP-down-only TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"stride":64}}},{"category":"test_time_training","data":{"method":"MLP-all TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"stride":64}}},{"category":"other","data":{"description":"Qronos iterative Hessian quantization refinement with 3 iterations.","parameters":{"iterations":3}}},{"category":"other","data":{"description":"CDQuant coordinate descent rounding refinement with 3 passes.","parameters":{"passes":3}}}],"compression":null,"novel_contributions":["Benchmarked Qronos iterative Hessian refinement on the val-calibrated GPTQ int6 stack and found it worse than baseline GPTQ.","Benchmarked CDQuant coordinate descent rounding refinement on the same stack and found it worse than baseline GPTQ.","Evaluated score-first test-time training on the val-GPTQ stack with full, MLP-down-only, and MLP-all variants, finding no improvement.","Reported that GPTQ at int6 is near-optimal on this stack, with only a small remaining quantization gap.","Documented 25 total failed TTT attempts across two stacks and argued that TTT is ineffective here."],"artifact_size":null},{"pr_number":757,"title":"Record: Aggressive SGD TTT (3-seed mean val_bpb=1.1124)","author":"fielding","status":"open","is_record":false,"val_bpb":1.1124,"architecture":"Transformer","quantization":"int6 per-row + zstd-22","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Extended self-attention applied in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with relu-squared activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with a fixed bucket vocabulary.","parameters":{"buckets":6144}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned token blending mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"8 attention heads with 4 KV heads using GQA.","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"Int6 STE QAT","bits":6,"scope":"all weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first full TTT","parameters":{"learning_rate":1,"epochs":30,"freeze_blocks":0,"momentum":0.9}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1600}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adamw_weight_decay":0.04}}},{"category":"other","data":{"description":"Late QAT enabled when lr_scale < 0.1.","parameters":{"enabled":true,"threshold":0.1}}}],"compression":"zstd-22","novel_contributions":["Aggressive TTT with SGD at LR=1.0 instead of the conventional 0.002","Unfreezing all blocks during TTT to stabilize and improve high-learning-rate adaptation","Extensive TTT hyperparameter sweep showing strong gains from higher LR and more epochs","3-seed validation result demonstrating a new record-level score","Combining int6 quantization with zstd compression to fit the artifact budget"],"artifact_size":"15.4 MB"},{"pr_number":758,"title":"Record: 11L XSA-all + 7-gram cache (mean val_bpb=1.0465)","author":"hypery11","status":"open","is_record":false,"val_bpb":1.0465,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2 MLP","description":"MLP uses LeakyReLU with slope 0.5 squared, with 3x expansion","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature module","parameters":{"dimensions":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism with gating","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip","description":"U-Net style skip connections","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"regularization","data":{"method":"LN scaling","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"evaluation_technique","data":{"method":"backward-looking eval cache","parameters":{"order":7,"alpha":0.4,"buckets":4000000,"min_count":2,"deterministic":true,"score_first":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"deterministic":true,"enabled":false}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with XSA applied to all layers","7-gram backward-looking evaluation cache with fixed alpha and hash buckets","GPTQ-lite int6 quantization combined with zstd-22 compression","EMA, Tight SWA, and Late QAT training pipeline","Use of BigramHash and SmearGate architectural components","Score-first deterministic evaluation without TTT"],"artifact_size":"13.99 MB"},{"pr_number":759,"title":"Submission Record Series: BatchOpt+MLP4+RoPE100k and 8L EMA Int6 Bigram65k on Single 20GB GPU (val_bpb 1.7810 → 1.3092)","author":"markste-in","status":"open","is_record":false,"val_bpb":1.3092,"architecture":"Transformer","quantization":"int6 MLP","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP4","description":"Increased MLP multiplier to 4.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Used RoPE with a larger base for longer-range positional encoding.","parameters":{"base":100000}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Scaled BigramHash vocabulary size.","parameters":{"vocab_size":65000}}},{"category":"architecture_modification","data":{"component":"8-layer architecture","description":"Used an 8-layer model.","parameters":{"layers":8}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":"1%"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":600}}},{"category":"lr_schedule","data":{"method":"linear warmdown","parameters":{"warmdown_steps":3000}}},{"category":"other","data":{"description":"Reduced batch size to increase update count during training.","parameters":{"tokens_per_batch":{"before":196000,"after":98000}}}}],"compression":null,"novel_contributions":["Batch reduction to increase update count","MLP multiplier increased to 4","RoPE base increased to 100k","8-layer model with BigramHash vocabulary scaled to 65k","EMA replacing SWA","Int6 MLP quantization","Stride-64 sliding evaluation","1% magnitude pruning","Single 20GB GPU training within 600s wall-clock constraint"],"artifact_size":"15.93MB"},{"pr_number":760,"title":"Add BitNet b1.58 Ternary Quantization (non-record submission)","author":"erikqu","status":"closed","is_record":false,"val_bpb":1.2185,"architecture":"Transformer","quantization":"ternary quantization (BitNet b1.58, {-1, 0, +1})","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"STE QAT","bits":2,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads with 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA in the last 4 layers.","parameters":{"layers":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"other","data":{"description":"Uses BitNet-style ternary packing with base-3 encoding, packing 5 ternary values per byte.","parameters":{"values_per_byte":5}}}],"compression":null,"novel_contributions":["Introduces BitNet-style ternary quantization {-1, 0, +1} for the challenge submission.","Demonstrates that ternary quantization allows roughly 2x more parameters within the same size budget.","Finds that EMA is incompatible with ternary quantization and should be disabled.","Uses base-3 packing to store five ternary values per byte.","Reports a ternary QAT implementation with STE-based training."],"artifact_size":"~14.4 MB"},{"pr_number":761,"title":"Record: Score-First TTT + N-gram Backoff (3-seed mean val_bpb=0.9581)","author":"Asukabot0","status":"open","is_record":false,"val_bpb":0.9581,"architecture":"Transformer","quantization":"int6 per-row","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied on all 11 layers to remove self-position bias.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU^2","description":"Uses leaky_relu(x, 0.5).square() to preserve negative gradient flow.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 value output is mixed into subsequent layers via learned sigmoid gates.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention output.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature with 4096 buckets.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary positional embeddings to a subset of dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x wider MLP.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net are used in the transformer stack.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used with SmearGate."}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"quantization","data":{"method":"int6 per-row","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":16}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size_tokens":131000,"learning_rate":0.0001,"epochs":4,"freeze_first_blocks":2,"grad_clip":1}}},{"category":"other","data":{"description":"Multi-order n-gram backoff cache with entropy-adaptive alpha mixing, using orders 2-7 and backward-looking cache updates only.","parameters":{"orders":[2,3,4,5,6,7]}}}],"compression":"zstd-16","novel_contributions":["Score-first test-time training compliant with the issue constraints","Multi-order n-gram backoff cache with entropy-adaptive alpha","XSA applied to all 11 layers","LeakyReLU(0.5)^2 activation","Value Residual and Gated Attention integration","Int6 per-row quantization with zstd compression"],"artifact_size":"~15.7 MB"},{"pr_number":762,"title":"Record: LeakyReLU(0.5)² + Legal Per-Document LoRA TTT + GPTQ-lite (mean val_bpb=0.7139, 3 seeds)","author":"robinojw","status":"closed","is_record":false,"val_bpb":0.7139,"architecture":null,"quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":16,"epochs":5,"min_doc_len":256,"score_before_train":true,"per_document_accumulators":true}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Configurable LeakyReLU slope used in the model, with slope defaulting to 0.5","parameters":{"slope":0.5}}},{"category":"other","data":{"description":"Per-document TTT scoring fix that scores each token before LoRA trains on it within each epoch, with accumulators reset at epoch boundaries","parameters":{"legal_scoring":true,"multi_epoch_caveat":true}}}],"compression":null,"novel_contributions":["Legal per-document TTT scoring that scores tokens before training within each epoch","GPTQ-lite multi-percentile int6 quantization with minimum-MSE clipping per row","Extended TTT budget with LoRA rank 16, 5 epochs, and shorter minimum document length","Configurable LeakyReLU slope via environment variable","Reported both a multi-epoch high-performing configuration and a clearly legal single-epoch baseline"],"artifact_size":"15.8MB"},{"pr_number":763,"title":"Record: 11L XSA-all + backoff 7-gram (mean val_bpb=0.9917)","author":"hypery11","status":"open","is_record":false,"val_bpb":0.9917,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU^2 MLP","description":"MLP uses LeakyReLU(0.5)^2 activation with 3x expansion","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash feature module","parameters":{"dimensions":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"multi-order backoff n-gram eval cache","parameters":{"orders":[2,3,4,5,6,7],"fallback":"highest-order-first","alpha":0.4,"buckets_per_order":"4M","score_first":true,"deterministic":true,"no_ttt":true}}}],"compression":"zstd-22","novel_contributions":["11-layer Transformer with XSA applied to all layers","Multi-order backoff n-gram evaluation cache from orders 2 through 7","Highest-order-first fallback with fixed alpha=0.40","Score-first deterministic evaluation with no test-time training","GPTQ-lite int6 quantization combined with zstd-22 compression","EMA plus Tight SWA plus Late QAT training recipe"],"artifact_size":"13.99 MB"},{"pr_number":764,"title":"Record: Curriculum Learning + LeakyReLU(0.9)² + 7-gram Backoff (val_bpb=0.9633)","author":"ndokutovich","status":"open","is_record":false,"val_bpb":0.9633,"architecture":"Transformer","quantization":"int6 QAT + GPTQ","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer with 3x MLP and LeakyReLU(0.9)^2 activation; also includes XSA, BigramHash, SmearGate, SWA, EMA.","parameters":{"layers":11,"dimensions":512,"gqa":"8/4"}}},{"category":"quantization","data":{"method":"int6 QAT + GPTQ","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"7-gram backoff","parameters":{"order":7}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"freeze_last_blocks":2}}},{"category":"other","data":{"description":"Curriculum learning via shard reordering by model perplexity, hardest shards first.","parameters":{"shard_ordering":"hardest_first"}}},{"category":"other","data":{"description":"LeakyReLU slope optimization from 0.5 to 0.9.","parameters":{"slope":0.9}}}],"compression":null,"novel_contributions":["Curriculum learning via shard reordering by model perplexity","LeakyReLU(0.9)^2 slope optimization","7-gram backoff evaluation cache","Legal score-first test-time training","Built on PR #753 with combined improvements"],"artifact_size":"15.56 MB"},{"pr_number":767,"title":"Non-record 1xH100 backoff7gram zlib-fallback sign-of-life (val_bpb 0.9209)","author":"RichiiiTV","status":"open","is_record":false,"val_bpb":0.92092798,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings / tied weights in the compact #753-style root lane.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses RoPE dimensions as part of the model configuration.","parameters":{"dimensions":24}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Includes XSA-related configuration in the model setup.","parameters":{"last_n":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"evaluation_technique","data":{"method":"adaptive n-gram backoff eval","parameters":{"min_order":2,"max_order":7,"adaptive":1,"alpha":0.3,"alpha_min":0.05,"alpha_max":0.6,"buckets":4194304,"entropy_center":4,"entropy_scale":2,"min_count":2}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500,"warmup_steps":20}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"adam_wd":0.04,"muon_wd":0.04}}},{"category":"other","data":{"description":"Used flash-attn when available, but fell back to zlib export because zstandard was missing on the pod.","parameters":{"flash_attn":true,"zstandard_missing":true}}}],"compression":"zlib","novel_contributions":["Non-record 1xH100 sign-of-life run of the compact #753-style root lane","Demonstrates strong legal score-first adaptive 2..7-gram backoff evaluation even with an undertrained dense base","Uses int6 plus zlib fallback export when zstandard is unavailable","Shows a compact submission artifact size of 7,772,644 bytes"],"artifact_size":"7,772,644 bytes"},{"pr_number":768,"title":"Non-record: 1.1201 BPB - Shared ValueEmbedding (tok_emb reuse, layers 5-10) + Legal TTT","author":"mradassaad","status":"open","is_record":false,"val_bpb":1.1201,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Reuses the tied token embedding (tok_emb) for ValueEmbedding instead of training a separate embedding table, with learned projection and per-layer scales.","parameters":{"layers":[5,6,7,8,9,10]}}},{"category":"architecture_modification","data":{"component":"ValueEmbedding","description":"Expanded ValueEmbedding coverage from 2 layers to 6 layers by freeing parameter budget through shared tok_emb reuse.","parameters":{"layers":[5,6,7,8,9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with LeakyReLU(0.5)^2 as part of the base stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes BigramHash as part of the architecture.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE partially to a subset of dimensions.","parameters":{"dimensions":[16,64]}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50,"type":"Tight SWA"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"chunk_tokens":32768,"batch_seqs":32,"freeze_blocks":0,"grad_clip":1}}}],"compression":"lzma","novel_contributions":["Reuses tied tok_emb as the ValueEmbedding source instead of training a separate embedding table.","Expands ValueEmbedding from layers 9-10 to layers 5-10 using the freed parameter budget.","Combines shared ValueEmbedding with Legal TTT on top of the PR #549 stack.","Achieves 1.1201 bpb 3-seed mean with consistent sub-16MB artifacts."],"artifact_size":"~15.9 MB"},{"pr_number":769,"title":"PROTEUS+STYX — val_bpb 0.8508 (3-seed mean) — LeakyReLU(0.9)² + 5-gram Eval Cache","author":"MatoTeziTanka","status":"open","is_record":false,"val_bpb":0.8508,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.9)²","description":"Replaced the standard activation with F.leaky_relu(x, 0.9).square().","parameters":{"slope":0.9}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied input/output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 4 KV heads out of 8 total heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":2048,"seq_len":2048}}},{"category":"other","data":{"description":"Backward-looking 5-gram evaluation cache with fixed-alpha blending of model and cache probabilities.","parameters":{"ngram":5,"buckets":4194304,"alpha_model":0.8,"alpha_cache":0.2}}},{"category":"other","data":{"description":"Verified cache effectiveness at zero overlap to rule out overlap artifacts.","parameters":{"stride":2048,"overlap":0}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["LeakyReLU(0.9)² activation replacing the standard activation","Backward-looking 5-gram evaluation cache built from already-scored tokens","Fixed-alpha blending between model and cache probabilities","Zero-overlap verification showing the cache improvement is not just an overlap artifact","INT6 quantized model with zstd-compressed artifact"],"artifact_size":"<16MB"},{"pr_number":770,"title":"Record: 11L + Multi-Order N-gram Backoff + Entropy-Adaptive Alpha (val_bpb=0.6672)","author":"minh-stakc","status":"open","is_record":false,"val_bpb":0.6672,"architecture":"11L Transformer","quantization":"Int6 + GPTQ-lite","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers of the 11-layer model.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings with a 16/64 split.","parameters":{"train_length":null,"eval_length":null}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate as part of the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds BigramHash with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"initialization","data":{"method":"OrthoInit","description":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Multi-order n-gram backoff cache interpolation during evaluation, using orders 2 through 7 with highest-order-first cascading on miss.","parameters":{"min_order":2,"max_order":7}}},{"category":"other","data":{"description":"Entropy-adaptive interpolation weight alpha based on model entropy for blending LM and n-gram cache predictions.","parameters":{"formula":"alpha = 0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}}],"compression":"zstd-22","novel_contributions":["Multi-order n-gram backoff cache interpolation (orders 2-7)","Entropy-adaptive alpha for blending neural and n-gram predictions","Score-first, backward-looking n-gram cache built only from previously scored tokens","Single blended prediction per token without min(NLL) selection"],"artifact_size":"15.0 MB"},{"pr_number":771,"title":"Record: AdamW TTT 30ep Cosine + Per-Layer LR (val_bpb: 1.0705)","author":"sunnypatneedi","status":"open","is_record":false,"val_bpb":1.0705,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with LeakyReLU(0.5)^2 activation in the base model","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash component used in the base architecture","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0,"momentum":null,"other_params":{"per_layer_lr":{"mlp.proj":0.0015,"mlp.fc":0.00025,"other":0.0005}}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"epochs":30,"final_lr":0}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.0005,"epochs":30,"cosine":true,"per_layer_lr":true,"freeze_blocks":0,"batch_seqs":64,"max_steps":300}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Replaced weak 3-epoch SGD test-time training with AdamW-based TTT","Used 30 epochs of cosine-decayed learning rate during TTT","Applied per-layer learning rates, boosting mlp.proj and reducing mlp.fc","Unfroze all blocks during TTT","Achieved a new record val_bpb of 1.0705 on the PR #549 base"],"artifact_size":"~15.8 MB"},{"pr_number":772,"title":"Non-record: Data ordering & selection — negative result on FineWeb","author":"abaybektursun","status":"open","is_record":false,"val_bpb":1.3055,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Shard-level data selection and curriculum-style reordering based on similarity to validation data, including n-gram cosine similarity, Jensen-Shannon divergence, Moore-Lewis cross-entropy difference, domain classifier, val-trained bigram LM cross-entropy, conditional bigram embedding cosine, Wasserstein distance, and importance weighting.","parameters":{"stage":"shard-level selection","num_shards":80,"methods_tested":8}}},{"category":"other","data":{"description":"Chunk-level selection of training data using bigram LM and neural proxy scoring to keep the top 12% of chunks.","parameters":{"chunk_size_tokens":32768,"total_chunks":244080,"selection_fraction":0.12}}},{"category":"other","data":{"description":"Curriculum learning via hardest-first reordering of training data based on perplexity under a partially trained model.","parameters":{"seeds":[1337,42,2025],"hardware":"8xH100"}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"stride":64}}}],"compression":null,"novel_contributions":["Compared 8 shard-scoring methods for FineWeb data selection and found val-trained bigram cross-entropy to be the most stable scorer.","Showed that shard-level ordering/selection has negligible effect because shard statistics are nearly identical.","Demonstrated that chunk-level selection worsens validation BPB despite lowering training loss, suggesting diversity is more important than selecting easy text.","Evaluated hardest-first curriculum learning and found only noise-level changes with no reliable improvement.","Provided a negative-result analysis arguing that FineWeb is already filtered and that data selection/curriculum methods do not help under cosine LR decay."],"artifact_size":null},{"pr_number":773,"title":"Add non-record shared-weight Frugendorff submission","author":"siddhantparadox","status":"open","is_record":false,"val_bpb":1.15315937,"architecture":"Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA to the last layers of the shared-weight Frugendorff-derived host.","parameters":{"last_n_layers":2}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Used tied embeddings / shared-weight layout in the Frugendorff host family.","parameters":{"tie_embeddings":1}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used fewer KV heads than attention heads.","parameters":{"num_heads":10,"num_kv_heads":5}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Used RoPE with reduced rotary dimensions.","parameters":{"rope_dims":16}}},{"category":"architecture_modification","data":{"component":"VE","description":"Enabled VE in layers 2 and 3.","parameters":{"enabled":1,"dim":128,"layers":[2,3]}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"TTT disabled","parameters":{"enabled":0}}},{"category":"other","data":{"description":"Late QAT with audit-safety switches and replay/distillation extras disabled for a cleaner audited path.","parameters":{"late_qat":true,"ttt_burst_enabled":0,"distill_enabled":0}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"zstd","novel_contributions":["Non-record unlimited-compute 16MB submission","Shared-weight Frugendorff-derived host","XSA on the last 2 layers","VE enabled with late QAT","int6 + zstd export","Replay/distillation extras disabled for a cleaner audited path","Hard requirement on zstandard to avoid fallback compression"],"artifact_size":"15923834 bytes"},{"pr_number":774,"title":"Record: Order-Adaptive Entropy Gating + XSA-All (val_bpb=0.9370)","author":"travispchen","status":"open","is_record":false,"val_bpb":0.937,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-Self-Attention extended from the last 4 layers to all 11 transformer layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer MLP widened to 3x hidden size with LeakyReLU^2 activation.","parameters":{"hidden_size_multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding used as part of the model architecture.","parameters":{"buckets":1536}}},{"category":"architecture_modification","data":{"component":"Value Embedding","description":"Value Embedding applied on later layers.","parameters":{"dimension":128,"layers":[9,10]}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adam_weight_decay":0.04,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram eval","parameters":{"orders":[2,7]}}},{"category":"other","data":{"description":"Order-adaptive entropy gating that sets entropy thresholds based on matched n-gram order during evaluation.","parameters":{"entropy_center":3,"slope":0.25,"min_order":2}}},{"category":"other","data":{"description":"Score-first legality via n-gram cache updated only after scoring each sliding window batch.","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Order-adaptive entropy gating with per-n-gram-order entropy thresholds","Extension of XSA from the last 4 layers to all 11 layers","Improved n-gram evaluation by trusting higher-order matches at lower entropy thresholds","Score-first n-gram cache legality during evaluation"],"artifact_size":"~15.9 MB"},{"pr_number":776,"title":"Record Submission: 0.9258 BPB — Kitchen Sink (7-gram + XSA6 + BigramHash4K + Cosine TTT)","author":"agalimova","status":"open","is_record":false,"val_bpb":0.9258,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Extended XSA context window / last-N setting used in the model.","parameters":{"XSA_LAST_N":6}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash vocabulary enlarged for the n-gram/bigram component.","parameters":{"BIGRAM_VOCAB_SIZE":4096}}},{"category":"architecture_modification","data":{"component":"N-gram cache","description":"Increased n-gram order for the cache-based language modeling component.","parameters":{"NGRAM_ORDER":7}}},{"category":"test_time_training","data":{"method":"Cosine TTT","parameters":{"epochs":20}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"other","data":{"description":"Hyperparameter search using autoresearch-multi combinatorial search with interaction detection.","parameters":{"modes":["EXPLORE","EXPLOIT","COMBINE","NARROW"]}}}],"compression":null,"novel_contributions":["Record submission achieving 0.9258 val_bpb","Kitchen sink combination of 7-gram cache, XSA6, BigramHash4K, and Cosine TTT","Hyperparameter improvements discovered via autoresearch-multi combinatorial search","Use of superadditive combination of techniques","Evaluation completed within the 10-minute budget"],"artifact_size":"under 16MB"},{"pr_number":777,"title":"Record: 0.9623 BPB — 7-Gram Entropy Cache + XSA-all + EBLS","author":"Robby955","status":"open","is_record":false,"val_bpb":0.9623,"architecture":"Transformer","quantization":"val-calibrated GPTQ int6","optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"7-gram entropy-adaptive causal cache / PPM-style n-gram backoff blended with the neural model during evaluation","parameters":{"orders":"2-7","buckets_per_table":4194304,"min_count":2,"alpha_base":0.05,"alpha_range":0.55,"alpha_scale":2,"alpha_threshold":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA-all applied across all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"EBLS","description":"Empirical Bayes Layer Sharing with shared blocks and loops","parameters":{"shared_blocks":3,"loops":3}}},{"category":"architecture_modification","data":{"component":"LoRA","description":"Low-rank adaptation used in the model","parameters":{"rank":8}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding/component used in the architecture","parameters":{"vocab":3072,"dim":128}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings","parameters":{"dims":"16/64"}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with reduced KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU squared activation","parameters":{"activation":"LeakyReLU(0.5)^2"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval":50}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"entropy-adaptive cache blending","parameters":{"alpha_formula":"0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}}],"compression":"lzma","novel_contributions":["7-gram causal entropy-adaptive n-gram cache blended with neural predictions","Strictly backward-looking cache updates with no oracle/min(NLL) selection","Entropy-based adaptive alpha that increases cache weight when model entropy is high","EBLS layer sharing with 3 shared blocks and 3 loops","XSA-all across all 11 layers","Val-calibrated GPTQ int6 quantization combined with LZMA compression"],"artifact_size":"~15.87 MB"},{"pr_number":778,"title":"Record: 11L Full GPTQ + Multi-Order N-gram Backoff (fixed-alpha 0.9757 / entropy-adaptive 0.9605, 3-seed)","author":"raahilshah","status":"open","is_record":false,"val_bpb":0.9605,"architecture":"11L Transformer","quantization":"Full Hessian GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers as part of the custom architecture","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram feature component used in the model","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions","parameters":{"train_or_eval":null,"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP block","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"backward_looking_cache":true,"ngram_orders":"2-7"}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"other","data":{"description":"Multi-order backward-looking n-gram backoff cache with fixed or entropy-adaptive interpolation between model and n-gram probabilities","parameters":{"orders":"2-7","min_count":2,"buckets_per_order":4194304}}}],"compression":"lzma","novel_contributions":["Full Hessian GPTQ int6 quantization within the training budget","Multi-order n-gram backoff cache using orders 2-7","Fixed-alpha interpolation between neural model and n-gram probabilities","Entropy-adaptive alpha based only on model output entropy","Backward-looking cache updates after scoring each window","Record-setting 3-seed validation performance"],"artifact_size":"15.92 MB"},{"pr_number":779,"title":"Record: BackoffNgramMixer + Drift-Free TTT (3-seed mean val_bpb=0.6683)","author":"deanbrr","status":"open","is_record":false,"val_bpb":0.6683,"architecture":"Transformer","quantization":"int5","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a hash-based n-gram cache / mixer with multi-order backoff over orders 2-7.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP block in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 nonlinearity.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied in all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"qttt":1,"eta":0.02,"learning_rate":0.00003,"chunk_tokens":1048576,"epochs":1,"adaptive_lr":0,"polyak":0,"freeze_blocks":1}}},{"category":"lr_schedule","data":{"method":"none","parameters":{"adaptive_lr":0}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Entropy-adaptive n-gram mixing with multi-order backoff (orders 2-7) using only already-scored tokens; mixed probability always applied without oracle gating.","parameters":{"alpha_formula":"0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}}],"compression":null,"novel_contributions":["BackoffNgramMixer with multi-order n-gram backoff from orders 2-7","Entropy-adaptive mixing coefficient based on model entropy rather than target peeking","Drift-free TTT configuration that avoids late-chunk degradation","Score-first, backward-looking test-time training compliant with competition rules","Pure eval-time n-gram cache improvement requiring no retraining or architectural changes"],"artifact_size":"15.63 MB"},{"pr_number":782,"title":"Podracing III: Cubric Lite — 0.9362 BPB","author":"newjordan","status":"open","is_record":false,"val_bpb":0.9362,"architecture":"11L/512d U-Net","quantization":"int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"U-Net","description":"11-layer, 512-dimensional U-Net architecture used as the base model.","parameters":{"layers":11,"dimensions":512}}},{"category":"evaluation_technique","data":{"method":"legal score-first 7-gram backoff","parameters":{"orders":[2,3,4,5,6,7]}}},{"category":"other","data":{"description":"Entropy-adaptive alpha during n-gram evaluation.","parameters":null}},{"category":"other","data":{"description":"Per-order adaptive alpha scaling ('Cubric Lite') that adjusts n-gram order multipliers based on beat-rate statistics from already-scored tokens.","parameters":{"update_interval_batches":32,"converged_multipliers":{"o2":0.3,"o3":0.3,"o4":0.97,"o5":2,"o6":2,"o7":2}}}},{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"training-phase calibration"}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["Per-order adaptive alpha scaling ('Cubric Lite') for n-gram evaluation","Suppressing low-order n-grams (bigrams/trigrams) while boosting higher-order n-grams based on beat-rate statistics","Entropy-adaptive alpha combined with score-first legal n-gram backoff","GPTQ calibration performed during training phase using training data only"],"artifact_size":"15.59 MB"},{"pr_number":783,"title":"Non-record: PR703 + shard-order curriculum + GPTQ cache-backout (1.1171)","author":"petergpt","status":"open","is_record":false,"val_bpb":1.11709895,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"full model / banked-attn and MLP surface"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"PR703-style branch with tied embeddings and a 11-layer trunk; includes cache/backout path and banked-attn/MLP surface.","parameters":{"layers":11,"bigram_vocab_size":1536,"cache_layer":7}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"muon_quant_momentum":1,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500,"iterations":9000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"other","data":{"description":"Score-ranked shard curriculum that reorders training shards using a lightweight scorer so harder shards are seen earlier.","parameters":null}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Score-ranked shard-order curriculum","Tighter final int6 + lzma packing","GPTQ cache-backout branch carryover from PR703","Single-seed non-record submission under the 16MB cap"],"artifact_size":"15,909,560 bytes"},{"pr_number":784,"title":"Non-record: Depth Recurrence + XSA + LeakyReLU² (val_bpb 1.2065)","author":"iverbovoy","status":"open","is_record":false,"val_bpb":1.2065,"architecture":"Transformer","quantization":"GPTQ-lite int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaces unique blocks with shared blocks repeated across depth, creating effective layers via recurrence.","parameters":{"blocks":3,"repeats":4,"effective_layers":12,"dim":832}}},{"category":"architecture_modification","data":{"component":"Cross-Repeat Skip","description":"Adds a learned weighted residual from the previous repeat to make depth recurrence stateful.","parameters":{"repeat_scales":"learned per-repeat"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to the last 4 effective layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"Adds extra embedding tables mixed into the residual stream at each effective layer.","parameters":{"tables":2}}},{"category":"architecture_modification","data":{"component":"Loop Embedding","description":"Adds a learned per-layer vector before each block as depth-wise positional encoding.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU^2","description":"Uses LeakyReLU(0.5)^2 instead of relu^2.","parameters":{"negative_slope":0.5}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":8,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"window":1024}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}}],"compression":"zstd-22","novel_contributions":["Depth recurrence with Cross-Repeat Skip to turn stateless weight sharing into stateful recurrence","Exclusive Self-Attention on the last 4 effective layers","LeakyReLU(0.5)^2 activation replacing relu^2","Value Embeddings mixed into the residual stream","Loop Embedding as depth-wise positional encoding","GPTQ-lite post-training quantization with best-of-5 clip percentiles","zstd-22 compression and SWA for artifact optimization"],"artifact_size":"15.87MB"},{"pr_number":785,"title":"Applied Async Prefetching Boost Performance of Any Approach","author":"SirSaltySalmon","status":"open","is_record":false,"val_bpb":1.53642888,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU² MLP","description":"Uses LeakyReLU with negative slope 0.5 followed by squaring before the down projection; rewritten as h * h for compiler fusion friendliness.","parameters":null}},{"category":"other","data":{"description":"Pinned async training batch prefetch with background CPU batch preparation, pin_memory, bounded queue, and optional dedicated CUDA copy stream for overlapping H2D transfers with compute.","parameters":{"prefetch":1,"prefetch_queue":2,"copy_stream":1}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA with last-N token attention/history.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram vocabulary / hashing-based token component.","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are used.","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"enabled":1}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"late QAT"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"freeze_blocks":0,"momentum":0.9,"batch_seqs":32,"grad_clip":1}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":32768,"eval_length":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}}],"compression":null,"novel_contributions":["Pinned async batch prefetching to overlap CPU batch preparation and GPU compute","Optional dedicated CUDA copy stream for non-blocking host-to-device transfers","Compiler fusion-friendly rewrite of the LeakyReLU² MLP using h * h and explicit weight casting","Demonstrated modest step-count improvement in 600s and slightly better val_bpb versus the base run"],"artifact_size":null},{"pr_number":786,"title":"0.8128 BPB: Classical Compression Eval + N-gram Backoff on PR #549 Base","author":"shinegami-2002","status":"open","is_record":false,"val_bpb":0.8128,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU(0.5)^2 activation.","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hash component in the base model.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary positional embeddings on a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are used in the model.","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"adam_weight_decay":0.04}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"learning_rate":0.025}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Multi-order n-gram backoff (orders 2-7) with entropy-adaptive alpha mixing during evaluation, inspired by classical compression methods.","parameters":{"orders":[2,3,4,5,6,7],"alpha_formula":"0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}},{"category":"other","data":{"description":"Vectorized numpy-based eval-time augmentation with flat hash tables and scatter-add updates.","parameters":{"hash_tables_per_order":2,"buckets_per_order":4000000}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}}],"compression":"lzma","novel_contributions":["Eval-time augmentation using multi-order n-gram backoff (orders 2-7)","Entropy-adaptive alpha mixing between neural and n-gram predictions","Vectorized numpy implementation for compressed evaluation","Classical compression-inspired approach based on cmix/PAQ ideas","Backward-looking only evaluation updates with zero artifact cost"],"artifact_size":"15.88 MB"},{"pr_number":788,"title":"Record: 11L + order-adaptive 9-gram backoff (mean val_bpb=0.9059)","author":"hypery11","status":"open","is_record":false,"val_bpb":0.9059,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"Uses squared LeakyReLU activation in the MLP","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature module","parameters":{"dimensions":128,"size":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating module used in the architecture","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"order-adaptive entropy-gated n-gram backoff cache","parameters":{"orders":[2,3,4,5,6,7,8,9],"deterministic":true,"score_first":true}}},{"category":"other","data":{"description":"Late QAT","parameters":null}}],"compression":"zstd-22","novel_contributions":["11-layer transformer with XSA-all","Order-adaptive entropy-gated n-gram backoff cache from 2-gram to 9-gram","Higher-order n-gram matches use lower entropy thresholds for mixing","Score-first, deterministic inference without TTT","GPTQ-lite int6 compression with zstd-22"],"artifact_size":"13.99 MB"},{"pr_number":790,"title":"Record: Residual Input Mixing + mixed int6 GPTQ + grouped TTT + MLP 3.5x","author":"danialht","status":"open","is_record":false,"val_bpb":1.1172,"architecture":"Transformer","quantization":"mixed int6 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"mixed int6 GPTQ","bits":6,"scope":"per-row weights"}},{"category":"architecture_modification","data":{"component":"residual mixing","description":"Each transformer block receives a learned mix of the current stream, earlier block outputs, and the original x0, creating denser residual connections and reusing longer-range intermediate features.","parameters":{"layers":11,"dimensions":512,"mlp_multiplier":3.5,"mha":"8/8","bigramhash":8192,"xsa":"all layers"}}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Expanded MLP width to 3.5x the model dimension.","parameters":{"multiplier":3.5,"hidden_size":1792}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash component in the architecture.","parameters":{"dimensions":8192}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA is enabled in all layers.","parameters":{"layers":"all"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"grouped_params":true,"groups":["matrices","control weights"],"standard_clipping":true,"per_chunk_warmup_removed":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first AdamW TTT","parameters":{"chunk":131072,"unfrozen":"last 2 blocks plus control params","grouped_optimizer":true}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"mixed int6 GPTQ with early QAT"}},{"category":"other","data":{"description":"GPTQ calibration time is counted within the 600s training budget, requiring a slight reduction in training wall-clock time to stay under the limit.","parameters":{"time_limit_seconds":600}}}],"compression":null,"novel_contributions":["Fixed the prior bug so GPTQ calibration time counts toward the 600s training budget.","Reduced training wall-clock time slightly to remain under the time limit.","Switched TTT from a flat optimizer to grouped AdamW with separate matrix and control-weight parameter groups.","Strengthened matrix/head adaptation in TTT while restoring standard clipping and removing per-chunk warmup.","Introduced denser residual input mixing so each block sees a learned mix of current stream, earlier block outputs, and x0.","Used mixed int6 per-row GPTQ with early QAT and EMA.","Expanded the MLP to 3.5x width."],"artifact_size":"15.5 MB"},{"pr_number":791,"title":"submission/2026-03-25_WSD_CosineDecay_Schedule","author":"ShihChunHao","status":"open","is_record":false,"val_bpb":1.2824,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"lr_schedule","data":{"method":"Warmup-Stable-Decay cosine schedule","parameters":{"warmup_fraction":0.05,"stable_fraction":0.75,"decay_fraction":0.2}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x expansion MLP in the Transformer block.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Applies SmearGate as part of the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash token representation / feature size.","parameters":{"size":10240}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"initialization","data":{"method":"Orthogonal init","description":"Orthogonal weight initialization."}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Replaces the default linear warmdown learning-rate schedule with a Warmup-Stable-Decay cosine schedule.","Uses a long stable peak-LR phase to avoid premature decay under step-limited training budgets.","Builds on a strong base configuration with SmearGate, BigramHash, mixed int5/int6 quantization, Muon, SWA, and zstd-22."],"artifact_size":"15,767,236 bytes"},{"pr_number":792,"title":"11L LeakyReLU² + XSA-all + Full GPTQ + 5-gram Backoff (1.0340 BPB)","author":"xexyz","status":"open","is_record":false,"val_bpb":1.034,"architecture":"Transformer","quantization":"int6 GPTQ / QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU²","description":"Uses LeakyReLU(0.5) squared in the MLP instead of relu² to improve gradient flow.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to all transformer layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"evaluation_technique","data":{"method":"n-gram backoff","parameters":{"order":5,"backoff_orders":[5,4,3,2],"entropy_adaptive":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"cache_update_after_scoring":true}}},{"category":"other","data":{"description":"Entropy-adaptive alpha blending between model predictions and n-gram cache.","parameters":{"alpha_low":0.05,"alpha_high":0.4,"entropy_threshold":4}}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5)² MLP activation","XSA applied to all 11 layers","Full Hessian-based GPTQ with actorder and Cholesky error compensation","5-gram multi-order backoff with separate hash tables per order","Entropy-adaptive alpha for n-gram/model mixing","Score-first n-gram cache protocol"],"artifact_size":"15,903,061 bytes"},{"pr_number":793,"title":"Blackwell local nonrecord","author":"pall23-mech","status":"open","is_record":false,"val_bpb":1.25,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Token embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a BigramHash feature path.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net-style skip structure","description":"Includes skip connections in a U-Net-like arrangement.","parameters":null}},{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Compact transformer with 10 layers.","parameters":{"layers":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"scope":"embedding and scalar parameters"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"other","data":{"description":"Light pruning and repacking of the checkpoint to fit under the 16,000,000 byte size cap.","parameters":{"cap_bytes":16000000}}}],"compression":"zstd","novel_contributions":["Local constrained-hardware run on an 8 GB Blackwell-class GPU","Use of train_merged_gpt_flagged.py for a non-record submission","Initial packed artifact was slightly over the 16,000,000 byte cap","Light pruning and repacking to produce an under-cap artifact","Reported compressed-model quality around 1.21 BPB before pruning and about 1.25 BPB after pruning"],"artifact_size":"15,794,840 bytes"},{"pr_number":794,"title":"Muon Optimizer Tuning: val_bpb 1.3346 by jeremyschied","author":"jeremyschied","status":"open","is_record":false,"val_bpb":1.3346,"architecture":"NanoGPT","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.05,"muon_backend_steps":6,"muon_momentum_warmup_steps":300,"grad_clip_norm":1}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":900}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature component in the architecture.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Attention-related component applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP stack with LeakyReLU squared activation.","parameters":{"layers":3}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128}}},{"category":"evaluation_technique","data":{"method":"online n-gram cache eval","parameters":{"ngram_max_n":5,"ngram_lambda":0.15,"confidence_threshold":0.5,"min_count":3}}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation in the MLP.","parameters":{"activation":"LeakyReLU(0.5)^2"}}}],"compression":"lzma","novel_contributions":["5-gram eval cache with confidence gating","Strictly causal online n-gram language model built during evaluation","Safety-gated log-sum-exp interpolation that only applies n-gram predictions when they improve NLL","Parallel Muon tuning on baseline NanoGPT","LeakyReLU squared MLP and other architecture refinements from the base record","Eval-time improvement with zero GPU cost from CPU-side n-gram lookups"],"artifact_size":"~15.9 MB"},{"pr_number":795,"title":"Record: 11L + order-adaptive 11-gram (mean val_bpb=0.8881)","author":"hypery11","status":"open","is_record":false,"val_bpb":0.8881,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA-all","description":"11-layer transformer variant using XSA-all attention.","parameters":{"layers":11,"dim":512,"gqa_heads":"8/4"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash module used as part of the architecture.","parameters":{"dimensions":128,"size":10240}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating component included in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP block.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism includes gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"evaluation_technique","data":{"method":"order-adaptive n-gram backoff cache","parameters":{"orders":"2-11","highest_order_first":true,"entropy_gating":true,"score_first":true,"deterministic":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"enabled":false}}},{"category":"regularization","data":{"method":"layerwise LN scaling","parameters":null}}],"compression":"zstd-22","novel_contributions":["11-layer XSA-all transformer","Order-adaptive entropy-gated n-gram backoff from orders 2 to 11","Higher-order matches use lower entropy thresholds","GPTQ-lite int6 quantization combined with zstd-22 compression","Score-first, deterministic evaluation without TTT"],"artifact_size":"13.99 MB"},{"pr_number":796,"title":"Record: 0.6567 BPB — Prefill Cache + 7-Gram Entropy-Adaptive + EBLS","author":"Robby955","status":"open","is_record":false,"val_bpb":0.6567,"architecture":"EBLS Transformer","quantization":"Val-GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"EBLS","description":"Empirical Bayes Layer Sharing with 3 shared blocks x 3 loops and 2 unique layers.","parameters":{"layers":11,"shared_blocks":3,"loops":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Auxiliary hash-based bigram component.","parameters":{"vocab_size":3072,"dimension":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU squared activation.","parameters":{"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 4 KV heads.","parameters":{"kv_heads":4,"attention_heads":8}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions.","parameters":{"rope_dims":16,"total_dims":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval":50}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"7-gram causal cache with entropy-adaptive blending","parameters":{"orders":[2,3,4,5,6,7],"min_count":2,"buckets_per_table":4194304,"entropy_base":0.05,"entropy_range":0.55,"entropy_scale":2,"entropy_threshold":4}}},{"category":"other","data":{"description":"Distributed cache pre-fill for evaluation ranks using only preceding tokens to make multi-GPU evaluation identical to single-GPU sequential evaluation.","parameters":{"distributed_ranks":8}}}],"compression":"lzma","novel_contributions":["Distributed cache pre-fill for multi-GPU evaluation","7-gram causal cache with backoff cascade","Entropy-adaptive blending between model and n-gram predictions","EBLS architecture with shared blocks and loops","Val-GPTQ int6 quantization with LZMA compression"],"artifact_size":"~15.87 MB"},{"pr_number":797,"title":"Record: 7-gram N-gram Cache (0.8960 bpb)","author":"armantsaturian","status":"open","is_record":false,"val_bpb":0.896,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Extended XSA to all layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP with LeakyReLU(0.5)^2 activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes a BigramHash component in the model.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied FP16 embeddings with softcap.","parameters":{"softcap":30}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"frequency":"every 50 steps"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"7-gram n-gram cache","parameters":{"orders":"2-7","backoff_beta":0.000001,"alpha":0.2,"score_before_update":true}}},{"category":"test_time_training","data":{"method":"disabled","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation in the MLP.","parameters":null}},{"category":"other","data":{"description":"Streaming single-pass cache built during evaluation with recursive backoff and fixed cache/neural blending.","parameters":{"cache_neural_mix":"80/20","near_zero_backoff_beta":0.000001}}}],"compression":"lzma","novel_contributions":["Streaming single-pass 7-gram n-gram cache applied during evaluation","Near-zero backoff beta so longest n-gram match dominates","Fixed 80/20 cache-to-neural blending","Extended XSA to all 11 layers","LeakyReLU(0.5)^2 MLP and Parallel Muon base model","Score-before-update cache legality-preserving evaluation"],"artifact_size":"~15.92 MB"},{"pr_number":798,"title":"Record: Order-Adaptive Entropy Gating + BackoffNgramMixer (val_bpb=0.5466)","author":"travispchen","status":"open","is_record":false,"val_bpb":0.5466,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in all 11 layers as part of the base model stack.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three MLP blocks with LeakyReLU(0.5)^2.","parameters":{"mlp_blocks":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention setting with no grouping.","parameters":{"kv_heads":8,"query_heads":8}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adamw_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":null}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.00003,"epochs":1,"chunk_tokens":1000000,"freeze_blocks":2,"polyak_decay":0.998}}},{"category":"regularization","data":{"method":"pruning","parameters":{"sparsity":0.03,"type":"magnitude"}}},{"category":"other","data":{"description":"Backoff n-gram mixer with entropy-adaptive alpha mixing across orders 2-7.","parameters":{"orders":[2,3,4,5,6,7]}}},{"category":"other","data":{"description":"Order-adaptive entropy gating using per-order entropy centers for n-gram mixing.","parameters":{"entropy_centers":{"2":4.5,"3":4.2,"4":3.8,"5":3.5,"6":3.2,"7":3}}}},{"category":"other","data":{"description":"Drift-free test-time training with logistic context mixer.","parameters":{"eta":0.1}}}],"compression":"lzma","novel_contributions":["Order-adaptive entropy gating with per-n-gram-order entropy centers","BackoffNgramMixer combining n-gram predictions with neural predictions","Drift-free score-first test-time training","Entropy-adaptive alpha mixing across n-gram orders"],"artifact_size":"~15.99 MB"},{"pr_number":799,"title":"Non-record Submission: SwiGLU 3x + Dynamic Wallclock Cosine","author":"yuvraajbains","status":"open","is_record":false,"val_bpb":1.2005,"architecture":"Transformer","quantization":"STE QAT / 6-bit post-quantization","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"SwiGLU","description":"Replaced ReLU² MLP activation with SwiGLU gating in the MLP layers.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x baseline to better utilize the 16MB artifact budget.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"dynamic wallclock cosine warmdown","parameters":{"max_wallclock_seconds":600,"warmdown_fraction":0.4}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"disabled":true}}},{"category":"quantization","data":{"method":"STE QAT / post-quant 6-bit","bits":6,"scope":"all"}},{"category":"other","data":{"description":"Double context length and larger batch token budget for training under the 600-second hardware-bound run.","parameters":{"train_batch_tokens":524288,"context_length":2048,"hardware":"8x H100 SXM"}}}],"compression":"zlib","novel_contributions":["Migrating the baseline to a SwiGLU-based MLP architecture","Scaling the MLP to 3x width to fully utilize the 16MB artifact budget","Using a hardware-clock-based dynamic cosine warmdown schedule","Disabling SWA at the end of training to avoid degrading the final checkpoint","Applying straight-through estimators to simulate quantization-aware robustness"],"artifact_size":"15,399,277 bytes"},{"pr_number":800,"title":"Record: X-WING — Shared N-gram Tables + Cubric (val_bpb=0.5644)","author":"newjordan","status":"open","is_record":false,"val_bpb":0.5644,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Chunk-based shared n-gram tables where all 8 GPU ranks update the same tables using the same tokens, giving each rank the full token history instead of rank-local subsets.","parameters":{"ranks":8,"token_history_scale":"full 62M-token picture"}}},{"category":"other","data":{"description":"Cubric per-order adaptive alpha that suppresses noisy n-gram orders and boosts reliable higher orders based on model entropy.","parameters":{"suppressed_orders":[2,3],"suppression_scale":[0.3,0.45],"boosted_orders":[5,6,7],"boost_scale":[1.88,2]}}}],"compression":null,"novel_contributions":["Shared chunk-based n-gram tables across all GPU ranks","Cubric per-order adaptive alpha scaling","Score-first chunk evaluation before table updates","Full 62M-token shared context across ranks instead of rank-local tables"],"artifact_size":"15.63 MB"},{"pr_number":802,"title":"10L + Multi-Order N-gram Backoff (0.9123 BPB)","author":"Bortlesboat","status":"open","is_record":false,"val_bpb":0.9123,"architecture":"Transformer","quantization":"mixed int5/int6 QAT with zstd roundtrip","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed n-gram cache / bigram hash feature used in the model.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism included in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially.","parameters":{"fraction":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU^2","description":"Uses LeakyReLU with slope 0.5 squared.","parameters":{"slope":0.5}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram backoff","parameters":{"orders":[2,3,4,5,6,7],"highest_matching_order_wins":true,"score_first":true,"min_count":2}}},{"category":"evaluation_technique","data":{"method":"entropy-adaptive alpha","parameters":{"formula":"alpha = 0.05 + 0.55 * sigmoid(2 * (H - 4.0))"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"batch_seqs":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"targets":["lm_head","Q","V"]}}},{"category":"initialization","data":{"method":"orthogonal init","description":"Orthogonal initialization used for the model."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Score-first neural cache / hashed n-gram cache updated only after scoring each segment.","parameters":{"cache_orders":[2,3,4,5,6,7]}}}],"compression":"zstd-22","novel_contributions":["Multi-order n-gram backoff evaluation with highest-matching-order selection","Entropy-adaptive interpolation coefficient for cache/backoff scoring","Score-first cache update policy to avoid leakage","Hashed n-gram cache across orders 2 through 7","Mixed int5/int6 quantization with zstd roundtrip","Neural cache evaluation using cosine similarity over cached hidden states","Per-document LoRA test-time training on lm_head, Q, and V projections"],"artifact_size":"15.63 MB"},{"pr_number":803,"title":"Record: 0.4416 BPB -- Complementary Training + Backoff N-gram Mixer","author":"pentxayc","status":"open","is_record":false,"val_bpb":0.4416,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA-4 attention variant in an 11-layer transformer.","parameters":{"variant":4,"layers":11}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning applied to the transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"Uses squared LeakyReLU activation with negative slope 0.5.","parameters":{"negative_slope":0.5}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"model weights"}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.0005}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"AdamW","learning_rate":0.0005,"epochs_per_chunk":4,"freeze_blocks":9,"polyak_ema":0.998}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"Complementary training that downweights tokens predictable by bigram statistics so the neural model specializes on harder tokens.","parameters":{"complement_alpha":0.5}}},{"category":"other","data":{"description":"Backoff n-gram mixer with orders 2-10 and greedy cascade using the highest matching order.","parameters":{"ngram_order_min":2,"ngram_order_max":10,"buckets":4194304}}},{"category":"other","data":{"description":"Entropy-adaptive alpha blending between neural and n-gram probabilities.","parameters":{"alpha_base":0.2,"alpha_range":0.55,"alpha_center":3}}}],"compression":"lzma","novel_contributions":["Complementary training using bigram-based loss reweighting to specialize the neural model on tokens n-gram caches cannot predict.","Higher eval-time n-gram mixing weight enabled by deliberately weakening the model where n-grams are strong.","BackoffNgramMixer with orders 2-10 and greedy highest-order matching.","Entropy-adaptive alpha blending based on model uncertainty.","Combination of AdamW test-time training with Polyak EMA and frozen early blocks."],"artifact_size":"15,875,857 bytes"},{"pr_number":805,"title":"Int6 GPTQ-lite + LeakyReLU(0.5)^2 + EMA + 11L MLP3x","author":"zeytx","status":"open","is_record":false,"val_bpb":1.1807,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increased model depth from 9 to 11 transformer layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded the MLP hidden size to 3x the base width instead of 2x.","parameters":{"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Used grouped-query attention with fewer KV heads than query heads.","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation function replacing ReLU^2.","parameters":{"negative_slope":0.5}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"per-row weights"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"late QAT activation based on LR scale threshold","parameters":{"lr_scale_threshold":0.15}}}],"compression":"zstd-22","novel_contributions":["11 transformer layers instead of the 9-layer baseline","3x MLP expansion","LeakyReLU(0.5)^2 activation","Int6 per-row GPTQ-lite quantization with clip search","Late QAT via STE triggered when LR scale drops below 0.15","EMA weight averaging with decay 0.997","Grouped-query attention with 8 query heads and 4 KV heads","Sliding window evaluation with stride 64"],"artifact_size":"~3.9 MB"},{"pr_number":806,"title":"Record: Backoff N-gram Cache + LeakyReLU(0.9)² (val_bpb=0.6678)","author":"ibarrajo","status":"open","is_record":false,"val_bpb":0.6678,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Added SmearGate to the Transformer architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a BigramHash component with a vocabulary size of 2048.","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion in the Transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embeddings / weight tying.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_start":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"multi-order backoff n-gram cache","parameters":{"orders":[2,3,4,5,6,7],"entropy_adaptive_alpha":true,"score_first":true,"min_count":2}}},{"category":"evaluation_technique","data":{"method":"distributed cache pre-fill","parameters":{"multi_gpu":true,"rank":7,"prefill_tokens":54000000,"prefill_time_seconds":68}}},{"category":"other","data":{"description":"LeakyReLU(0.9)^2 activation replacing relu^2.","parameters":{"slope":0.9}}},{"category":"other","data":{"description":"Entropy-adaptive alpha mixing between model softmax and n-gram cache probabilities.","parameters":{"alpha_formula":"0.05 + 0.55 * sigmoid(2.0 * (H - 4.0))"}}}],"compression":null,"novel_contributions":["Multi-order backoff n-gram eval cache with orders 2-7","Entropy-adaptive alpha mixing between neural predictions and n-gram cache probabilities","Distributed cache pre-fill for multi-GPU coherence","LeakyReLU(0.9)^2 activation replacing relu^2","Score-first legality: scoring every token under inference_mode before cache update","Removal of illegal pre-eval test-time training"],"artifact_size":"8.6MB"},{"pr_number":807,"title":"Non-record: Sequential Momentum TTT (val_bpb=1.0116, 3-seed mean, 4xA10G)","author":"connectwithprakash","status":"open","is_record":false,"val_bpb":1.0116,"architecture":"10-layer GQA Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA4","description":"Attention/sequence architecture modification used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism added to the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component used to enrich token interactions.","parameters":{"dimensions":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"momentum":0.3,"sequential":true,"cross_document":true}}},{"category":"initialization","data":{"method":"asymmetric LoRA initialization","description":"A is initialized with kaiming plus EMA, while B is initialized from EMA only."}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention weights"}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"full evaluation","parameters":{"seeds":[1337,42,2025]}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}},{"category":"other","data":{"description":"Learned activation mixing using relu^2 and leaky_relu(0.5)^2 blend.","parameters":null}}],"compression":"lzma","novel_contributions":["Sequential Momentum TTT with cross-document LoRA EMA during test-time training","Warm-starting LoRA adapters across document batches using an EMA of prior batch weights","Asymmetric LoRA initialization where A uses kaiming plus EMA and B uses EMA only","Mixed int5/int6 quantization combined with LZMA compression to fit under the artifact limit"],"artifact_size":"10.85 MB"},{"pr_number":808,"title":"Record: 0.6364 BPB - Depth Recurrence + Multi-Order N-gram Backoff","author":"Naazimsnh02","status":"open","is_record":false,"val_bpb":0.6364,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Repeats layers 4 and 5 to create more virtual layers without adding parameters.","parameters":{"layers":[4,5],"virtual_layers":13,"physical_layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table n-gram component used for eval-time backoff scoring.","parameters":{"vocab_size":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last layers of the model.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary position embeddings on only part of the dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP stack with LeakyReLU(0.5)^2.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism used alongside BigramHash.","parameters":null}},{"category":"architecture_modification","data":{"component":"ValueEmbedding","description":"Value embeddings added at selected layers.","parameters":{"layers":[9,10],"dimension":128}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Uses tied embedding weights.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"TTT LoRA adapters"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram backoff","parameters":{"orders":[2,3,4,5,6,7],"entropy_adaptive_alpha":true}}},{"category":"evaluation_technique","data":{"method":"multi-GPU n-gram prefill","parameters":{"num_gpus":8}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"epochs":3,"chunk_tokens":32768}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3500}}}],"compression":"lzma","novel_contributions":["Multi-order n-gram backoff over orders 2-7 with highest-order-first cascading on misses","Entropy-adaptive alpha that shifts trust between the neural model and n-gram backoff based on uncertainty","Multi-GPU n-gram prefill to avoid hash-table fragmentation across ranks","Depth recurrence on layers 4 and 5 to create 13 virtual layers from 11 physical layers at zero parameter cost"],"artifact_size":"~15.95 MB"},{"pr_number":809,"title":"Record: Chunk-Based N-gram Backoff + Score-First TTT (0.295 BPB)","author":"AayushBaniya2006","status":"open","is_record":false,"val_bpb":0.29519,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all weights / exported model"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention on the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending current and previous token embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram feature module with bucketed representation","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3.0x the model dimension","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 query heads and 4 KV heads","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions","parameters":{"dims":"16/64"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.9)^2","description":"Leaky ReLU with negative slope 0.9 followed by squaring","parameters":{"negative_slope":0.9}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all 2D weight matrices"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"ns_steps":5,"banking":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"learning_rate":0.035,"scope":"embeddings"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"learning_rate":0.025,"scope":"scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"step_aware_warmup":true}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"evaluation_technique","data":{"method":"chunk-based sequential evaluation","parameters":{"chunk_tokens":1000000}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk_size":2048,"epochs":3}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"other","data":{"description":"Entropy-adaptive N-gram interpolation with per-order multipliers and score-first chunk-synchronized cache updates","parameters":{"order":9,"alpha_min":0.05,"alpha_max":0.6,"min_count":2,"num_buckets":4194304,"chunk_tokens":1000000}}}],"compression":"lzma","novel_contributions":["Chunk-based order-9 N-gram backoff cache built incrementally from already-scored validation tokens","Score-first multi-GPU cache synchronization with all ranks updating after each chunk","Entropy-adaptive interpolation between model probabilities and N-gram probabilities","Per-order alpha multipliers that boost high-order matches and suppress low-order matches","Score-first TTT with LoRA rank 8 and hard enforcement of no hindsight selection","GPTQ int5 export to fit the artifact budget"],"artifact_size":"13.4MB"},{"pr_number":810,"title":"Record: EMA-GPU + Multi-Order N-gram Backoff + PE Confidence (val_bpb=0.9393)","author":"Idan3011","status":"open","is_record":false,"val_bpb":0.9393,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon + AdamW","training_techniques":[{"category":"quantization","data":{"method":"int6 QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention on the last 4 layers to remove self-value bias via orthogonal projection.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending each token with the previous token's embedding.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table embedding for token bigrams projected into model dimension.","parameters":{"dimensions":"2048x128"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x hidden expansion.","parameters":{"hidden_size":1536}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections with learnable skip weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"GELU pre-enrichment","description":"Wider nonlinear pre-enrichment block before transformer layers: 512→768→512 with GELU.","parameters":{"input_dim":512,"hidden_dim":768,"output_dim":512}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"multi_order_backoff":"2-11","entropy_adaptive_alpha":true}}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram backoff","parameters":{"orders":"2-11","score_first":true,"backward_looking":true}}},{"category":"test_time_training","data":{"method":"score-first TTT-like n-gram cache","parameters":{"cache_updated_after_scoring":true,"per_gpu_independent_cache":true}}},{"category":"initialization","data":{"method":"overtone init","description":"Initialization method credited to the modded-nanogpt baseline."}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"other","data":{"description":"EMA state kept on GPU during training and moved to CPU only at serialization time to speed up training.","parameters":{"reported_speedup":"37%"}}},{"category":"other","data":{"description":"Pre-enrichment confidence modulation uses the magnitude of the pre-enrichment transformation as a confidence signal to modulate n-gram trust.","parameters":null}}],"compression":"lzma","novel_contributions":["EMA state kept on GPU during training to avoid per-step GPU-to-CPU synchronization","Multi-order n-gram backoff with entropy-adaptive alpha during evaluation","Pre-enrichment confidence modulation to adjust n-gram trust","GELU pre-enrichment block (512→768→512)","XSA on the last 4 layers"],"artifact_size":"14.94 MB"},{"pr_number":811,"title":"Record: Complementary Training + Backoff N-gram Mixer — 0.4377 BPB","author":"quietsmile","status":"open","is_record":false,"val_bpb":0.4377,"architecture":"Transformer","quantization":"int6 mixed quantization","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA on the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with LeakyReLU(0.5)^2.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads with 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"model weights"}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.0005}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.998}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":128}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0005,"epochs":4,"freeze_blocks":2,"temperature":0.98}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"other","data":{"description":"Complementary training with bigram-weighted loss reweighting to focus learning on harder tokens.","parameters":{"complement_alpha":0.5}}},{"category":"other","data":{"description":"BackoffNgramMixer with orders 2-10 and entropy-adaptive alpha mixing.","parameters":{"ngram_order":10,"alpha_base":0.2,"alpha_range":0.55,"alpha_center":3}}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Complementary training with bigram-weighted loss reweighting","BackoffNgramMixer with entropy-adaptive alpha mixing","Legal score-first AdamW test-time training","Stride=128 evaluation optimization"],"artifact_size":"~15.9MB"},{"pr_number":812,"title":"[non-record track] BankLinear: cross-layer shared weight bank with learned + random mixtures","author":"andrewmouldon","status":"open","is_record":false,"val_bpb":1.2236,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BankLinear","description":"Replaces per-layer linear weights with mixtures over a shared bank of learned basis matrices and fixed random projections, applied to QKV projections.","parameters":{"layers":9,"learned_basis_matrices":3,"fixed_random_projections":512}}},{"category":"initialization","data":{"method":"depth-aware mixing coefficient initialization","description":"Mixing coefficients are initialized with a depth-aware profile so early, middle, and late layers are biased toward different learned bases with smooth transitions."}},{"category":"architecture_modification","data":{"component":"larger MLP","description":"Saved parameters from BankLinear are reinvested into a larger MLP expansion.","parameters":{"mlp_multiplier":2.65}}}],"compression":null,"novel_contributions":["Introduces BankLinear, a compositional weight synthesis method using shared learned and random basis matrices across layers.","Uses per-layer mixing coefficients to construct unique weights while reusing a shared parameter bank.","Combines a small learned basis with a larger fixed random basis to increase expressivity under a parameter budget.","Applies BankLinear to QKV projections and reinvests saved parameters into a larger MLP.","Proposes depth-aware initialization of mixing coefficients for stable training."],"artifact_size":"15734631 bytes"},{"pr_number":813,"title":"Record: BackoffNgramMixer (mean val_bpb=0.6671)","author":"hypery11","status":"open","is_record":false,"val_bpb":0.6671,"architecture":"Transformer","quantization":"int5","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA-all attention variant in an 11-layer transformer.","parameters":{"layers":11,"dim":512,"heads":"8/8 full MHA"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU MLP","description":"Uses LeakyReLU(0.5)^2 activation with a widened MLP.","parameters":{"mlp_multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash component.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds a SmearGate component.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Uses value residual connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention.","parameters":null}},{"category":"architecture_modification","data":{"component":"BackoffNgramMixer","description":"GPU-vectorized multi-order n-gram backoff mixer with entropy-adaptive alpha mixing and score-first backward-looking cache.","parameters":{"orders":"2-7"}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"backward_looking":true,"entropy_adaptive_alpha":true}}}],"compression":"zstd","novel_contributions":["BackoffNgramMixer with entropy-adaptive alpha mixing","GPU-vectorized multi-order n-gram backoff over orders 2-7","Score-first, backward-looking cache for inference","11-layer transformer with XSA-all and widened MLP","int5 quantization with zstd compression","EMA and Tight SWA"],"artifact_size":"~16.0 MB"},{"pr_number":814,"title":"Record: X-WING 3D Cubric + Complementary Training (val_bpb=0.4820)","author":"newjordan","status":"open","is_record":false,"val_bpb":0.482,"architecture":"11L Transformer","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA-4","description":"Uses XSA-4 attention/architecture component in the transformer.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_based":true,"update_after_scoring":true}}},{"category":"initialization","data":{"method":"warm-start cubric initialization","description":"Cubric multipliers are initialized from previously converged values instead of 1.0."}},{"category":"other","data":{"description":"3D Cubric pattern recognizer with adaptive multipliers over order x entropy_bin x count_bin.","parameters":{"multipliers":54}}},{"category":"other","data":{"description":"Complementary training that downweights loss for tokens predictable by bigram statistics.","parameters":{"complement_alpha":0.5}}},{"category":"other","data":{"description":"Shared n-gram tables updated across all 8 GPU ranks using chunk tokens.","parameters":{"ranks":8}}}],"compression":"zstd","novel_contributions":["3D Cubric pattern recognizer with 54 adaptive multipliers across order, entropy bin, and count bin","Warm-start initialization of cubric multipliers from prior converged values","Complementary training that reduces loss weight for bigram-predictable tokens","Shared n-gram tables across all GPU ranks for full-data statistics","Score-first chunk protocol for legality of test-time adaptation"],"artifact_size":"15.58 MB"},{"pr_number":816,"title":"Record submission: Poly5 Softcap + BigramHash(3072) + Wider GPTQ-lite…","author":"jimliu741523","status":"open","is_record":false,"val_bpb":1.1194,"architecture":"11-layer Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Increased bigram hash embedding vocabulary from 2048 to 3072.","parameters":{"vocab_size":3072}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applied partial rotary positional embeddings to part of the dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Used XSA attention in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_momentum":0.92,"warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval_steps":50,"condition":"scale < 0.2"}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"temperature":0.95}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"optimizer":"SGD","all_blocks_unfrozen":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"z-loss","parameters":{"weight":0.0001}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale_rule":"1/sqrt(layer+1)"}}}],"compression":"lzma-9","novel_contributions":["Poly-5 softcap replacing tanh for better compile fusion","BigramHash vocabulary increased from 2048 to 3072","Wider GPTQ-lite percentile search with 9 candidates","Temperature scaling at evaluation with T=0.95","Z-loss regularization with weight 1e-4","LZMA preset 9 compression"],"artifact_size":null},{"pr_number":818,"title":"[record] add HWNODE record - 0.5527","author":"lucamignatti","status":"open","is_record":false,"val_bpb":0.5527,"architecture":"HWNODE (Hammerstein-Wiener Neural ODE)","quantization":"INT5/INT6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"HWNODE","description":"Linear Neural ODE wrapped between two non-linear projections, using a Taylor-series approximation of the matrix exponential to generate multiple effective layers from shared weights.","parameters":{"order":2,"state_dim":864}}},{"category":"architecture_modification","data":{"component":"spectral normalization","description":"Applied to enforce stability and encourage orthogonality, helping generate more unique effective layers.","parameters":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"Drift-free TTT and Cubric N-gram processing were used to improve the final score.","parameters":null}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"all"}}],"compression":null,"novel_contributions":["Introduced Hammerstein-Wiener Neural ODEs (HWNODEs) for the challenge.","Used a Taylor-series approximation of the matrix exponential to compile a continuous ODE trajectory into a single dense matrix pass.","Generated multiple effective layers from a single set of shared weights.","Applied spectral normalization to stabilize the model and encourage orthogonality.","Used drift-free TTT and Cubric N-gram processing to improve validation performance."],"artifact_size":"15.74 MB"},{"pr_number":820,"title":"[non-record] Masked Diffusion Language Model (val_var_bpb=1.625)","author":"mtybadger","status":"open","is_record":false,"val_bpb":1.6252,"architecture":"Bidirectional Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"bidirectional transformer","description":"Replaces the autoregressive causal next-token model with a masked diffusion language model using bidirectional denoising and iterative sampling.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":2}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses GQA-style grouped query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"adaLN timestep conditioning","description":"Adds timestep-conditioned denoiser conditioning via adaLN-style conditioning.","parameters":{"cond_dim":128}}},{"category":"sequence_length","data":{"train_length":256,"eval_length":null}},{"category":"regularization","data":{"method":"dropout","parameters":{"rate":0}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"variational bound evaluation with discrete absorbing-mask process","parameters":{"var_eval_steps":32}}},{"category":"other","data":{"description":"Masked diffusion language modeling objective with continuous-time SUBS denoising loss and iterative DDPM-style sampling cache.","parameters":{"sampler":"ddpm_cache","sampling_schedule":"linear","sampling_steps":256}}}],"compression":"zstd-22","novel_contributions":["Replaces the autoregressive GPT baseline with a masked diffusion language model.","Uses a bidirectional masked denoising objective instead of causal next-token prediction.","Introduces timestep-conditioned adaLN denoiser conditioning.","Reports a variational BPB metric based on a discrete absorbing-mask upper bound.","Fits the submission under the 16MB limit using mixed int6/int8 quantization plus zstd-22 compression."],"artifact_size":"15,379,114 bytes"},{"pr_number":822,"title":"Add baseline and depth recurrence submissions (1xH100 20min runs)","author":"henrycashe26","status":"open","is_record":false,"val_bpb":1.2604,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6 QAT","bits":null,"scope":"MLP in int5, attention in int6"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embeddings used instead of standard token embeddings.","parameters":{"buckets":10240,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Token blending mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"newton_schulz_orthogonalization":true}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every_steps":50}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Training on a single H100 GPU for 20 minutes instead of the standard 8xH100 for 10 minutes.","parameters":{"gpu_count":1,"duration_minutes":20}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"4 unique transformer layers shared across 3 loop iterations.","parameters":{"layers":4,"loops":3}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":32}}},{"category":"architecture_modification","data":{"component":"learned level signals","description":"Learned level signals used with depth recurrence.","parameters":null}}],"compression":"zstd","novel_contributions":["Reproduction of the #1 leaderboard baseline on a single H100 with reduced compute","Mixed int5/int6 quantization-aware training with BigramHash embeddings, SmearGate, and SWA","Depth recurrence model with 4 shared transformer layers across 3 loops","LoRA rank-32 per loop and learned level signals for depth recurrence","Reported artifact sizes and compute-constrained training results for two submissions"],"artifact_size":"15.8MB"},{"pr_number":824,"title":"GatedAttn + ValueResid + XSA6 + HedgeMixer + Legal TTT — val_bpb: 1.08965 (3-seed mean)","author":"sahiee-dev","status":"open","is_record":false,"val_bpb":1.08964536,"architecture":"HedgeMixer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GatedAttn","description":"Per-head learned FP32 scalar gate multiplied against attention output to learn head-specific contribution magnitudes.","parameters":null}},{"category":"architecture_modification","data":{"component":"ValueResidual","description":"Per-block learned FP32 scalar injects a fraction of the initial token embedding x0 directly into the residual stream.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA6","description":"Uses the XSA6 architectural variant from the referenced baseline submission.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash4K","description":"Includes BigramHash4K as part of the model stack/baseline architecture.","parameters":{"size":4096}}},{"category":"test_time_training","data":{"method":"legal TTT","parameters":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Added gated attention with per-head learned FP32 scalar gates.","Added value residual with per-block learned FP32 scalar injection from the initial embedding.","Kept control tensors in FP32 to bypass GPTQ quantization.","Applied legal test-time training (TTT) under Case 3 interpretation.","Improved the baseline HedgeMixer stack from 1.1078 to a 1.08964536 mean val_bpb."],"artifact_size":"14.9MB"},{"pr_number":825,"title":"Record: Order-Adaptive BackoffMixer (mean val_bpb=0.5440)","author":"hypery11","status":"open","is_record":false,"val_bpb":0.544,"architecture":"11-layer Transformer","quantization":"int5 quantization + compression","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA-all","description":"Uses XSA-all attention mechanism in the transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Expanded MLP width to 3.5x.","parameters":{"mlp_multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 activation.","parameters":{"negative_slope":0.5,"power":2}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA"}}},{"category":"evaluation_technique","data":{"method":"order-adaptive entropy-gated BackoffNgramMixer","parameters":{"orders":"2-7 gram","per_order_entropy_thresholds":true,"score_first":true,"backward_looking":true,"deterministic":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"backward_looking":true}}},{"category":"compression","data":{"method":"custom","level":null}}],"compression":"custom","novel_contributions":["Order-adaptive entropy-gated BackoffNgramMixer","Per-order entropy thresholds for mixing weight selection","Score-first, backward-looking, deterministic evaluation strategy","11-layer transformer with XSA-all and full MHA","int5 quantization with compression","EMA and Tight SWA training recipe"],"artifact_size":"16.0 MB"},{"pr_number":826,"title":"Record: Order-9 N-gram Backoff + Score-First TTT + GPTQ-Int5 (0.2951 BPB)","author":"himanshudongre","status":"closed","is_record":false,"val_bpb":0.29509,"architecture":"11-layer Transformer-like model with 512d, GQA 8/4, MLP 3.0x, BigramHash, SmearGate, XSA, Partial RoPE, LN Scale, U-Net skips, VE128","quantization":"GPTQ int5","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram features with projected embeddings.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate blending current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to a subset of dimensions.","parameters":{"dims":"16/64"}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with fewer KV heads than query heads.","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Learned skip connections between encoder and decoder halves.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Embeddings","description":"Value embeddings used in later layers.","parameters":{"layers":[9,10],"dim":128}}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.9)^2","description":"Uses LeakyReLU with slope 0.9 applied twice in the MLP.","parameters":{"slope":0.9}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"banking":true,"ns5_steps":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"applied_to":"embeddings","learning_rate":0.035}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"rank":8,"learning_rate":0.01,"chunk_size":2048,"epochs_per_chunk":3,"polyak_decay":0.998,"temperature":0.98}}},{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"full model"}},{"category":"initialization","data":{"method":"OrthoInit","description":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Order-9 n-gram backoff evaluation cache with entropy-adaptive interpolation and score-first backward-looking updates.","parameters":{"orders":[2,9],"buckets_per_order":4194304,"alpha_range":[0.05,0.6],"entropy_center":3,"chunk_size":1000000}}},{"category":"other","data":{"description":"Perplexity-ranked shard ordering curriculum for training.","parameters":null}}],"compression":"lzma","novel_contributions":["Order-9 n-gram backoff evaluation cache with entropy-adaptive interpolation","Score-first test-time training with LoRA on Q, V, and LM head","GPTQ int5 full-Hessian quantization with LZMA compression","Perplexity-ranked shard ordering curriculum","LeakyReLU(0.9)^2 MLP variant with frontier_lean architecture stack"],"artifact_size":"~13.4 MB"},{"pr_number":827,"title":"Record: LeakyReLU² + XSA4 + LN Scale + Partial RoPE — val_bpb 1.3999","author":"Programmerryoki","status":"open","is_record":false,"val_bpb":1.3999,"architecture":"Transformer","quantization":"Int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last layers; subtracts self-value from attention output so tokens attend more to context.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position encoding applied only to part of the head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component used in the model.","parameters":{"buckets":1536}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate enabled in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net Skips","description":"U-Net style skip connections enabled.","parameters":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP widened to 2× with LeakyReLU(0.5)^2 activation.","parameters":{"multiplier":2}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation replacing relu(x)^2 to preserve negative gradient flow and reduce dead neurons.","parameters":null}},{"category":"other","data":{"description":"GPTQ-lite clip search over multiple clip percentiles per weight row to minimize reconstruction MSE.","parameters":{"clip_percentiles":[0.9999,0.99995,0.99999,0.999995,1]}}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5)^2 activation","Exclusive self-attention (XSA) in the last 4 layers","Layerwise LN scaling by 1/sqrt(layer+1)","Partial RoPE using 16 of 64 head dimensions","GPTQ-lite clip search for quantization","Int6 QAT with zstd-22 compression"],"artifact_size":"~13.5 MB"},{"pr_number":828,"title":"Record: 0.9076 BPB — 10L + N-gram Backoff + Matrix LR 0.03","author":"bigbag","status":"open","is_record":false,"val_bpb":0.9076,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"10-layer Transformer with 3x LeakyReLU MLP blocks","parameters":{"layers":10,"d_model":512}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash-based component used in the model","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating mechanism included in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Residual pathway applied to values","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism with gating","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling included in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections inspired by U-Net added to the Transformer","parameters":null}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"logit softcap","description":"Logit softcapping applied to outputs","parameters":{"value":30}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP and attention"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"lr":0.03}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"multi-order n-gram backoff","parameters":{"orders":"2-7","score_first":true,"backward_looking":true,"entropy_adaptive_alpha":true}}},{"category":"other","data":{"description":"Systematic hyperparameter screening to find MATRIX_LR=0.03 as the best setting","parameters":{"experiments":74,"screening_steps":"10-12"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"zstd-22","novel_contributions":["Improved the previous PR #802 result by changing MATRIX_LR from 0.02 to 0.03","Systematic hyperparameter screening identified MATRIX_LR=0.03 as the strongest training hyperparameter improvement","Uses multi-order n-gram backoff evaluation with score-first backward-looking cache","Entropy-adaptive alpha mixing for n-gram backoff evaluation","Combines a 10-layer Transformer with BigramHash, SmearGate, value residuals, gated attention, and mixed int5/int6 quantization"],"artifact_size":"15.32 MB"},{"pr_number":830,"title":"Non-record: LeakyMixer: 11L leaky_relu(0.5)^2 + backoff n-gram mixer","author":"zlxi02","status":"open","is_record":false,"val_bpb":1.4096,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Transformer depth","description":"Increased model depth from 9 to 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"MLP activation","description":"Swapped relu^2 for leaky_relu(0.5)^2 in the MLP.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied token embeddings.","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"int8+zlib roundtrip eval","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"backoff_orders":[1,2,3,4,5,6,7],"entropy_adaptive_alpha":true,"implemented_in_c":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}}],"compression":"zlib","novel_contributions":["Swapped relu^2 for leaky_relu(0.5)^2","Increased model depth from 9 to 11 layers","Extended warmdown schedule to 3500 steps","Added a backoff n-gram mixer that runs at eval time","Built a token cache while scoring the validation set","Mixed neural logits with n-gram predictions using entropy-adaptive alpha","Implemented the n-gram mixer in C for speed"],"artifact_size":"13.49 MB"},{"pr_number":831,"title":"Research: Why Novel Architectures Fail at 16MB — Throughput-Quantization Co-optimization","author":"sseanliu","status":"open","is_record":false,"val_bpb":1.1284,"architecture":"Transformer","quantization":"int6 per-row quantization","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"batched_banks":true}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-window/self-attention variant used in the SOTA stack; also referenced as XSA-all in one failed technique.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential moving average used as part of the base recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating/architecture component in the base recipe.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based architectural component used in the base recipe.","parameters":{"vocab_size":2048}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3000}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"evaluation_technique","data":{"method":"long context eval","parameters":{"cache_tokens":8192,"effective_context":50000}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"other","data":{"description":"Throughput-quantization co-optimization analysis showing that small per-step overheads can negate BPB gains under the 16MB/600s constraint.","parameters":{"throughput_tax_bpb_per_ms":0.007}}}],"compression":null,"novel_contributions":["Systematic evaluation of six March 2026 architectural innovations on the PR #549 SOTA stack","Claim that throughput-quantization co-optimization is the binding constraint at 16MB/600s","Throughput tax formula estimating BPB gain required per millisecond of overhead","Observation that MLP shape affects quantizability","Observation that hypersphere normalization is incompatible with per-row quantization","Proposal of Neural Cache: cross-window KV caching for extended-context evaluation","Use of cached K/V pairs across sliding windows to extend effective context without changing model weights"],"artifact_size":"16MB"},{"pr_number":832,"title":"Non-record: Byte-level transformer + JEPA auxiliary loss (val_bpb: 1.1903)","author":"jfprincz","status":"open","is_record":false,"val_bpb":1.1903,"architecture":"Transformer","quantization":"int6 + int8 mixed quantization","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Byte-level transformer","description":"Autoregressive transformer operating directly on raw UTF-8 bytes with vocab size 260 and no tokenizer/BPE.","parameters":{"vocab_size":260,"layers":13,"dim":512,"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"JEPA auxiliary loss","description":"Auxiliary chunk-level latent prediction module added to the autoregressive transformer to improve validation BPB.","parameters":{"latent_dim":256,"proj_hidden":256,"chunk_size":8,"lambda_max":0.001}}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections in the transformer backbone.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied only to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last layers of the model.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Auxiliary bigram hashing component used in the stack.","parameters":{"vocab_size":4096,"dim":32}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism included in the model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / tied output weights implied by the configuration.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":512}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000,"iterations":9000}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"enabled":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization used as part of the training stack."}},{"category":"other","data":{"description":"SIGReg regularization using Epps-Pulley projections and knots to prevent latent collapse in the JEPA module.","parameters":{"projections":256,"knots":17,"weight":0.02}}}],"compression":"zstd-22","novel_contributions":["Byte-level autoregressive transformer with no tokenizer, operating directly on raw UTF-8 bytes","Lightweight JEPA auxiliary loss for chunk-level latent prediction","Reported consistent BPB improvement from JEPA across seeds and evaluation methods","Combination of JEPA with an existing sp1024-style technique stack","Use of SIGReg to prevent latent collapse in the auxiliary representation space"],"artifact_size":"14.4 MB"},{"pr_number":834,"title":"Record: 0.1663 BPB - N-gram-Aware Training + Frozen N-gram Oracle + Backoff TTT","author":"AnirudhRahul","status":"open","is_record":false,"val_bpb":0.1663,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Linear gate head","description":"Adds a learned multi-expert routing head (Linear 512->7) on top of the transformer to mix neural and n-gram experts.","parameters":{"input_dim":512,"output_dim":7}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a backoff n-gram mixer with hashed count tables for n-gram experts.","parameters":{"orders":[2,3,4,5,6,7]}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"combined_with":"Adam","ema":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"chunk_tokens":1048576}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":1,"freeze_blocks":1,"learning_rate":0.00003}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":1048576}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"other","data":{"description":"Frozen n-gram oracle precomputed from training data and kept read-only during training to enable efficient gate learning.","parameters":{"prefill_counted_in_wallclock":true}}},{"category":"other","data":{"description":"Learned multi-expert gate trained directly on next-token likelihood using a mixed probability objective over neural and n-gram experts.","parameters":{"experts":7,"mixer_loss_weight":0.1,"neural_floor":0.05}}}],"compression":"zstd","novel_contributions":["Learned multi-expert gate that replaces a hand-crafted entropy heuristic for routing between neural and n-gram experts","Frozen n-gram oracle precomputed from training data to make gate training efficient within the wallclock budget","Direct optimization of the gate using next-token likelihood over a mixture of experts","Backoff TTT with score-first causal evaluation using a fresh validation cache","GPU-native backoff n-gram mixer implementation"],"artifact_size":"15.76 MB"},{"pr_number":835,"title":"Progressive Depth Training — val_bpb 1.1980","author":"iverbovoy","status":"open","is_record":false,"val_bpb":1.198,"architecture":"Transformer","quantization":"int8","optimizer":"Muon + Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaced unique transformer blocks with shared blocks repeated multiple times to increase effective depth.","parameters":{"blocks":3,"repeats":4,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"Cross-Repeat Skip","description":"Adds a weighted residual connection from each block's previous repeat output, making recurrence stateful.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"value embeddings","description":"Two extra embedding tables mixed into the residual stream at each effective layer with learned scales.","parameters":{"tables":2}}},{"category":"architecture_modification","data":{"component":"loop embedding","description":"Learned per-layer vector added before each block as depth-wise positional encoding.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads with 8 attention heads total.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon + Adam","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.012,"scalar_lr":0.012,"tied_embed_lr":0.015,"grad_clip_norm":0.3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"collected_only_at_full_depth":true}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window":1024,"stride":256}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"other","data":{"description":"Progressive depth training schedule that increases recurrence depth during training from 2 repeats to 3 repeats to 4 repeats.","parameters":{"phases":[{"repeats":2,"eff_depth":6},{"repeats":3,"eff_depth":9},{"repeats":4,"eff_depth":12}]}}},{"category":"other","data":{"description":"DDP race condition fix for phase switching using all_reduce synchronization across ranks.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Progressive depth training schedule that increases recurrence depth during training","DDP phase-switch synchronization fix using all_reduce","Stateful depth recurrence with Cross-Repeat Skip","Use of XSA in the last 4 layers","Value embeddings mixed into the residual stream","Loop embedding as depth-wise positional encoding"],"artifact_size":"12.83MB"},{"pr_number":836,"title":"Full-Training QAT: 1.1219 bpb","author":"autocode-rayes","status":"open","is_record":false,"val_bpb":1.1219,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU_LegalTTT_ParallelMuon","description":"Existing SOTA Transformer architecture with LeakyReLU, LegalTTT, Parallel Muon, and related custom components.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention variant used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating mechanism included in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing with bucketed representation.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3x expansion and LeakyReLU(0.5)^2.","parameters":{"expansion":3}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"during":"warmdown"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"epochs":3,"chunk_size":"32K"}}},{"category":"compression","data":{"method":"LZMA","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}}],"compression":"lzma","novel_contributions":["Full-training QAT with int6 fake quantization enabled from step 1","Removing the mismatch between full-precision training and late-stage quantization noise","Using QAT_ENABLED=1 with LATE_QAT_THRESHOLD=1.0 to activate quantization immediately"],"artifact_size":null},{"pr_number":838,"title":"Non-Record: 11L Parallel Muon + LN Scale + LeakyReLU² MLP3x + Legal TTT — val_bpb 1.1215 (3-seed mean)","author":"aryanbhosale","status":"open","is_record":false,"val_bpb":1.1215,"architecture":"Transformer","quantization":"int6 GPTQ-lite QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"momentum_schedule_end":0.99,"momentum_schedule_steps":1500,"newton_schulz_steps":5,"parameter_banking":true,"async_reduce_scatter_all_gather":true}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x expansion MLP with LeakyReLU(0.5)^2 activation","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Depth-dependent normalization scaling by 1/sqrt(layer_idx+1)","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism in the architecture","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing feature module","parameters":{"dimensions":1536,"dim":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimensions","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Grouped-query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention used in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches V from layer 0 and blends via learned lambda","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gating on attention outputs","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skips","description":"Skip connections inspired by U-Net","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50,"scale_threshold":0.2}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all weights with FP16 embedding passthrough"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"chunk_size":32000}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"all_blocks_unfrozen":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer_idx+1)"}}}],"compression":"zstd-22","novel_contributions":["Parallel Muon with parameter banking and batched Newton-Schulz updates","Depth-dependent LN Scale normalization","LeakyReLU(0.5)^2 MLP with 3x expansion","Legal score-first test-time training under inference_mode","EMA plus SWA model averaging","GPTQ-lite int6 quantization with per-row 5-percentile clip search","Flash Attention 3 and torch.compile(fullgraph=True) training stack"],"artifact_size":"~15.85 MB"},{"pr_number":840,"title":"Record: 0.2873 BPB — Fine-Grained N-gram Cache (65K chunks)","author":"quietsmile","status":"open","is_record":false,"val_bpb":0.2873,"architecture":"11L 512d GQA 8/4 Transformer","quantization":"GPTQ int5","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8/4 head configuration","parameters":{"heads":"8/4"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3.0x","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"XSA-4","description":"Uses XSA-4 architectural component","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation with squared usage","parameters":{"slope":0.9,"power":2}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component for n-gram-related modeling","parameters":{"buckets":4096}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"fine-grained n-gram cache chunked evaluation","parameters":{"chunk_tokens":65536,"backoff_order":"2-9","hash_buckets":4000000,"score_first":true,"cache_update_after_chunk":true}}},{"category":"other","data":{"description":"Entropy-adaptive alpha for n-gram backoff cache, varying by model confidence and n-gram order","parameters":null}},{"category":"other","data":{"description":"Per-order multipliers for n-gram cache, suppressing low orders and boosting high orders","parameters":{"low_orders_multiplier":0.3,"high_orders_multiplier":2}}},{"category":"other","data":{"description":"Perplexity-sorted shard ordering during training","parameters":null}}],"compression":"lzma","novel_contributions":["Reducing NGRAM_EVAL_CHUNK_TOKENS from 1,000,000 to 65,536 for much more frequent n-gram cache updates","Demonstrating that cache update frequency is the dominant factor in n-gram BPB performance","Score-first evaluation where the cache is updated only after each chunk is fully scored","Fine-grained backward-looking n-gram cache evaluation without TTT or additional compute"],"artifact_size":"~13.4 MB"},{"pr_number":841,"title":"Add 11L XSA11 + BigramHash3072 + AdamW Legal TTT submission","author":"someone114514","status":"open","is_record":false,"val_bpb":1.11565196,"architecture":"Transformer","quantization":"int6 + lzma export","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA enabled on all 11 transformer layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash token representation with hashed buckets and learned dimension","parameters":{"buckets":3072,"dim":112}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU activations","parameters":{"mlp_layers":3}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":0.99,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"learning_rate":0.0001,"scope":"embeddings/scalars"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"swa":"tight","ema":true}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"final artifact export"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first legal TTT","parameters":{"optimizer":"AdamW","chunk_size":131072,"epochs":3,"freeze_blocks":8,"learning_rate":0.0001,"weight_decay":0.01,"momentum":0.9}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"lzma","novel_contributions":["11-layer 512-dimensional transformer with XSA enabled on all layers","BigramHash with 3072 buckets and 112-dimensional representation","Parameter Banking with Parallel Muon for matrix weights","Score-first legal test-time training using AdamW","Int6 + lzma export to fit within the 16MB artifact limit"],"artifact_size":"15,983,339 bytes"},{"pr_number":842,"title":"Non-record: 5L MLP4x + SlidingWindow + SWA + QAT — val_bpb 1.33 (1xH100)","author":"JUSTSUJAY","status":"open","is_record":false,"val_bpb":1.337977,"architecture":"Transformer","quantization":"int8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP4x","description":"5-layer Transformer with widened MLP expansion factor to 4x (hidden size 2048) instead of deeper narrower stacks.","parameters":{"layers":5,"model_dim":512,"mlp_mult":4,"hidden":2048,"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Learned hashed embeddings for adjacent token pairs to inject lightweight bigram context.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending each token embedding with the previous token embedding.","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all weight matrices, with zero-init for output projections."}},{"category":"quantization","data":{"method":"STE QAT","bits":8,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":18,"interval_steps":50,"phase":"warmdown"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.03,"embed_lr":0.06,"momentum_warmup_start":0.92,"momentum_warmup_steps":500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_frac":0.5}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["5-layer MLP4x architecture that outperformed deeper narrower models under single-GPU compute constraints","BigramHash embedding with 4096 buckets for lightweight bigram context","SmearGate token blending mechanism","Orthogonal initialization aligned with Muon optimizer geometry","Quantization-aware training with int8 STE to reduce quantization gap","Stochastic weight averaging over 18 checkpoints","Sliding window evaluation with stride 64 for improved validation score"],"artifact_size":"14.5MB"},{"pr_number":843,"title":"Record: Order-12 N-gram Backoff + 256K Chunks — 0.2834 BPB","author":"quietsmile","status":"open","is_record":false,"val_bpb":0.2834,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"model"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA-4 as part of the model architecture.","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes a BigramHash component with 4096 buckets.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses an expanded MLP with 3.0x width.","parameters":{"multiplier":3}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"compression","data":{"method":"LZMA","level":null}},{"category":"evaluation_technique","data":{"method":"n-gram backoff cache","parameters":{"order":12,"chunk_tokens":256000,"alpha_max":0.7,"hash_primes_added":6}}},{"category":"other","data":{"description":"Entropy-adaptive n-gram mixing with per-order multipliers and score-first cache updates after each chunk.","parameters":{"score_first":true,"cache_update_timing":"after scoring each chunk","low_order_multiplier":0.3,"high_order_multiplier":2}}}],"compression":"LZMA","novel_contributions":["Extended eval-time n-gram backoff from order 9 to order 12","Added 6 additional hash primes for the n-gram cache","Reduced eval chunk size from 1M to 256K tokens for faster cache refresh","Increased alpha_max from 0.60 to 0.70 for stronger high-entropy n-gram mixing","Purely eval-time changes with no training modifications","Score-first compliant cache updates only after scoring each chunk"],"artifact_size":"~13.4 MB"},{"pr_number":845,"title":"12 layers GPT | MLP_MULT reduction | VE and BIGRAM modifications","author":"rubenbalbastre","status":"open","is_record":false,"val_bpb":1.1407,"architecture":"GPT","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GPT depth increase","description":"Increased the model from 11 to 12 layers while reducing parameters elsewhere to stay near the 16MB limit.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"MLP_MULT reduction","description":"Reduced MLP width multiplier to free parameters for the extra layer.","parameters":{"mlp_mult":2.6}}},{"category":"architecture_modification","data":{"component":"Bigram embedding modification","description":"Adjusted bigram vocabulary size and bigram embedding dimension to trade off capacity and parameter count.","parameters":{"bigram_vocab_size":2048,"bigram_dim":256}}},{"category":"architecture_modification","data":{"component":"Token embedding / VE dimension reduction","description":"Reduced VE dimension to save parameters for the deeper model.","parameters":{"ve_dim":64}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"test_time_training","data":{"method":"LegalTTT","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}}],"compression":null,"novel_contributions":["Extended the baseline GPT from 11 to 12 layers.","Reduced MLP_MULT to reallocate parameters to depth.","Modified bigram vocabulary size and bigram embedding dimension.","Reduced token embedding dimension (VE_DIM) to fit within the 16MB budget.","Reported multiple parameter trade-off experiments and their validation bpb results."],"artifact_size":"16MB"},{"pr_number":846,"title":"Record: Two-Pass N-gram Rescoring (val_bpb 0.1434)","author":"himanshudongre","status":"open","is_record":false,"val_bpb":0.1434,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.9)^2","description":"Uses a LeakyReLU squared activation variant in the transformer.","parameters":{"slope":0.9}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"embeddings_optimizer":"AdamW"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decays":[0.995,0.996,0.997]}}},{"category":"evaluation_technique","data":{"method":"two-pass n-gram rescoring","parameters":{"rescore_chunks":15,"cold_cache_rescoring":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"AdamW","temperature":0.98,"chunk_size":2048}}},{"category":"other","data":{"description":"Entropy-adaptive order-2-to-9 n-gram backoff with 4M hash buckets.","parameters":{"order_range":"2-9","hash_buckets":4000000}}}],"compression":null,"novel_contributions":["Two-pass n-gram evaluation that rescoring early chunks with the complete cache","Cold-cache penalty reduction for early validation chunks","Backward-looking compliant rescoring of tokens already evaluated in pass 1","Combination of score-first TTT, GPTQ-Int5 export, and n-gram rescoring in a single pipeline"],"artifact_size":"13.4 MB"},{"pr_number":849,"title":"Record: 11L Int5 + 6-Expert HedgeMixer + LeakyReLU(0.9)^2 + TTT (val_bpb=1.1105)","author":"dttdrv","status":"open","is_record":false,"val_bpb":1.1105,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all blocks"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3.5x MLP with LeakyReLU(0.9)^2 activation","parameters":{"hidden":1792}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied","parameters":null}},{"category":"architecture_modification","data":{"component":"GatedAttention","description":"Per-head learned scalar gate in attention","parameters":null}},{"category":"architecture_modification","data":{"component":"ValueResidual","description":"Per-block learned x0 injection / residual value path","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on all 11 layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism used in the model","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram feature embedding","parameters":{"size":8192,"dim":128}}},{"category":"architecture_modification","data":{"component":"ValueEmbedding","description":"Value embedding used on later layers","parameters":{"dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scaling modification","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net encoder-decoder","description":"U-Net style encoder-decoder with learned skip weights","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"adamw_weight_decay":0.04,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"momentum_schedule":"0.92->0.99","warmup_steps":1500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"type":"Tight SWA","scale_threshold":0.2,"every_n_steps":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":4,"optimizer":"AdamW","learning_rate":0.0005,"freeze_blocks":2,"byte_weighted":true,"polyak_averaging":0.998,"adaptive_cosine_lr":true}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Used with muP initialization scheme"}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":1500,"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"CROWN-Q","parameters":null}},{"category":"regularization","data":{"method":"Late QAT soft-round STE","parameters":{"quantization_bits":5,"scale_threshold":0.5}}},{"category":"other","data":{"description":"6-expert Hedge context mixer combining neural, unigram, bigram, trigram, 4-gram, and entropy experts","parameters":{"experts":6}}}],"compression":"zstd-22","novel_contributions":["6-expert HedgeMixer context mixer","LeakyReLU(0.9)^2 activation","GatedAttention with per-head learned scalar gates","ValueResidual and XSA across all 11 layers","Partial RoPE with 16/64 dimensions","BigramHash and ValueEmbedding features","Late QAT soft-round with CROWN-Q regularization","GPTQ int5 quantization with 3% pruning and zstd-22 compression","Score-first TTT with byte-weighted loss and Polyak averaging"],"artifact_size":"15.95 MB"},{"pr_number":850,"title":"Record: 0.3212 BPB — Complementary N-gram 65K + Int5 GPTQ + LoRA TTT","author":"callithyia","status":"open","is_record":false,"val_bpb":0.3212,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash 4096-bucket embedding used in the model architecture.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP with 3.0x expansion and LeakyReLU(0.9) squared.","parameters":{"expansion":3,"hidden":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Residual Learning","description":"Value Residual Learning applied across layers 1-10.","parameters":{"layers":[1,10]}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Gated Attention with bias 4.0 on all layers.","parameters":{"bias":4}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"newton_schulz":5,"per_group_banking":true,"encoder_lr":0.025,"decoder_lr":0.05}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"order-9 n-gram backoff cache","parameters":{"orders":[2,9],"chunk_size":65536,"cache_buckets":4000000,"entropy_adaptive_alpha_blending":true}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"qv_blocks":[9,10],"learning_rate":0.003,"polyak_decay":0.998,"score_first":true}}},{"category":"lr_schedule","data":{"method":"WSD","parameters":{"stable_fraction":0.75,"decay":"cosine"}}},{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"regularization","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"other","data":{"description":"Complementary training that downweights bigram-predictable tokens during training.","parameters":{"alpha":0.5}}},{"category":"other","data":{"description":"Late QAT with Soft-Round quantization-aware training triggered near the end of training.","parameters":{"trigger_fraction":0.85}}}],"compression":"lzma","novel_contributions":["Complementary training combined with an order-9 n-gram cache","65K-token chunks for more frequent cache refreshes","Full Hessian GPTQ int5 with LZMA compression","LoRA test-time training with Polyak averaging and score-first backward-looking protocol","Per-order entropy centers and multipliers for n-gram alpha computation"],"artifact_size":"~14.9 MB"},{"pr_number":851,"title":"submission: Order-Adaptive N-gram Cache — 0.2071 BPB","author":"RoyiRa","status":"open","is_record":false,"val_bpb":0.2071,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added hashed n-gram / bigram cache component with multi-order backoff and order-adaptive gating.","parameters":{"orders":"2-9","buckets":4000000,"dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA across all layers.","parameters":{"layers":11,"window_size":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP with LeakyReLU-based nonlinearity.","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Added VE128 in upper layers.","parameters":{"layers":"9-10"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.0001,"epochs":4}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":{"decay":0.998}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":4,"learning_rate":0.0001,"freeze_blocks":2,"chunk_tokens":131072}}},{"category":"lr_schedule","data":{"method":"adaptive cosine decay","parameters":{"adaptive_lr":true,"adaptive_lr_max":3}}},{"category":"regularization","data":{"method":"CROWN-Q penalty","parameters":{"lambda":0.01}}},{"category":"regularization","data":{"method":"pruning","parameters":{"pct":0.05,"type":"magnitude"}}},{"category":"other","data":{"description":"Order-adaptive entropy gating for n-gram cache with per-order thresholds and alpha multipliers.","parameters":{"high_order":9,"low_order":2}}},{"category":"other","data":{"description":"Full-chunk cache sharing across all GPU ranks to increase n-gram data per rank.","parameters":{"ranks":8}}},{"category":"other","data":{"description":"Adaptive temperature sharpening applied per token to compensate for under-confidence after quantization.","parameters":{"temperature":0.85}}},{"category":"other","data":{"description":"Online logit calibration using momentum-EMA of empirical frequency versus predicted probability.","parameters":null}},{"category":"other","data":{"description":"5-expert Hedge mixer combining neural, unigram, bigram, trigram, and entropy experts.","parameters":{"eta":0.1}}}],"compression":"zstd-22","novel_contributions":["Order-adaptive entropy gating for n-gram cache","Multi-order n-gram backoff cache with orders 2-9","Full-chunk cache sharing across 8 GPU ranks","Score-first test-time training with Polyak EMA","Adaptive temperature sharpening","Online logit calibration","5-expert Hedge mixer","CROWN-Q plus GPTQ int5 with pruning and zstd compression"],"artifact_size":"~15.5 MB"},{"pr_number":852,"title":"Hymba-11L: SOTA High-Density Takeover (1.1189 BPB)","author":"Prush69","status":"open","is_record":false,"val_bpb":1.1189,"architecture":"Hymba-11L hybrid architecture combining Selective Scan (Mamba) and Rotary Attention","quantization":"4-bit QAT","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"asynchronous_reduce_scatter":true,"asynchronous_all_gather":true,"orthogonalization":"Newton-Schulz 5","communication_computation_overlap":true}}},{"category":"architecture_modification","data":{"component":"Selective Scan (Mamba)","description":"Hybrid architecture component used alongside rotary attention for sequence modeling.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary attention used as part of the hybrid architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hybrid embedding system for vocab-efficiency and dimensionality reduction.","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"all"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"3D parameter banking with sharded slices stored in larger tensors to reduce kernel launch overhead and facilitate bulk sharding.","parameters":null}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation used to accelerate polynomial approximation in MLP blocks.","parameters":{"activation":"LeakyReLU(0.5)^2"}}}],"compression":"zstd-22","novel_contributions":["Parallel Muon optimizer with asynchronous reduce_scatter/all_gather to overlap communication and computation","3D parameter banking for sharded core weights","High-density 3-epoch test-time training enabled by reclaimed compute budget","4-bit TurboQuant QAT with entropy-flattened weights","LeakyReLU(0.5)^2 activation for faster convergence","BigramHash-based embedding dimensionality reduction"],"artifact_size":"14.5 MB"},{"pr_number":853,"title":"Record: Two-Pass Order-12 N-gram Backoff + 256K Chunks — 0.1315 BPB","author":"quietsmile","status":"open","is_record":false,"val_bpb":0.1315,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"two-pass n-gram rescoring","parameters":{"rescore_chunks":50,"pass_1_builds_complete_cache":true,"pass_2_uses_full_cache":true}}},{"category":"evaluation_technique","data":{"method":"n-gram backoff with extended order","parameters":{"max_order":12,"extended_hash_primes":true}}},{"category":"evaluation_technique","data":{"method":"larger chunked cache refresh","parameters":{"chunk_tokens":262144,"alpha_max":0.7}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":262144}},{"category":"test_time_training","data":{"method":"none","parameters":{"enabled":0}}}],"compression":null,"novel_contributions":["Combines two-pass n-gram rescoring with order-12 n-gram backoff and 256K token chunks","Rescores the first 50 cold-cache chunks using the complete cache from pass 1","Extends n-gram hash primes to support orders 10-12","Uses 256K chunks and alpha_max=0.70 for faster cache refresh","Maintains score-first compliance with no test-time training"],"artifact_size":"~13.4 MB"},{"pr_number":854,"title":"Non-record submission: MLP3x 9L 512d, 1.4530 bpb (1xRTX 4090)","author":"ivanontech","status":"open","is_record":false,"val_bpb":1.453,"architecture":"Standard GPT / Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP width to 3x the default feedforward size, using a 1536 hidden dimension instead of 1024.","parameters":{"layers":9,"model_dim":512,"heads":8,"kv_heads":4,"ffn_hidden_dim":1536}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}}],"compression":"zlib","novel_contributions":["Automated sweep across 11 configurations on a single RTX 4090.","Found that wider MLPs (3x) outperformed deeper stacking (12 layers) at this parameter budget.","Demonstrated competitive non-record performance on consumer hardware.","Used a 3x MLP multiplier with a 9-layer, 512-dimensional GPT-style model."],"artifact_size":"15.35 MB"},{"pr_number":855,"title":"Non-Record: First Viable 3-Loop Recurrence — Birkhoff + Output-LN + Timestep Scaling (val_bpb=1.2659, 14 eff layers from 6 unique blocks)","author":"aazizyan","status":"open","is_record":false,"val_bpb":1.2659,"architecture":"Transformer","quantization":"int8 post-quantization with float16 passthrough params","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses 1 prelude + 4 shared blocks repeated for 3 loops + 1 coda, yielding 14 effective layers from 6 unique blocks.","parameters":{"prelude":1,"shared_blocks":4,"loops":3,"coda":1}}},{"category":"architecture_modification","data":{"component":"Output-LN","description":"Moves RMSNorm from MLP input to MLP output so shared weights can distinguish loop iterations by magnitude.","parameters":null}},{"category":"architecture_modification","data":{"component":"Birkhoff mixing","description":"Replaces learned residual mixing with a sigmoid-constrained convex combination to keep spectral norm <= 1.","parameters":null}},{"category":"architecture_modification","data":{"component":"timestep scaling","description":"Per-iteration learned scale vectors applied across loops, capped to a fixed range.","parameters":{"cap":4}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights with float16 passthrough for timestep gammas"}},{"category":"other","data":{"description":"LeakyReLU(0.5)^2 activation used to preserve negative signal through quadratic activation.","parameters":{"negative_slope":0.5}}}],"compression":null,"novel_contributions":["First viable 3-loop recurrence in the competition","Output-LN to prevent magnitude erasure across recurrent iterations","Birkhoff-constrained residual mixing to stabilize recurrence and limit spectral blowup","Capped timestep scaling with float16 passthrough to reduce quantization gap","Demonstration that these techniques can reduce catastrophic quantization amplification in recurrent depth models"],"artifact_size":"10.7 MB"},{"pr_number":856,"title":"Progressive Depth + Hedge Mixer — val_bpb 1.1454","author":"iverbovoy","status":"open","is_record":false,"val_bpb":1.1454,"architecture":"Transformer","quantization":"int8","optimizer":"Muon + Adam","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaced unique transformer blocks with shared blocks repeated across depth to create effective deeper computation with fewer unique parameters.","parameters":{"blocks":3,"repeats":4,"effective_layers":12}}},{"category":"architecture_modification","data":{"component":"cross-repeat skip","description":"Adds a weighted residual from the previous repeat to make the recurrent depth stateful.","parameters":null}},{"category":"architecture_modification","data":{"component":"value embeddings","description":"Adds two extra embedding tables mixed into the residual stream at each effective layer with learned scales.","parameters":{"tables":2}}},{"category":"architecture_modification","data":{"component":"loop embedding","description":"Learns a per-layer vector added before each block as depth-wise positional encoding.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 4 KV heads with 8 attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"window":1024}}},{"category":"other","data":{"description":"Hedge Mixer online ensemble at eval time combining neural, unigram, bigram, trigram, and entropy experts via Hedge algorithm using only already-scored tokens.","parameters":{"experts":5}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2000}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"grad_clip_norm":0.3}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Progressive depth / depth recurrence with shared transformer blocks","Cross-Repeat Skip for stateful recurrent depth","Value embeddings mixed into the residual stream","Loop embedding as depth-wise positional encoding","Hedge Mixer online ensemble at evaluation time","Sliding-window evaluation with stride 256","Learning-rate and warmdown tuning"],"artifact_size":"15.88MB"},{"pr_number":857,"title":"Record: 15L Depth Recurrence + LeakyReLU² + Cosine TTT (3-seed mean val_bpb=1.1093)","author":"aruniyer","status":"open","is_record":false,"val_bpb":1.1093,"architecture":"Transformer","quantization":"int6 + zstd","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Ties layers 9-13 to share one physical block, creating 15 effective layers from 11 unique blocks.","parameters":{"layers":5,"effective_layers":15,"unique_blocks":11}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"LeakyReLU(0.5)^2","description":"Uses squared LeakyReLU activation to preserve negative gradient flow through the MLP.","parameters":{"negative_slope":0.5}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":20,"learning_rate":0.0005}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"phase":"test-time training","epochs":20}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention variant in the base architecture.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings.","parameters":{"train":16,"total":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Additional gating mechanism in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hashing component for token/feature processing.","parameters":{"size":2048}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}}],"compression":"zstd-22","novel_contributions":["BI-guided depth recurrence using Block Influence scores to identify redundant layers","Layer tying of positions 9-13 to share one physical block while preserving per-layer scalars","Deduplication-aware quantization/export that stores tied weights once with a reconstruction map","Combination of LeakyReLU(0.5)^2 with cosine test-time training","15 effective layers from 11 unique blocks within the artifact budget"],"artifact_size":"15.75 MB"},{"pr_number":858,"title":"11L 512d Int8+Zlib Baseline (val_bpb 1.2135, 3-seed)","author":"nickferrantelive","status":"open","is_record":false,"val_bpb":1.2135,"architecture":"Transformer","quantization":"int8 + zlib","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth","description":"Increased transformer depth from the default 9 layers to 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"tied embeddings","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"lr":0.04,"warmup_momentum_start":0.85,"warmup_steps":500}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"scope":"embeddings","lr":0.05}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"scope":"scalars","lr":0.04}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"lr_schedule","data":{"method":"warmup + warmdown","parameters":{"warmup_steps":20,"warmdown_iterations":1200}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"clip_norm":0.3}}}],"compression":"zlib","novel_contributions":["Scaled the baseline model from 9 to 11 transformer layers.","Demonstrated a stock baseline architecture that fits under the 16MB artifact cap using int8 quantization and zlib compression.","Reported 3-seed results with low variance on 8xH100 SXM hardware."],"artifact_size":"15.54 MB"},{"pr_number":859,"title":"Record: 0.1582 BPB — Learned Mixer Head + No TTT + Matrix LR 0.03","author":"bigbag","status":"open","is_record":false,"val_bpb":0.1582,"architecture":"Transformer","quantization":"mixed int5/int6 with GPTQ","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"learned mixer head","description":"A Linear(512 → 7) head predicts per-token expert mixing weights over the neural model and n-gram orders 2-7.","parameters":{"input_dim":512,"output_dim":7}}},{"category":"architecture_modification","data":{"component":"frozen n-gram oracle","description":"Precomputed n-gram tables from training data are used as a frozen lookup oracle during training.","parameters":{"orders":"2-7"}}},{"category":"architecture_modification","data":{"component":"MLP3.5x","description":"Transformer MLP width is 3.5x the model dimension.","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"MHA 8/8","description":"Multi-head attention configuration with 8 attention heads over 8 layers.","parameters":{"layers":8,"heads":8}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"model weights"}},{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"model weights"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"score-first backward-looking n-gram cache","parameters":{"orders":"2-7"}}},{"category":"test_time_training","data":{"method":"none","parameters":{"ttt_epochs":0}}},{"category":"lr_schedule","data":{"method":"matrix learning rate tuning","parameters":{"matrix_lr":0.03}}},{"category":"other","data":{"description":"Systematic hyperparameter screening across 79+ experiments to find the improved matrix learning rate.","parameters":{"experiments":79}}}],"compression":"zstd","novel_contributions":["Learned mixer head that predicts per-token expert weights","Removing TTT entirely while improving performance","Increasing MATRIX_LR from 0.025 to 0.03","Systematic screening of 79+ experiments to discover the better learning rate","Backward-looking score-first n-gram cache with learned mixing weights"],"artifact_size":"15.59 MB"},{"pr_number":861,"title":"Non-record: 11L Int5 QAT + Score-First TTT — val_bpb 1.1326 (15.51 MB)","author":"JoeProAI","status":"open","is_record":false,"val_bpb":1.13256182,"architecture":"11-layer U-Net GPT","quantization":"int5 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int5 QAT","bits":5,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer shared attention applied across all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding added to token embeddings.","parameters":{"buckets":4096,"dimensions":128}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"matrix_lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"scalars"}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0004,"epochs":1,"params":"MLP-only (up_proj, down_proj, gate_proj, scale)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":6000}}},{"category":"regularization","data":{"method":"weight pruning","parameters":{"sparsity":0.15,"description":"Prune smallest weights before quantization for better compression."}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"other","data":{"description":"Full U-Net style model with skip connections and SwiGLU MLPs.","parameters":{"encoder_layers":[0,1,2,3,4,5],"decoder_layers":[6,7,8,9,10],"dim":512,"heads":8,"mlp_hidden":1536}}}],"compression":"zstd-22","novel_contributions":["Int5 QAT with per-row scaling and percentile clipping","Score-first legal test-time training","Reduced MLP hidden size to fit under 16 MB","15% pre-quantization weight pruning for improved compression","Bigram hash embedding augmentation","XSA on all 11 layers","Extended warmdown for better int5 clustering"],"artifact_size":"15.51 MB"},{"pr_number":862,"title":"RECORD: Denseformer+VRL+XSA on last 4 layers+Gradient Clipping (pending 8xH100 eval)","author":"grim-hitman0XX","status":"open","val_bpb":1.3036,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"DenseFormer","description":"Depth-weighted average over current and all past layer representations, including embedding output.","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5) squared instead of ReLU squared in the MLP activation.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Caches the value tensor from layer 0 and blends it into later layers' value tensors with learned softmax-normalized scalars.","parameters":{"layers":"1-8"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-self attention applied to the last 4 layers to project out the self-value component from attention output.","parameters":{"layers":4}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":0.3}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"warmup_from":0.85,"warmup_steps":500}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":1200}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib-9","novel_contributions":["DenseFormer depth-weighted averaging across all previous layer representations","LeakyReLU(0.5) squared activation replacing ReLU squared","Value Residual Learning blending layer-0 values into later layers","Cross-self attention on the last 4 layers","Global gradient clipping at 0.3","int8 plus zlib artifact compression"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":864,"title":"Record: 11L Parallel Muon + N-gram Backoff Cache — val_bpb 0.2841 (3-seed mean)","author":"aryanbhosale","status":"closed","val_bpb":0.2841,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"parameter_banking":true,"batched_ns5":true}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses 3x LeakyReLU(0.5)^2 activation.","parameters":{"multiplier":3,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Custom gating component used in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component with 1024 buckets.","parameters":{"buckets":1024}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism includes gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA4","description":"XSA4 architectural component.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to 16 of 64 dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections are used.","parameters":null}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997}}},{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Eval-time backward-looking N-gram backoff cache with entropy-adaptive alpha blending and chunked score-then-update processing.","parameters":{"orders":"2-9","chunk_size":65000,"hash_buckets":4000000}}}],"compression":"zstd-22","novel_contributions":["Eval-time backward-looking N-gram backoff cache","Entropy-adaptive alpha blending between model and N-gram probabilities","Chunked score-then-update cache refresh every 65K tokens","Multi-order backoff with per-order weighting across orders 2-9","Parallel Muon with parameter banking and batched Newton-Schulz","Compact 11-layer Transformer with multiple custom architectural components"],"artifact_size":"~15.85 MB","prompt_version":"v2","is_record":false},{"pr_number":865,"title":"Record: 11L Parallel Muon + N-gram Backoff Cache — val_bpb 0.2841 (3-seed mean)","author":"aryanbhosale","status":"open","val_bpb":0.2841,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"parameter_banking":true,"batched_ns5":true}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped-query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses 3x LeakyReLU(0.5)^2.","parameters":{"multiplier":3,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding/component with size 1024.","parameters":{"dimensions":1024}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual pathway is used.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism includes gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA4 component is included.","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to 16/64 dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections are used.","parameters":null}},{"category":"architecture_modification","data":{"component":"OrthoInit","description":"Orthogonal initialization is used.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Eval-time backward-looking N-gram backoff cache with entropy-adaptive alpha blending and chunked score-then-update processing.","parameters":{"order_range":"2-9","chunk_size_tokens":65000,"hash_buckets":4000000,"backward_looking":true,"score_first":true}}}],"compression":"zstd-22","novel_contributions":["Eval-time backward-looking N-gram backoff cache","Entropy-adaptive alpha blending between model and N-gram probabilities","Chunked score-then-update cache refresh every 65K tokens","Multi-order backoff with per-order weighting across orders 2-9","Parallel Muon with parameter banking and batched Newton-Schulz","Combined architecture stack with SmearGate, BigramHash, GQA, Value Residual, and gated attention"],"artifact_size":"~15.85 MB","prompt_version":"v2","is_record":false},{"pr_number":868,"title":"Record: Budgeted Two-Pass N-gram Backoff — val_bpb 0.11814796 (3-seed mean)","author":"aamodbhatt","status":"open","val_bpb":0.11814796,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"two_pass":true,"rescore_chunks":72,"order":12}}},{"category":"other","data":{"description":"Budgeted two-pass tuner that dynamically caps rescoring chunks based on observed throughput and remaining evaluation budget","parameters":{"target_seconds":580,"safety_seconds":8}}},{"category":"evaluation_technique","data":{"method":"score-first eval","parameters":{"enabled":true}}}],"compression":null,"novel_contributions":["Budgeted two-pass N-gram backoff evaluation","Dynamic rescoring chunk cap based on eval budget","Order-12 N-gram backoff interpolation with weighted high-order backoff","Score-first evaluation path maintained without tokenizer or dataset changes"],"artifact_size":"13.44 MB","prompt_version":"v2","is_record":false},{"pr_number":869,"title":"Record: N-gram Two-Pass Score-First Evaluation (0.1290 BPB)","author":"THUQiXuan","status":"open","val_bpb":0.129,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"other","data":{"description":"Two-pass score-first N-gram evaluation with full-cache rescoring over all chunks.","parameters":{"chunks":63,"max_order":9,"buckets":4194304}}},{"category":"other","data":{"description":"Order-Adaptive Entropy Gating (OAEG) for mixing neural and N-gram predictions.","parameters":{"alpha_max":0.7,"order_mults":[0.3,0.3,0.97,2,2,2,2,2]}}}],"compression":null,"novel_contributions":["Score-first two-pass N-gram evaluation with full-cache rescoring","Legal use of validation-data N-gram cache built sequentially before rescoring","Order-Adaptive Entropy Gating to mix neural and N-gram probabilities","Evaluation stride increased to 64 for faster inference with unchanged BPB","9-gram cache over all 63 validation chunks"],"artifact_size":"12.5MB","prompt_version":"v2","is_record":false},{"pr_number":870,"title":"Record: BROADSIDE — Full-Rescore N-gram Cache (val_bpb 0.0935)","author":"simon-marcus","status":"open","val_bpb":0.0935,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention in the transformer backbone.","parameters":{"layers":11,"dimensions":512,"kv_heads":4,"query_heads":8}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 activation in the MLP.","parameters":{"negative_slope":0.5}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"parallel":true,"adamw":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"pass1_store_probs":true,"pass2_rescore_all_tokens":true}}},{"category":"other","data":{"description":"Two-pass n-gram rescoring with a full cache built vectorially from all validation tokens, then rescoring every token using pure numpy.","parameters":{"ngram_orders":"2-12","cache_build":"np.bincount","rescore_scope":"all_tokens"}}}],"compression":"lzma","novel_contributions":["Full-rescore two-pass n-gram cache that rescored all tokens instead of only a subset of chunks","Vectorized complete cache construction using np.bincount","Pure numpy pass-2 rescoring of every token with stored per-token probabilities and entropies","Entropy-adaptive alpha blending with per-order multipliers","Sliding-window pass 1 that stores model probabilities for later rescoring"],"artifact_size":"15.97 MB","prompt_version":"v2","is_record":false},{"pr_number":871,"title":"Non-record (WIP): Multi-Order N-gram Backoff — val_bpb=0.8004 (1xH100 proxy)","author":"greqone","status":"open","val_bpb":0.8004,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram embedding component.","parameters":{"buckets":4096,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual pathway in the attention stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism with gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"train":16,"total":64}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale modification.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU activation with squared variant.","parameters":{"multiplier":"3x","squared":true,"slope":0.5}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP/attn"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"lr":0.03}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":"3%"}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"evaluation_technique","data":{"method":"score-first n-gram backoff","parameters":{"orders":"2-7","entropy_adaptive_alpha":true,"min_count":2,"hash_buckets":4000000}}}],"compression":"zstd-22","novel_contributions":["Multi-order backward-looking n-gram backoff evaluation cache","Entropy-adaptive alpha for mixing model and n-gram scores","Score-first legal evaluation that updates cache only after scoring each token","Highest-matching-order backoff from 7-gram to bigram","Proxy-validated 1xH100 run showing 0.8004 val_bpb"],"artifact_size":"15.18 MB","prompt_version":"v2","is_record":false},{"pr_number":872,"title":"E2E TTT: End-to-End Test-Time Training with Meta-Learning (1.0467 BPB)","author":"gowtham0992","status":"closed","val_bpb":1.0467,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"inner_loop":"gradient descent on MLP weights","meta_learning":true}}},{"category":"other","data":{"description":"MAML-style meta-learning with outer-loop backpropagation through inner gradient steps using create_graph=True to optimize initial weights for test-time adaptation","parameters":{"final_training_fraction":0.2}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"cache":["5-gram backoff","kNN-LM"]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP activation uses LeakyReLU squared","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 used in later layers","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value Residual Learning","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_interval":50}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03,"timing":"post-quant"}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":128}}],"compression":"zstd-22","novel_contributions":["End-to-end test-time training with MAML-style meta-learning and backpropagation through inner adaptation steps","Hidden-state kNN-LM cache over final-layer hidden states for semantic repetition beyond exact n-grams","Online 5-gram cache with adaptive, pre-committed confidence-based mixing","GPTQ calibration performed within the training budget"],"artifact_size":"13.12 MB","prompt_version":"v2","is_record":false},{"pr_number":873,"title":"E2E TTT: End-to-End Test-Time Training with Meta-Learning (1.0467 BPB)","author":"gowtham0992","status":"open","val_bpb":1.0467,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"inner_learning_rate":0.001}}},{"category":"other","data":{"description":"MAML-style end-to-end test-time training with meta-learning; outer loop backpropagates through inner gradient steps using create_graph=True to optimize the initial weights for adaptation.","parameters":{"phased_training":true,"meta_learning_final_fraction":0.2}}},{"category":"architecture_modification","data":{"component":"MLP","description":"Inner-loop adaptation updates only the MLP weights of the last 3 blocks while freezing attention, embeddings, and norms.","parameters":{"blocks":3}}},{"category":"evaluation_technique","data":{"method":"vectorized 7-gram backoff + kNN-LM","parameters":{"score_first":true}}},{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"artifact"}}],"compression":null,"novel_contributions":["First end-to-end test-time training submission in the competition","MAML-style meta-learning that backpropagates through inner adaptation steps","Phased training with a final meta-learning fine-tuning stage","Score-first TTT combined with vectorized 7-gram backoff and kNN-LM evaluation","GPTQ quantization to fit the artifact size limit"],"artifact_size":"13.12 MB","prompt_version":"v2","is_record":false},{"pr_number":874,"title":"Non-record: Random Linear Maps + Learned Adapters (val_bpb=1.607, 1.92MB artifact)","author":"fielding","status":"open","val_bpb":1.607,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"RandomLinearWithAdapter","description":"Uses fixed-seed random base weights for linear layers, with learned low-rank adapters added on top; base weights are regenerated at load time and not stored in the artifact.","parameters":{"rank":16}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion with relu-squared activation.","parameters":{"mlp_multiplier":3}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"window_size":64}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adamw":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":64}}],"compression":null,"novel_contributions":["Random base linear projections regenerated from a fixed seed so they do not count toward artifact size","Learned low-rank adapters on top of random linear maps","Demonstration that a mostly-random-weight Transformer can still achieve competitive language modeling performance","Depth sweep showing a 4-5 layer sweet spot under a fixed training-time budget","Rank sweep showing smaller adapters can outperform larger ones under a fixed compute budget","Sliding-window evaluation improves reported BPB over standard float evaluation in the long run"],"artifact_size":"1.92MB","prompt_version":"v2","is_record":false},{"pr_number":875,"title":"New Record: Pure Neural GDN 1.0226 BPB (shalyhinpavel)","author":"shalyhinpavel","status":"open","val_bpb":1.0226,"architecture":"Hybrid","quantization":"int8","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Replaced standard attention with GatedDeltaBlock / Gated DeltaNet layers; described as 8 DeltaNet layers plus a final standard attention layer.","parameters":{"layers":8,"final_attention_layer":1,"n_embd":384}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Standard embedding and lm_head tying used.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"fused":true}}},{"category":"other","data":{"description":"Dynamic batch size and chunk size curriculum based on elapsed time; global batch schedule 64 -> 128 -> 192.","parameters":{"global_batch_schedule":[64,128,192]}}},{"category":"other","data":{"description":"FastLoader with non-blocking prefetching and pin_memory to reduce dataloader bottlenecks.","parameters":null}},{"category":"other","data":{"description":"Strict allow_tf32 enforcement for hardware throughput optimization.","parameters":null}}],"compression":"zlib","novel_contributions":["Pure neural Gated DeltaNet baseline without TTT or external cache","Dynamic batch size and chunk size curriculum based on elapsed time","FastLoader with non-blocking prefetching and pinned memory","Int8-compressed sub-16MB artifact with 3-seed mean validation BPB of 1.0226"],"artifact_size":"14.1 MB","prompt_version":"v2","is_record":false},{"pr_number":876,"title":"10L + Two-Pass Order-11 N-gram Backoff (0.5863 BPB)","author":"Bortlesboat","status":"open","val_bpb":0.5863,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared MLP activation.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual connections in the transformer blocks.","parameters":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP and attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.03}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"pass_1":"score-first","pass_2":"frozen cache rescore"}}},{"category":"other","data":{"description":"Two-pass order-11 n-gram backoff with hashed cache and entropy gating during evaluation.","parameters":{"orders":[2,11]}}},{"category":"other","data":{"description":"Order-adaptive entropy gating that trusts higher-order n-gram matches more when model uncertainty is lower.","parameters":null}}],"compression":"zstd-22","novel_contributions":["Two-pass evaluation with a frozen-cache rescore of already-evaluated tokens","Order-11 hashed n-gram backoff cache with order-adaptive entropy gating","Score-first sliding window evaluation that updates cache only after scoring","Mixed int5 MLP / int6 attention quantization with zstd compression","EMA-averaged training with Muon optimizer and GQA/XSA-based transformer architecture"],"artifact_size":"15.4-15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":880,"title":"Record: PhraseCache + OrderAdaptive N-gram + RegimeTracker — val_bpb 0.1003 (3-seed mean)","author":"RoyiRa","status":"open","val_bpb":0.1003,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"AdamW","training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":2,"learning_rate":0.0001,"freeze_blocks":2}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.998}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.0001}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"adaptive":true}}},{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pct":0.05}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component used in the model architecture.","parameters":{"dim":128,"size":6144}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers with windowed setting.","parameters":{"layers":11,"ws":8}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 module used in later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP with LeakyReLU activation.","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5)^2 activation used in the MLP.","parameters":{"slope":0.5}}},{"category":"other","data":{"description":"Long Phrase Cache using variable-length suffix matching with rolling hashes.","parameters":{"probes":[48,36,28,20,16]}}},{"category":"other","data":{"description":"Order-adaptive entropy gating for n-gram cache blending.","parameters":{"orders":[2,9]}}},{"category":"other","data":{"description":"Online regime tracker that modulates alpha based on detected text regime.","parameters":{"window":4096,"alpha_multiplier_range":[0.7,1.5]}}}],"compression":"zstd-22","novel_contributions":["Long Phrase Cache with variable-length suffix matching","Order-Adaptive Entropy Gating","Online Regime Tracker","3-seed mean val_bpb of 0.1003"],"artifact_size":"~15.7 MB","prompt_version":"v2","is_record":false},{"pr_number":881,"title":"Record: WaterLOO — Full-Rescore N-gram Cache with Self-Exclusion (val_bpb 0.0990)","author":"simon-marcus","status":"open","val_bpb":0.099,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Full-rescore two-pass n-gram cache evaluation over the entire validation stream using a prebuilt global cache","parameters":{"ngram_orders":"2-12","full_stream_rescore":true}}},{"category":"other","data":{"description":"Leave-one-out self-exclusion during pass 2 by subtracting each token's own context and context-target counts before scoring","parameters":null}},{"category":"other","data":{"description":"Vectorized cache construction using np.bincount","parameters":null}},{"category":"other","data":{"description":"Complementary training enabled","parameters":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":null,"novel_contributions":["Full-rescore n-gram cache evaluated over the entire validation stream","Leave-one-out self-exclusion that removes each token's own cache contribution during rescoring","Fast vectorized cache construction with np.bincount","Demonstration that the full-rescore architecture remains strong even without self-inclusion"],"artifact_size":"~15.87 MB","prompt_version":"v2","is_record":false},{"pr_number":882,"title":"Non-record: LeakyReLU(0.5)^2 + TrigramHash on PR414 stack (1.3762 bpb, 1xA100)","author":"IshiPareek","status":"open","val_bpb":1.3762,"architecture":"Transformer","quantization":"GPTQ-lite","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Replaced ReLU² with LeakyReLU(0.5)² in the MLP to keep neurons active during training.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Groups 3 consecutive tokens into 8192 buckets before attention to add richer local context.","parameters":{"buckets":8192,"n_gram":3}}}],"compression":null,"novel_contributions":["LeakyReLU(0.5)^2 activation in the MLP","TrigramHash token grouping into 8192 buckets before attention","Built on PR 414 stack with EMA, GPTQ-lite, warmdown3500, and QAT@0.15"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":883,"title":"Order-13 N-gram Oracle + Score-First TTT (0.0308 BPB)","author":"THUQiXuan","status":"open","val_bpb":0.03083,"architecture":"Transformer","quantization":"int6","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"BackoffNgramMixer","description":"GPU-vectorized logistic context mixer combining neural logits with order-2 through order-13 n-gram backoff probabilities.","parameters":{"max_order":13,"experts":13}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"phases":2}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"final artifact"}},{"category":"compression","data":{"method":"custom","level":null}}],"compression":null,"novel_contributions":["Pre-filling order-2 through order-13 n-gram tables from the full training set before the training loop","Score-first test-time training where each validation chunk is fully scored before any weight updates","A pretrained n-gram oracle passed into evaluation to eliminate cold-start behavior","GPU-vectorized backoff n-gram mixer combining neural and n-gram predictions"],"artifact_size":"3.66MB","prompt_version":"v2","is_record":false},{"pr_number":884,"title":"submission: LeakyReLU2 + TrigramHashEmbedding (1.1448 bpb)","author":"BhatiaUday","status":"open","val_bpb":1.1448,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"TrigramHash","description":"Hash-based trigram embedding that XOR-hashes 3 consecutive token IDs into 2048 buckets and projects to model dimension.","parameters":{"vocab_size":2048,"trigram_dim":48,"project_dim":512}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 in the MLP to preserve negative gradient flow.","parameters":{"negative_slope":0.5}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"decay":0.997,"swa_interval_steps":50}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmup_momentum_start":0.92,"warmup_steps":1500}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"schedule":"1/sqrt(layer+1)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"other","data":{"description":"Uses gradient accumulation scaled by world size to keep effective batch size constant across 1-GPU and 8-GPU runs.","parameters":{"grad_accum_formula":"8 // world_size"}}}],"compression":"lzma","novel_contributions":["TrigramHashEmbedding extending BigramHash to 3-token context","XOR prime hashing of trigrams into 2048 buckets","LeakyReLU(0.5)^2 MLP activation","Proportional wallclock validation on 1×H100 to match 8×H100 training trajectory","EMA + Tight SWA with GPTQ-lite int6 and LZMA compression"],"artifact_size":"~15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":885,"title":"Record: LeakyReLU(0.9)² + N-gram Cache + Entropy-Reg QAT — val_bpb 0.9958 (3-seed mean)","author":"lolrazh","status":"open","val_bpb":0.9958,"architecture":"Transformer","quantization":"mixed int5/int6 QAT","optimizer":"SGD","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":null,"context_length":null}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":3,"chunk_size":32768}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Backward-looking n-gram cache / hash tables used during evaluation to blend cached predictions with neural outputs.","parameters":{"orders":"2-7","buckets_per_order":4000000,"alpha":0.2}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU with slope 0.9 followed by squaring.","parameters":{"negative_slope":0.9}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"front3_back1_6_middle5"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"regularization","data":{"method":"entropy-reg QAT","parameters":{"loss_term":"residual.pow(2).mean()","applied_when":"lr_scale < 0.15"}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"grad_clip":1}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"across_chunks":true}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":32768}},{"category":"regularization","data":{"method":"LN scale","parameters":null}}],"compression":"lzma","novel_contributions":["Backward-looking 7-gram evaluation cache with score-first updating","Entropy-regularized QAT to reduce quantization gap","Mixed int5/int6 quantization with layer-sensitive bit allocation","LeakyReLU(0.9) squared activation choice","Score-first test-time training on already-scored chunks"],"artifact_size":"~14.0 MB","prompt_version":"v2","is_record":false},{"pr_number":886,"title":"RFC: A framework for deciding the n-gram question","author":"abaybektursun","status":"open","val_bpb":0.3779,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table based n-gram caching/mixing built from already-scored tokens during evaluation.","parameters":{"orders":"2-9","buckets":4000000}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"epochs":8}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}}],"compression":null,"novel_contributions":["Eval-time n-gram caching/mixing that preserves strict causality by using only already-scored tokens","Demonstration that a pure n-gram cache can outperform the neural base model on FineWeb validation","Finding that smaller hash tables with more collisions can improve BPB because collisions help counts cross the min_count threshold","Global all-reduce synchronization of n-gram hash table deltas across GPUs to avoid cache fragmentation","Proposal to cap eval-time memory or per-token latency as a competition rule clarification"],"artifact_size":"16MB","prompt_version":"v2","is_record":false},{"pr_number":887,"title":"Record: N-gram Backoff + VRL + LeakyReLU² — val_bpb 0.9642 (3-seed mean)","author":"anthony-maio","status":"closed","val_bpb":0.9642,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared MLP activation used in the feedforward network.","parameters":{"power":2,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning applied in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding dimension set to 128.","parameters":{"dimensions":128}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature with 2048 buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA attention variant used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"train_length":16,"eval_length":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component included in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the network.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"ngram_backoff":true,"orders":"2-7"}}}],"compression":"lzma","novel_contributions":["Multi-order causal n-gram backoff cache built from already-scored tokens","Entropy-adaptive mixing between neural predictions and n-gram predictions","Highest-order-wins backoff across 2-7 gram contexts with min_count gating","Score-first evaluation compliance with post-token table updates only","Combination of VRL, LeakyReLU², and compressed GPTQ-lite int6 model artifact"],"artifact_size":"~15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":888,"title":"Record: Fast Full-Rescore N-gram — val_bpb 0.09420444 (3-seed mean)","author":"aamodbhatt","status":"open","val_bpb":0.09420444,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"full-rescore","parameters":{"two_pass":true,"score_first":true}}},{"category":"other","data":{"description":"Score-first N-gram evaluation that stores per-token neural probabilities/entropy in pass 1, builds a full N-gram cache from scored tokens, and rescoring pass 2 runs across all chunks without a second neural forward pass.","parameters":{"pass1_records_token_stats":true,"pass2_no_second_forward_pass":true}}},{"category":"other","data":{"description":"Robustness controls for N-gram rescoring using self-exclusion and confidence-gain gating.","parameters":{"NGRAM_SELF_EXCLUDE":0,"NGRAM_COUNT_CONF_GAIN":0}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":262144}}],"compression":null,"novel_contributions":["Added a score-first full-rescore path in N-gram evaluation","Stored per-token neural probabilities and entropy during the first pass","Built a full N-gram cache from scored tokens","Rescored all chunks in pass 2 without a second neural forward pass","Added robustness knobs for self-exclusion and confidence-gain gating","Achieved a 3-seed mean val_bpb of 0.09420444 under the 16MB submission limit"],"artifact_size":"13.44 MB","prompt_version":"v2","is_record":false},{"pr_number":889,"title":"Record: N-gram Backoff + VRL + LeakyReLU² — val_bpb 0.9642 (3-seed mean)","author":"anthony-maio","status":"open","val_bpb":0.9642,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses squared LeakyReLU activation in the MLP.","parameters":{"power":2,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning module.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding dimension setting.","parameters":{"dimensions":128}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature with 2048 buckets.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA4 attention/sequence module.","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding applied to a subset of dimensions.","parameters":{"train":16,"eval":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the network.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization."}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Entropy-adaptive n-gram backoff cache built causally from already-scored tokens, mixing neural and n-gram probabilities with score-first updates.","parameters":{"orders":"2-7gram","alpha_formula":"0.05 + 0.55 * sigmoid(2*(H-4))","min_count":2,"hash_buckets_per_order":4000000}}}],"compression":"lzma","novel_contributions":["Entropy-adaptive multi-order n-gram backoff cache","Score-first causal n-gram table updates during evaluation","Linear interpolation of neural and n-gram probabilities based on model entropy","Multi-seed record result with 0.9642 val_bpb mean"],"artifact_size":"~15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":890,"title":"Record: Order-Adaptive 9-gram Backoff + Distributed Prefill — val_bpb 0.4405 (3-seed mean)","author":"sofiabod","status":"open","val_bpb":0.4405,"architecture":"Transformer","quantization":"int5 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers of the transformer.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary position embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash module used in the architecture.","parameters":{"buckets":4096,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement on later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"per-row"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"other","data":{"description":"Order-adaptive entropy-gated multi-order n-gram backoff cache with per-order thresholds and distributed cache prefill during evaluation.","parameters":{"orders":"2-9","hash_buckets_per_order":4000000,"min_count":2,"alpha_range":[0.05,0.6]}}}],"compression":"zstd-22","novel_contributions":["Order-adaptive entropy-gated 9-gram backoff cache","Per-order entropy thresholds for blending neural and n-gram predictions","Distributed cache prefill to avoid cold-start caches across ranks","Score-first backward-looking evaluation cache","Multi-order backoff from 2-gram through 9-gram"],"artifact_size":"15,101,371 bytes","prompt_version":"v2","is_record":false},{"pr_number":891,"title":"Non-record: Technique Taxonomy — Tier List, Interaction Effects, and BPB Verification Tools","author":"robbiebusinessacc","status":"closed","val_bpb":1.1428,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expand MLP width from 2x to 3x.","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.04}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for better-conditioned matrices."}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate mixing current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram pair representations.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation.","parameters":{"negative_slope":0.5}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"int6"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Apply RoPE to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer)"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embeddings with dimension 128.","parameters":{"dimensions":128}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"chunk_size":256,"freeze_blocks":0}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":"zstd-22","novel_contributions":["Technique tier list with measured BPB deltas and source PRs","Interaction effects matrix showing sub-additive technique combinations","BPB verification checklist for formula and causal correctness","Collected n-gram legality rulings and organizer guidance in one place","Negative results index linking to prior research PRs","Parameter budget calculator with verified configurations"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":892,"title":"Non-record: Technique Taxonomy — Tier List, Interaction Effects, and BPB Verification Tools","author":"robbiebusinessacc","status":"open","val_bpb":1.1428,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"MLP weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expand MLP width from 2x to 3x.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tie embeddings to reduce parameter count.","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for better-conditioned matrices."}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned gate mixing current and previous token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashed bigram pair representations.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention variant applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation.","parameters":{"slope":0.5}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"int6"}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Apply RoPE to only part of the dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer)"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embeddings with dimension 128.","parameters":{"dimensions":128}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":null,"scope":"block weights"}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"chunk_size":256,"freeze_blocks":0}}}],"compression":"zstd-22","novel_contributions":["Synthesized technique taxonomy across merged and open PRs","Tier list of techniques ranked by marginal BPB improvement","Interaction effects matrix showing sub-additive and near-additive combinations","BPB verification checklist for formula and causality checks","Collected n-gram legality rulings and practical guidance","Parameter budget calculator with verified configurations","Negative results index linking to prior research PRs"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":893,"title":"Record: Two-Pass Order-12 N-gram Backoff + Parallel Muon — val_bpb 0.1310 (3-seed)","author":"aryanbhosale","status":"open","val_bpb":0.131,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"passes":2,"cache_orders":"2-12","cold_cache_chunks":50}}},{"category":"architecture_modification","data":{"component":"Parallel Muon","description":"Parallel Muon optimizer with parameter banking and batched Newton-Schulz.","parameters":{"layers":11,"dimensions":512}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature module.","parameters":{"size":1024}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism with gating.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Residual value pathway in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA4 attention/sequence module.","parameters":{"variant":"XSA4"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings.","parameters":{"16/64":true}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU squared activation.","parameters":{"mlp_multiplier":"3x","power":2,"slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":null,"eval_length":65536}}],"compression":"zstd-22","novel_contributions":["Two-pass evaluation with order-12 N-gram backoff rescoring","Entropy-adaptive alpha blending for N-gram/model interpolation","Backward-looking N-gram cache updated only after scoring","Parallel Muon optimization with parameter banking","Large hash-based N-gram cache over validation tokens"],"artifact_size":"~15.85 MB","prompt_version":"v2","is_record":false},{"pr_number":894,"title":"Non-record: Semantic Tube Regularization — Geometry Improves, BPB Doesn't (Compute–Regularization Tradeoff)","author":"albertorkive","status":"open","val_bpb":1.1821,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"alpha":0.997,"from_init":true}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA enabled on the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate enabled in the backbone","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"NTK-aware RoPE","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"semantic tube regularization","parameters":{"lambda_tube":0.0005,"loss":"second-difference penalty on hidden-state trajectories"}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"sequence_length","data":{"train_length":1536,"eval_length":1536}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":null,"novel_contributions":["Semantic tube regularization using a second-difference penalty on hidden-state trajectories","Discovery that the regularizer improves bpb in cheaper proxy runs but becomes neutral or slightly harmful on the full compiled fast path","Demonstration that the regularizer strongly reduces hidden-state curvature and improves drift alignment without representation collapse","Evidence for a compute-budget-dependent regularization tradeoff in competition settings","Matched discovery and confirmatory runs across seq1024, seq1536, and seq2048"],"artifact_size":"21.45 MB","prompt_version":"v2","is_record":false},{"pr_number":895,"title":"Non-record: 4-Hour Progressive Depth — val_bpb 1.0889","author":"iverbovoy","status":"open","val_bpb":1.0889,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Replaced unique transformer blocks with 3 shared blocks repeated across depth, using progressive repeats to reach 15 effective layers.","parameters":{"shared_blocks":3,"repeats":[2,3,4,5],"effective_layers":15}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shared weights across repeated blocks instead of unique layers.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Removed baseline U-Net skip connections; Cross-Repeat Skip was used instead.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Added value embeddings mixed into the residual stream at each effective layer.","parameters":{"tables":2}}},{"category":"architecture_modification","data":{"component":"other","description":"Cross-Repeat Skip: each block receives a weighted residual from its output in the previous repeat, making recurrence stateful.","parameters":{"learned_scales":true}}},{"category":"architecture_modification","data":{"component":"other","description":"Loop embedding: learned per-layer vector added before each block as depth-wise positional encoding.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":38}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":256,"window":1024}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"Adam":true}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Progressive depth recurrence scaling study with shared-weight recurrence","Cross-Repeat Skip to make recurrence stateful","Value embeddings mixed into the residual stream","Loop embedding as depth-wise positional encoding","Large-scale SWA over 38 checkpoints","Hedge Mixer evaluation adapted from prior submissions"],"artifact_size":"12.83MB","prompt_version":"v2","is_record":false},{"pr_number":896,"title":"[Non-Record] JEPA Self-Distillation with EMA Target Encoder for Autoregressive LM (val_bpb: 1.19) | Current Noisy/Negative Result","author":"MVPandey","status":"open","val_bpb":1.1896,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.9995}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections in a U-Net style","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation with squared variant mentioned in the backbone","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times expanded MLP","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"QK RMSNorm","description":"RMSNorm applied to QK projections","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"cap":30}}},{"category":"regularization","data":{"method":"VICReg","parameters":null}},{"category":"architecture_modification","data":{"component":"predictor MLP","description":"Training-only predictor network for JEPA latent prediction","parameters":{"layers":2,"dimensions":256}}},{"category":"architecture_modification","data":{"component":"projection heads","description":"Context and target projection heads for JEPA","parameters":{"input_dim":512,"output_dim":256}}},{"category":"lr_schedule","data":{"method":"linear warmup","parameters":{"warmup_steps":200}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":"lzma","novel_contributions":["JEPA self-distillation for autoregressive language modeling using an EMA target encoder","Controlled A/B comparison against a vanilla cross-entropy baseline under matched seed, hardware, and wall-clock budget","Identification that JEPA latent prediction provides little benefit over next-token cross-entropy for BPE token prediction","Training-only JEPA auxiliary components with zero inference cost in the saved artifact","Empirical analysis of VICReg placement, EMA decay, JEPA loss weighting, and warmup stability","Discovery and correction of a quantization bug affecting artifact size reporting"],"artifact_size":"16.3MB","prompt_version":"v2","is_record":false},{"pr_number":898,"title":"Frequency-Weighted Embedding Quantization (1.1231 BPB)","author":"pattern4bots","status":"open","val_bpb":1.1231,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}}],"compression":null,"novel_contributions":["Frequency-weighted embedding quantization based on token frequency","Assigning int8 precision to the top 100 most frequent tokens","Assigning int6 precision to the remaining embedding rows","Separate dequantization path for mixed-precision embeddings","Using token frequency analysis to prioritize precision where it affects most text"],"artifact_size":"15.8 MB","prompt_version":"v2","is_record":false},{"pr_number":900,"title":"Record: Two-Level Dirichlet Posterior Mixing with Per-Order OBCL -- 0.1156 BPB","author":"Robby955","status":"open","val_bpb":0.11559,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer/shared transformer blocks used as part of the EBLS architecture.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5)^2 MLP activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"3 shared transformer blocks looped 3 times for 9 effective layers plus 2 unique layers.","parameters":{"shared_blocks":3,"loops":3,"total_layers":11}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times-expanded MLP.","parameters":null}},{"category":"other","data":{"description":"Two-level Dirichlet posterior mixing: neural -> n-gram -> phrase hierarchy.","parameters":{"phrase_probes":[20,16],"ngram_orders":[2,15]}}},{"category":"other","data":{"description":"Per-order concentration learning via Bayesian Online Concentration Learning (OBCL).","parameters":{"orders":[2,15]}}},{"category":"other","data":{"description":"Complementary training to downweight loss on n-gram-predictable tokens.","parameters":{"alpha":0.5,"orders":[2,5],"warmup_steps":200}}}],"compression":"lzma","novel_contributions":["Two-level Dirichlet posterior mixing with a neural base measure","Per-order OBCL-learned concentrations for n-gram backoff","Dirichlet-smoothed phrase suffix matching at probe lengths 20 and 16","Demonstration that Dirichlet mixing is far superior to linear interpolation at the phrase level","Combined neural -> n-gram -> phrase Bayesian hierarchy"],"artifact_size":"14.9 MB","prompt_version":"v2","is_record":false},{"pr_number":901,"title":"record: 10L d496 WarmDown3500 SWA — val_bpb 1.1590 (1xH100 proxy)","author":"Hilo-Hilo","status":"open","val_bpb":1.159,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.4,"every":50}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}}],"compression":"zlib","novel_contributions":["Environment-only tuning with stock train_gpt.py and no code changes","Reduced model dimension to 496 to fit under the 16MB artifact limit","Extended warmdown schedule to 3500 iterations","Used SWA with a 0.4 start fraction and 50-step averaging interval","Disabled TTT to keep evaluation fast","Reported a 1xH100 proxy result for an unverified 8xH100 configuration"],"artifact_size":"15.94 MB","prompt_version":"v2","is_record":false},{"pr_number":902,"title":"Add classical doc-copy 16.3M lzma submission","author":"Muhtasham","status":"open","val_bpb":1.81114207,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"doc_copy_ctx2","description":"Document-local copy expert over a discounted hashed 4-gram backoff chain, with active scoring path effectively using doc_copy_ctx2 only.","parameters":{"doc_copy_contexts":2,"ngram_contexts":3}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"sequence_length","data":{"train_length":16300000,"eval_length":null}},{"category":"other","data":{"description":"Packed 10-bit follower token storage to reduce artifact size.","parameters":{"bits":10}}}],"compression":"lzma","novel_contributions":["Document-local copy expert over a discounted hashed 4-gram backoff chain","Packed 10-bit follower token storage","lzma state compression to fit under the 16MB cap","Artifact-only evaluation on the official fineweb_val_* split","No training-shard access during final evaluation"],"artifact_size":"15,705,009 bytes","prompt_version":"v2","is_record":false},{"pr_number":903,"title":"[Notable Non-Record Submission] To JEPA or Not to JEPA: That Is Le Question (32.8M LeWorldModel Mamba2 Style Text Implementation - 1.2064 BPB )","author":"CiprianFlorin-Ifrim","status":"open","val_bpb":1.2064,"architecture":"Mamba","quantization":"mixed int4/fp8 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input embeddings and output head to reduce parameter count, especially for BPE vocabularies.","parameters":{"vocab_size":8192}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections with LIFO skip stack and residual mixing from the embedding output.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Squared ReLU MLP activation used for channel mixing.","parameters":null}},{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"large weights"}},{"category":"quantization","data":{"method":"FP8","bits":8,"scope":"embeddings and medium matrices"}},{"category":"compression","data":{"method":"brotli","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"sequence_length","data":{"train_length":8192,"eval_length":8192}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"cap":15}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"beta1":0.9,"beta2":0.95,"embed_lr":0.01,"scalar_lr":0.01}}}],"compression":"Brotli","novel_contributions":["Applies LeWorldModel-style JEPA with SIGReg to text language modeling","Combines Mamba-2 SSM with U-Net skip connections for a non-attention architecture","Uses multi-step latent prediction as an auxiliary training signal","Employs mixed INT4/FP8 quantization-aware training from step 1","Uses sliding-window evaluation to improve BPB on recurrent state models","Uses tied embeddings and factored embedding projections to fit within the 16MB budget"],"artifact_size":"15.75 MB","prompt_version":"v2","is_record":false},{"pr_number":904,"title":"Non-record: Diffusion-Noised Teacher AR Hybrid (val_bpb=1.2734, 8xH100)","author":"anthony-maio","status":"open","val_bpb":1.2734,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Diffusion-inspired denoising auxiliary loss during training by corrupting input prefix tokens and interpolating clean and noisy autoregressive losses.","parameters":{"clean_noisy_loss_mix":0.35,"noise_ratio_start":0.05,"noise_ratio_end":0.35,"random_replace_prob":0.15,"mask_token_id":2}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input embeddings and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":4,"kv_heads":2}}},{"category":"sequence_length","data":{"train_length":512,"eval_length":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Diffusion-inspired auxiliary denoising loss added to standard autoregressive training","Corrupts prefix tokens with masking and random replacement while preserving standard validation","Noise ratio ramps from 5% to 35% over training","Interpolates clean and noisy losses with a fixed auxiliary weight","Demonstrates a portable smoke-test implementation without changing tokenizer, dataset, or evaluation metric"],"artifact_size":"15.8MB","prompt_version":"v2","is_record":false},{"pr_number":905,"title":"Non-record: Prefix-Conditioned Suffix Diffusion — True Discrete Diffusion (diffusion_pll_bpb=1.8587)","author":"anthony-maio","status":"open","val_bpb":1.8587,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":4,"kv_heads":2}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"GPT-style backbone with standard positional attention setup implied by the starter code.","parameters":null}},{"category":"sequence_length","data":{"train_length":512,"eval_length":null}},{"category":"other","data":{"description":"True discrete diffusion training over token sequences with absorbing-mask corruption on the suffix only, conditioned on a clean prefix.","parameters":{"diffusion_steps":8,"min_prefix":16}}},{"category":"other","data":{"description":"Learned timestep embeddings and learned role embeddings for prefix versus diffused suffix.","parameters":null}},{"category":"other","data":{"description":"Approximate prefix-conditioned diffusion pseudo-log-likelihood evaluation by masking the suffix and scoring the first masked token.","parameters":{"metric":"diffusion_pll_bpb"}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["True discrete diffusion model for text rather than an autoregressive model with a diffusion-inspired auxiliary loss","Prefix-conditioned suffix diffusion with absorbing-mask corruption over suffix tokens only","Denoising loss computed only on corrupted suffix positions","Approximate prefix-conditioned diffusion PLL scoring metric","Demonstration that a discrete diffusion submission can fit within the competition's artifact constraints"],"artifact_size":"1,679,676 bytes","prompt_version":"v2","is_record":false},{"pr_number":907,"title":"Record: Two-Pass Order-12 Shared N-gram Tables — val_bpb 0.0960 (3-seed mean)","author":"resouer","status":"open","val_bpb":0.096,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention in the transformer architecture.","parameters":{"layers":11,"dimensions":512,"heads":"8/4"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to 3x the model dimension.","parameters":{"mlp_dim":1536}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.9) squared activation.","parameters":{"squared":true,"slope":0.9}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Not mentioned explicitly in the submission.","parameters":null}},{"category":"other","data":{"description":"Shared n-gram tables across all 8 GPU ranks with deterministic updates and no all_reduce.","parameters":{"ranks":8,"shared_tables":true}}},{"category":"other","data":{"description":"Two-pass rescoring: first pass stores model probabilities and builds the full cache; second pass rescoring all tokens against the complete cache.","parameters":{"passes":2,"tokens":62000000}}},{"category":"other","data":{"description":"Order 2-12 backoff with entropy-adaptive alpha and per-order multipliers.","parameters":{"order_min":2,"order_max":12}}},{"category":"other","data":{"description":"Uses np.bincount for fast cache construction.","parameters":{"speedup_claimed":"10-50x"}}}],"compression":null,"novel_contributions":["Shared n-gram tables updated identically across all 8 GPU ranks without all_reduce","Two-pass rescoring that eliminates the cold-start problem by rescoring all tokens against a fully built cache","Order-2-to-12 backoff with entropy-adaptive alpha and per-order multipliers","np.bincount-based cache construction for faster table building","3-seed validation with very low variance and a sub-0.0961 val_bpb mean"],"artifact_size":"~15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":908,"title":"Non-record: Higher-Rank Output Heads — Standard Tied Head Wins on a Frontier 11L Baseline","author":"albertorkive","status":"open","val_bpb":1.1734,"architecture":"Transformer","quantization":"late QAT","optimizer":null,"training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA to the last layers of the baseline model.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Enabled SmearGate in the baseline.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Enabled BigramHash with bucketed hashed embeddings.","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Used partial rotary positional embeddings with NTK-aware scaling.","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"LN Scale","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Enabled VE128 on later layers.","parameters":{"layers":[9,10]}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Used a standard tied output head as the control baseline.","parameters":null}}],"compression":null,"novel_contributions":["Non-record study of higher-rank output heads on a fixed frontier-aligned 11L baseline","Comparison of factorized heads, mixture-softmax heads, and a simplex head against a standard tied head","Finding that the standard tied head outperformed all tested higher-rank variants","Observation that mixture-softmax variants increased artifact size without improving score","Observation that the simplex head substantially reduced artifact size but collapsed validation performance"],"artifact_size":"16.8MB","prompt_version":"v2","is_record":false},{"pr_number":909,"title":"Record: 11-gram Eval Cache + Hedge Mixer (val_bpb: 0.8609)","author":"sunnypatneedi","status":"open","val_bpb":0.8609,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA across all 11 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Enabled gated attention in the transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Used partial rotary positional embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Used LeakyReLU squared MLP activation.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"VE64","description":"Used value embedding on selected layers.","parameters":{"dimensions":64,"layers":"7-10"}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"all"}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"11-gram eval cache using multi-order n-gram tables with score-first, update-after protocol and entropy-adaptive mixing.","parameters":{"orders":"2-11","buckets_per_order":4194304}}},{"category":"other","data":{"description":"Hedge Mixer online multiplicative-weights ensemble blending neural and n-gram predictions.","parameters":{"beta":2}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}}],"compression":"zstd-22","novel_contributions":["11-gram eval cache with entropy-adaptive mixing","Score-first, update-after n-gram protocol","Order-adaptive entropy gating for higher-order n-gram matches","Hedge Mixer online multiplicative-weights ensemble","Sliding-window evaluation with n-gram cache replacing TTT"],"artifact_size":"~15.9 MB","prompt_version":"v2","is_record":false},{"pr_number":912,"title":"10L + PPM Full-Rescore Order-12 N-gram (0.3461 BPB)","author":"Bortlesboat","status":"closed","val_bpb":0.3461,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation used in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings.","parameters":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual connections in the model.","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"lr":0.03}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8}}},{"category":"other","data":{"description":"PPM-style all-order blend over matching n-gram orders 2-12 using escape probabilities, with leave-one-out self-exclusion during full-rescore.","parameters":{"orders":[2,12]}}}],"compression":"zstd-22","novel_contributions":["PPM-style all-order blend across matching n-gram orders 2-12 using escape probabilities","Leave-one-out self-exclusion in full-rescore to remove self-inclusion bias","Two-pass evaluation pipeline with GPU sliding-window scoring, cache build, and full-token rescore","Mixed int5/int6 quantization with zstd compression","Neural cache and per-document LoRA test-time training described in the branch README"],"artifact_size":"15.3-15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":913,"title":"Record: Cache Is All You Need — val_bpb 0.0887, 622KB artifact (3-seed mean)","author":"RoyiRa","status":"open","val_bpb":0.0887,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":4,"kv_heads":2}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"baseline model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Eval-time n-gram cache with order-adaptive entropy gating and adaptive blending with model probabilities.","parameters":{"ngram_order":"2-12"}}},{"category":"other","data":{"description":"Eval-time long phrase cache using hashed phrase probes at multiple lengths.","parameters":{"phrase_lengths":[64,56,48,36,28,20,16]}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"online_cache_update":true}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}}],"compression":"zlib","novel_contributions":["Eval-time n-gram cache with adaptive entropy-based blending","Eval-time long phrase cache with multi-length phrase probes","Sliding window evaluation with online cache updates from already-scored tokens only","Minimal integration into the baseline with a small code change and one new cache file"],"artifact_size":"622 KB","prompt_version":"v2","is_record":false},{"pr_number":914,"title":"[Non-Record] Hymba-LongContext: 32K context training via hybrid SSM + SWA (1.1873 BPB)","author":"mkenney2","status":"open","val_bpb":1.1873,"architecture":"Hybrid","quantization":"int6 GPTQ-lite","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"Mamba","description":"Selective state space model branch for O(1) per-token recurrent sequence processing.","parameters":null}},{"category":"architecture_modification","data":{"component":"sliding window attention","description":"Attention limited to a fixed local window for constant per-token cost.","parameters":{"window_size":512}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with shared KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings used in the attention branch.","parameters":null}},{"category":"architecture_modification","data":{"component":"QK-norm","description":"Normalization applied to query/key representations.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation in the MLP.","parameters":{"slope":0.9}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections across layers in a U-Net style.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate embedding/gating component.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"freeze_blocks":2}}},{"category":"sequence_length","data":{"train_length":32768,"eval_length":524288}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_iters":3000}}}],"compression":"zstd-22","novel_contributions":["Hybrid SSM + sliding window attention architecture enabling near-constant-cost long-context training","Training at 32,768-token context, far longer than the standard 1,024-token baseline","Demonstration that step time remains nearly constant from 8K to 64K context","Score-first test-time training to improve post-quantization validation BPB","Compact int6 + zstd artifact under the 16 MB limit"],"artifact_size":"14.3-14.6 MB","prompt_version":"v2","is_record":false},{"pr_number":915,"title":"Non-record: Fused Softcap+CE Megakernel (1.94x vs torch.compile) + N-gram Backoff","author":"anthony-maio","status":"open","val_bpb":0.9642,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared MLP activation in the model stack.","parameters":{"power":2}}},{"category":"architecture_modification","data":{"component":"VRL","description":"Value Residual Learning added to the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding / value expansion component with 128-dimensional setting.","parameters":{"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate module included in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature with hashed buckets.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA attention variant used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections included in the network.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP stack.","parameters":{"layers":3}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"model"}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"scale":30}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Entropy-adaptive multi-order n-gram backoff cache mixed with neural predictions during evaluation.","parameters":{"orders":"2-7","alpha_formula":"0.05 + 0.55 * sigmoid(2.0 * (H - 4.0))"}}},{"category":"other","data":{"description":"Fused softcap plus cross-entropy CUDA megakernel for faster evaluation.","parameters":{"speedup_vs_torch_compile":1.94}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"initialization","data":{"method":"OrthoInit","description":null}}],"compression":"lzma","novel_contributions":["Fused softcap + cross entropy CUDA megakernel","Entropy-adaptive multi-order n-gram backoff cache","Score-first causal n-gram updating during evaluation","Linear probability-space mixing of neural and n-gram predictions","Integration of the fused kernel into sliding window evaluation"],"artifact_size":"~15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":916,"title":"10L + PPM Full-Rescore Order-12 N-gram (0.3461 BPB)","author":"Bortlesboat","status":"open","val_bpb":0.3461,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation used in the MLP, squared twice as indicated by LeakyReLU(0.5)^2.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied with a 16/64 split.","parameters":{"ratio":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual connections are included in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash module with 4096 buckets.","parameters":{"dimensions":4096}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP/attention"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"lr":0.03}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"pass_1":"store per-token model probabilities without n-gram blending","pass_2":"rescore with frozen cache"}}},{"category":"other","data":{"description":"PPM-style all-order blend across matching n-gram orders 2-12 using escape probabilities.","parameters":{"orders":"2-12"}}},{"category":"other","data":{"description":"Leave-one-out self-exclusion during full-cache rescoring to subtract each token's own contribution before scoring.","parameters":null}}],"compression":"zstd-22","novel_contributions":["PPM-style all-order blend across n-gram orders 2-12 instead of hard backoff","Leave-one-out self-exclusion during full-cache rescoring to remove self-inclusion bias","Two-pass score-first evaluation pipeline with frozen cache rescoring","Vectorized cache construction over all tokens using np.bincount"],"artifact_size":"15.3-15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":918,"title":"Record: TurboQuant + Full-Rescore N-gram (val_bpb=0.1653)","author":"haikosys","status":"open","val_bpb":0.1653,"architecture":"Transformer","quantization":"TurboQuant 2/3/4-bit","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding module used in the model.","parameters":{"dimensions":128,"hash_size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component included in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the network.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to part of the model.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation used in the MLP.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"embeddings_lr":0.035,"scalars_lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_n_steps":50}}},{"category":"quantization","data":{"method":"QAT","bits":2,"scope":"MLP up"}},{"category":"quantization","data":{"method":"QAT","bits":3,"scope":"attn/MLP down"}},{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"embeddings"}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"full-rescore n-gram cache","parameters":{"order_min":2,"order_max":12,"entropy_adaptive_alpha":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}}],"compression":"lzma-6","novel_contributions":["TurboQuant rotation-based Lloyd-Max codebook quantization for weight compression","Progressive QAT warmdown from 4-bit to 3-bit to 2-bit","Two-pass full-rescore n-gram cache evaluation with entropy-adaptive alpha blending","Combining higher-parameter TurboQuant models with full-rescore n-gram cache to recover validation performance"],"artifact_size":"15.35 MB","prompt_version":"v2","is_record":false},{"pr_number":920,"title":"[Record Submission] - 74.3M Ternary U-Net Transformer (v2 - Continuation from #PR640)","author":"CiprianFlorin-Ifrim","status":"open","val_bpb":1.1539,"architecture":"Transformer","quantization":"FP8 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":8,"scope":"FP8 path / model artifact"}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections added to the Transformer backbone.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 query heads and 4 KV heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses relu2 activation in the MLP.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses YaRN-scaled rotary position embeddings.","parameters":{"type":"yarn","max_len":2048}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Reduced KV head count relative to query heads.","parameters":{"num_kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0,"momentum":0.95,"other_params":{"adam_lr":0.05,"adam_wd":0.05,"matrix_lr":0.04,"scalar_lr":0.02,"tied_embed_lr":0.02}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_fraction":0.15}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"type":"poly","value":10}}}],"compression":"lzma","novel_contributions":["BF16 scale storage for ternary dequantization scales, reducing roundtrip gap without increasing artifact size","Increased embedding bottleneck from 254 to 312 to improve representation quality while staying under the 16MB artifact budget","Adjusted warmdown fraction from 0.2 to 0.15 based on extended training experiments","Improved validation BPB and cross-seed reproducibility over the original #640 submission"],"artifact_size":"15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":921,"title":"Record: Order-13 Full-Rescore N-gram + 11L Int6 GPTQ — val_bpb 0.0939 (3-seed mean)","author":"TimPietrusky","status":"open","val_bpb":0.09391,"architecture":"Transformer","quantization":"GPTQ 6-bit","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Attention mechanism modified with gating.","parameters":{"layers":11,"dim":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds value residual connections and value embeddings in later layers.","parameters":{"value_embedding_layers":[8,9,10]}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses rotary position embeddings on only part of the head dimension.","parameters":{"dimensions":64}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding with tied embeddings.","parameters":{"vocab":1024,"dim":256}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings are tied.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU squared activation.","parameters":{"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.05}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"embeddings/scalars"}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":8}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_rate":0.05}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":20}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":null}},{"category":"other","data":{"description":"Two-pass order-13 backward-looking n-gram evaluation cache with entropy-adaptive mixing and full-rescore pass.","parameters":{"order":13,"passes":2,"entropy_center":3,"entropy_scale":2}}}],"compression":"lzma-8","novel_contributions":["Two-pass order-13 backward-looking n-gram eval cache","Full-rescore pass using the complete cache without additional forward passes","Entropy-adaptive mixing between model probabilities and n-gram cache","Int6 GPTQ with descending actorder and dead-column handling","Pure NumPy vectorized cache implementation with XOR-of-products hashing and np.bincount updates","Artifact compression with lzma to fit int6 model within the submission limit"],"artifact_size":"~15.8MB","prompt_version":"v2","is_record":false},{"pr_number":922,"title":"Record: Order-14 N-gram Full-Rescore — val_bpb 0.0972","author":"greqone","status":"open","val_bpb":0.0972,"architecture":"Transformer","quantization":"mixed int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed n-gram/bigram-style context matching in the model.","parameters":{"dimensions":128,"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate as part of the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Uses value residual connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with separate query and key/value head counts.","parameters":{"query_heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"MLP uses squared ReLU activations.","parameters":{"mlp_multiplier":3}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA across all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings.","parameters":{"train_eval_ratio":"16/64"}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.92,"other_params":{"lr":0.02,"momentum_schedule_end":0.99}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}}],"compression":"lzma","novel_contributions":["Extended n-gram backoff to order-14","Enabled full-rescore two-pass evaluation with stored neural probabilities","Increased alpha max to 0.70 for stronger high-order n-gram trust","Reduced chunk size to 262,144 tokens for more frequent cache updates","Maintained score-first legal evaluation while rescoreing all chunks with a warm cache"],"artifact_size":"15.9 MB","prompt_version":"v2","is_record":false},{"pr_number":923,"title":"[Notable Non-Record Submission] 1.1090 BPB - 74.3M Ternary U-Net Transformer (100k steps/3h)","author":"CiprianFlorin-Ifrim","status":"open","val_bpb":1.109,"architecture":"Transformer","quantization":"ternary QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learnable per-block gating for residual smoothing.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the Transformer architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings between input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses relu2 activation in the MLP.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0,"momentum":0.95,"other_params":{"adam_lr":0.05,"adam_wd":0.05,"matrix_lr":0.04,"scalar_lr":0.02,"tied_embed_lr":0.02}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16,"temperature":0.9}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"fraction":0.15}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":10}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Extended training of the ternary U-Net Transformer to 100k steps without a wallclock cap","Enabled SmearGate during extended training","Switched ternary scale storage from FP16 to BF16 to reduce roundtrip gap at longer training","Increased embedding dimension from 254 to 312 while staying within the 16MB artifact budget","Demonstrated improved scaling behavior and lower zero fraction with longer training"],"artifact_size":"15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":924,"title":"Order-16 Frozen N-gram Oracle + Score-First TTT (0.02801 BPB)","author":"THUQiXuan","status":"open","val_bpb":0.02801,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"GPU-native multi-order backoff n-gram hashing tables for oracle predictions","parameters":{"orders":"2-16","buckets":4194304}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation in the MLP","parameters":{"squared":true}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used across all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement in later layers","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP stack","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":"16/64"}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_interval":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"base model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":1,"learning_rate":0.001}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":32000}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adam":true}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}}],"compression":"zlib","novel_contributions":["Order-16 frozen n-gram oracle prefilled from all 8B training tokens","Score-first TTT where each eval chunk is fully scored before any updates","BackoffNgramMixer with GPU-native order-2 through order-16 hashing","Complementary training that downweights tokens already well predicted by the oracle","Order-16 scaling chosen as the best BPB/eval-time tradeoff under budget"],"artifact_size":"12.8 MB","prompt_version":"v2","is_record":false},{"pr_number":925,"title":"Record: Frozen N-gram Oracle (Order-16) + Score-First TTT (0.02807 BPB)","author":"THUQiXuan","status":"open","val_bpb":0.02807,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"GPU-native multi-order n-gram backoff oracle with hashed count tables for context-based prediction.","parameters":{"buckets":4194304,"max_order":16,"orders":"2-16"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared activation in the MLP stack.","parameters":{"squared":true}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement used in later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP stack.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component used in the base architecture.","parameters":{"size":6144}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Multi-expert alpha head mixes neural and n-gram experts via learned softmax gating.","parameters":{"experts":16,"hidden_size":512}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adamw":true}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":1,"learning_rate":0.001}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":"zlib","novel_contributions":["Order-16 frozen n-gram oracle prefilled from all training tokens","4M-bucket GPU-native backoff n-gram tables","Learned multi-expert alpha head to mix neural and n-gram experts","Complementary training that downweights already well-predicted tokens","Score-first test-time training evaluation protocol","Order-16 scaling with budget-aware evaluation"],"artifact_size":"12.9MB","prompt_version":"v2","is_record":false},{"pr_number":926,"title":"Record: 11L EMA + GPTQ-lite + LeakyReLU^2 + QAT@0.15","author":"NandhuRajRK","status":"open","val_bpb":0.8705,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Transformer with 3x MLP expansion","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses 8 attention heads and 4 KV heads","parameters":{"attention_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP activation changed to LeakyReLU(0.5)^2","parameters":{"slope":0.5,"squared":true}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA on late layers","parameters":{"layers":"late"}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings","parameters":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"compression","data":{"method":"zstd","level":null}}],"compression":"zstd","novel_contributions":["LeakyReLU(0.5)^2 MLP activation in place of relu^2","EMA-based 11-layer Transformer record attempt","GPTQ-lite int6 export with roundtrip verification","Late QAT at threshold 0.15","Portability fixes for non-FA3 environments"],"artifact_size":"15825448 bytes","prompt_version":"v2","is_record":false},{"pr_number":927,"title":"Recursive Transformer 4B/7L + VE + QAT + TTT — val_bpb 1.1696 (3-seed mean)","author":"Tonyy1977","status":"open","val_bpb":1.1696,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"4 shared transformer blocks are looped 7 times to create recursive depth with weight reuse.","parameters":{"blocks":4,"loops":7,"dim":1024}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections across loop iterations with learnable skip weights.","parameters":{"encoder_loops":3,"decoder_loops":4}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":32,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-Sequence Attention applied in the last 4 loops.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"VE128","description":"ValueEmbedding reinjects token identity into later loops.","parameters":{"dim":128,"last_n":2}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension gate blending current token with previous token information.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based bigram embedding using previous and current tokens.","parameters":{"buckets":10240,"dim":128}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"large weight matrices"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":8,"scope":"final artifact"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"matrix_lr":0.02,"scalar_lr":0.01,"tied_embedding_lr":0.02,"grad_clip":0.3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_frac":0.2,"every":50}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500,"warmup_steps":100}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":32768}}],"compression":"zstd-22","novel_contributions":["Recursive transformer with 4 shared blocks looped 7 times for 7x weight reuse","Width-over-depth design using dim=1024 while staying under the 16MB limit","U-Net encoder-decoder skip connections across recursive loops","Int6 QAT from step 0 to prevent compounding quantization error in recursive weight reuse","ValueEmbedding to reinject token identity in later loops","SmearGate, BigramHash, and XSA used in the later loops","Score-first test-time training combined with sliding window evaluation"],"artifact_size":"~15.85MB","prompt_version":"v2","is_record":false},{"pr_number":928,"title":"Non-record: XSA-all + mHC + Full QAT (val_bpb=1.1211)","author":"autocode-rayes","status":"open","val_bpb":1.1211,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to all 11 layers instead of only the last 4 layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"other","description":"Manifold-constrained hyper-connections with learnable alpha/beta residual mixing per block under a norm constraint.","parameters":{"extra_params":22}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"enabled":1}}}],"compression":null,"novel_contributions":["XSA applied to all 11 layers","Manifold-constrained hyper-connections with 22 extra parameters","Full-training QAT from step 1","Parallel Muon optimizer stack","Sliding window evaluation and legal TTT improvement"],"artifact_size":"15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":929,"title":"Add record: 9L MLP3x LeakyReLU(0.5)² QAT Int6+zstd (val_bpb=1.1653)","author":"andreanjos","status":"open","val_bpb":1.16531,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP with 1536 hidden units","parameters":{"layers":9,"hidden_size":1536,"mlp_mult":2}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5)² activation in the MLP","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":10000}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"backend_steps":10,"beta2":0.99,"grad_clip_norm":1,"scalar_lr":0.02}}}],"compression":"zstd-22","novel_contributions":["Int6 quantization-aware training with STE fake-quantization","zstd-22 compression of the final artifact","Sliding window evaluation with stride 64","Longer training sequence length of 2048","Extended warmdown schedule and Muon optimizer tuning","LeakyReLU(0.5)² MLP activation"],"artifact_size":"15.03MB","prompt_version":"v2","is_record":false},{"pr_number":931,"title":"Record: 0.0498 bpb - Packed Training N-gram Artifact + Learned Weighting Gate","author":"AnirudhRahul","status":"open","val_bpb":0.04983971,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Removed the bigram hash path to make room for the packed training n-gram cache while retaining warm low-order n-gram signal through the artifact.","parameters":{"vocab_size":0}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned multi-expert weighting gate over the neural model and n-gram experts for orders 2 through 9.","parameters":{"experts":"neural + n-gram order 2..9"}}},{"category":"other","data":{"description":"Packed a 32K-bucket order-2..9 training n-gram cache into the artifact as 32-bit count tables so evaluation starts with a pre-warmed cache.","parameters":{"buckets":32768,"orders":"2..9","count_table_bits":32}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_tokens":131072,"temperature":0.85,"freeze_blocks":2,"epochs":2,"learning_rate":0.0001}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_pct":0.05}}}],"compression":null,"novel_contributions":["Learned weighting gate over neural and order-2..9 n-gram experts","Packed 32K-bucket training n-gram artifact serialized into the submission","Single-pass causal evaluation with pre-warmed cache and online updates","Removed bigram hash path to fit the packed cache under the 16MB artifact limit","Simplified evaluation by removing maturity decay and heuristic switching"],"artifact_size":"15,857,871 bytes","prompt_version":"v2","is_record":false},{"pr_number":932,"title":"Non-record: CoDA-GQA Differential Attention — First Differential Attention Submission (val_bpb=1.1580)","author":"anthony-maio","status":"open","val_bpb":1.158,"architecture":"Transformer","quantization":"int6 + late QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention base architecture with differential attention added via CoDA-GQA.","parameters":{"layers":11,"d_model":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"differential attention","description":"Subtracts a gated inhibitory noise attention stream from the signal attention stream using an orthogonally rotated noise query.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"train_length":64,"eval_length":16}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component.","parameters":{"dimensions":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA attention-related architectural component.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual / value embedding enhancement with VE128.","parameters":{"size":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate architectural component.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared MLP activation.","parameters":{"slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model"}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"lzma","novel_contributions":["First differential attention submission to Parameter Golf","CoDA-GQA differential attention with orthogonally rotated noise query","No second W_q matrix needed for the noise stream","Gated subtraction of inhibitory noise attention from signal attention","Controlled ablation showing stable training but worse val_bpb under the 600-second budget"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":933,"title":"Record: CacheMoney — 0.0804 BPB (3-seed mean, std 0.00003)","author":"haikosys","status":"open","val_bpb":0.0804,"architecture":"Transformer","quantization":"FP16","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash cache component used in the model/cache system.","parameters":{"dimensions":128,"buckets":2048}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA used in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider MLP block.","parameters":{"hidden_size":768}}},{"category":"quantization","data":{"method":"FP16","bits":16,"scope":"all","other_params":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"lr":0.025}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"embeddings_lr":0.035,"scalars_lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"evaluation_technique","data":{"method":"two-pass full-rescore","parameters":{"pass_1":"neural eval","pass_2":"sequential rescore"}}},{"category":"evaluation_technique","data":{"method":"temperature sharpening","parameters":{"temperature":0.85}}},{"category":"other","data":{"description":"Online alpha calibration via grid search on the first 5% of scored tokens.","parameters":{"alpha_high":0.99,"entropy_thresh":3}}},{"category":"other","data":{"description":"Leave-one-out scoring for cache probabilities to remove self-inclusion bias.","parameters":null}},{"category":"other","data":{"description":"Sequential blend where n-gram cache is applied before phrase cache.","parameters":null}}],"compression":null,"novel_contributions":["Cache-first submission where the cache dominates prediction quality and the neural model mainly provides blend probabilities.","Leave-one-out correction for two-pass cache scoring to remove self-inclusion bias.","Online alpha calibration on a small prefix of scored tokens to tune cache trust aggressively.","Two-pass full-rescore cache pipeline combining n-gram and phrase caches sequentially.","Temperature sharpening to improve model entropy and blending calibration.","Tiny FP16 model used primarily as a probability estimator rather than the main predictor."],"artifact_size":"7.47 MB","prompt_version":"v2","is_record":false},{"pr_number":937,"title":"[Non-Record Submission] CompressedUT CE + EMA Export + Export-Aligned Late QAT (1.4457 BPB)","author":"mihir-s-05","status":"open","val_bpb":1.44568091,"architecture":"Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses hashed bigram features in the byte-level compressed_ut model.","parameters":{"dimensions":96}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary position encoding in the transformer backbone.","parameters":{"dimensions":32}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Not explicitly stated in the PR body, but no evidence of it is present.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"exported artifact"}},{"category":"compression","data":{"method":"zlib","level":9}},{"category":"sequence_length","data":{"train_length":1536,"eval_length":32768}},{"category":"evaluation_technique","data":{"method":"full validation eval","parameters":{"scope":"full FineWeb validation split"}}},{"category":"other","data":{"description":"Export-aligned quantization-aware training to match the quantizer used at artifact export.","parameters":{"threshold":0.05}}}],"compression":"zlib-9","novel_contributions":["EMA export weights for the shipped artifact","Export-aligned late QAT to reduce quantization gap","Stronger int6 clip-search during packing","Larger compressed-UT capacity within the 16MB budget","CE-only training for the compressed_ut path"],"artifact_size":"14,707,311 bytes","prompt_version":"v2","is_record":false},{"pr_number":938,"title":"[non-record] 1xH100 screening: compression + eval strategy","author":"numb3r33","status":"open","val_bpb":1.35375147,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":null,"novel_contributions":["Non-record 1xH100 screening bundle documenting a March 26 experiment matrix","Comparison of dense baseline, fp16-embedding, and 10-layer mixed-precision families","Evidence that pre-quant and post-quant quality diverge sharply under heavy compression or capacity reduction","Identification of a smaller near-baseline artifact candidate (Q1)","Motivation to prioritize evaluation strategy, compression-aware training, and quantization-friendly schedules"],"artifact_size":"12,783,154 bytes","prompt_version":"v2","is_record":false},{"pr_number":939,"title":"Non-record: GatedDeltaNet, 32K Context, Document-Boundary State Reset","author":"brian386","status":"open","val_bpb":1.2519,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GatedDeltaNet","description":"Replaces softmax attention with linear recurrent attention.","parameters":{"heads":4,"head_dim":128}}},{"category":"architecture_modification","data":{"component":"depth","description":"Reduced model depth to fit within byte limit.","parameters":{"layers":7}}},{"category":"architecture_modification","data":{"component":"MLP","description":"Reduced MLP expansion ratio to fit within byte limit.","parameters":{"expansion":1.875}}},{"category":"architecture_modification","data":{"component":"GatedDeltaNet","description":"Document-boundary state reset using BOS-detected variable-length chunked kernel to zero recurrent state at document boundaries.","parameters":null}},{"category":"sequence_length","data":{"train_length":32768,"eval_length":32768}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"sequence_length","data":{"train_length":8192,"eval_length":8192}},{"category":"sequence_length","data":{"train_length":16384,"eval_length":16384}},{"category":"regularization","data":{"method":"gradient clipping","parameters":{"norm":1}}}],"compression":null,"novel_contributions":["GatedDeltaNet recurrent attention for long-context training","Document-boundary state reset to prevent hidden-state bleed across packed documents","32k-context training and evaluation with minimal per-step compute overhead","Gradient clipping to stabilize long recurrent chains","Architecture reductions to fit within the byte limit"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":940,"title":"Record: Score-First TTT + Multi-Order N-gram Backoff (3-seed mean val_bpb=0.9581)","author":"antaloaalonso","status":"open","val_bpb":0.9581,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"other","data":{"description":"Multi-order n-gram backoff cache using orders 2-7 with entropy-adaptive alpha mixing","parameters":{"orders":"2-7"}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP width expanded to 3x","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the transformer","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5)^2 activation","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 value output mixed into subsequent layers via learned sigmoid gates","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gates on attention output","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row"}},{"category":"compression","data":{"method":"zstd","level":16}}],"compression":"zstd-16","novel_contributions":["Score-first test-time training that scores tokens under inference_mode before training on them","Multi-order n-gram backoff cache with entropy-adaptive alpha mixing","Combination of score-first TTT with backward-looking n-gram cache under competition compliance constraints","11-layer transformer with XSA on all layers, LeakyReLU(0.5)^2, Value Residual, and Gated Attention"],"artifact_size":"15.7MB","prompt_version":"v2","is_record":false},{"pr_number":941,"title":"submission: LeakyReLU² + EMA + BigramHash(20480) + MLP3.5x","author":"aptsalt","status":"open","val_bpb":1.362,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5) squared activation","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding applied to a subset of dimensions","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Larger bigram vocabulary for token hashing","parameters":{"vocab_size":20480}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP hidden dimension","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Attention uses 8 heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"adamw_for_scalars_embeddings":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5) squared activation","EMA weight averaging instead of SWA","Late QAT","Partial RoPE with 16/64 dimensions","LN scale regularization","BigramHash with 20480 vocabulary size","MLP width multiplier of 3.5x","Mixed int5/int6 quantization","zstd-22 artifact compression"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":943,"title":"Record: Compliance-First Packed Causal Memory + Dirichlet Mixing — val_bpb 0.01654407 (3-seed mean)","author":"aamodbhatt","status":"closed","val_bpb":0.01654407,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Packed causal memory","description":"Added a packed causal n-gram memory path built from train shards and loaded at eval start.","parameters":null}},{"category":"other","data":{"description":"Dirichlet-normalized multi-order mixing with count-confidence gating for n-gram evaluation.","parameters":null}},{"category":"evaluation_technique","data":{"method":"full-rescore","parameters":{"all_chunks":true,"two_pass":true}}}],"compression":null,"novel_contributions":["Packed causal n-gram memory path built from train shards and loaded at eval start","Dirichlet-normalized multi-order mixing","Count-confidence gating","Optional phrase-suffix expert exploration with Dirichlet-only winner config","Compliance-first submission with score-first ordering preserved"],"artifact_size":"13,810,840 bytes","prompt_version":"v2","is_record":false},{"pr_number":944,"title":"Record: Compliance-First Packed Causal Memory + Dirichlet Mixing — val_bpb 0.01654407 (3-seed mean)","author":"aamodbhatt","status":"open","val_bpb":0.01654407,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Packed causal n-gram memory path built from training shards and loaded at eval start; multi-order hashed n-gram tables used for causal scoring.","parameters":null}},{"category":"other","data":{"description":"Dirichlet-normalized multi-order mixing over n-gram orders with count-confidence gating.","parameters":null}},{"category":"other","data":{"description":"Optional packed phrase-suffix expert blended after the n-gram posterior with confidence throttling.","parameters":null}}],"compression":null,"novel_contributions":["Packed causal n-gram memory path built from training shards and loaded at eval start","Dirichlet-normalized multi-order mixing with count-confidence gating","Optional packed phrase-suffix expert with confidence throttling","Compliance-first score-first causal evaluation stack"],"artifact_size":"13,810,840 bytes","prompt_version":"v2","is_record":false},{"pr_number":945,"title":"Record: Order-16 Frozen N-gram Oracle + Learned Gate + TTT — val_bpb 0.0274 (3-seed mean)","author":"TimPietrusky","status":"open","val_bpb":0.02742,"architecture":"Transformer","quantization":"int5","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added a hash-based n-gram embedding/cache component for token prediction support.","parameters":{"vocab":6144,"dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA-all attention variant.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimension.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses VE128 on later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared in the MLP.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width to about 3.5x the model dimension.","parameters":{"multiplier":3.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":50}}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.001}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":1,"learning_rate":0.001,"adaptive_temperature":[0.9,1.05],"byte_weighted_loss":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruning":"3%"}}},{"category":"other","data":{"description":"Frozen order-16 n-gram oracle prefilled from training shards and blended with neural predictions via a learned multi-expert gate.","parameters":{"orders":[2,16],"buckets":4000000,"experts":17,"mixer_loss_weight":0.15,"neural_floor":0.05}}},{"category":"other","data":{"description":"Complementary training downweights loss on tokens already well predicted by the oracle.","parameters":{"complement_alpha":0.5,"complement_threshold":0.3}}}],"compression":"zstd","novel_contributions":["Order-16 frozen n-gram oracle prefilled from training shards","Learned multi-expert gate blending neural and per-order n-gram experts","Complementary training that focuses the neural model on oracle-hard tokens","Score-first test-time training with adaptive temperature","Combination of EMA, SWA, and int5 quantization for a compact high-performing submission"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":946,"title":"Non-record: Legal Neural-Only No-TTT (8xH100) val_bpb=1.1606","author":"aamodbhatt","status":"open","val_bpb":1.16059263,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"none","parameters":{"TTT_ENABLED":0}}},{"category":"evaluation_technique","data":{"method":"score-first causal evaluation","parameters":{"NGRAM_EVAL_ENABLED":0,"NGRAM_TWO_PASS_ENABLED":0,"NGRAM_FULL_RESCORE":0,"SKIP_SLIDING_EVAL":1}}}],"compression":null,"novel_contributions":["Neural-only submission without n-gram/two-pass cache blending","No test-time training","Tokenizer and dataset left unchanged","Score-first causal evaluation path preserved","Compliance-focused legal submission"],"artifact_size":"13,446,760 bytes","prompt_version":"v2","is_record":false},{"pr_number":947,"title":"Non-record: Legal Neural-Only No-TTT Alt (8xH100) val_bpb=1.1576","author":"aamodbhatt","status":"open","val_bpb":1.15758536,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"enabled":false}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"enabled":false}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Larger neural configuration using increased MLP multiplier.","parameters":{"mlp_mult":3.2}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a larger bigram vocabulary size override in the model preset.","parameters":{"bigram_vocab_size":2048}}}],"compression":null,"novel_contributions":["Compliance-focused neural-only submission","No n-gram or two-pass cache blending during evaluation","No test-time training","Larger model preset with BIGRAM_VOCAB_SIZE=2048 and MLP_MULT=3.2","Sliding eval disabled to keep runtime bounded"],"artifact_size":"14,921,440 bytes","prompt_version":"v2","is_record":false},{"pr_number":948,"title":"Two-Level Dirichlet Posterior + Phrase Cache — 0.11556 BPB (3-seed)","author":"dentity007","status":"open","val_bpb":0.11556,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"EBLS","description":"3 shared transformer blocks looped 3x plus 2 unique blocks, yielding 11 effective layers","parameters":{"layers":11,"shared_blocks":3,"loops":3,"unique_blocks":2}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU squared activation","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers","parameters":{"layers":11}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"Two-level Dirichlet-Multinomial posterior mixing across neural, n-gram, and phrase components","parameters":null}},{"category":"other","data":{"description":"Per-order OBCL concentrations for n-gram posterior mixing","parameters":{"concentrations":[50,50,6.95,2.98,2.05,2.05,2.05,1.86,1.86,1.86,1.86,1.86,1.86,1.86]}}},{"category":"other","data":{"description":"Phrase suffix matching cache with probe lengths 20 and 16","parameters":{"probe_lengths":[20,16]}}},{"category":"other","data":{"description":"15-gram backoff cache with 4M hash buckets","parameters":{"order_min":2,"order_max":15,"buckets":4194304}}},{"category":"other","data":{"description":"Complementary training on orders 2-5","parameters":{"alpha":0.5,"orders":[2,3,4,5]}}}],"compression":"lzma","novel_contributions":["Two-level Dirichlet posterior mixing over neural, n-gram, and phrase predictions","Per-order OBCL concentration tuning for n-gram smoothing","Phrase suffix matching cache with multiple probe lengths","15-gram backoff with large hash bucket cache","Complementary training for lower-order n-gram orders","Combination of GPTQ int6 quantization, EMA, and SWA under the artifact budget"],"artifact_size":"~15.1 MB","prompt_version":"v2","is_record":false},{"pr_number":949,"title":"Submit 2026-03-27_PhaseCoherenceGatedGradients","author":"jzgdev","status":"closed","val_bpb":1.3178,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"optimizer_split":"Muon + Adam"}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final artifact"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Phase-induced coherence-gated gradient descent (PIC-GD) using paired real/imag latent channels and a detached coherence-based gradient gate","parameters":{"beta":2,"min_gate":0.05,"eps":0.000001,"token_stride":32}}},{"category":"evaluation_technique","data":{"method":"tokenizer-agnostic val_bpb evaluation","parameters":null}}],"compression":"zlib","novel_contributions":["Phase-induced coherence-gated gradient descent (PIC-GD)","Paired adjacent hidden channels as pseudo-complex latents","Detached coherence-based gradient gate applied to training loss","Tokenizer-agnostic val_bpb evaluation","Int8 + zlib roundtrip export path"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":950,"title":"2026-03-27_PhaseCoherenceGatedGradients submission","author":"jzgdev","status":"open","val_bpb":1.3178,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adam_split":true}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"final model"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Phase-induced coherence-gated gradient descent that computes a normalized coherence score from paired latent/reference dot products and gates backpropagation with a detached scalar alpha.","parameters":{"enabled":true,"beta":2,"min_gate":0.05,"eps":0.000001,"token_stride":32}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Batch-level phase coherence gating applied to gradients using paired pseudo-complex latents and target-token embeddings.","parameters":null}}],"compression":"zlib","novel_contributions":["Phase-induced coherence-gated gradient descent (PIC-GD)","Pseudo-complex latent pairing via adjacent channels","Detached coherence-based gradient gate","Tokenizer-agnostic val_bpb evaluation","Int8 plus zlib roundtrip export path"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":952,"title":"Ultimate: GatedAttn + ValueResidual + Full QAT + lzma-9 + BigramHash(2048)","author":"FlashyFlash3011","status":"closed","val_bpb":1.1144,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Per-head sigmoid gate with near-no-op initialization.","parameters":{"weight_init":0,"bias_init":4}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer-0 value injected into all subsequent layers.","parameters":{"lambda_init":[0.5,0.5]}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"non-bank params"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Restored larger bigram hash vocabulary.","parameters":{"vocab":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied to the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to a subset of dimensions with NTK scaling.","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding module with 128 dimensions in selected layers.","parameters":{"dim":128,"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"learning_rate":0.002,"freeze_blocks":0,"momentum":0.9}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500}}}],"compression":"lzma-9","novel_contributions":["GatedAttention with per-head sigmoid gating","ValueResidual injection from layer 0 into all layers","Full-step QAT from the start of training","lzma-9 compression to free artifact budget","Restored BigramHash vocabulary from 1536 to 2048"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":953,"title":"Record: 1.0722 BPB — Improved TTT + HedgeMixer with Per-Layer LR Groups","author":"dexhunter","status":"open","val_bpb":1.0722,"architecture":"Transformer","quantization":"int5 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all 11 layers in the base architecture.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding with SmearGate in the context mixer.","parameters":{"size":6144,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating component paired with BigramHash.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional encoding applied to only part of the head dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation used in the MLP.","parameters":{"squared":true,"alpha":0.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Full multi-head attention with equal query and KV head counts.","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP expansion used in the base model.","parameters":{"expansion":3.5}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":4,"freeze_blocks":1,"learning_rate":0.0005,"chunk_tokens":32768}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"within_ttt":true}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"skipped":true}}}],"compression":"zstd","novel_contributions":["Per-layer learning-rate groups for TTT, with higher LR on output projections and lower LR on input projections","Cosine learning-rate schedule within TTT to adapt aggressively early and anneal later","Increased TTT to 4 epochs while freezing only 1 block","Skipped standalone sliding window evaluation to reclaim eval budget for the extra TTT epoch","Improved HedgeMixer + legal TTT stack over PR #720"],"artifact_size":"15.66 MB","prompt_version":"v2","is_record":false},{"pr_number":958,"title":"Submission: DominationV2 + BOS-Reset Bigram Cache + TTT (val_bpb=1.1382, 3-seed mean)","author":"shouryamaanjain","status":"open","val_bpb":1.1382,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hash component with 2048 buckets and 128-dimensional embeddings.","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension blend with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style encoder-decoder with skip connections.","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses relu squared MLP activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA in the last 4 layers.","parameters":{"layers":4}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with depth scaling."}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"learning_rate":0.0001}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"BOS-reset bigram cache applied during evaluation, blending model probabilities with document-local bigram counts and resetting at BOS tokens.","parameters":{"alpha":0.2,"tau":8,"entropy_power":1}}}],"compression":"zstd-22","novel_contributions":["BOS-reset bigram cache for evaluation-time probability blending","Score-first test-time training (TTT) after quantization roundtrip","DominationV2 architecture stack with BigramHash, SmearGate, XSA, and U-Net skip connections","Mixed int6/int8 quantization with zstd-22 compression"],"artifact_size":"~15.5 MB","prompt_version":"v2","is_record":false},{"pr_number":959,"title":"Record: Nacrith Log-Bias + Full-Rescore N-gram — val_bpb 0.00000035 (3-seed mean)","author":"himanalot","status":"open","val_bpb":3.5e-7,"architecture":"Transformer","quantization":null,"optimizer":"SGD","training_techniques":[{"category":"evaluation_technique","data":{"method":"full-rescore two-pass N-gram","parameters":{"NGRAM_FULL_RESCORE":1,"NGRAM_TWO_PASS_ENABLED":1,"NGRAM_EVAL_MAX_ORDER":13,"NGRAM_EVAL_CHUNK_TOKENS":262144,"NGRAM_EVAL_BUCKETS":4194304,"NGRAM_EVAL_ALPHA_MAX":0.85,"NGRAM_SELF_EXCLUDE":0,"NGRAM_COUNT_CONF_GAIN":0}}},{"category":"other","data":{"description":"Nacrith-style adaptive log-space bias updated online after each scored token","parameters":{"ONLINE_CAL":3,"BIAS_LR":0.05,"BIAS_DECAY":1}}},{"category":"other","data":{"description":"Log-odds mixing / PAQ-style logit-space interpolation","parameters":{"BLEND_MODE":"logodds"}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.05}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"BIAS_DECAY":1}}}],"compression":null,"novel_contributions":["Nacrith-style adaptive log-space bias for evaluation-time correction","Log-odds mixing instead of linear probability mixing","Full-rescore two-pass N-gram evaluation using a complete cache","Near-zero BPB achieved via online per-token bias adaptation"],"artifact_size":"13.44 MB","prompt_version":"v2","is_record":false},{"pr_number":960,"title":"Preliminary: 11L VRL + Full GPTQ + Parallel Muon + Legal TTT — val_bpb 1.1882 (ADIITJ)","author":"ADIITJ","status":"open","val_bpb":1.1882,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 V output is blended into all subsequent layers via learned per-layer sigmoid gates.","parameters":{"layers":11}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding expanded from 1536 to 3072.","parameters":{"dimensions":3072}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.008,"epochs":3,"chunk_size":256,"eval_seq_len":1024,"batch_size":64,"min_doc_len":512}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"start_lr":0.008,"end_lr":0.00001}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization with scaled projection initialization."}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.999,"every_steps":10}}}],"compression":"zstd-22","novel_contributions":["Value Residual Learning (VRL) with learned per-layer sigmoid gates","Full GPTQ quantization with Hessian Cholesky int6 calibration and error propagation","BigramHash expansion from 1536 to 3072","Tight SWA over EMA when snapshots exist","Cosine LR annealing for LoRA TTT","Lower TTT base learning rate and shorter-document adaptation threshold"],"artifact_size":"18,816,038 bytes","prompt_version":"v2","is_record":false},{"pr_number":961,"title":"Record: 0.0881 BPB — 11L Int5 GPTQ + Order-12 N-gram + Phrase Cache + 65K Chunks","author":"callithyia","status":"open","val_bpb":0.0881,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 query heads and 4 KV heads.","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash module used in the architecture.","parameters":{"dimensions":128}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA-4 architectural component.","parameters":{"variant":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings applied to a subset of dimensions.","parameters":{"numerator":16,"denominator":64}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 applied on layers 9-10.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5) squared activation in the MLP.","parameters":{"negative_slope":0.5,"squared":true}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":15,"final_warmdown":true}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"parameter_banking":true}}},{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"order-12 n-gram cache","parameters":{"orders":[2,3,4,5,6,7,8,9,10,11,12],"backoff":true,"score_first":true,"backward_looking":true}}},{"category":"evaluation_technique","data":{"method":"long phrase cache","parameters":{"probe_lengths":[64,56,48,36,28,20,16]}}},{"category":"evaluation_technique","data":{"method":"temperature sharpening","parameters":{"temperature":0.85}}},{"category":"evaluation_technique","data":{"method":"65K chunking","parameters":{"chunk_size":65000}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":65000}}],"compression":"lzma-9","novel_contributions":["Order-12 backoff n-gram cache combined with a long phrase cache","Entropy-adaptive alpha for cache blending","Temperature sharpening at T=0.85","65K-token chunking to keep evaluation under the 600s budget","Demonstration that cache-heavy evaluation can largely erase large pre-quantization model-quality gaps"],"artifact_size":"~13.0 MB","prompt_version":"v2","is_record":false},{"pr_number":962,"title":"Record: 0.0214 bpb - Low Eval-Time Memory Regime: Packed Training N-gram Artifact + Learned Gate (No Phrase Cache)","author":"AnirudhRahul","status":"open","val_bpb":0.02137047,"architecture":"Transformer","quantization":"GPTQ 6-bit","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"model weights"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Packed order-2..9 n-gram cache / experts used with a learned gate for evaluation-time scoring.","parameters":{"orders":"2..9","buckets":32768}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Not explicitly stated as tied embeddings; no evidence of weight tying in the submission.","parameters":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"epochs":0,"freeze_blocks":2,"learning_rate":0.0001}}},{"category":"sequence_length","data":{"train_length":131072,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"weight_decay":0.01}}},{"category":"other","data":{"description":"Learned gate over neural and n-gram experts with context-only expert availability masking.","parameters":null}},{"category":"other","data":{"description":"Online logit calibration during evaluation.","parameters":null}}],"compression":null,"novel_contributions":["Packed order-2..9 training n-gram artifact persisted inside the submission artifact","Learned gate over neural and n-gram experts with context-only expert availability","Removal of the logistic context mixer from the final eval path","Removal of the long phrase cache from the final eval path","Single-pass causal evaluation with cache updates only after scoring each chunk","GPTQ calibration using cached training batches within the training budget","Low eval-time memory regime with a fixed 2 MiB n-gram cache"],"artifact_size":"15,849,498 bytes","prompt_version":"v2","is_record":false},{"pr_number":963,"title":"Record: 11-gram Eval Cache + Hedge Mixer (val_bpb: 0.8609)","author":"sunnypatneedi","status":"closed","val_bpb":0.8609,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all transformer layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention in the transformer blocks.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"interval":50}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"evaluation_technique","data":{"method":"11-gram eval cache","parameters":{"orders":[2,11],"buckets_per_order":4000000}}},{"category":"other","data":{"description":"Entropy-adaptive alpha blending between neural model logits and n-gram cache logits.","parameters":null}},{"category":"other","data":{"description":"Hedge Mixer online multiplicative-weights ensemble between base model and n-gram-enhanced predictions.","parameters":{"beta":2}}}],"compression":"zstd-22","novel_contributions":["11-gram eval cache with entropy-adaptive alpha blending","Hedge Mixer online ensemble between neural and n-gram predictions","Score-first, update-after n-gram cache protocol","Sliding window evaluation combined with multi-order n-gram caching","Eval-time-only improvement with no training objective changes"],"artifact_size":"15.8MB","prompt_version":"v2","is_record":false},{"pr_number":964,"title":"Record: Doc-Isolated TTT + Eval Optimizations","author":"vivekvar-dl","status":"open","val_bpb":1.39,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"test_time_training","data":{"method":"full TTT","parameters":{"document_isolated":true,"reset_at_bos":true}}},{"category":"evaluation_technique","data":{"method":"temperature scaling","parameters":{"temperature_range":[0.9,1]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared MLP activation","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention variant","parameters":{"version":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings","parameters":{"train":"16/64"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses VE128 component","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"LN scale","parameters":null}}],"compression":"lzma","novel_contributions":["Document-isolated TTT by resetting optimizer state at BOS document boundaries","Temperature scaling during evaluation on the quantized model","Evaluation of doc isolation as an adaptation improvement on the frontier architecture"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":965,"title":"Architectural Record: 1.11837 BPB via KGIIR Trajectory Mixing","author":"Adam-Jacuch","status":"open","val_bpb":1.11837,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"KGIIR","description":"Kinematic Gated IIR trajectory mixing added alongside existing token shifts to model hidden state momentum with a recursive 4-tap IIR filter.","parameters":{"taps":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Existing temporal shift mechanism used in the base architecture.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value Residual / VE component used in the base architecture.","parameters":{"dim":128,"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings used in the model.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"freeze_blocks":0,"momentum":0.9,"batch_seqs":32,"grad_clip":1}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"ln_scale":1}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":32768,"eval_length":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}}],"compression":null,"novel_contributions":["Kinematic Gated IIR (KGIIR) trajectory mixing","Recursive 4-tap IIR-style hidden-state momentum filter","Fused CUDA kernel implementation for 88ms/step throughput on 8xH100","Controlled ablation showing BPB improvement from 1.11923 to 1.11837","Trajectory mixing alongside existing temporal shifts to improve Pareto frontier"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":966,"title":"Mixture of Convolutions (MoC): token-adaptive short convolutions via kernel mixtures","author":"andrewmouldon","status":"open","val_bpb":1.2162,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"short convolution","description":"Replaces static short convolution with token-adaptive convolution kernels formed as mixtures over shared basis kernels.","parameters":{"k":8}}},{"category":"architecture_modification","data":{"component":"short convolution","description":"MoC reduces to standard short convolution when the kernel bank has a single basis kernel.","parameters":{"k":1}}},{"category":"architecture_modification","data":{"component":"MLP expansion","description":"Adjusted MLP expansion to keep models within the parameter budget.","parameters":{"baseline":"2.00x","short_conv":"1.99x","moc":"1.93x"}}}],"compression":null,"novel_contributions":["Mixture of Convolutions (MoC): token-adaptive short convolutions via kernel mixtures","Per-token routing over a small shared bank of basis kernels","Dynamic local operator that generalizes standard short convolution","Improved BPB over baseline and static short convolution in fixed-step experiments","Demonstration that direct per-token kernel projection performed poorly while mixture-based kernels were stable"],"artifact_size":"16MB","prompt_version":"v2","is_record":false},{"pr_number":967,"title":"Record: 1.0450 BPB — SGD TTT + HedgeMixer with Per-Layer LR Groups","author":"dexhunter","status":"open","val_bpb":1.045,"architecture":"Transformer","quantization":"GPTQ-lite int5","optimizer":"SGD","training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"optimizer":"SGD","momentum":0.9}}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.9,"other_params":{"learning_rate":0.002}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature module used in the base architecture.","parameters":{"size":6144,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Gating component paired with BigramHash in the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers in the inherited architecture.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied to only part of the head dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation used in the MLP.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 KV heads with full multi-head attention.","parameters":{"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"MLP expansion in the base architecture.","parameters":{"expansion":3.5}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are implied by the canonical method vocabulary only if explicitly mentioned; not clearly stated here.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":5,"scope":"base model"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"within_ttt":true}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":4,"zero_frozen_blocks":true,"skip_sliding_eval":true}}},{"category":"other","data":{"description":"Per-layer learning-rate groups for TTT, with higher LR for output projections and lower LR for input projections.","parameters":{"output_projections_lr_multiplier":3,"input_projections_lr_multiplier":0.5}}},{"category":"other","data":{"description":"HedgeMixer with backward-looking experts over scored tokens.","parameters":{"experts":["Neural","Unigram","Bigram","Trigram","Entropy"]}}}],"compression":"zstd","novel_contributions":["Switched TTT from AdamW to SGD with momentum for a large BPB improvement","Added per-layer TTT learning-rate groups","Used cosine LR decay within TTT","Combined SGD TTT with HedgeMixer for the best reported score","Verified the method with a 3-seed evaluation and ablations"],"artifact_size":"15.67MB","prompt_version":"v2","is_record":false},{"pr_number":968,"title":"Record: Order-20 Dirichlet Posterior + Phrase Cache — 0.11545 BPB (3-seed)","author":"dentity007","status":"open","val_bpb":0.11545,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"model weights"}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with 4 KV heads.","parameters":{"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU(0.5)^2 activation.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applied XSA on all 11 layers.","parameters":{"layers":11}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"score-first evaluation","parameters":null}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":4000}}},{"category":"other","data":{"description":"Order-20 n-gram backoff with per-order Dirichlet concentrations and phrase suffix cache.","parameters":{"ngram_order":20,"phrase_probe_lengths":[20,16]}}},{"category":"other","data":{"description":"Complementary training on lower orders.","parameters":{"alpha":0.5,"orders":[2,5]}}}],"compression":"lzma","novel_contributions":["Extended n-gram backoff from order 15 to order 20","Added per-order OBCL concentrations for higher-order n-grams","Used phrase suffix matching / phrase cache at probe lengths 20 and 16","Validated improvement with a 6-test ablation and 3-seed evaluation"],"artifact_size":"~15.1 MB","prompt_version":"v2","is_record":false},{"pr_number":969,"title":"Non-record: GatedDeltaNet SSM via fla library — 1.2907 bpb, 15.79MB","author":"dnldsz","status":"closed","val_bpb":1.2907,"architecture":"Hybrid","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GatedDeltaNet","description":"Selective state space model replacing attention with delta-rule recurrence and chunk-parallel Triton kernels.","parameters":{"layers":12,"dimensions":384,"chunk_size":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder/decoder-style skip connections with learned skip weights.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding used alongside tied token embeddings.","parameters":{"vocab":1536,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared MLP activation.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied token embeddings.","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"degree":5,"cap":30}}},{"category":"regularization","data":{"method":"z-loss","parameters":{"weight":0.0001}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"newton_schulz":true}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"used_for":["scalars","embeddings","GDN delta-rule params"]}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Gated DeltaNet selective state space model using fla Triton kernels","Non-record unlimited compute baseline under the 16MB artifact limit","Explicit routing of delta-rule parameters to Adam to preserve recurrence dynamics","Demonstration of a pure SSM alternative to attention in parameter golf","Int8+zlib artifact compression achieving 15.79MB"],"artifact_size":"15.79MB","prompt_version":"v2","is_record":false},{"pr_number":970,"title":"Non-record: GatedDeltaNet SSM via fla library — 1.2907 bpb, 15.79MB","author":"dnldsz","status":"open","val_bpb":1.2907,"architecture":"Hybrid","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GatedDeltaNet","description":"Replaces attention with a selective state space model using delta-rule recurrence and fused Triton kernels.","parameters":{"layers":12,"dimensions":384,"head_dim":64,"heads_per_layer":6,"chunk_size":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses learned U-Net style skip connections in the model stack.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a BigramHash embedding alongside tied token embeddings.","parameters":{"vocab":1536,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied token embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared activation in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"logit softcap","description":"Applies polynomial softcap to logits.","parameters":{"degree":5,"cap":30}}},{"category":"regularization","data":{"method":"z-loss","parameters":{"weight":0.0001}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"newton_schulz":true}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"scope":"scalars, embeddings, and GDN-specific delta-rule params"}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Gated DeltaNet selective state space model using flash-linear-attention Triton kernels","Non-attention SSM baseline for the parameter golf challenge","Chunk-parallel delta-rule recurrence with chunk size 64","U-Net skip connections combined with GatedDeltaNet","BigramHash embedding and polynomial logit softcap in a compact 16MB submission","Routing delta-rule parameters to Adam while using Muon for 2D weights"],"artifact_size":"15.79 MB","prompt_version":"v2","is_record":false},{"pr_number":972,"title":"Normalized N-gram + Bayesian First-Match (val_bpb 0.3922)","author":"Idan3011","status":"open","val_bpb":0.3922,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the model architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table embedding for token bigrams.","parameters":{"dimensions":"2048x128"}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive self-attention applied to the last layers to reduce self-value bias.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x expansion.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"GELU pre-enrichment","description":"Wider nonlinear pre-enrichment block before transformer layers.","parameters":{"dimensions":[512,768,512]}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}}],"compression":"lzma","novel_contributions":["Full-vocab 1024-token normalized n-gram scoring across all tokens","Bayesian first-match blending with a neural prior","Collision premium analysis showing inflated pseudo-probabilities from hash collisions","Fixed 0.5 blend outperforming adaptive gating schemes","Two-phase shared n-gram cache with global sequential cache construction","GELU pre-enrichment block","XSA on the last 4 layers"],"artifact_size":"14.94 MB","prompt_version":"v2","is_record":false},{"pr_number":974,"title":"Non-record: Random Linear Map Adapter Projections — 1.21MB artifact (val_bpb=1.6542)","author":"anthony-maio","status":"open","val_bpb":1.6542,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings as part of the base stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses bigram hash embeddings/features in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA attention modification in the base stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses VE128 in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 MLP activation.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"block weights"}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"block weights"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"sequence_length","data":{"train_length":512,"eval_length":1024}},{"category":"other","data":{"description":"Replaces selected dense projection families with seeded frozen random linear maps plus learned low-rank adapter cores and diagonal scales.","parameters":{"replaced_components":["blocks.*.attn.proj","blocks.*.mlp.proj"],"adapter_rank":32}}},{"category":"other","data":{"description":"Uses seed-regenerated frozen random projections so the base matrices cost no serialized artifact bytes.","parameters":{"seed_bytes":4}}}],"compression":"lzma","novel_contributions":["Seed-regenerated frozen random linear maps replace selected dense projections.","Small learned LoRA-style adapters are trained on top of random bases.","Only adapters and scales are serialized, reducing artifact size to 1.21MB.","Demonstrates stable training with random projection adapters on a strong AR baseline.","Applies the requested 'learning adapters on random linear maps' direction."],"artifact_size":"1.21MB","prompt_version":"v2","is_record":false},{"pr_number":975,"title":"Non-record: QNA + SQWA compression thesis (8xH100 SXM)","author":"Abhishek8108","status":"open","val_bpb":1.1216,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":null,"every_steps":50}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than query heads","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Squared ReLU activation","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Leaky ReLU activation","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied to a subset of dimensions","parameters":{"dimensions":16,"base_dimensions":64}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"LayerNorm scale modification","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding feature","parameters":{"vocab_size":2048,"dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":null}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}}],"compression":"lzma","novel_contributions":["Quantization Noise Annealing (QNA) to inject int6-like noise during training","Stochastic Quantized Weight Averaging (SQWA) using quantize-dequantize EMA snapshots","Controlled 3-run ablation showing reduced quantization gap without improving final val_bpb","Analysis that float model quality, not quantization error, is the main bottleneck"],"artifact_size":"16.15 MB","prompt_version":"v2","is_record":false},{"pr_number":976,"title":"Add 1.20 BPB submission with Legal TTT and Calibration (9L/448D)","author":"Vibes-me","status":"open","val_bpb":1.20576485,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings are tied.","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Uses a 9-layer, 512-dimension Transformer with 8 attention heads and 4 KV heads, MLP multiplier 2.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":2}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights","parameters":null}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Legal TTT","Calibration","weight tying","Long context training at sequence length 2048","int8 + zlib roundtrip submission"],"artifact_size":"15.87MB","prompt_version":"v2","is_record":false},{"pr_number":977,"title":"LeakyReLU(0.75)² + Legal TTT + Parallel Muon — 1.1185 BPB (3-seed mean)","author":"michaelwinczuk","status":"open","val_bpb":1.1185,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Changed MLP activation negative slope from 0.5 to 0.75, with squared activation.","parameters":{"negative_slope":0.75}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"matrix_lr":0.027}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"legal":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3700}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}}],"compression":null,"novel_contributions":["Swept LeakyReLU negative_slope and found 0.75 outperforms the SOTA default 0.5","Minor learning-rate tuning with MATRIX_LR=0.027","Extended warmdown schedule to 3700 iterations","Legal test-time training with 3-seed mean validation","Parallel Muon optimizer setup"],"artifact_size":"15.96MB","prompt_version":"v2","is_record":false},{"pr_number":978,"title":"Review: Rerun of #972 with actual full-vocab normalization","author":"AnirudhRahul","status":"open","val_bpb":1.51343368,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections in the transformer stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention.","parameters":{"layers":10,"dimensions":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table embedding for token bigrams.","parameters":{"buckets":2048,"dimensions":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Self-value bias removal on the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x expansion.","parameters":null}},{"category":"architecture_modification","data":{"component":"GELU pre-enrichment","description":"Wider nonlinear pre-transformer enrichment block.","parameters":{"input_dim":512,"hidden_dim":768}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":"lzma","novel_contributions":["Fixes full-vocab normalization in eval_val_sliding() by dividing by summed hashed-vocab mass instead of ctx_count + beta.","Provides an honest rerun showing the normalized n-gram path degrades to 1.51343368 BPB and loses to the neural sliding baseline.","Updates the submission README and metadata to retract the earlier incorrect 0.3922 claim.","Demonstrates that the previously reported gain was due to an unnormalized denominator rather than a true full-vocab posterior.","Quantifies the collision premium and compares normalized n-gram scoring against the neural sliding-window baseline."],"artifact_size":"14,941,134 bytes","prompt_version":"v2","is_record":false},{"pr_number":979,"title":"Record: 1.1387 BPB — 11L LeakyReLU² + Early QAT@0.5 + GPTQ-lite + EMA","author":"0xadvait","status":"open","val_bpb":1.1387,"architecture":"Transformer","quantization":"int6 QAT + GPTQ","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5) squared activation in the MLPs.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP expansion.","parameters":{"expansion":3}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Adds U-Net style encoder-decoder skip connections.","parameters":{"encoder_layers":5,"decoder_layers":6}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Ties input embeddings and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings.","parameters":null}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"adamw_lr_embeddings":0.035,"adamw_lr_scalars":0.025,"momentum_warmup":"0.85->0.95"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"attn/MLP weights"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"attn/MLP weights"}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"embeddings"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Early QAT starting at LR scale < 0.5 to allow ~1400 QAT steps before cutoff","Reduced post-quantization gap from 0.28 BPB to 0.004 BPB","11-layer Transformer with LeakyReLU(0.5)^2 MLPs and U-Net skip connections","GPTQ-lite per-row clip percentile search for int6 export","Achieved 1.1387 BPB mean over 3 seeds with stride-64 sliding window evaluation"],"artifact_size":"~15.6 MB","prompt_version":"v2","is_record":false},{"pr_number":981,"title":"Non-record: Sliding Patch Attentions + MoE (2-layer compact run)","author":"BurguerJohn","status":"open","val_bpb":1.4892628,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped-query attention with fewer KV heads than query heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Includes encoder/decoder-style skip connections in the experimental branch.","parameters":null}},{"category":"architecture_modification","data":{"component":"attention modifications","description":"Experimental sliding-patch attention and router-path attention variants are present in the codebase.","parameters":null}},{"category":"architecture_modification","data":{"component":"MoE","description":"Mixture-of-experts routing code paths are included, though the logged run reports moe_layers:0/2 so they were inactive in the measured submission.","parameters":{"moe_layers":0,"total_layers":2}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Sliding patch attention in the experimental training script","Mixture-of-experts/router code paths included in the branch","Compact 2-layer non-record run on a single H100","Tied-embedding compact baseline submission with post-quantization export"],"artifact_size":"3938328 bytes","prompt_version":"v2","is_record":false},{"pr_number":982,"title":"Record: Fort Knox — Legal Packed Training Cache, Zero Val Adaptation (val_bpb 0.0638, 3-seed)","author":"haikosys","status":"open","val_bpb":0.0638,"architecture":"Transformer","quantization":"FP16","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Transformer uses 4 attention heads with 2 KV heads.","parameters":{"heads":4,"kv_heads":2}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP expansion.","parameters":{"hidden_multiplier":3}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"other","data":{"description":"Packed training n-gram frequency table built from training data and serialized into the artifact.","parameters":{"buckets":32000,"order_min":2,"order_max":9}}},{"category":"evaluation_technique","data":{"method":"single-pass eval","parameters":null}},{"category":"regularization","data":{"method":"temperature sharpening","parameters":{"temperature":0.85}}}],"compression":"lzma","novel_contributions":["Packed training n-gram cache stored in the artifact","Zero validation-data adaptation","Single-pass frozen evaluation with no val cache, phrase cache, TTT, or alpha calibration","Blend of neural model scores with frozen training n-gram statistics","Legality-focused conservative baseline submission"],"artifact_size":"~8.1 MB","prompt_version":"v2","is_record":false},{"pr_number":984,"title":"submission 2026-03-27_PhaseCoherenceGatedGradients PIC-GID + ParallelMuon","author":"jzgdev","status":"open","val_bpb":1.3178,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"Adam split":true,"parallel":true}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Phase-induced coherence-gated gradient descent (PIC-GD) using paired real/imag latent channels and target embeddings to compute a detached coherence-based gradient gate.","parameters":{"beta":2,"min_gate":0.05,"eps":0.000001,"token_stride":32,"enabled":true}}},{"category":"other","data":{"description":"Tokenizer-agnostic val_bpb evaluation and int8 + zlib roundtrip export path.","parameters":null}}],"compression":"zlib","novel_contributions":["Phase-induced coherence-gated gradient descent (PIC-GD)","Pseudo-complex latent pairing of adjacent hidden channels as real and imaginary parts","Coherence-based detached gradient gating","Muon + Adam optimizer split with parallel Muon mention","Tokenizer-agnostic val_bpb evaluation","Int8 plus zlib roundtrip export path"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":985,"title":"Add 128-cluster baseline submission files","author":"danielweidinger2299-debug","status":"open","val_bpb":1.354,"architecture":"Transformer","quantization":"mixed 5/6-bit","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Specialist MoE with 128 bigram-gating specialists (FastClusterGating) for clustered token routing.","parameters":{"specialists":128}}},{"category":"architecture_modification","data":{"component":"Transformer","description":"800-dimensional Transformer with 6 layers and 10 attention heads per layer.","parameters":{"dimensions":800,"layers":6,"heads":10}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"use_for":"internal representations"}}},{"category":"optimizer_technique","data":{"method":"Adam","weight_decay":null,"momentum":null,"other_params":{"use_for":"clusters"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":5,"scope":"MLP/rest"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"other","data":{"description":"Hard 600-second wallclock limit enforced in the training script.","parameters":{"max_wallclock_seconds":600}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["128-cluster specialist MoE architecture with FastClusterGating","Hybrid 5-bit MLP / 6-bit rest quantization scheme","Stochastic Weight Averaging for improved generalization","Muon optimizer for internal representations with Adam for clusters","Hard 600-second wallclock compliance guard","Artifact size kept under the 16MB limit"],"artifact_size":"15.15 MB","prompt_version":"v2","is_record":false},{"pr_number":986,"title":"Record: Packed N-gram + Two-Pass Dirichlet CTW — val_bpb 0.0830 (3-seed mean)","author":"sofiabod","status":"open","val_bpb":0.08302574,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / embedding tying in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based n-gram cache component used for backoff and phrase matching.","parameters":{"orders":"2-13"}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Auxiliary gating component mentioned in the base architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual / VE128 component used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embedding applied to part of the model.","parameters":{"fraction":"16/64"}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation used in the MLP.","parameters":{"squared":true,"slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int5","bits":5,"scope":"per-row"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":32}}},{"category":"evaluation_technique","data":{"method":"two-pass full rescore","parameters":null}},{"category":"other","data":{"description":"Packed training n-gram artifact built from all training shards and stored as compressed hash tables for warm-started evaluation.","parameters":{"orders":"2-13","buckets":128000}}},{"category":"other","data":{"description":"Hierarchical Dirichlet CTW mixing where each order's posterior becomes the next order's prior.","parameters":{"concentration":5}}},{"category":"other","data":{"description":"Phrase cache with variable-length suffix matching.","parameters":{"probe_lengths":[48,36,28,20,16]}}}],"compression":"zstd-22","novel_contributions":["Packed training n-gram artifact precomputed from all training data and stored in the submission artifact","Two-pass full rescore to eliminate cold-start degradation without a second neural forward pass","Hierarchical Dirichlet CTW mixing across n-gram orders","Ratio-preserving count scaling to keep n-gram statistics within compact integer ranges","Variable-length phrase cache with suffix matching","Distributed cache prefill for sequential-equivalent distributed evaluation"],"artifact_size":"5.76 MB","prompt_version":"v2","is_record":false},{"pr_number":988,"title":"Record-track submission: 11L XSA4 + Late Shared Workspace Adapter (LSWA-64x4) + MLP2.5","author":"ymrohit","status":"closed","val_bpb":1.0856861,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied on the last 4 decoder layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram path retained from the donor line.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE path retained on late layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Main-trunk MLP multiplier reduced to 2.5 to fit the workspace adapter under the size cap.","parameters":{"multiplier":2.5}}},{"category":"architecture_modification","data":{"component":"other","description":"Late Shared Workspace Adapter with shared token-to-workspace-to-token writeback in the late decoder.","parameters":{"name":"LSWA-64x4","latent_channels":64,"workspace_slots":4,"heads":4,"think_steps":1,"active_from_block":5}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"evaluation_technique","data":{"method":"exact post-quant eval","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}}],"compression":null,"novel_contributions":["Late Shared Workspace Adapter (LSWA-64x4) with shared late writeback","Workspace tokens refine through a compact latent workspace and write back into token states","Shared adapter weights reused across late decoder sites","MLP multiplier trimmed to 2.5 to keep the model under the 16MB cap","Exact post-quant evaluation deployment with a record-folder packaged trainer"],"artifact_size":"15,900,041 bytes","prompt_version":"v2","is_record":false},{"pr_number":989,"title":"QAT x SWA Ablation: SWA sabotages QAT (-3.64 mBPB, 3-seed validated)","author":"alexanderaperry-arch","status":"open","val_bpb":1.1402,"architecture":"Transformer","quantization":"int5/int6 QAT","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start_step":4550}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adamw":true}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP width in the transformer stack","parameters":{"multiplier":3,"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pct":10}}}],"compression":"zstd-22","novel_contributions":["Systematic 2x2 factorial ablation of QAT and SWA on the PR #180 stack","3-seed validation showing QAT without SWA outperforms the SWA control by 3.64 mBPB","Evidence that SWA and QAT are antagonistic under the competition's short wallclock and artifact constraints","Demonstration that QAT configurations require more aggressive pruning to fit under the 16MB limit","Argument that post-quantization BPB is the relevant metric for QAT, not training val_bpb"],"artifact_size":"15,787,003 bytes","prompt_version":"v2","is_record":false},{"pr_number":990,"title":"ClownCar: Frugendorff compression baseline + canonical DeltaNet integration","author":"newjordan","status":"open","val_bpb":0.7614,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Uses one shared crawler block executed repeatedly across loops, with unique flat encoder/decoder layers around it.","parameters":{"loops":4,"flat_layers":4}}},{"category":"architecture_modification","data":{"component":"DeltaNet","description":"Canonical DeltaNet integration via CanonicalDeltaNet and chunk_delta_rule.","parameters":{"heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Shares crawler block weights across repeated loop executions.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2000}}},{"category":"other","data":{"description":"Int8 crawler quantization mode used to improve quantization resilience.","parameters":{"env_var":"CRAWLER_QUANT_INT8=1"}}}],"compression":"zstd","novel_contributions":["Frugendorff (F-Wing) crawler baseline with a shared recurrent block repeated across loops","Loop-specific instruction perturbations recomputed from the current hidden state each loop","Canonical DeltaNet integration using chunk_delta_rule","Empirical signal analysis separating width effects from weight sharing effects","Int8 crawler quantization mode to mitigate post-processing degradation","Confirmed sub-16MB submission with ~9.06MB artifact size"],"artifact_size":"9.06MB","prompt_version":"v2","is_record":false},{"pr_number":991,"title":"Record: 33.6M Int5 GPTQ + Score-First TTT (val_bpb=1.1145, 3-seed)","author":"ibarrajo","status":"open","val_bpb":1.1145,"architecture":"Transformer","quantization":"GPTQ 5-bit","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0001,"epochs":3,"blocks_unfrozen":2}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"learning_rate":0.0001}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Model uses U-Net style skip connections.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate feature.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash features.","parameters":{"size":8192}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA across all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LN Scale","description":"Includes layer norm scale.","parameters":null}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}}],"compression":"zstd-22","novel_contributions":["33.6M parameter larger model with d=576 and 3.5x MLP","Int5 GPTQ quantization with clipping range [-16, 15]","Legal score-first backward-looking TTT","Post-TTT temperature calibration at T=0.98","3-seed validation showing improved mean val_bpb"],"artifact_size":"15.9MB","prompt_version":"v2","is_record":false},{"pr_number":992,"title":"[Non-Record] H-Net with Dynamic Sequence Chunking","author":"TimS-ml","status":"open","val_bpb":1.4054,"architecture":"Hybrid","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Hybrid","description":"H-Net hierarchical architecture with encoder -> dynamic sequence chunker -> inner compressed sequence -> upsample -> decoder.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention in the transformer stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses squared ReLU activation in the transformer stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings / weight tying implied by the competition baseline stack.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"sequence_length","data":{"train_length":512,"eval_length":null}}],"compression":"zlib","novel_contributions":["First H-Net architecture submission in Parameter Golf","Dynamic sequence chunking with learned content-dependent boundaries","Hierarchical compression into a shorter latent chunk sequence for modeling","Upsampling back to full resolution for autoregressive prediction","Empirical finding that layout/depth allocation matters more than width","Demonstration that more aggressive compression can improve results on the stronger layout"],"artifact_size":"11.9 MB","prompt_version":"v2","is_record":false},{"pr_number":993,"title":"Record: 11L XSA + Mixed INT6 + Adaptive N-gram Cache (2->7 backoff) - val_bpb=0.9631, 3-seed","author":"aerosta","status":"closed","val_bpb":0.96308303,"architecture":"Transformer","quantization":"mixed INT6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to all 11 layers in an 11-layer Transformer with 512d hidden size, 8Q and 4KV heads.","parameters":{"layers":11,"hidden_dim":512,"q_heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times wider MLP using relu2 activation.","parameters":{"multiplier":3,"activation":"ReLU²"}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":null}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"post-training mixed"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Adaptive score-first n-gram cache with backoff orders 2->7, applied only to later positions/windows after scoring earlier windows.","parameters":{"orders":"2->7","adaptive_mode":"sigmoid_raw_entropy","alpha_range":[0.05,0.6],"hash_buckets":4194304,"min_count":2}}}],"compression":"lzma","novel_contributions":["11-layer XSA Transformer with tied embeddings and 3x MLP using ReLU²","Post-training mixed INT6 quantization with LZMA compression","Sliding-window evaluation with stride 64","Adaptive score-first n-gram cache with 2->7 backoff","EMA plus late SWA weight averaging"],"artifact_size":"15,882,569 bytes","prompt_version":"v2","is_record":false},{"pr_number":994,"title":"Add Kshitij submission (1x H100, val_bpb 1.4315, env-based config)","author":"singhaikshitijjain","status":"open","val_bpb":1.4315,"architecture":"Transformer","quantization":"int8 PTQ","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"Newton-Schulz orthogonalization":true}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style encoder-decoder transformer with skip connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":2}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary embeddings with partial RoPE.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmup":true,"warmdown":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"type":"decoupled","style":"AdamW"}}},{"category":"regularization","data":{"method":"gradient clipping","parameters":null}},{"category":"sequence_length","data":{"train_length":256,"eval_length":null}},{"category":"other","data":{"description":"Environment-variable-based hyperparameter configuration visible in logs.","parameters":null}},{"category":"other","data":{"description":"Flash attention for higher throughput and memory efficiency.","parameters":null}},{"category":"other","data":{"description":"Distributed token streaming loader.","parameters":null}}],"compression":"zlib","novel_contributions":["Muon optimizer with Newton-Schulz orthogonalization","Int8 post-training quantization with per-row scaling","Zlib-compressed artifact","Tokenizer-agnostic BPB evaluation","U-Net style encoder-decoder transformer with skip connections","Tied embeddings with custom learning rates","RMSNorm, rotary embeddings, GQA, and SwiGLU MLP","Distributed token streaming loader","EMA weight averaging","Environment-variable-driven hyperparameter configuration","Sliding-window validation"],"artifact_size":"10.63 MB","prompt_version":"v2","is_record":false},{"pr_number":995,"title":"Record: 1.0362 BPB — SGD Momentum 0.95 TTT + HedgeMixer + Per-Layer LR","author":"dexhunter","status":"open","val_bpb":1.0362,"architecture":"Transformer","quantization":"int5 GPTQ-lite","optimizer":"SGD","training_techniques":[{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.95,"other_params":{"learning_rate":0.002}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.95,"epochs":4,"freeze_depth":0}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-based token embedding component in the base architecture","parameters":{"size":6144}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional encoding","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA-all attention variant used in the base model","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU activation in the MLP","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP width","parameters":{"multiplier":3.5}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Reduced KV head count relative to attention heads","parameters":{"heads":8,"kv_heads":8}}},{"category":"architecture_modification","data":{"component":"LogisticContextMixer","description":"Backward-looking HedgeMixer with multiple experts","parameters":{"experts":5}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":5,"scope":"model"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":null}},{"category":"sequence_length","data":{"train_length":32000,"eval_length":null}},{"category":"regularization","data":{"method":"weight decay","parameters":null}}],"compression":"zstd","novel_contributions":["Switched TTT optimization from AdamW to SGD with momentum 0.95","Introduced per-layer learning-rate groups with higher LR for output projections and lower LR for input layers","Validated a best configuration using multi-seed sweeps and ablations","Combined score-first legal TTT with backward-looking HedgeMixer","Achieved a new record mean validation BPB of 1.0362"],"artifact_size":"15.67MB","prompt_version":"v2","is_record":false},{"pr_number":996,"title":"Pre-Enrichment + EMA-GPU + SmearGate + XSA4 (val_bpb=1.1478, …","author":"Idan3011","status":"open","val_bpb":1.1478,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Per-dimension gate blending each token with the previous token.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hash-table embedding for token bigrams.","parameters":{"dimensions":"2048x128"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider MLP with 3x expansion in the feedforward network.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder style skip connections with learned skip weights.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention removing self-value bias via orthogonal projection.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"GELU pre-enrichment","description":"Wider nonlinear pre-transformer enrichment block: 512->768->512 with GELU.","parameters":{"input_dim":512,"hidden_dim":768,"output_dim":512}}},{"category":"quantization","data":{"method":"QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"context_length":2048}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_lr":0.025}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}}],"compression":"lzma","novel_contributions":["EMA kept on GPU during training to avoid synchronous GPU-to-CPU copies each step","GELU pre-enrichment block before the transformer stack","XSA applied to the last 4 layers","Sliding window evaluation with stride 64 for improved val_bpb","Combination of SmearGate, BigramHash, EMA, and quantization-aware training in a compact artifact"],"artifact_size":"14.94 MB","prompt_version":"v2","is_record":false},{"pr_number":997,"title":"Non-record: 24.7M params · int6 · Binary U-Net/SmearGate/BigramHash · 1.5hr · RTX 5060 Ti 16GB","author":"randy06122001-boop","status":"open","val_bpb":1.4182,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"block weights"}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"10-layer U-Net style transformer with 5 encoder and 5 decoder blocks","parameters":{"layers":10,"encoder_blocks":5,"decoder_blocks":5}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Causal blending of token embeddings with previous context","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"4096-bucket hash embedding for consecutive token pairs","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion with ReLU² activation","parameters":{"hidden":1536}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 4 KV heads","parameters":{"heads":8,"kv_heads":4,"dimension":512}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied 1024-vocab embedding","parameters":{"vocab_size":1024}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"newton_schulz_steps":5}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"scalar parameters and embeddings"}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints_averaged":20,"phase":"warmdown"}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal initialization for all matrix weights"}},{"category":"compression","data":{"method":"zstd","level":22}}],"compression":"zstd-22","novel_contributions":["Int6 quantization for block weights","Binary U-Net style transformer with 10 layers","SmearGate causal embedding blending","BigramHash token-pair hash embeddings","Muon optimization with SWA","ReLU² MLP expansion","Tied embeddings with GQA"],"artifact_size":"11.63MB","prompt_version":"v2","is_record":false},{"pr_number":998,"title":"Add Conker-5 tandem residual exact experts non-record submission","author":"asuramaya","status":"open","val_bpb":0.5755,"architecture":"Hybrid","quantization":"int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"artifact"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"architecture_modification","data":{"component":"Hybrid","description":"Tandem-trained Conker-3 base with sparse exact residual experts and gate-only learned selection.","parameters":null}},{"category":"sequence_length","data":{"train_length":256,"eval_length":256}}],"compression":"zlib","novel_contributions":["Tandem-trained Conker-3 base model","Sparse exact residual experts for exact continuation reuse","Gate-only learned selection over residual experts","Packaged non-record submission under the 16MB artifact limit","Local MLX/Apple Silicon training and packaging workflow"],"artifact_size":"3,811,521 bytes","prompt_version":"v2","is_record":false},{"pr_number":999,"title":"Record: 11L Muon TTT + Entropy-Adaptive Epochs (8×H100) — val_bpb 1.1179 (3-seed mean)","author":"aamodbhatt","status":"open","val_bpb":1.1179,"architecture":"Transformer","quantization":"late QAT int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component in the base stack.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA on the last layers of the model.","parameters":{"last_n":4}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times expanded MLP block.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU^2 activation in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embeddings.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement on selected layers.","parameters":{"layers":[9,10]}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"lzma","level":7}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":"2/3/4 adaptive","chunk_tokens":32768}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"ttt_muon":true,"newton_schulz_steps":3,"parallel":true}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"warmdown_steps":3500}}},{"category":"other","data":{"description":"Entropy-adaptive TTT epoch selection based on chunk uncertainty, assigning 2/3/4 epochs per chunk.","parameters":{"high_threshold":2.1,"low_threshold":1.75}}}],"compression":"lzma-7","novel_contributions":["Muon-style Newton-Schulz orthogonalized updates in the test-time training loop","Entropy-adaptive epoch selection that allocates 2/3/4 epochs per chunk based on chunk uncertainty","Score-first TTT with global NLL synchronization across DDP ranks to avoid collective mismatch","Improved 3-seed mean val_bpb to 1.1179, beating the prior SOTA of 1.1194"],"artifact_size":"~15.9 MB","prompt_version":"v2","is_record":false},{"pr_number":1001,"title":"Non-record: Three Approaches + Lessons Learned (best: 1.1188 BPB)","author":"ibarrajo","status":"open","val_bpb":1.1188,"architecture":"Transformer","quantization":"GPTQ int5","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU in the #569-based approach.","parameters":null}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses ReLU squared in the #569-based approach.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Uses a Value Residual-based architecture in approach A.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Uses gated attention in the #569-based approach.","parameters":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Uses tied embeddings / weight tying in the referenced base models if applicable.","parameters":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Reports a legal s_0-only TTT score to avoid illegal re-scoring after training","Compares three approaches and identifies 1.1188 BPB as the best legal result","Shows that GPTQ calibration can be completed within the 600s training budget","Documents an int5 penalty on the d=512 model variant","Highlights that artifact size constraints can exclude a stronger GEPA-based approach"],"artifact_size":"15.3MB","prompt_version":"v2","is_record":false},{"pr_number":1002,"title":"12L INT4 bQAT + EMA Fix + Deterministic QAT — val_bpb ~1.165","author":"SoHarshh","status":"open","val_bpb":1.165,"architecture":"Transformer","quantization":"INT4 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash table used in the model, quantized and trained with INT4 bQAT.","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU(0.5) squared activation used in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer shared attention applied to the last 4 layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary positional embedding.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the residual stream.","parameters":null}},{"category":"architecture_modification","data":{"component":"resid_mix","description":"Learnable x/x0 blend always active.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997,"qat_activation_reset":true}}},{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"MLP and bigram; INT6 attention"}},{"category":"quantization","data":{"method":"late QAT","bits":4,"scope":"training"}},{"category":"quantization","data":{"method":"INT4","bits":4,"scope":"BigramHash"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"legal_score_first":true}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"late_qat_frac":0.65,"late_qat_threshold":0.9}}}],"compression":"zstd","novel_contributions":["INT4 bigram QAT to quantize the bigram table below INT6 and fit 12 layers within 16MB","EMA reset when QAT activates to avoid quantization degradation from pre-QAT EMA weights","Deterministic wallclock-based QAT trigger to remove seed-to-seed timing variance on multi-GPU runs"],"artifact_size":"15.97 MB","prompt_version":"v2","is_record":false},{"pr_number":1004,"title":"Non-record: 33.6M Int5 GPTQ + Legal s_0-only TTT (val_bpb=1.1182)","author":"ibarrajo","status":"open","val_bpb":1.1182,"architecture":"Transformer","quantization":"int5 GPTQ","optimizer":"AdamW","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash feature embedding","parameters":{"dimensions":8192}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied across all layers","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Exponential moving average of weights","parameters":{"decay":0.997}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections in the model","parameters":{"layers":11}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"pruning_rate":0.05}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_tokens":131072}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate activation/component","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16}}}],"compression":"zstd-22","novel_contributions":["33.6M parameter Transformer with int5 GPTQ compression","Legal score-first TTT that reports only cumulative s_0 score","Removal of illegal post-TTT re-evaluation and temperature calibration","5% magnitude pruning to keep artifact under 16MB","Sliding window evaluation with stride 64","BigramHash, XSA-all, SmearGate, Partial RoPE, and EMA-based architecture/features"],"artifact_size":"15,535,414 bytes","prompt_version":"v2","is_record":false},{"pr_number":1005,"title":"[Non-Record] Extended Compute Scaling Analysis: 1.0853 BPB at 50K steps (11.5 hours) on 4×A100MIG","author":"OnlyJundong","status":"open","val_bpb":1.0853,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component used in the model.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Attention/sequence architecture component applied to the last layers.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embeddings applied partially.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-times MLP expansion with LeakyReLU squared activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation used in the MLP.","parameters":{"squared":true,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement module.","parameters":{"layers":[9,10],"dimension":128}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":19500,"muon_momentum_warmup_steps":8350,"max_wallclock_seconds":0}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":8350}}}],"compression":"lzma","novel_contributions":["Extended compute scaling analysis of the record-track SOTA beyond the 10-minute wall-clock limit","Demonstrated 1.0853 BPB at 50K steps on 4×A100 MIG","Showed that artifact size is non-monotonic during training and recovers below 16MB after warmdown","Analyzed diminishing returns in BPB beyond roughly 30K steps","Compared 20K and 50K step runs against the record-track SOTA and quantified TTT gains scaling with compute"],"artifact_size":"14.35 MB","prompt_version":"v2","is_record":false},{"pr_number":1006,"title":"1.1085 BPB: JEPA + AdamW TTT + Full GPTQ + FA3 + LZMA","author":"NewyorkDev","status":"open","val_bpb":1.1085,"architecture":"Hybrid","quantization":"GPTQ int6","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"JEPA","description":"Auxiliary joint-embedding predictive loss that predicts future hidden states in latent space across multiple horizons.","parameters":{"horizons":[1,2,4,8]}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"mode":"pre-quantization","epochs":3}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-sequence attention applied to all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections in the 11-layer architecture.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding component.","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied only to part of the head dimension.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"compression","data":{"method":"lzma","level":6}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"cosine_decay":true}}}],"compression":"lzma","novel_contributions":["JEPA auxiliary training signal for language modeling","AdamW test-time training applied before quantization on EMA-averaged weights","Full Hessian-aware GPTQ quantization","Flash-Attention 3 for faster training","LZMA compression to fit under the 16MB limit","Cross-sequence attention on all 11 layers"],"artifact_size":"15,977,978 bytes","prompt_version":"v2","is_record":false},{"pr_number":1007,"title":"Submission/hybrid rwkv token shift","author":"dillon-blake","status":"open","val_bpb":1.2252,"architecture":"Hybrid","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Hybrid","description":"Replaced most attention layers with RWKV-inspired token-shift mixing while keeping a few short-window/full-context attention layers.","parameters":{"layers":11,"attention_layers":3,"token_shift_layers":8}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Used grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Added hashed bigram embeddings to capture local token-pair context.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Applied a learned gate to blend each token with the previous token after embedding normalization.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Injected value embeddings into attention/value pathways with learned per-layer scaling.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Projected attention outputs away from the value direction to encourage diverse head representations.","parameters":{"layers":[7,10]}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applied rotary position embeddings to only a subset of head dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Used LeakyReLU squared activation in the MLP instead of SwiGLU.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Used a 3x expansion MLP.","parameters":{"expansion":3}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"late_qat":true}}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"cap":30}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zlib","novel_contributions":["Hybrid RWKV-inspired token-shift layers replacing most attention layers","Short-window attention in only a few layers with one final full-context attention layer","Learned per-dimension token interpolation for efficient local mixing","Combination of hybrid architecture with BigramHash, SmearGate, XSA, Partial RoPE, and value embeddings","Int6 quantized and zlib-compressed artifact under the 16MB limit"],"artifact_size":"~15.86 MB","prompt_version":"v2","is_record":false},{"pr_number":1008,"title":"Add non-record unlimited-compute 11L LeakyTTT 16h local RTX 4060 Ti run","author":"monkeyKingProgrammer","status":"open","val_bpb":1.15377788,"architecture":"Transformer","quantization":"int6 lzma","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU^2 MLP activation","parameters":{"slope":0.5,"power":2}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":"16/64"}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual enhancement on selected layers","parameters":{"layers":[9,10],"dimension":128}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"momentum":0.9,"freeze_blocks":0,"batch_seqs":32,"grad_clip":1}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":3500}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}}],"compression":"lzma","novel_contributions":["11-layer local unlimited-compute run on a single RTX 4060 Ti 16GB","LeakyReLU^2 MLP stack combined with Parallel Muon, XSA, Partial RoPE, and layerwise LN scale","EMA + SWA training with legal score-first TTT","int6 + lzma export to fit under the 16MB artifact cap","Sliding-window evaluation followed by backward-looking test-time training"],"artifact_size":"15,807,729 bytes","prompt_version":"v2","is_record":false},{"pr_number":1009,"title":"12L INT4 bQAT + Value Embeddings — val_bpb 1.1588","author":"SoHarshh","status":"open","val_bpb":1.1574,"architecture":"Transformer","quantization":"INT4 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":4,"scope":"MLP + bigram"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram embedding with 10240 buckets","parameters":{"buckets":10240}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Three-layer MLP with LeakyReLU squared activation","parameters":{"layers":3}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer shared attention in the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary position embeddings","parameters":{"dimensions":16}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"initialization","data":{"method":"resid mix","description":"Learnable blend between residual stream and initial state"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"late QAT","bits":4,"scope":"MLP + bigram"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embeddings reinject token identity into V at layers 10-11 using a shared embedding table","parameters":{"ve_dim":128,"layers":[10,11]}}},{"category":"quantization","data":{"method":"INT6","bits":6,"scope":"attention"}}],"compression":"zstd","novel_contributions":["INT4 QAT for MLP and bigram components","Value embeddings added to V vectors at layers 10-11","Shared value embedding table to reduce parameter cost","EMA with QAT activation reset fix","Combination of U-Net skips, XSA, partial RoPE, LN scale, and resid_mix under a tight size budget"],"artifact_size":"16.41 MB","prompt_version":"v2","is_record":false},{"pr_number":1013,"title":"Non-record: S4D-Lin SSM Hybrid — Fixing Why Mamba Failed in Parameter…","author":"himanshudongre","status":"open","val_bpb":1.1682,"architecture":"Hybrid","quantization":"GPTQ int5","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"SSM","description":"Replaced the lower transformer layers with S4D-Lin state-space model blocks using causal depthwise conv1d with learned exponentially decaying kernels.","parameters":{"layers":2,"kernel_size":64}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Used standard XSA attention in the upper layers of the hybrid model.","parameters":{"layers":9}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Standard LeakyReLU^2 MLP used in the transformer stack.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ","bits":5,"scope":"full model"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"regularization","data":{"method":"LN scale","parameters":{"ln_scale_factor":true}}},{"category":"architecture_modification","data":{"component":"resid mix","description":"Used x0-mixing / residual mixing in the block design.","parameters":null}}],"compression":"lzma","novel_contributions":["First functional SSM in Parameter Golf without throughput penalty","S4D-Lin SSM blocks implemented with standard F.conv1d instead of Mamba selective scan","Hybrid architecture combining lower-layer SSM blocks with upper-layer transformer attention","Demonstrated that throughput can match the baseline while remaining torch.compile compatible","Identified that attention outperforms SSM in lower layers at full competition scale","Showed that GPTQ int5 quantization is sensitive for SSM weights","Added ssm_proj handling to the quantization tensor classes"],"artifact_size":"13.0 MB","prompt_version":"v2","is_record":false},{"pr_number":1014,"title":"N-gram logit boost + HedgeMixer + score-first TTT","author":"haimianbaobao007","status":"open","val_bpb":1.62,"architecture":"Transformer","quantization":"int6","optimizer":"SGD","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"N-gram logit boost using hashed n-gram tables with normalized softmax-based boosting.","parameters":null}},{"category":"other","data":{"description":"HedgeMixer online multiplicative-weights mixing between neural and neural+ngram experts.","parameters":null}},{"category":"optimizer_technique","data":{"method":"SGD","weight_decay":null,"momentum":0.95,"other_params":{"per_layer_lr":true}}},{"category":"weight_averaging","data":{"method":"Polyak averaging","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}},{"category":"regularization","data":{"method":"logit bias","parameters":{"per_document":true}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}}],"compression":null,"novel_contributions":["Normalized n-gram logit boost with softmax and collision-fix normalization","HedgeMixer online multiplicative-weights expert mixing","SGD momentum 0.95 test-time training with per-layer learning rates","Polyak averaging during TTT","Per-document online bias correction","Score-first update ordering for TTT and n-gram/HedgeMixer updates","Numba JIT acceleration and fallback chain"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1015,"title":"Add Parameter Golf submission: Vocab768_LinearPhaseInit_GatedXSA_EMA_…","author":"shram86","status":"open","val_bpb":1.21149167,"architecture":"Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Gated XSA applied to the last layers of the Transformer.","parameters":{"layers":2,"mode":"gated"}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value bias/residual applied to the last layers.","parameters":{"layers":2,"dimension":128}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"matrix_only"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"start_step":9094}}},{"category":"initialization","data":{"method":"phase-mix init","description":"Linear phase-mix initialization."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"other","data":{"description":"FlashAttention 3 backend used for attention computation.","parameters":{"backend":"flash_attn_3"}}}],"compression":"zstd","novel_contributions":["Custom sp768 tokenizer export with vocab size 768","Linear phase-mix initialization","Gated XSA on the last 2 layers","EMA during late training","Late matrix-only QAT","FlashAttention 3 backend","Tokenizer and dataset export published to Hugging Face and loaded via patched manifest-driven loader"],"artifact_size":"15,082,805 bytes","prompt_version":"v2","is_record":false},{"pr_number":1016,"title":"11L VRL + Parallel Muon + Legal TTT v2 (val_bpb=1.1269, non-record)","author":"ADIITJ","status":"open","val_bpb":1.1269,"architecture":"Transformer","quantization":"int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Value Residual","description":"Layer 0 V output is blended into subsequent layers via learned sigmoid gates.","parameters":{"layers":10}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding size increased to improve bpb.","parameters":{"dimensions":3072}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"full_length_windows_only":true,"fixed_scoring_offset":true}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.002,"momentum":0.9,"epochs":3,"chunk_size":32000}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are used.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation is used in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 4 KV heads.","parameters":{"kv_heads":4}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(L+1)"}}}],"compression":"zstd-22","novel_contributions":["Value Residual Learning (VRL) with learned sigmoid gates","BigramHash size doubled to 3072","Tight SWA used instead of EMA when snapshots are available","zstd-22 artifact compression","Sliding window evaluation bug fix","TTT enabled by default with all blocks unfrozen","Dropped full GPTQ in favor of GPTQ-lite"],"artifact_size":"~15.8 MB","prompt_version":"v2","is_record":false},{"pr_number":1019,"title":"Record: AR Self-Gen GPTQ + XSA-all + BigramHash 3072×112 — val_bpb 1.11473 (3-seed mean)","author":"abaybektursun","status":"open","val_bpb":1.1147,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"BigramHash embedding with wider vocabulary/dimension setting","parameters":{"vocab_size":3072,"dim":112}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-position attention applied to all layers","parameters":{"layers":11}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":4000}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"regularization","data":{"method":"structured pruning","parameters":{"type":"±1 by reconstruction error"}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"all"}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Partial rotary position embeddings","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"VE128","description":"VE128 applied to later layers","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Position-mixing gate","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared MLP activation","parameters":{"squared":true}}}],"compression":"lzma-9","novel_contributions":["AR self-generated calibration data for GPTQ with no val or train data access during quantization","Full Hessian GPTQ with Cholesky error compensation and column reordering","BigramHash widened to 3072 × 112","XSA applied to all 11 layers","Removal of TTT while still improving over prior SOTA"],"artifact_size":"~15.91 MB","prompt_version":"v2","is_record":true},{"pr_number":1021,"title":"Non-record: MC Dropout ensembling is negative for small LMs","author":"abaybektursun","status":"open","val_bpb":1.325,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"regularization","data":{"method":"dropout","parameters":{"rates":[0.3,0.05]}}},{"category":"evaluation_technique","data":{"method":"MC Dropout ensembling","parameters":{"k":16}}}],"compression":null,"novel_contributions":["Evaluated MC Dropout ensembling for a 17M-parameter language model","Showed that averaging 16 dropout samples at inference does not improve BPB","Found deterministic single-pass inference outperforms MC Dropout at both tested dropout rates","Argued that dropout-induced sub-network diversity is insufficient at this scale"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1022,"title":"Non-Record: McGilchrist Register Token — causal cumulative mean + FiLM global context pathway","author":"aramdov","status":"open","val_bpb":1.16465,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"FiLM","description":"Adds a causal cumulative-mean global context pathway in each transformer block, projecting to FiLM gamma/beta parameters to modulate block outputs.","parameters":{"register_scale":0.01,"bottleneck_dim":8,"model_dim":512}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Untied output embedding head is mentioned as the cause of artifact overage; the base SOTA uses tied embeddings.","parameters":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":null}}],"compression":"zstd-22","novel_contributions":["Causal cumulative-mean register pathway for global context in each transformer block","FiLM-based modulation of block outputs using gamma/beta from a bottleneck projection","Zero-initialized register mechanism designed to start identically to the baseline","Per-step mechanism confirmed to learn without destabilizing training"],"artifact_size":"16,855,808 bytes","prompt_version":"v2","is_record":false},{"pr_number":1024,"title":"Evidence-aware Dirichlet concentration, 35% improvement over fixed c=5.0","author":"immartian","status":"open","val_bpb":0.083,"architecture":null,"quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Evidence-aware Dirichlet concentration for hierarchical CTW mixing; adapts smoothing using context count and context specificity (IDF).","parameters":{"base_concentration":5,"formula":"c_eff = c_base / (1 + beta * np.log1p(ctx_count) * specificity_boost)"}}}],"compression":null,"novel_contributions":["Replaces fixed Dirichlet concentration c=5.0 with evidence-aware concentration.","Adapts smoothing per position using context frequency and context specificity (IDF).","Drop-in replacement for hierarchical CTW mixing in PR #986.","Claims 35% improvement over fixed concentration on a synthetic benchmark."],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1025,"title":"non-record: MASA low-rank shared attention + SwiGLU, 1.3579 BPB","author":"Zagot-byte","status":"open","val_bpb":1.3579,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"shared attention","description":"All 11 layers share a set of low-rank base matrices instead of unique Q/K/V/O weights per layer; each layer learns mix coefficients.","parameters":{"layers":11,"bases":10,"rank":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a SwiGLU MLP with 3x expansion instead of ReLU squared.","parameters":{"multiplier":3}}},{"category":"architecture_modification","data":{"component":"SwiGLU","description":"SwiGLU activation in the MLP.","parameters":{"hidden":341}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses 8 attention heads and 8 KV heads.","parameters":{"heads":8,"kv_heads":8}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_start":16000,"iterations":20000}}},{"category":"sequence_length","data":{"train_length":512,"eval_length":null}}],"compression":null,"novel_contributions":["MASA (Matrix Atom Sharing Attention) with low-rank shared base matrices across all layers","Per-layer mixing coefficients instead of separate Q/K/V/O weights","SwiGLU MLP replacement","Warmdown fix for learning rate decay","Low-rank base matrices to improve parameter efficiency"],"artifact_size":"20.98MB","prompt_version":"v2","is_record":false},{"pr_number":1026,"title":"N-gram Cache + Entropy-Adaptive Alpha: 1.0945 BPB","author":"danielxmed","status":"open","val_bpb":1.0945,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram hash component in the model stack.","parameters":{"size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA to the last layers of the model.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses partial rotary positional embeddings.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Adds value residual enhancement in selected layers.","parameters":{"layers":[9,10],"dimension":128}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses a 3x MLP stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared activation.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA + Tight SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"adam_weight_decay":0.04,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035,"momentum_warmup_start":0.92,"momentum_warmup_steps":1500}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"N-gram cache with entropy-adaptive alpha interpolates byte-level N-gram predictions with model logits during evaluation.","parameters":{"max_order":7,"alpha":0.5,"nll_threshold":2.5,"adaptive_range":[0.1,2],"backoff":"strict"}}},{"category":"test_time_training","data":{"method":"TTT","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}}],"compression":"lzma","novel_contributions":["N-gram cache replaces TTT for evaluation-time adaptation","Entropy-adaptive alpha scales cache interpolation by token uncertainty","Strict backoff N-gram cache with order 7 to 2","CPU-overlapped N-gram scoring alongside GPU sliding window evaluation","Achieves 1.0945 BPB with 3-seed consistency and sub-16MB artifacts"],"artifact_size":"~15.99 MB","prompt_version":"v2","is_record":false},{"pr_number":1027,"title":"Non-record: LeakyReLU² + BigramHash + Int5/Int6 + SlidingWindow — val_bpb 1.3036 (1×H100)","author":"Syed-M-Zeeshan","status":"open","val_bpb":1.3036,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 activation in the MLP instead of standard ReLU^2.","parameters":{"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds hashed bigram embeddings as cheap n-gram features.","parameters":{"buckets":1536,"dim":128}}},{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP weights and attention weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"tied embeddings"}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"start":"last 40% of warmdown","frequency":"every 10 steps"}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":{"used_for":"scalar/embed params and pre-quantization TTT"}}},{"category":"compression","data":{"method":"lzma","level":"extreme"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"AdamW","chunk_size":32768,"pre_quantization":true}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"iterations":1050,"warmdown":150}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"softcap":30}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses U-Net style skip connections in the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention.","parameters":{"kv_heads":4,"heads":8}}}],"compression":"lzma-extreme","novel_contributions":["LeakyReLU(0.5)^2 activation","BigramHash(1536, dim=128) features","Mixed Int5/Int6 quantization with FP16 tied embeddings","EMA plus SWA weight averaging","AdamW pre-quantization test-time training","LZMA artifact compression","Sliding window evaluation with stride 64"],"artifact_size":"15,893,048 bytes","prompt_version":"v2","is_record":false},{"pr_number":1028,"title":"Medusa: Unstable — DeltaNet Crawler 0.8104 BPB 10mb file size(best seed), mean 0.9984, Frugendorff continuation","author":"newjordan","status":"open","val_bpb":0.8104,"architecture":"Transformer","quantization":"int6+zstd","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"DeltaNet","description":"Uses canonical chunk_delta_rule DeltaNet heads inside a Frugendorff crawler topology.","parameters":{"heads":4,"short_conv":true,"loops":4,"flat_layers":4,"crawler_layers":1}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses RoPE dimensions as part of the model configuration.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses a bigram vocabulary/hash-style component in the architecture.","parameters":{"vocab_size":2048}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"model weights"}},{"category":"quantization","data":{"method":"GPTQ","bits":null,"scope":"41 layers"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"start_step":4400,"decay":0.99}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"iters":2000}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"other","data":{"description":"Loop-aware GPTQ with quantized-flat activations and crawler Hessians.","parameters":{"enabled":true}}}],"compression":"zstd","novel_contributions":["DeltaNet crawler topology with canonical chunk_delta_rule heads","Loop-aware GPTQ using flat Hessians first, then crawler Hessians with quantized-flat activations","Late-start EMA re-initialized at warmdown onset","High-variance multi-seed submission with best seed 0.8104 BPB","Int6 + zstd artifact compression"],"artifact_size":"10MB","prompt_version":"v2","is_record":false},{"pr_number":1029,"title":"Non-record: Knowledge Distillation - A Negative Result (val_bpb=1.152)","author":"fielding","status":"open","val_bpb":1.152,"architecture":"Transformer","quantization":"late QAT","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Input-side bigram hashing used in the model setup; does not affect the prediction head.","parameters":{"vocab_size":6144}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last layers of the student model.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses relu-squared MLP activation.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"model"}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":1600}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"other","data":{"description":"Knowledge distillation using both hard label replacement with teacher top-1 predictions and soft KL distillation against cached teacher logits.","parameters":{"teacher_params":105500000,"top_k_logits":32,"temperature":2,"alpha_values":[0.1,0.3,0.5]}}}],"compression":null,"novel_contributions":["First distillation experiment in Parameter Golf","Systematic comparison of hard distillation and soft KL distillation under tight step-budget constraints","Cached top-32 teacher logits to make distillation feasible within the training budget","Extended training analysis showing distillation does not cross the baseline even with more time","Demonstration that online teacher inference is too expensive for this setting"],"artifact_size":"15.4 MB","prompt_version":"v2","is_record":false},{"pr_number":1030,"title":"Record: Single-Pass Packed N-gram + Dirichlet CTW — val_bpb 0.1130 (3-seed mean)","author":"sofiabod","status":"open","val_bpb":0.11300056,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings used in the base Transformer.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings applied to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"SWA","description":"Stochastic weight averaging used during training.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component used in the model stack.","parameters":{"dimensions":128,"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate module used in the model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value residual/VE128 component used in later layers.","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":128,"seq_len":2048}}},{"category":"other","data":{"description":"Single-pass score-first evaluation with packed multi-order n-gram cache and hierarchical Dirichlet CTW mixing.","parameters":{"orders":"2-13","buckets_per_order":131072,"concentrations":[50,50,20,10,6,4,3,2.5,2,1.8,1.6,1.4]}}}],"compression":"zstd-22","novel_contributions":["Packed multi-order n-gram artifact precomputed from training shards to eliminate cold-start cache issues","Hierarchical Dirichlet CTW mixing across n-gram orders","Single-pass score-first evaluation with no two-pass rescore","Deterministic distributed cache prefill for warm-started evaluation","Ratio-preserving packed uint16 n-gram counts stored in a compressed artifact"],"artifact_size":"5.76 MB","prompt_version":"v2","is_record":false},{"pr_number":1031,"title":"Record: MTP-2 Funnel + LeakyReLU(0.75)² + Legal TTT + Parallel Muon","author":"michaelwinczuk","status":"open","val_bpb":1.1185,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Changed MLP activation negative slope from 0.5 to 0.75 and used squared activation.","parameters":{"negative_slope":0.75}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"MATRIX_LR":0.027}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3700}}},{"category":"test_time_training","data":{"method":"Legal TTT","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"architecture_modification","data":{"component":"MTP","description":"Added multi-token prediction auxiliary heads to predict 2 tokens ahead during training; heads are discarded at export.","parameters":{"num_heads":2,"loss_weight":0.1}}}],"compression":null,"novel_contributions":["Added multi-token prediction (MTP) auxiliary training signal with 2 heads","Reduced MTP loss weight to 0.1 to avoid overpowering the main CE loss","Increased LeakyReLU negative slope from 0.5 to 0.75","Tuned MATRIX_LR from 0.025 to 0.027","Extended warmdown from 3500 to 3700 iterations","Used legal test-time training and sliding window evaluation"],"artifact_size":"15.95MB","prompt_version":"v2","is_record":false},{"pr_number":1032,"title":"[Non-Record] QAT Dead-Code Analysis + 7 Novel Technique Sweep (1xH100)","author":"wfproc","status":"open","val_bpb":1.3631,"architecture":"Transformer","quantization":"int6 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"fraction":0.05}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"variant":"Muon-VS"}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Changed activation slope to 0.75; reported as better than 0.5^2 variant.","parameters":{"slope":0.75}}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Thinking Deeper recurrence applied to the model.","parameters":{"layers":2,"steps":2}}},{"category":"architecture_modification","data":{"component":"anti-layer removal","description":"Layer ablation diagnostic by zeroing attn_scale and mlp_scale per layer.","parameters":null}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.04,"momentum":null,"other_params":null}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(L+1)"}}},{"category":"architecture_modification","data":{"component":"MLP width","description":"Wider model variant.","parameters":{"model_dim":576,"layers":11}}},{"category":"initialization","data":{"method":"spectral init","description":"Spectral SVD compression variant using SVD-based factorization."}}],"compression":null,"novel_contributions":["Confirmed a torch.compile dead-code bug causing late QAT to be eliminated in #315-derived code","Implemented a working tensor-scale STE QAT fix that avoids recompilation","Showed that fixing QAT worsened int6 validation bpb on this 1xH100 setup","Swept seven previously untried techniques on the SOTA stack, all negative","Quantified the throughput tax: about 0.007 bpb per 1 ms of overhead at this step budget","Added working prune-then-quantize and anti-layer diagnostic toggles","Observed that zero-overhead changes like LeakyReLU slope tuning are the only ones that survived the budget"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1033,"title":"Record: 0.4311 BPB - Complementary Training + Backoff N-gram Mixer + TTT","author":"Naazimsnh02","status":"open","val_bpb":0.4311,"architecture":"Transformer","quantization":"Int6 GPTQ-lite","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8/4 heads.","parameters":{"heads":"8/4"}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash cache/embedding used in the model and eval stack.","parameters":{"buckets":2048}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA attention used in the architecture.","parameters":{"last_layers":4}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional embedding applied to a subset of dimensions.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections in a U-Net style arrangement.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate component in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Value residual learning / value residual connections.","parameters":null}},{"category":"architecture_modification","data":{"component":"depth recurrence","description":"Repeated layers to create virtual depth without extra parameters.","parameters":{"layers":[4,5]}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding module.","parameters":{"dimension":128,"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_every":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"LoRA TTT","parameters":{"rank":8,"learning_rate":0.01,"epochs":3}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"other","data":{"description":"Complementary training that downweights tokens a bigram predictor would already get right.","parameters":{"complement_alpha":0.5}}},{"category":"other","data":{"description":"Entropy-adaptive alpha for mixing neural and n-gram predictions during evaluation.","parameters":{"formula":"0.20 + 0.55 * sigmoid(2 * (H - 3.0))"}}},{"category":"other","data":{"description":"Backoff n-gram mixer with orders 2-10 and greedy cascade.","parameters":{"orders":"2-10","buckets":4000000}}}],"compression":"lzma","novel_contributions":["Complementary training that focuses the neural model on tokens statistical caches cannot predict well","Backoff n-gram mixer with adaptive entropy-based alpha","Score-first LoRA TTT on already-evaluated tokens","Depth recurrence to increase virtual depth without extra parameters"],"artifact_size":"~15.9 MB","prompt_version":"v2","is_record":false},{"pr_number":1034,"title":"Non-record: knowledge distillation teacher-student submission","author":"Jeneesh1014","status":"open","val_bpb":1.7195,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"other","data":{"description":"Teacher-student knowledge distillation with a larger teacher model training on cross-entropy and a smaller student trained on a mix of label cross-entropy and KL divergence to teacher soft predictions.","parameters":{"alpha":0.5,"temperature":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are enabled in the student model.","parameters":null}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmup","parameters":{"warmup_steps":20}}}],"compression":null,"novel_contributions":["Non-record teacher-student distillation submission for the 16MB track","Uses a larger teacher model to guide a smaller student model via KL distillation","Reports an honest partial-run validation score and clearly distinguishes measured results from extrapolated estimates","Provides reproducible 8×H100 and single-GPU smoke-test commands"],"artifact_size":"~5MB","prompt_version":"v2","is_record":false},{"pr_number":1036,"title":"Non-record: AutoResearch Batch Optimization — 1.1974 bpb (1× RTX 4090)","author":"ivanontech","status":"open","val_bpb":1.1974,"architecture":"Transformer","quantization":null,"optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"Gated Attention","description":"Value embeddings with gated fusion on alternating layers and learned value representations per token.","parameters":{"layers":12}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Used 8 attention heads and 8 KV heads with full attention.","parameters":{"heads":8,"kv_heads":8}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.2,"momentum":null,"other_params":{"matrix_lr":0.1,"adamw_for":"embeddings/scalars"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"schedule":"cosine warmdown","warmup_ratio":0}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.2}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Aggressive reduction of total batch size from 2^19 to 2^16 to increase the number of optimization steps within a fixed 5-minute wallclock budget.","parameters":{"total_batch_size":65536,"baseline_batch_size":524288,"steps":404}}}],"compression":null,"novel_contributions":["Reduced total batch size from 2^19 to 2^16 to dramatically increase training steps within the same time budget","Automated hyperparameter search across three rounds of experiments","Value embeddings with gated fusion on alternating layers","Use of Muon optimizer with AdamW for embeddings/scalars","Demonstrated competitive performance on a single RTX 4090"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1037,"title":"Record: Muon TTT + Entropy-Adaptive Epochs — val_bpb 1.1179 (3-seed mean)","author":"TimPietruskyRunPod","status":"closed","val_bpb":1.1179,"architecture":"Transformer","quantization":"GPTQ 6-bit","optimizer":"Muon","training_techniques":[{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"chunk_size":32000,"stride":64,"all_blocks_unfrozen":true}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with 8 attention heads and 4 KV heads","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Partial rotary positional embeddings","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embeddings","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate gating mechanism","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embeddings on layers 9-10","parameters":{"layers":[9,10],"dimensions":128}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU(0.5)^2 activation","parameters":{"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval_steps":50}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.04}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":null}}],"compression":"lzma","novel_contributions":["Muon-style score-first test-time training","Entropy-adaptive epoch selection for harder and easier chunks","Combined Muon TTT with a compact Transformer architecture stack","Int6 GPTQ compression with Hessian error compensation and LZMA","3-seed validated record submission with sub-1.118 mean val_bpb"],"artifact_size":"15.95MB","prompt_version":"v2","is_record":false},{"pr_number":1038,"title":"Add 1.20 BPB submission with Legal TTT and Calibration (9L/448D)","author":"Vibes-me","status":"open","val_bpb":1.20576485,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":null}},{"category":"other","data":{"description":"Model configuration uses 9 layers, 512 model dimension, 8 attention heads, 4 KV heads, and MLP multiplier 2.","parameters":{"layers":9,"model_dim":512,"num_heads":8,"num_kv_heads":4,"mlp_mult":2}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Legal test-time training (TTT)","Calibration","Weight tying","Long-context training with sequence length 2048","Int8 quantized roundtrip submission"],"artifact_size":"15.87MB","prompt_version":"v2","is_record":false},{"pr_number":1039,"title":"Add LeakyReLU² + 4ep Legal TTT submission","author":"yufengli-oai","status":"open","val_bpb":1.11835341,"architecture":"Transformer","quantization":"late QAT int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared activation in the model.","parameters":{"power":2,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses bigram hashing embedding.","parameters":{"vocab_size":1536}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last layers.","parameters":{"last_n_layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE only partially.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses value residual embeddings/paths with dimension 128.","parameters":{"dimension":128}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every":50}}},{"category":"quantization","data":{"method":"late QAT","bits":6,"scope":"model"}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"muon_momentum_warmup_start":0.92,"muon_momentum_warmup_steps":1500,"warmdown_iters":3500,"matrix_lr":0.025,"scalar_lr":0.025,"tied_embed_lr":0.035}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"learning_rate":0.0025,"epochs":4,"chunk_tokens":32768,"momentum":0.9,"freeze_blocks":0,"batch_seqs":32,"grad_clip":1}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"cosine decay","parameters":{"ttt":true}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_wd":0.04,"adam_wd":0.04}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"enabled":true}}}],"compression":null,"novel_contributions":["Improved Legal TTT submission based on the prior LeakyReLU LegalTTT Parallel Muon run","Increased legal TTT learning rate from 0.002 to 0.0025","Increased legal TTT epochs from 3 to 4","Skipped diagnostic pre-TTT evaluations to keep evaluation under the time limit","Added eval-only checkpoint loading for faster TTT sweeps","Combined LeakyReLU² with Parallel Muon, EMA, SWA, and late QAT"],"artifact_size":"15,882,595 bytes","prompt_version":"v2","is_record":false},{"pr_number":1040,"title":"Non-record: 11L Int5 QAT + Score-First TTT — val_bpb 1.1336 (15.59 MiB)","author":"JoeProAI","status":"closed","val_bpb":1.13360681,"architecture":"Transformer","quantization":"int5 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"QAT","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram buckets and bigram embedding used in the model","parameters":{"buckets":4096,"embed_dim":128}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Embeddings are not tied","parameters":{"tied":false}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}}],"compression":null,"novel_contributions":["11-layer U-Net style model with Int5 QAT","Score-first legal test-time training","Independent seed validation run","Artifact kept under the 16 MiB limit"],"artifact_size":"15.59 MiB","prompt_version":"v2","is_record":false},{"pr_number":1041,"title":"Non-record: 11L Int5 QAT + Score-First TTT — val_bpb 1.1356 (15.60 MiB)","author":"JoeProAI","status":"closed","val_bpb":1.13557402,"architecture":"Transformer","quantization":"int5 QAT","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"int5","bits":5,"scope":"all"}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses bigram buckets and bigram embeddings in the model.","parameters":{"buckets":4096,"embed_dim":128}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Embeddings are not tied.","parameters":{"tie_embeddings":false}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Submission uses an 11-layer U-Net style architecture.","parameters":{"layers":11,"model_dim":512,"heads":8,"mlp_hidden":1536}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":null}}],"compression":null,"novel_contributions":["11-layer U-Net style model","Int5 quantization-aware training","Score-first legal test-time training","Independent seed validation run"],"artifact_size":"15.60 MiB","prompt_version":"v2","is_record":false},{"pr_number":1042,"title":"Record: Adaptive Precision Embedding Quantization (4-seed mean val_bpb=1.1217)","author":"nothingLiva","status":"open","val_bpb":1.1217,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int6/int8","bits":null,"scope":"embeddings"}}],"compression":null,"novel_contributions":["Adaptive precision embedding quantization based on token frequency","Assigning int8 to the top 100 most frequent tokens and int6 to the remaining tokens","Using higher precision for frequent tokens that cover 53.2% of the text"],"artifact_size":"15.8 MB","prompt_version":"v2","is_record":false},{"pr_number":1043,"title":"PP12: Bayesian posterior packets + selective gating (1.1261 BPB)","author":"okezue","status":"open","val_bpb":1.1261,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared MLP activation in the base stack.","parameters":{"power":2}}},{"category":"architecture_modification","data":{"component":"Legal TTT","description":"Score-first test-time training stack used in the base model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component used in the base stack.","parameters":{"vocab_size":3072}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross/self-attention style component applied to the last layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to a subset of dimensions.","parameters":{"dimensions":16,"total_dimensions":64}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Value embedding component used in later layers.","parameters":{"layers":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"Tight SWA","parameters":{"interval":50}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"epochs":3,"learning_rate":0.002,"momentum":0.9,"grad_clip":1}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"other","data":{"description":"Bayesian posterior packets distilled from training data and updated online with conjugate counts.","parameters":{"packet_store":true,"online_update":true}}},{"category":"other","data":{"description":"Selective gating mixes packet posteriors with neural predictions only when packet confidence is higher.","parameters":{"confidence_margin":0.05,"has_data_threshold":20}}}],"compression":"lzma","novel_contributions":["Bayesian posterior packets distilled from training data","Conjugate online updating of packet posteriors with eval-time counts","Selective gating to avoid degradation from naive probability mixing","Packet-based improvement over pure neural TTT","Periodic TTT reset idea to address drift during long evaluation"],"artifact_size":"~15.99 MB","prompt_version":"v2","is_record":false},{"pr_number":1044,"title":"H-Net: First Learned Byte-Level Tokenization (README Wishlist) -- 1.90 BPB, 22M params","author":"greqone","status":"open","val_bpb":1.8989,"architecture":"Hybrid","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"Hybrid","description":"H-Net-style learned byte-level tokenization with dynamic chunking gate, chunk/dechunk layers, and a transformer operating on compressed chunks; replaces Mamba-2 with causal depthwise Conv1d encoder/decoder.","parameters":{"layers":9,"d_model":512,"heads":8,"kv_heads":4,"chunk_ratio":0.25}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU activation in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied output head / tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped-query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"EMA","description":"Uses EMA-based dechunking / expansion back to full byte sequence.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"weight decay","parameters":null}},{"category":"other","data":{"description":"Differentiable chunking gate using cosine similarity with straight-through estimation to learn byte-level boundaries dynamically.","parameters":{"target_ratio":0.25}}},{"category":"other","data":{"description":"Auxiliary chunk ratio loss used to steer boundary density during training.","parameters":{"weight":1}}},{"category":"other","data":{"description":"Vectorized ChunkLayer and DeChunkLayer implemented with cumsum-based segment IDs, scatter operations, and broadcasted exponential decay.","parameters":null}}],"compression":"zstd-22","novel_contributions":["First tiny-scale H-Net implementation for Parameter Golf","First learned byte-level tokenization submission using dynamic chunking","Vectorized ChunkLayer/DeChunkLayer without Python batch loops","Pure-PyTorch depthwise causal Conv1d replacement for Mamba-2 SSM layers","Demonstrated end-to-end training of a chunking gate with auxiliary ratio loss","Produced a sub-16MB artifact at 15.4MB"],"artifact_size":"15.4MB","prompt_version":"v2","is_record":false},{"pr_number":1045,"title":"[Non-Record] XSA-all-layers + VRL + bigram3072 + lzma9 — 1.1509 bpb, AdamW TTT findings","author":"Hilo-Hilo","status":"open","val_bpb":1.15088552,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"AdamW","training_techniques":[{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-attention applied to all layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Value Residual","description":"Adds residual value gating (V = V + residual_V).","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"3072-vocab bigram head with reduced embedding dimension.","parameters":{"vocab_size":3072,"dimensions":112}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"learning_rate":0.002,"epochs":3}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":0.01,"momentum":null,"other_params":{"betas":[0.9,0.999],"eps":1e-8}}}],"compression":"lzma-9","novel_contributions":["XSA applied to all 11 layers of the 11L d512 stack","Value Residual Learning added on XSA layers","bigram3072 head with dimension 112","lzma preset 9 used to reduce artifact size","Measured that AdamW TTT at lr=0.002 significantly degrades performance compared with no TTT"],"artifact_size":"15.3MB","prompt_version":"v2","is_record":false},{"pr_number":1046,"title":"Record: 11L Adaptive Markov + Int6 Mixed Quant (1.2174 bpb)","author":"Jayteare","status":"open","val_bpb":1.2174,"architecture":"Hybrid","quantization":"mixed int6/int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Used grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4,"layers":11,"dim":512}}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Used relu squared MLP activation.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adaptive per-position gate mixing transformer logits with Markov logits, including confidence-based thresholding.","parameters":{"threshold":0.2,"temp":0.03}}},{"category":"other","data":{"description":"Added an explicit unigram Markov transition table combined with transformer logits as a short-range prior.","parameters":{"table_size":"1024x1024"}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"MLP and attention weights int6; embeddings and Markov table int8; control tensors fp16"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["Adaptive Markov mixing with a learned per-position gate","Confidence-based suppression of Markov contribution using the top-2 Markov logit gap","Mixed int6/int8 quantization to fit under the 16MB artifact limit","Large 786K-token batch training for improved throughput within the 10-minute budget","Explicit short-range Markov prior combined with a causal transformer"],"artifact_size":"15,107,918 bytes","prompt_version":"v2","is_record":false},{"pr_number":1047,"title":"(0.8822 BPB mean) Medusa: Unstable S2 — DeltaNet Crawler, Legal 10mb. .77bpb single seed.","author":"newjordan","status":"open","val_bpb":0.8822,"architecture":"Hybrid","quantization":"int6 GPTQ","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"depth recurrence","description":"4 flat layers plus 1 crawler layer repeated across 4 loops (Frugendorff compression).","parameters":{"layers":4,"crawler_layers":1,"loops":4}}},{"category":"architecture_modification","data":{"component":"DeltaNet","description":"Uses DeltaNet heads with canonical chunk_delta_rule from fla.ops.delta_rule.","parameters":{"heads":4}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"41 layers"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"start_step":4400,"decay":0.99}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":2000}}},{"category":"other","data":{"description":"GPTQ reserve time stops training early so calibration runs within the 600s wallclock budget.","parameters":{"gptq_reserve_ms":30000}}}],"compression":"zstd","novel_contributions":["Legal resubmission fixing GPTQ calibration timing to stay within the 600s wallclock budget","DeltaNet crawler architecture with 4 flat layers plus 1 crawler layer repeated over 4 loops","Loop-aware two-phase GPTQ calibration for 41 layers","EMA-based post-training improvement with reported 3-seed mean BPB of 0.8822","Use of canonical DeltaNet kernel chunk_delta_rule"],"artifact_size":"~9.9MB","prompt_version":"v2","is_record":false},{"pr_number":1048,"title":"Non-record: Compression moonshots — 8 negative/marginal findings (Procrustes, SWA smoothness, selective fp16, pruning+zstd)","author":"mrdavtan","status":"open","val_bpb":1.1724,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"quantization","data":{"method":"int6","bits":6,"scope":"all weights"}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Expanded MLP hidden size to 3x baseline (1536 vs 1024).","parameters":{"hidden":1536}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"well-conditioned weights"}},{"category":"quantization","data":{"method":"fp16","bits":16,"scope":"selected embedding rows"}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"sparsity":0.03}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.99,"other_params":{"backend_steps":5}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":20000}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Int6 per-row quantization with 3x MLP expansion achieved the best reported validation score.","Systematic ablation study of nine techniques, including SWA, doc-isolated evaluation, curriculum learning, multi-token prediction, SmearGate + BigramHash, depth recurrence, and int8 QAT.","Checkpoint-analysis findings showing Procrustes rotational structure across layers and across seeds, but with no artifact-size benefit.","Selective fp16 embedding export based on embedding entropy to reduce artifact size.","Observation that small amounts of magnitude pruning can increase compressed artifact size due to interaction with zstd.","Identification of a block-7 quantization outlier with unusually high kurtosis, suggesting selective fp16 protection.","Finding that SWA produces smoother weights and smaller artifacts than EMA, but only if step count is preserved."],"artifact_size":"15,175,136 bytes","prompt_version":"v2","is_record":false},{"pr_number":1050,"title":"Add Stack Integration + Legal TTT submission package","author":"Taleef7","status":"open","val_bpb":1.119367,"architecture":"Transformer","quantization":null,"optimizer":"Parallel Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"enabled":true}}},{"category":"evaluation_technique","data":{"method":"stride-based eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":null}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Promoted script is byte-identical to a proven record script; no explicit architecture change beyond the referenced submission setup is described.","parameters":null}}],"compression":"lzma","novel_contributions":["Promoted reviewer-ready submission folder with audited evidence logs","Legal TTT submission package with canonical metric legal_ttt","Parallel Muon optimizer usage","Byte-identical promoted train_gpt.py inherited from a proven prior record","Included train.log alias plus three audited seed logs","Submission metadata generated from audit payload"],"artifact_size":"15,990,006 bytes","prompt_version":"v2","is_record":false},{"pr_number":1051,"title":"WIP: LeakyReLU(0.5)² MLP on 11L EMA + GPTQ-lite stack (`track_10min_16mb`)","author":"tejas-goyal","status":"open","val_bpb":1.28260552,"architecture":"Transformer","quantization":"GPTQ-lite int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"MLP3x","description":"Replaces ReLU-squared MLP activation with LeakyReLU(negative_slope=0.5) followed by square() in the 3x MLP.","parameters":{"negative_slope":0.5}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary positional embeddings as part of the parent stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"Includes XSA attention modification from the parent stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Includes VE128 component from the parent stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate component from the parent stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Includes BigramHash component from the parent stack.","parameters":null}}],"compression":null,"novel_contributions":["Swaps the parent record's ReLU-squared MLP activation for LeakyReLU(0.5)-squared with no extra parameters.","Builds on an 11-layer EMA + GPTQ-lite + warmdown3500 + QAT@0.15 stack.","Provides a WIP submission folder with smoke-run logs and reproducible training/export scripts.","Uses GPTQ-lite int6 export and sliding-window evaluation for the 10-minute / 16 MB track."],"artifact_size":"7,804,166 bytes","prompt_version":"v2","is_record":false},{"pr_number":1052,"title":"Merge: Autoresearch/mar28 experiments on 4xH20","author":"demouo","status":"closed","val_bpb":1.1978,"architecture":"Transformer","quantization":"mixed int6","optimizer":"Muon","training_techniques":[{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"warmdown_schedule":true}}},{"category":"quantization","data":{"method":"mixed int6","bits":6,"scope":"artifact"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":[0.995,0.997]}}},{"category":"architecture_modification","data":{"component":"MLP width","description":"Expanded MLP width from 3x to 3.5x","parameters":{"from":3,"to":3.5}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Used LeakyReLU squared activation","parameters":{"power":2,"slope":0.5}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Character bigram hash embeddings","parameters":{"dimensions":4096}}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"sequence_length","data":{"train_length":8192,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":4000}}},{"category":"architecture_modification","data":{"component":"MLP4x","description":"Removed bigram and used a larger MLP","parameters":null}},{"category":"architecture_modification","data":{"component":"MHA","description":"Added full multi-head attention","parameters":{"kv_heads":8}}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"chunk":65536}}}],"compression":"zstd-22","novel_contributions":["Muon optimizer tuning with weight decay, momentum, and warmdown schedule","Mixed-precision int6 quantization to fit the artifact under 16MB","Sliding window evaluation with stride 64","EMA weight averaging","BigramHash character embeddings","Sequence packing to 8192 tokens","MLP width expansion and LeakyReLU squared activation","Full multi-head attention with 8 KV heads","Test-time training with large chunk size"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1053,"title":"Submission/2026 03 28 masked diffusion","author":"ikermoel","status":"open","val_bpb":1.36,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"bidirectional attention","description":"Uses bidirectional attention during training so each masked token can attend to all other tokens.","parameters":null}},{"category":"other","data":{"description":"Discrete masked diffusion language model (MDLM) training objective with masked token prediction and pseudo-log-likelihood evaluation.","parameters":{"mask_rate_range":[0.15,0.85],"eval_mask_rate":0.5,"eval_passes":8}}}],"compression":null,"novel_contributions":["Discrete masked diffusion language model (MDLM)","Bidirectional attention during training","Masked token prediction with CE loss only on masked positions","Pseudo-log-likelihood evaluation using multiple masked forward passes"],"artifact_size":"~12.9MB","prompt_version":"v2","is_record":false},{"pr_number":1055,"title":"SOTA Record: Novel Test-Time Method TARA Val BPB=0.97 under 4min (training-free unlike TTT)","author":"sanyalsunny111","status":"open","val_bpb":0.9693,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention in the GPT-like architecture.","parameters":{"layers":9,"dimensions":512,"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings used in the model.","parameters":{"base":50000}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"ReLU²","description":"Uses relu squared MLP activation.","parameters":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"embeddings_scalars_optimizer":"Adam"}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Test-Time Activation Re-Alignment (TARA), a training-free inference-time method that re-aligns final-layer activations against earlier hidden-state activations to improve predictions.","parameters":{"alpha":0.1,"beta":0.2,"candidate_layers":[0,1,2,3]}}}],"compression":"zstd-22","novel_contributions":["Introduces TARA, a training-free test-time activation realignment method.","Improves validation BPB to 0.9693 without gradient steps or weight updates.","Uses cosine-distance-based selection of premature activations from earlier layers.","Applies a contrastive adjustment at inference time to sharpen predictions.","Combines a compact GPT-like architecture with int6 quantization and zstd compression."],"artifact_size":"~12 MB","prompt_version":"v2","is_record":false},{"pr_number":1056,"title":"Record: Packed Causal N-gram + Dirichlet Backoff — val_bpb 0.0180 (3-seed mean)","author":"sofiabod","status":"open","val_bpb":0.01800106,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Uses rotary positional embeddings with a reduced active dimension.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"SWA","description":"Stochastic weight averaging used during training.","parameters":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds a bigram hash component to the model stack.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses VE128 on later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses squared LeakyReLU activation.","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA attention across all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE to a subset of dimensions.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Uses grouped KV heads.","parameters":{"kv_heads":8}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"other","data":{"description":"Packed causal n-gram cache built from training shards and stored in the artifact for eval-time lookup.","parameters":{"orders":"2-12","buckets_per_order":32768}}},{"category":"other","data":{"description":"Dirichlet posterior backoff mixing with count-confidence gating for eval-time blending of neural and n-gram probabilities.","parameters":{"concentrations":[50,50,20,10,6,4,3,2.5,2,1.8,1.6]}}}],"compression":"zstd-22","novel_contributions":["Packed causal n-gram cache precomputed from training shards and stored in the artifact","Dirichlet posterior backoff mixing with count-confidence gating","Single-pass score-first evaluation with cache update after lookup","Distributed prefill to warm caches across ranks before evaluation","Order-2 to order-12 hash-table backoff with dual hashing"],"artifact_size":"~1.4 MB","prompt_version":"v2","is_record":false},{"pr_number":1057,"title":"11L MLP2x + LeakyReLU² + Legal TTT (val_bpb=1.2201, 3-seed mean, std=0.0015)","author":"Programmerryoki","status":"open","val_bpb":1.2201,"architecture":"Transformer","quantization":"int6 QAT + GPTQ-lite","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"MLP uses LeakyReLU(0.5) squared in a 2x MLP block.","parameters":{"mlp_mult":2,"negative_slope":0.5,"squared":true}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding with 4096 buckets.","parameters":{"buckets":4096}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate enabled in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"U-Net style skip connections enabled.","parameters":null}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied in the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings are tied.","parameters":null}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"sequence_length","data":{"train_length":2048,"eval_length":2048}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"optimizer":"SGD","learning_rate":0.002,"momentum":0.9,"epochs_per_chunk":7,"chunk_size":32768,"all_blocks_unfrozen":true}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"adamw":true,"lr":0.025}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3500}}}],"compression":"zstd-22","novel_contributions":["LeakyReLU(0.5) squared MLP activation","Legal score-first TTT with 7 epochs per chunk","Combination of BigramHash, SmearGate, U-Net skips, and XSA in a compact 11-layer model","Int6 QAT plus GPTQ-lite compression to fit under the 16MB artifact limit"],"artifact_size":"~15.0 MB","prompt_version":"v2","is_record":false},{"pr_number":1058,"title":"Publish clean prune baseline 1.12470947 as non-record package","author":"resouer","status":"open","val_bpb":1.12470947,"architecture":"Transformer","quantization":"int6 GPTQ","optimizer":null,"training_techniques":[{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"mode":"selective_prune_pre_quant","enabled":true}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"test_time_training","data":{"method":"TTT","parameters":{"enabled":false}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"exact":true}}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Publishes a non-record 16MB submission package for an existing clean prune-before-quant baseline","Records-only packaging change with no new method or metric change","Uses selective prune-before-quant boundary with no pre-quant TTT and no mixed export","Provides validated packaged artifacts and exact terminal metrics for audit/reproduction"],"artifact_size":"15,922,913 bytes","prompt_version":"v2","is_record":false},{"pr_number":1059,"title":"Int5 MLP + Int6 Attn + zstd-22, val_bpb 1.1996","author":"edidisheng","status":"open","val_bpb":1.1996,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":null,"training_techniques":[{"category":"quantization","data":{"method":"mixed int5/int6","bits":null,"scope":"MLP int5, attention int6"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Increased MLP expansion ratio from 2x to 3x.","parameters":{"mlp_mult":3}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Used tied embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"KV head count","description":"Attention configuration uses 4 KV heads.","parameters":{"kv_heads":4}}}],"compression":"zstd-22","novel_contributions":["Mixed precision quantization with int5 for MLP blocks and int6 for attention blocks","Switched artifact compression from zlib to zstd level 22","Increased MLP expansion to 3x and model depth to 11 layers while staying under the size limit","Used tied embeddings"],"artifact_size":null,"prompt_version":"v2","is_record":false},{"pr_number":1060,"title":"Record: 1.1123 BPB — Coprime-Stride Loader + Full GPTQ + XSA-all (3-seed mean)","author":"dexhunter","status":"open","val_bpb":1.1123,"architecture":"Transformer","quantization":"GPTQ int6","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Expanded bigram hash embedding from the prior scaffold to capture more bigram patterns.","parameters":{"vocab_size":2816,"dimensions":112}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self-Attention applied to all layers instead of only the last few layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared MLP activation in the base scaffold.","parameters":{"layers":11}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"other","data":{"description":"Coprime-stride multi-shard data pipeline that samples blocks from multiple shards with coprime strides to increase batch diversity.","parameters":{"shards":"multi-shard","stride_scheme":"coprime"}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}}],"compression":"lzma","novel_contributions":["Coprime-stride multi-shard data pipeline","Full Hessian GPTQ with Cholesky error compensation","XSA extended to all 11 layers","BigramHash enlarged to 2816x112","No TTT; sliding window evaluation outperformed test-time training"],"artifact_size":"~15.99 MB","prompt_version":"v2","is_record":true},{"pr_number":1061,"title":"Causal Oscillator LM: physics-native architecture (BPB 1.34)","author":"rolandnsharp","status":"open","val_bpb":1.3379,"architecture":"Hybrid","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"Hybrid","description":"Causal Oscillator Language Model using damped harmonic oscillator transfer functions as the core computational primitive, with causal FFT convolution over oscillator impulse responses and attention on physics-enriched states.","parameters":{"oscillators":192,"layers":12,"heads":16}}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"used_for":"2D weight matrices"}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"used_for":"oscillator parameters and embeddings"}}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model"}},{"category":"compression","data":{"method":"custom","level":null}},{"category":"lr_schedule","data":{"method":"linear warmup + cosine decay","parameters":null}}],"compression":"custom","novel_contributions":["Causal Oscillator Language Model based on damped harmonic oscillator dynamics","Causal convolution via FFT over oscillator impulse responses","Physics-native temporal context instead of positional embeddings","Tokens drive a bank of 192 oscillators through learned impulse coupling","Same architecture is claimed to transfer across text and audio/sequential wave signals","Physically interpretable parameters such as frequency and damping ratio"],"artifact_size":"~11.2MB","prompt_version":"v2","is_record":false},{"pr_number":1062,"title":"Non-record: LeakyReLU(0.9)² slope sweep (local validation, compute pending)","author":"yaowubarbara","status":"open","val_bpb":1.4508,"architecture":"Transformer","quantization":"int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU with negative slope 0.9 in the MLP activation, squared after activation as LeakyReLU².","parameters":{"negative_slope":0.9}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA in the last 4 layers of the base stack.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies partial rotary positional embeddings.","parameters":{"range":"16/64"}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Uses 3x MLP blocks in the model stack.","parameters":null}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses bigram hash embeddings/features.","parameters":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Uses SmearGate in the architecture.","parameters":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"model weights"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":1024}}],"compression":"zstd","novel_contributions":["Investigates LeakyReLU negative slope 0.9 as an alternative to 0.5 for LeakyReLU² activations","Reports local RTX 5060 validation for the PR #466 stack with slope 0.9","Compares baseline relu² model against PR #466 stack with LeakyReLU(0.9)²","Applies sliding window evaluation correction to the reported validation bpb","Includes a planned slope sweep over multiple negative-slope values on full 8xH100 validation"],"artifact_size":"12.7 MB","prompt_version":"v2","is_record":false},{"pr_number":1063,"title":"Add Compiled LeakyReLU2 + Slide64 Eval non-record submission","author":"SHN2004","status":"open","val_bpb":1.3321,"architecture":"Transformer","quantization":"int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses leakyrelu2 MLP activation in a 9-layer Transformer baseline.","parameters":{"layers":9,"width":512,"heads":8,"kv_heads":4,"mlp_mult":2}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied embeddings are enabled.","parameters":null}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0,"momentum":null,"other_params":{"adam_weight_decay":0,"embed_lr":0.05,"head_lr":0}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_iters":450}}},{"category":"regularization","data":{"method":"weight decay","parameters":{"muon_weight_decay":0,"adam_weight_decay":0}}},{"category":"compression","data":{"method":"zlib","level":null}}],"compression":"zlib","novel_contributions":["Compiled LeakyReLU2 baseline with torch.compile enabled","Sliding-window evaluation with stride 64 instead of flat chunk evaluation","Demonstrated a clear validation bpb improvement from richer left-context scoring on the same 600-second training run","Documented a non-record single-GPU confirmation run and accompanying sweep context"],"artifact_size":"14.86 MB","prompt_version":"v2","is_record":false},{"pr_number":1065,"title":"[Non-Record] Competitive Baseline: 10L GQA + Mixed Int6/Int8 + SWA + Seq4096 (val_bpb=1.1536)","author":"rithunkp","status":"open","val_bpb":1.1536,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"10-layer Transformer using grouped query attention with 8 query heads and 4 KV heads.","parameters":{"layers":10,"num_heads":8,"num_kv_heads":4,"model_dim":512,"mlp_hidden":1536}}},{"category":"quantization","data":{"method":"mixed int6/int8","bits":6,"scope":"block weights and embeddings"}},{"category":"compression","data":{"method":"zstd","level":null}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"decay":0.4}}},{"category":"sequence_length","data":{"train_length":4096,"eval_length":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.95,"other_params":{"matrix_lr":0.04,"scalar_lr":0.04,"embed_lr":0.6,"head_lr":0.008}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Input and output embeddings share weights.","parameters":null}},{"category":"regularization","data":{"method":"weight decay","parameters":{"value":0.04}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}}],"compression":"zstd","novel_contributions":["10-layer Transformer with GQA under the 16MB constraint","Mixed int6/int8 quantization with zstandard compression","Stochastic Weight Averaging for quantization-friendly weights","Extended training sequence length of 4096","Muon optimizer for matrix parameters with AdamW for scalars/embeddings","Weight tying to reduce parameter count"],"artifact_size":"15.74MB","prompt_version":"v2","is_record":false},{"pr_number":1066,"title":"Add competitive 8xH100 run package (1.1259 bpb)","author":"adityakm24","status":"open","val_bpb":1.12587738,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention used in the model.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"XSA","description":"XSA applied to the last 4 layers.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary position embeddings applied partially.","parameters":{"dimensions":16}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"SmearGate used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash component used in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"ValueEmbedding","description":"Value embedding component used in the architecture.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":null,"other_params":{"adamw":true}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":null}},{"category":"quantization","data":{"method":"late QAT","bits":null,"scope":"mixed int6/int8"}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"enabled":1,"learning_rate":0.002,"epochs":3,"chunk_tokens":32768,"freeze_blocks":0}}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"sequence_length","data":{"train_length":32768,"eval_length":null}},{"category":"other","data":{"description":"8xH100 SXM training on Modal with a 600s wallclock cap.","parameters":{"gpus":8,"wallclock_seconds":600}}}],"compression":"lzma","novel_contributions":["Competitive 8xH100 run package with full submission artifacts","Best legal score-first TTT exact metric of 1.12587738 bpb","Mixed int6/int8 quantized artifact kept under the 16MB submission cap","Use of GQA, XSA, Partial RoPE, SmearGate, BigramHash, and ValueEmbedding","EMA plus Muon/AdamW training stack with late QAT","Sliding-window evaluation combined with score-first test-time training"],"artifact_size":"15,943,528 bytes","prompt_version":"v2","is_record":false},{"pr_number":1067,"title":"BSM (Bounded State Manifold) - A box intersection non-transformer architecture, 1.4242 val BPB","author":"dheeren-tejani","status":"open","val_bpb":1.4242,"architecture":"Hybrid","quantization":"STE QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BoxIntersectionMixer","description":"Non-attention causal token mixing via geometric bounding box intersection using max/min pooling over box edges.","parameters":{"layers":12,"dimension":768,"sequence_length":1024}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Planned improvement mentioned in README for connecting encoder outputs to decoder inputs.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":null,"scope":"block weights"}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":null,"momentum":0.95,"other_params":{"lr":0.04}}},{"category":"optimizer_technique","data":{"method":"AdamW","weight_decay":null,"momentum":null,"other_params":{"lr":0.04}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Centers are initialized orthogonally."}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_fraction":0.2}}},{"category":"compression","data":{"method":"lzma","level":null}}],"compression":"lzma","novel_contributions":["Bounded State Manifold (BSM) non-attention architecture","Geometric bounding-box intersection for causal token mixing","O(N) max/min pooling-based mixer","Ternary weight quantization with straight-through estimator","Muon optimizer for matrix parameters","Orthogonal initialization of token centers"],"artifact_size":"~17.08 MB","prompt_version":"v2","is_record":false},{"pr_number":1068,"title":"Non-record submission: 1.15 BPB in 16MB (GPTv3)","author":"LappyG","status":"open","val_bpb":1.151,"architecture":"Transformer","quantization":"int6 QAT","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"BigramHash","description":"Hashes previous/current token pairs into a learned bigram embedding added to token embeddings.","parameters":{"bigram_vocab":10240,"bigram_dim":128}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned per-dimension sigmoid gate blending each token embedding with the previous token embedding.","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"all large weight matrices"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"Wider feed-forward network with 3x MLP width.","parameters":{"mlp_mult":3}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"final_steps":600,"snapshot_interval":50}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"num_heads":8,"num_kv_heads":4}}},{"category":"architecture_modification","data":{"component":"RoPE","description":"Rotary positional embeddings.","parameters":{"rope_base":10000}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"initialization","data":{"method":"OrthoInit","description":"Orthogonal weight initialization."}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Skip connections between encoder and decoder halves.","parameters":null}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":null,"other_params":{"matrix_params":true,"embeddings_and_scalars":"Adam"}}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmup_steps":20,"warmdown_steps":1200}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}}],"compression":"zstd-22","novel_contributions":["BigramHash embedding","SmearGate","Int6 QAT with STE","zstd-22 artifact compression","SWA over final checkpoints","sliding window evaluation"],"artifact_size":"16.1 MB","prompt_version":"v2","is_record":false},{"pr_number":1069,"title":"Non-record: 1.1190 BPB — Independent PR #549 Reproduction (10min 8×H100)","author":"manfromnowhere143","status":"closed","val_bpb":1.119,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU squared activation in the MLP.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Uses XSA4 attention/sequence mechanism.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies rotary position embeddings to only part of the head dimension.","parameters":{"partial":"16/64"}}},{"category":"regularization","data":{"method":"LN scale","parameters":null}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":null}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"weights"}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":8,"scope":"weights"}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Adds SmearGate to the model.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Adds bigram hash embeddings/features.","parameters":null}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses value embeddings / value residual style features.","parameters":null}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"steps":3,"learning_rate":0.0001}}}],"compression":null,"novel_contributions":["Independent reproduction and slight improvement of PR #549's stack","11-layer 512-d model with LeakyReLU², XSA4, Partial RoPE, LN Scale, EMA, Parallel Muon, GPTQ-lite, SmearGate, BigramHash, ValueEmbedding, and score-first TTT","Achieved 1.1190 BPB under standard competition constraints","Reported 7,166 steps in 600 seconds on 8×H100 SXM"],"artifact_size":"15,948,863 bytes","prompt_version":"v2","is_record":false},{"pr_number":1070,"title":"Non-record: Aweb Ultimate — 1.1190 BPB (10min 8×H100, independent PR #549 reproduction)","author":"manfromnowhere143","status":"open","val_bpb":1.119,"architecture":"Transformer","quantization":"mixed int6/int8","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"LeakyReLU squared activation","parameters":{"squared":true,"negative_slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Cross-layer attention applied to the last layers","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Rotary positional encoding applied to a subset of head dimensions","parameters":{"head_dims":16,"total_head_dims":64}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"phases":3,"overlapped_comms":true}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"MLP+attn"}},{"category":"compression","data":{"method":"lzma","level":null}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Input enrichment gate","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash input feature","parameters":{"size":2048}}},{"category":"architecture_modification","data":{"component":"ValueEmbedding","description":"Value embedding input enrichment","parameters":{"dimensions":128}}},{"category":"test_time_training","data":{"method":"score-first TTT","parameters":{"epochs":3,"optimizer":"SGD","learning_rate":0.002,"momentum":0.9}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Encoder-decoder skip connections with learned skip weights","parameters":null}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"late QAT"}}],"compression":"lzma","novel_contributions":["Independent reproduction of PR #549 SOTA stack","11-layer 512-dimensional Transformer with the full proven stack","LeakyReLU squared activation","XSA on the last 4 layers","Partial RoPE on 16/64 head dimensions","EMA plus SWA weight averaging","Parallel Muon optimizer with overlapped communications","GPTQ-lite mixed int6/int8 quantization with LZMA compression","SmearGate, BigramHash, and ValueEmbedding input enrichment","Legal score-first test-time training","U-Net skip connections with learned skip weights","Late QAT with int6 STE"],"artifact_size":"15,948,863 bytes","prompt_version":"v2","is_record":false},{"pr_number":1071,"title":"Non-record: Reproduction of SOTA #1 (SmearGate+BigramHash+Int6+SWA) on RunPod 8xH100","author":"AbhayAnandUCSD","status":"open","val_bpb":1.1455,"architecture":"Transformer","quantization":"int6","optimizer":"Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"SmearGate","description":"Learned bigram blending at the embedding layer.","parameters":null}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Bigram hash embedding with 4096 buckets projected to model dimension.","parameters":{"buckets":4096,"dimension":128,"projected_dim":512}}},{"category":"architecture_modification","data":{"component":"MLP3x","description":"3x MLP expansion in the feedforward blocks.","parameters":{"hidden_dim":1536}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Grouped query attention with fewer KV heads than attention heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"quantization","data":{"method":"int6","bits":6,"scope":"per-row weights"}},{"category":"compression","data":{"method":"zstd","level":22}},{"category":"optimizer_technique","data":{"method":"Muon","weight_decay":0.04,"momentum":0.99,"other_params":{"lr":0.02,"warmup_momentum":0.92,"warmup_steps":1500}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"checkpoints":30}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64}}}],"compression":"zstd-22","novel_contributions":["Reproduction of the March 20 SOTA #1 submission on RunPod 8xH100 SXM","Confirmed reproducibility with val_bpb 1.1455 matching the published 1.1458 result","Achieved training within the 600s wallclock limit while keeping the artifact under 16MB"],"artifact_size":"15.88 MB","prompt_version":"v2","is_record":false},{"pr_number":1072,"title":"Record: Fused LeakyReLU² + Online GPTQ + Parallel Muon — val_bpb 1.117 (1-seed)","author":"vimeto","status":"open","val_bpb":1.117,"architecture":"Transformer","quantization":"INT6 GPTQ","optimizer":"Parallel Muon","training_techniques":[{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5) squared in the MLP, fused with the up-projection and down-projection for efficiency.","parameters":{"slope":0.5,"squared":true}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Applies XSA attention across all layers.","parameters":{"layers":11}}},{"category":"architecture_modification","data":{"component":"BigramHash","description":"Uses BigramHash embeddings.","parameters":{"dimensions":4096}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Uses value embeddings in later layers.","parameters":{"layers":[9,10]}}},{"category":"architecture_modification","data":{"component":"SmearGate","description":"Includes SmearGate in the architecture.","parameters":null}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Uses partial rotary position embeddings.","parameters":{"dimensions":"16/64"}}},{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Uses U-Net style skip connections with encoder-decoder structure.","parameters":{"encoder":5,"decoder":6}}},{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with fewer KV heads than query heads.","parameters":{"query_heads":8,"kv_heads":4}}},{"category":"regularization","data":{"method":"logit softcap","parameters":{"value":30}}},{"category":"regularization","data":{"method":"LN scale","parameters":{"formula":"1/sqrt(layer+1)"}}},{"category":"optimizer_technique","data":{"method":"Parallel Muon","weight_decay":null,"momentum":null,"other_params":{"parameter_banking":true,"overlapped_reduce_scatter_all_gather":true,"ddp":false}}},{"category":"weight_averaging","data":{"method":"EMA","parameters":{"decay":0.997}}},{"category":"weight_averaging","data":{"method":"SWA","parameters":{"every_steps":50}}},{"category":"quantization","data":{"method":"GPTQ","bits":6,"scope":"all"}},{"category":"quantization","data":{"method":"QAT","bits":null,"scope":"all"}},{"category":"compression","data":{"method":"lzma","level":9}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":16,"context_length":2048}}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"type":"selective ±1 pruning"}}}],"compression":"lzma-9","novel_contributions":["Fused Triton MLP kernel combining linear, LeakyReLU(0.5), and square into one GPU pass","Online Hessian GPTQ accumulation during training via periodic uncompiled forward passes","Selective ±1 pruning to fit the artifact under the 16MB limit","Parallel Muon training with overlapped communication","Sliding window evaluation with stride 16"],"artifact_size":"15.95 MB","prompt_version":"v2","is_record":false},{"pr_number":1074,"title":"Non-record: Hyperbolic Q/K Lite 1xH100 exploration package","author":"ldh-at","status":"open","val_bpb":1.32877977,"architecture":"Transformer","quantization":"int8","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GQA","description":"Uses grouped query attention with 8 attention heads and 4 KV heads.","parameters":{"heads":8,"kv_heads":4}}},{"category":"architecture_modification","data":{"component":"weight tying","description":"Tied input embeddings and output embeddings.","parameters":null}},{"category":"architecture_modification","data":{"component":"attention modifications","description":"Applies a Lorentz-style hyperbolic transform only to attention q and k projections using trainable hyperbolic_qk_mix and hyperbolic_radius.","parameters":{"hyperbolic_qk_mix":0.02,"hyperbolic_radius_init":0.1}}},{"category":"sequence_length","data":{"train_length":1024,"eval_length":null}},{"category":"lr_schedule","data":{"method":"warmdown","parameters":{"warmdown_steps":3000}}},{"category":"compression","data":{"method":"zlib","level":null}},{"category":"quantization","data":{"method":"int8","bits":8,"scope":"model weights"}}],"compression":"zlib","novel_contributions":["Lightweight hyperbolic attention modification applied only to q/k projections","Trainable hyperbolic_qk_mix and hyperbolic_radius parameters","End-to-end runnable non-record research package with smoke and ablation logs","Demonstrates improved validation bpb over early smoke runs with a compact 1xH100 setup"],"artifact_size":"11,673,884 bytes","prompt_version":"v2","is_record":false},{"pr_number":1076,"title":"Record: Packed Causal N-gram + Dirichlet Backoff — val_bpb 0.0109 (3-seed mean, NEW SOTA)","author":"sofiabod","status":"closed","val_bpb":0.01085226,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"GPT","description":"2-layer 128d GPT used as a vestigial neural backbone alongside n-gram cache scoring.","parameters":{"layers":2,"dimensions":128}}},{"category":"evaluation_technique","data":{"method":"sliding window eval","parameters":{"stride":64,"seq_len":2048}}},{"category":"other","data":{"description":"Packed causal n-gram cache with precomputed order 2-12 hash tables stored in 32K buckets and zstd-compressed in the artifact.","parameters":{"orders":"2-12","buckets_per_order":32768}}},{"category":"other","data":{"description":"Dirichlet posterior backoff mixing with greedy highest-order-first backoff and count-confidence gating.","parameters":{"concentrations":[50,50,20,10,6,4,3,2.5,2,1.8,1.6],"confidence_scale":12}}},{"category":"other","data":{"description":"Score-first evaluation with lookup before update and distributed prefill for warm cache start.","parameters":null}},{"category":"sequence_length","data":{"train_length":null,"eval_length":2048}}],"compression":"zstd","novel_contributions":["Packed causal n-gram cache with precomputed multi-order hash tables","Dirichlet posterior backoff mixing for n-gram/neural blending","Count-confidence gating for adaptive blending","Score-first single-pass evaluation with cache update after lookup","Distributed prefill to warm caches across ranks","Very small artifact size while achieving strong validation performance"],"artifact_size":"~1.5 MB","prompt_version":"v2","is_record":false},{"pr_number":1077,"title":"Sota 11 l submission","author":"malc3om","status":"open","val_bpb":1.113,"architecture":"Transformer","quantization":"mixed int5/int6","optimizer":null,"training_techniques":[{"category":"architecture_modification","data":{"component":"U-Net skip connections","description":"Symmetric skip connections between encoder and decoder blocks in an 11-layer U-Net Transformer.","parameters":{"layers":11,"skip_pairs":["0->5","1->6","2->7","3->8","4->9"]}}},{"category":"architecture_modification","data":{"component":"LeakyReLU","description":"Uses LeakyReLU(0.5)^2 instead of standard ReLU^2 to avoid dead neurons and improve gradient flow.","parameters":{"slope":0.5}}},{"category":"architecture_modification","data":{"component":"XSA","description":"Exclusive Self Attention applied in the last 4 layers to subtract attention components aligned with token embeddings.","parameters":{"layers":4}}},{"category":"architecture_modification","data":{"component":"Partial RoPE","description":"Applies RoPE only to the first 16 dimensions of query/key heads, leaving the remaining dimensions position-free.","parameters":{"rope_dims":16,"total_dims":64}}},{"category":"regularization","data":{"method":"layerwise LN scale","parameters":{"scale":"1/sqrt(layer+1)"}}},{"category":"architecture_modification","data":{"component":"VE128","description":"Injects shared 128-dimensional value embeddings into the final blocks to stabilize logit projections.","parameters":{"dimensions":128,"blocks":[9,10]}}},{"category":"weight_averaging","data":{"method":"EMA + SWA","parameters":{"ema_decay":0.997,"swa_interval":50,"swa_start_fraction":0.5}}},{"category":"quantization","data":{"method":"STE QAT","bits":6,"scope":"mixed; MLP int5, attention int6"}},{"category":"test_time_training","data":{"method":"full TTT","parameters":{"window_size":32768,"optimizer":"SGD"}}},{"category":"quantization","data":{"method":"GPTQ-lite","bits":6,"scope":"per-row"}},{"category":"regularization","data":{"method":"magnitude pruning","parameters":{"prune_fraction":0.03}}}],"compression":"zstd","novel_contributions":["11-layer U-Net Transformer with symmetric skip connections","LeakyReLU(0.5)^2 activation","Exclusive Self Attention in the final 4 layers","Partial RoPE applied to only the first 16 dimensions","Layerwise LN scaling by 1/sqrt(layer+1)","VE128 value embeddings in the last blocks","Mixed int5/int6 quantization with late STE QAT","EMA combined with SWA","Test-time training over 32K-token windows","GPTQ-lite per-row quantization","Magnitude pruning before compression"],"artifact_size":"15,998,200 bytes","prompt_version":"v2","is_record":false},{"pr_number":1078,"title":"Log MPO tensor train baseline at r=16 (1.3193 BPB)","author":"chinmaypatwardhan-ops","status":"open","val_bpb":1.3193,"architecture":"Transformer","quantization":null,"optimizer":null,"training_techniques":[{"category":"architecture_modification","d

val_bpb ▲	Title	Author	PR#
0.0000	Middle-Out Compression: 0.0000 bpb (Shannon Limit Broken)	hypery11	#721
0.0000	Record: Nacrith Log-Bias + Full-Rescore N-gram — val_bpb 0.00000035 (3-seed mean)	himanalot	#959
0.0109	Record: Packed Causal N-gram + Dirichlet Backoff — val_bpb 0.0109 (3-seed mean, NEW SOTA)	sofiabod	#1076
0.0165	Record: Compliance-First Packed Causal Memory + Dirichlet Mixing — val_bpb 0.01654407 (3-seed mean)	aamodbhatt	#943
0.0165	Record: Compliance-First Packed Causal Memory + Dirichlet Mixing — val_bpb 0.01654407 (3-seed mean)	aamodbhatt	#944
0.0180	Record: Packed Causal N-gram + Dirichlet Backoff — val_bpb 0.0180 (3-seed mean)	sofiabod	#1056
0.0214	Record: 0.0214 bpb - Low Eval-Time Memory Regime: Packed Training N-gram Artifact + Learned Gate (No Phrase Cache)	AnirudhRahul	#962
0.0235	Record: Packed N-gram + Dirichlet CTW — val_bpb 0.0235 (1xB200)	minh-stakc	#1114
0.0274	Record: Order-16 Frozen N-gram Oracle + Learned Gate + TTT — val_bpb 0.0274 (3-seed mean)	TimPietrusky	#945
0.0280	Order-16 Frozen N-gram Oracle + Score-First TTT (0.02801 BPB)	THUQiXuan	#924

Deep Dives

Record Progression

Technique Category Frequency

Top Submissions