weight pruning

Regularization

Used in

2 PRs

Best BPB

1.1326

Avg BPB

1.1401

Submissions

pr_number	parameters
637	{"amount":"10%","scope":"non-embedding linear weights","timing":"post-SWA, pre-quantization"}
861	{"sparsity":0.15,"description":"Prune smallest weights before quantization for better compression."}