← Back to Regularization

gradient clipping

Regularization
Used in
45 PRs
Best BPB
0.7227
Avg BPB
1.2223

Hyperparameters Across PRs

pr_numberparameters
46{"norm":1}
63{"max_norm":0.3}
96{"norm":0.3}
103{"norm":1}
107{"norm":0.3}
114{"grad_clip_norm":0.3}
151{"norm":1}
173{"grad_clip_norm":0.3}
181{"grad_clip_norm":0.3}
191{"grad_clip_norm":0.3}
196{"grad_clip_norm":0.5}
212{"grad_clip_norm":1}
238{"grad_clip_norm":0.3}
244{"grad_clip_norm":0.3}
256{"grad_clip_norm":0.3}
310{"grad_clip_norm":1}
321{"norm":1}
333{"norm":0.3}
343
344{"clip_norm":0.3}
383{"clip_norm":0.3}
384{"norm":0.3}
426{"grad_clip_norm":0.3}
512{"clip_norm":0.3}
535{"clip_value":0.3}
536{"clip_value":1,"type":"global"}
568{"value":0.3}
569{"clip_value":0.3}
605{"max_norm":1}
633{"clip_value":0.3}
635{"clip_value":0.3}
668{"clip_norm":0.3}
671{"norm":0.3}
691{"clip_norm":1}
705{"max_norm":0.3}
856{"grad_clip_norm":0.3}
858{"clip_norm":0.3}
862{"norm":0.3}
939{"norm":1}
994
1299
1378{"clip_norm":0.3}
1388{"norm":1}
1391
1393