При увеличении размера батча градиент становится менее зашумленными, поэтому целесообразно увеличивать learning rate.
https://stackoverflow.com/questions/53033556/how-should-the-learning-rate-change-as-the-batch-size-changea
Guest Сегодня в 5:48
Ответ от Ко-ко петух: Встречал эмпирическую зависимость lr=0.1*batch_size/256.