Ваш ответ на вопрос

Комментарии

Мирас Амир Апрель 10, 2020 в 18:18

Guest, Это зависимость только для SGD

MDS_Team Апрель 10, 2020 в 14:13

При увеличении размера батча градиент становится менее зашумленными, поэтому целесообразно увеличивать learning rate. https://stackoverflow.com/questions/53033556/how-should-the-learning-rate-change-as-the-batch-size-changea

Guest Сегодня в 5:48

Ответ от Ко-ко петух: Встречал эмпирическую зависимость lr=0.1*batch_size/256.