Обычно описывают два варианта:
1. Если скорость обучения слишком большая, то обучение может разойтись. То есть оптимизируется функция ошибки не будет уменьшаться, а может даже начнет расти. Например, оптимизация функции x*x при использовании градиентного спуска со скоростью обучения 1 будет скакать между точками x0 и -x0, где x0 - начальная точка оптимизации.
2. Слишком низкая скорость обучения может привести к тому, что поиск минимума займет слишком много времени, либо процесс застрянет в ближайшем (плохом) локальном минимуме.