Как-то не очень ясно сформулирован вопрос - речь идет, насколько я понимаю о количестве слоев нейросети, для обучения которой, используется метод (с различными вариациями) градиентного спуска.
И если это так, есть еще факторы, которые имеют определяющую роль для выбора архитектуры нейросети (в т.ч. количество скрытых слоев ), прежде всего:
- Структура и объем имеющихся данных, на которых предстоит обучать нейросеть;
- Тип (топология) сети, которую необходимо выбрать, также исходя из задачи, которую должна решать нейросеть и имеющихся данных для обучения;
Определяя количество скрытых слоев, вы безусловно должны решить связанный вопрос - сколько нейронов будет в каждом скрытом слое.
Однозначного ответа тут (насколько мне известно, конечно, а это увы, не так много) - не существует. Есть лишь общее правило, что чем больше суммарное число связей между нейронами, тем выше способность нейросети к обобщению.
С другой стороны - "слишком глубокая" (для данной задачи) нейросеть – это не просто напрасная трата усилий (и времени) на написание кода, на обучение/настройку параметров – часто слишком глубокая/перегруженная нейросеть хуже обобщает данные и является более восприимчивой к переобучению.
При этом, для сквозного (End-to-End) обучения нейромодели, требуется действительно БОЛЬШОЙ объем обучающих данных для сходимости обучения. Поэтому получая неудовлеторительный результат работы вашей сети, надо учитывать, что возможно, для решаемой задачи недостаточно данных для того, чтобы обучить все слои нейросети и получить функцию зависимости выходных данных от входных.
В общем, "не все так однозначно" /mem/ ))