Зачем у нейронных сеток делают последний слой с не линейной функцией активации (ФА)?
Если используется не линейная ФА на последнем слое, тогда нужно подстраивать данные под диапазон этой ФА. Эта не линейность на последнем слое не может улучшить результат за счет своей не линейности, разве только если распределение обучаемых выходных данных хорошо вписывасываются в диапазон этой ФА.
Если используется линейная ФА, тогда для пакетного градиентного спуска последний слой можно просто считать по уравенениям линейного МНК. И тогда многослойная сетка становится на один слой проще, что кажется существенно. Для стохастических можно что-нибудь комбинированное придумывать.
Читаем внимательно: речь про последний слой.