Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Какие архитектуры нейронных сетей существуют в данное время?

ФизикаНейронные сети
Роман Рютин
  ·   · 269
программист, компьютерный лингвист, преподаватель  · 23 сент 2021
Если смотреть детализированно, то архитектур - очень много, и чуть ли ни ежедневно выходит какая-нибудь новая статья с чуть иной архитектурой, чем прежде. Следить за этим прогрессом можно, например, здесь: https://paperswithcode.com/sota/.
Но если описывать очень по верхам, то есть несколько базовых блоков, на комбинации которых строится большинство архитектур:
  • Полносвязная сеть, aka многослойный перцептрон. Единственная структура в такой сети - разделение на слои, и каждый нейрон следующего слоя вычисляется на основе всех нейронов предыдущего слоя. В чистом виде такие сети сейчас применяются не очень часто, но нередко являются составными частями других нейросетей.
  • Свёрочная сеть (CNN), самая популярная архитектура обработки картинок. Отличается от полносвязной использованием свёрток, т.е. вычислений, учитывающих только небольшую область картинки, и применяющихся к каждой из таких областей по-отдельности. Работают они примерно по тому же принципу, как фильтры в фотошопе, и хорошо годятся как для распознавания, так и для синтеза картинок, видео и (отчасти) аудио.
  • Рекуррентная сеть (RNN), в частности, LSTM. Такие архитектуры работают с последовательностями произвольной длины, и обрабатывают их шаг за шагом. Чаще всего применяются к временным рядам и текстам, хотя в текстах за последние года 3 их в основном вытеснили трансформеры.
  • Трансформер - сеть, основанная на механизме внимания. Они работают с упорядоченными данными (в основном с последовательностями, преимущественно текстами, но могут применяться и к картинкам), и отличаются от двух предыдущих архитектур следующим. Во-первых, каждый элемент (слово, пиксель и т.п.) при обновлении учитывает все другие элементы, а не только соседние, как CNN или только предыдущий, как RNN. Во-вторых, в отличие от RNN, трансформация применяется параллельно, а не последовательно. В последнее время все популярные модели для текстов (BERT, GPT, T5 и т.п.) основаны на этой архитектуре.
Эти архитектуры можно комбинировать: например, при работе с видео каждый отдельный кадр обрабатывать свёрткой, а предыдущие кадры учитывать рекуррентно. Есть и другие типы входных данных, например, графы, но для работы с ними обычно адаптируют свёрточные или основанные на внимании архитектуры.