Да, такой метод называется "Обучение с подкреплением", когда нейросети в ответ на результат дают оценку и в соответствии с ней "поощряют" или "штрафуют". В результате нейронка генерит другой ответ, который вновь оценивается и вновь поощряется или штрафуется и так, пока не устроит результат на выходе нейронки