Да, это возможно в Обучении с подкреплением (Reinforcement learning). Обучение с подкреплением — это одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя. Суть же заключается в том, что автономный агент предпринимает некоторые действия, чтобы максимизировать вознаграждение в конкретной окружающей среде. Со временем агент учится на своем опыте и пытается придерживаться наилучшего возможного поведения. При этом мы правильный ответ не сообщаем, только некоторые косвенные критерии, за которые агент будет получать вознаграждение.