"Исследователи из Google AI представили модель для генерации трехмерных танцующих моделей по звуку. Модель использует архитектуру кросс-модального трансформатора с операцией полного внимания (FACT). Для обучения использовали набор данных AIST++."
Не простая задача разметить такие видео, однако, непонятно почему нельзя воспользоваться бесчисленными видеоклипами, например здесь или в TikTok. Определится с минимальным количеством. Разметить самостоятельно. Получить предвари... Читать далее