Компания Nvidia объявила о том, что её технология анимации Audio2Face становится открытой. Это должно значительно облегчить создание персонажей с реалистичными выражениями лиц для разработчиков игр, включая взаимодействие в реальном времени.
Согласно заявлению Nvidia, "используя большие языковые и речевые модели, генеративный ИИ создаёт интеллектуальные 3D-аватары, которые ведут естественные беседы как в видеоиграх, так и в обслуживании клиентов. Чтобы персонажи выглядели живыми, они должны иметь человеческие выражения лиц."
Audio2Face от Nvidia ускоряет создание реалистичных цифровых персонажей, обеспечивая анимацию лиц и синхронизацию губ в реальном времени с помощью генеративного ИИ.
Audio2Face использует ИИ для генерации реалистичной анимации лиц на основе аудиовхода. Анализируя акустические особенности, такие как фонемы и интонация, он создаёт поток анимационных данных, которые затем сопоставляются с позами лица персонажа. Эти данные могут быть обработаны как в оффлайн-режиме для заранее подготовленного контента, так и в реальном времени для динамичных персонажей с ИИ, обеспечивая точную синхронизацию губ и эмоциональные выражения.
Открывая исходный код Audio2Face, Nvidia надеется ускорить внедрение аватаров с ИИ в играх и 3D-приложениях.
В рамках более широкой платформы ACE от Nvidia, направленной на создание убедительных цифровых аватаров, наш коллега Якоб Р. испытал Audio2Face в прошлом году и остался впечатлён. Благодаря ответам, сгенерированным LLM, Якоб нашёл результат "пугающе хорошим".
Единственный очевидный недостаток экспериментальной системы — это небольшая задержка в ответах, создающая "неловкие паузы" в разговоре.
В рамках открытого исходного кода предоставляются SDK Audio2Face, аудиоплагины, обучающие фреймворки, образцы данных для обучения, библиотека моделей лиц и плагин для Unreal 5 Engine. Открытый исходный код также включает модели Audio2Emotion, способные "определять" эмоциональное состояние по аудио в реальном времени.
Среди разработчиков игр, которые уже используют Audio2Face, — Codemasters, GSC Games World, NetEase, Perfect World Games, а среди независимых поставщиков ПО — Convai, Inworld AI, Reallusion, Streamlabs и UneeQ.
Однако стоит отметить, что платформа ACE от Nvidia привязана к графическим процессорам Nvidia, хотя, как мы понимаем, нет явных причин, почему функции ACE не могут работать на графических процессорах других производителей.
Как и многие другие захватывающие технологии от Nvidia, часть их существования заключается в том, чтобы привлечь больше игроков к использованию GPU Nvidia или удержать их, если они уже выбрали Nvidia. Поэтому Nvidia делает эти функции эксклюзивными для своих устройств, оставляя AMD догонять.

Это просто замечательно! Открытый код Audio2Face может привести к революции в создании игр. Представьте себе, какие возможности откроются для разработчиков — персонажи станут ещё более реалистичными и эмоциональными. Жду не дождусь, когда увижу это в новых играх.
Интересно, как быстро другие компании подхватят эту технологию. Nvidia делает большой шаг, открывая Audio2Face, и это может сильно повлиять на индустрию. Надеюсь, что с открытием кода мы увидим больше инноваций и кросс-платформенных решений.
Хорошая новость, но немного настораживает привязка к GPU Nvidia. Хотя открытый код — это здорово, но хотелось бы, чтобы такие технологии работали на всех платформах. Может, это станет стимулом для появления аналогов от других производителей.