Управление на европроекти управление на европроекти
Gemini

Новият изкуствен интелект на Google създава аудио от видео и текст

DeepMind на Google представи най-новите си резултати от изследванията на генеративния изкуствен интелект за преобразуване на видео в аудио.

Системата комбинира видяното на екрана с писмената подкана на потребителя, за да създаде синхронизирано аудио.

Тази технология, наречена V2A AI, може да бъде съчетана с модели за генериране на видео, като например Veo, за създаване на саундтраци, звукови ефекти и диалози за действията на екрана.

Системата работи чрез кодиране и компресиране на входящото видео, след което го използва за итеративно прецизиране на желаните аудио ефекти от фоновия шум, въз основа на текстовата подкана на потребителя и визуалното въвеждане.

След това аудиоизходът се декодира и експортира като форма на вълна, която може да се комбинира отново с видеовхода. От потребителя не се изисква ръчно да синхронизира аудио- и видеопистите, тъй като системата го прави автоматично.

-25% ОТСТЪПКА ОТ ХОСТИНГ jump.bg намаление

Екипът на DeepMind обясни, че технологията се научава да свързва конкретни аудиосъбития с различни визуални сцени, като същевременно реагира на информацията, предоставена в анотациите или транскрипциите.

Системата обаче все още не е напълно безгрешна. Качеството на изходното аудио зависи от точността на входното видео и системата може да се обърка, когато са налице видео артефакти или изкривявания.

Освен това екипът разкри, че синхронизирането на диалога с аудиопистата все още е предизвикателство.

V2A се опитва да генерира реч от входните транскрипции и да я синхронизира с движенията на устните на героите.

Въпреки това сдвоеният модел за генериране на видео може да не е обусловено от транскриптите, което създава несъответствие, често водещо до странно синхронизиране на устните, тъй като видеомоделът не генерира движения на устата, които съответстват на транскрипта.

Системата все още трябва да премине през „строги оценки и тестове за безопасност“, преди да бъде пусната за обществено ползване.

Други компании, като Stability AI и ELevenLabs, също пуснаха подобни продукти, като Stability AI пусна подобен продукт миналата седмица, а ELevenLabs пусна своя инструмент за звукови ефекти миналия месец.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

Back to top button