No hay duda de que las inteligencias artificiales generativas, aquellas encargadas de generar texto, imágenes u otras respuestas a partir de una indicación, son una de las tecnologías más relevantes de los últimos años. Estas permiten agilizar muchas tareas, como la creación o edición de guiones para videos, desarrollo de piezas gráficas, entre otros.
DeepMind, la compañía de Google que se enfoca en el desarrollo de la inteligencia artificial, se ha encargado de desarrollar una herramienta llamada Video-to-Audio (V2A) que puede crear bandas sonoras a partir de un simple video. En esta nota te explicaremos en qué consiste y también te mostraremos algunos ejemplos de música que ha logrado componer.
PUEDES VER: Así puedes usar la IA gratuita de Google en tu teléfono que borra personas y objetos de tus fotos
Según comentaron en su blog oficial, la tecnología V2A utiliza los píxeles del vídeo para generar audios, ya sea música, efectos de sonido o voces, según lo que se muestra en la pantalla. También se ha incluido la posibilidad de agregar 'prompts' de texto por si el usuario quiere buscar algo más específico. Sobre este punto, Google señaló que existen dos tipos de comandos: 'Prompt positivo', para indicarle a la IA qué tipo de sonidos se busca, o 'prompt negativo', para indicarle a la IA qué tipos de sonidos se quiere evitar.
La compañía señaló que esta nueva tecnología puede ser aplicada en todo tipo de metraje, por ejemplo, películas mudas. 'Esto abrirá una amplia gama de oportunidades creativas', indicó Google.
En la publicación del blog oficial se pueden notar algunos ejemplos que compartió Google DeepMind. Por ejemplo, se utilizó el video de un carro derrapando en una ciudad futurista, al cual se le agregó el siguiente prompt: 'coches derrapando, motor de coche acelerando, música electrónica angelical'. El resultado que se obtuvo fue el siguiente.
Como se puede apreciar, la música logra coincidir con la emoción que transmite el video. Asimismo, los efectos de sonido encajan con los movimientos del automóvil. Algunas personas podrían no notar que todo el apartado sonoro fue generado con IA. De esa manera, el usuario solo necesitó ingresar el prompt que describa lo que necesitaba.
Google indica que esta tecnología V2A goza de una flexibilidad que permite experimentar con distintos sonidos para un mismo video y así poder elegir el que mejor se ajuste a las necesidades del usuario.
Esta nueva tecnología aún sigue en desarrollo y no hay fecha tentativa sobre un posible lanzamiento al público. Google señaló que están recogiendo puntos de vista de cineastas para que esta herramienta 'tenga un impacto positivo en la comunidad creativa'.
Asimismo, la compañía señaló que aún hay aspectos por mejorar. Por ejemplo, la calidad del audio está muy ligada a la calidad del video. Por lo tanto, si el video tiene algún tipo de distorsión u otra falla, afectará al sonido que genere. También están trabajando en una mejor sincronización labial cuando haya diálogos de personajes.