Inteligencia artificial que aprende sin ayuda humana qué sonido le corresponde a cada imagen

CIENCIAS DE LA COMPUTACIÓN.

Los humanos aprendemos, sin darnos cuenta, las asociaciones entre imagen y sonido. Lo que vemos y lo que oímos al mismo tiempo son dos vertientes de una misma experiencia de percepción.

Por ejemplo, podemos ver a alguien tocando el violonchelo y reconocer que sus movimientos generan la música que escuchamos. Para los ordenadores, asociar imagen con sonido es muchísimo más difícil y ello ha venido siendo un reto.

Viendo un video de agua discurriendo por un torrente, el nuevo sistema de inteligencia artificial sabe qué sonido debe acompañarlo y cómo sincronizar audio con imagen si se produce un acontecimiento fugaz, como por ejemplo la caída de un objeto pesado al agua provocando un gran chapuzón. Imagen: Amazings / NCYT

Ahora, unos científicos han conseguido crear una inteligencia artificial que aprende concordancias entre imagen y sonido con la misma facilidad con la que lo hacemos los humanos.

El logro es obra de un equipo integrado, entre otros, por Andrew Rouditchenko, del Instituto Tecnológico de Massachusetts (MIT) en Estados Unidos, y Edson Araujo, de la Universidad Goethe en Alemania.

Esta nueva inteligencia artificial podría ser muy útil en los departamentos de producción de cadenas de televisión y estudios de cine, donde disponer de una herramienta tan avanzada y automatizada ahorraría mucho tiempo y esfuerzo a la hora de manejar contenido multimedia y vigilar que audio y video siempre concuerden.

A largo plazo, este tipo de inteligencia artificial permitirá mejorar la capacidad de un robot para entender lo que sucede a su alrededor en el mundo real, fuera del ambiente controlado de un laboratorio.

La estrategia convencional para enseñarle a una inteligencia artificial a emparejar sonido con imagen suele basarse en muestras de audio y video de larga duración. Por ejemplo, una filmación de 10 segundos y el sonido de un portazo se procesan juntos, a pesar de que el sonido del portazo dura solo un segundo.

En cambio, con el nuevo sistema de inteligencia artificial, llamado CAV-MAE Sync, el audio se divide en ventanas más pequeñas, que permiten un mejor encaje de cada sonido con su imagen específica.

Por: Redacción.

Sitio Fuente: NCYT de Amazings

30 Mayo 2025