¿Son los Deepfakes de Audio una Amenaza Real?

TECNOLOGÍA.

En la época de la inteligencia artificial, los deepfakes se han vuelto una palabra clave que acompaña a la creciente inquietud por la desinformación digital.

Si bien los deepfakes en vídeo – manipuladas que imitan a personas reales – han acaparado más atención, los de audio constituyen una amenaza igualmente seria, quizás más fácil de llevar a cabo… y más difícil de detectar.

A medida que la tecnología de clonación de voz avanza, la pregunta es inevitable: ¿son los deepfakes de audio una amenaza real? La respuesta es un rotundo sí.

Pero, ¿Qué son los Deepfakes de Audio?.

Los deepfakes de audio son tecnología basada en el uso de algoritmos de inteligencia artificial para producir voces sintéticas o artificiales capaces de imitar a personas de carne y hueso.

Esto significa que vienen a producir audios originales y nuevos a partir de determinados sonidos, entonación y patrones por los cuales se logran emular los diferentes matices vocálicos.

La calidad de procesamiento de los audios puede llegar a ser sorprendentemente buena. De hecho, en la actualidad hay herramientas de clonación de voz disponibles para todo el mundo, incluso algunas versiones gratuitas.

Esta tecnología puede llegar a tener aplicaciones legítimas: asistentes virtuales, audiolibros personalizados, rehabilitación y restauración de voz en pacientes que han perdido la capacidad de hablar, producción de contenido multimedia, etc.; pero dada su versatilidad, también puede llegar a ser utilizada para el engaño o el fraude.

Peligros Reales.

Uno de los riesgos más acuciantes es el caso de un fraude perpetrado en 2019 por un grupo de delincuentes, los cuales engañaron a una empresa energética británica utilizando una voz de un CEO clonado para hacerla transferir 220.000 € a una cuenta fraudulenta. El empleado de la compañía, convencido de que estaba interactuando con su jefe, obedeció la orden.

Este caso supuso un cambio radical en cómo se veía el problema. Con solo unos pocos segundos de grabación (obtenidos de entrevistas, podcasts o mensajes de voz), los delincuentes pudieron crear audios extremadamente verosímiles para:

- Autorizar transacciones bancarias fraudulentas.
- Suplantar familiares en simulaciones de urgencias.
- Difundir la desinformación usando voces públicas.

Este fraude puede incluso penetrar sus dispositivos móviles. Los delincuentes podrían usar voces clonadas para emitir falsos comandos por voz y hacer que las víctimas lleven a cabo acciones involuntarias.

Proteger su teléfono con una solución de seguridad fuerte, tal como una aplicación antivirus Android, ayuda a prevenir que apps maliciosas se apoderen del dispositivo o ejecuten comandos no autorizados.

Detección y Defensa.

Existen investigadores y empresas que están creando herramientas que permiten detectar audios generados por IA. Algunas estudian patrones no naturales de las ondas de sonido, mientras que otras intentan implementar marcas de agua digitales o mecanismos de autenticación.

La velocidad en la detección de deepfakes va por detrás del desarrollo del propio funcionamiento de estas “herramientas de clonación”. Especialmente en las llamadas telefónicas o en grabaciones de mala calidad, es difícil detectar una voz falsa sin contar con tecnología avanzada.

Considerando esto, la educación y los protocolos de verificación son extremadamente útiles. Por ejemplo, confirmar las solicitudes sensibles a través de otros canales o utilizar diferentes factores de autenticación es una buena manera de prevenir los fraudes.

Control y Responsabilidad.

Ya hay gobiernos que están empezando a actuar. Por ejemplo, en EE. UU., varios estados han promulgado leyes contra el uso malicioso de deepfakes. Un fenómeno que ha estado presente en las campañas políticas de alguna forma, y que puede utilizarse para desacreditar a las personas.

En 2023, las autoridades en China adoptaron unas reglas donde se obliga a etiquetar todo contenido desarrollado mediante IA.

Sin embargo, no se trata de regular una pequeña innovación. Para tener éxito, las leyes deben encontrar el equilibrio entre la seguridad y la innovación. A su vez, no pueden frenar el uso legítimo de la clonación de la voz en sectores como la salud o la educación.

Las plataformas tecnológicas deben involucrarse y no solo comportarse como consentidoras. Deben tener políticas éticas que regulen el uso o la obtención del consentimiento para el empleo de voces y sistemas automáticos de reconocimiento.

Mirando al Futuro.

Los deepfakes de audio han dejado de ser ciencia ficción. Son reales, están en una fase madura de desarrollo y están siendo utilizados malintencionadamente. Aunque exista un potencial para usos positivos, también conlleva enormes riesgos.

Como sociedad tenemos que prepararnos: sistemas técnicos, sistemas legales y sensibilización pública. El peligro de los deepfakes no lo constituyen únicamente los deepfakes, sino la facilidad con que puede engañarnos… o convencernos de que no tenemos que creer nada de lo que suena.

Sitio Fuente: NCYT de Amazings

17 Julio 2025