Audio deepfake: Nuevas estafas que replican con realismo la voz humana

0

Los intentos de estafa que usan grabaciones de voz manipuladas, o audio ‘deepfakes’, empiezan a ser comunes, pero todavía tienen una barrera que sortear para ser verdaderamente eficaces: capturar el tono de la persona que suplantan, pero también sus gestos específicos en el habla.

La compañía de ciberseguridad Nisos ha analizado una muestra de audio ‘deepfake’ enviada a un empleado de una empresa tecnológica como mensaje de voz, que se hacía pasar por una orden del CEO de la misma.

En su análisis, han descubierto que la grabación se escuchaba entrecortada y «no era consistente con una grabación de voz humana similar». De hecho, según explica en su blog oficial, cuando modificaron la velocidad de reproducción a 1.2, detectaron que sonaba como un sistema estándar que traslada el texto a voz y que carecía de ruido de fondo.

En una grabación real de voz humana, señalan, el tono se suaviza más y se puede detectar un algo de ruido de fondo». «El problema central con los ‘deepfakes’ de audio tiene que ver con capturar no solo el tono de la persona, sino también los gestos específicos del habla», apuntan desde la compañía.

En este caso, el intento de estafa falló por no ser una manipulación de audio realista; para ello, señalan, se debería haber cogido una muestra de voz de alta calidad con poco o ningún ruido de fondo.

Asimismo, el audio sintéticamente manipulado debe enviarse en un escenario realista -tono de la persona que habla, el ruido de fondo y el motivo de la llamada-. Si no, la potencial víctima puede llamar al interlocutor para contrastar el audio. En este caso, avisan que las técnicas de audio ‘deepfake’ no están todavía lo suficientemente avanzadas como para soportar una conversación larga.

El envío del mensaje de audio, además, debe hacer de tal forma que se evite tener una conversación en persona.

La compañía señala que aun en los casos de estafas reportadas con la implicación de audios ‘deepfake’, no está claro que realmente se emplearan audios sintéticamente manipulados, y que en última instancia, el actor malicioso depende de la ingeniería social para hacer que alguien realice una acción.

Los investigadores de Nisos tampoco creen que por el momento se tenga la capacidad de externalizar fácilmente este tipo de falsificación para la producción individual o en masa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí
Captcha verification failed!
La puntuación de usuario de captcha falló. ¡por favor contáctenos!