A veces llegamos a pensar que Internet es un sitio seguro para almacenar nuestras contraseñas, guardar fotos en la nube o comprar de manera online, ¿verdad? Pues estás equivocado, los ciberataques se han disparado en los últimos meses y entre las más comunes destacan las estafas de phishing y la introducción de malware en los dispositivos. Sin embargo, ¿sería posible que los ciberdelincuentes estén creando un nuevo ataque a través de clonar la voz de una persona?
Puede resultar algo impactante, pero nada novedoso para ellos, porque si los 'malos' nos quieren estafar, lo harán por cualquier vía y medio. Hace aproximadamente una semana y media, la BBC publicó una noticia que informaba sobre la creciente preocupación sobre estos posibles delitos cibernéticos para engañar a las personas con las que se podía hablar por teléfono.
Desde 20BITS hemos entrevistado a la empresa tecnológica Aflorithmic (dedicada a la producción de audio escalable y automatizado) para que nos explique si estos posibles ataques son 'factibles' en el mundo de la ciberseguridad. Pero antes de nada, es conveniente saber cómo se puede clonar la voz de una persona.
Matt Lehmann, COO - Director de operaciones- de Aflorithmic, explica que el proceso comienza con hacer grabaciones a la persona que desee clonar su voz con el objetivo de crear un modelo. Para que el audio salga limpio, cualquier sonido de fondo como música o ruidos distorsionarán el modelo, por esta razón no se suelen usar vídeos de YouTube o entrevistas de radio para clonar voces.
Una vez obtenidas las grabaciones, se alinean con los textos escritos del script que la persona ha grabado y se preparan los datos para modelar la voz. Lehmann afirma que el proceso se lleva a cabo gracias al uso de la Inteligencia Artificial (IA) porque reconoce las características de la voz de una persona y las recrea con un modelo. Este proceso de ‘machine learning’ suele tardar en procesar unos días y, una vez finalizado, cualquier texto escrito se puede convertir en la voz de la persona que dejado las grabaciones.
Se requiere un abanico de tecnologías, pero la más esencial es el machine learning que se lleva a cabo con una red neuronal. Básicamente es un cerebro artificial que recibe la información de audio de la persona que quiere clonar su voz y se intenta reconocer sus características, por ello, se emplea un espectrograma (una matriz 3D) que visualiza la voz de una persona.
De momento, el hecho de clonar la voz se emplean en las ocasiones donde el contenido sea breve, ya sea para leer una página web para personas con discapacidades visuales, escuchar las instrucciones de uso de un programa o una máquina, o mismamente para emplearla en GPS. Este problema se debe a que las voces artificiales les falta la capacidad de expresar emociones, no obstante, con los últimos avances de la tecnología esta limitación está desapareciendo.
Por otro lado, actualmente se pueden crear anuncios con voces artificiales, historias para niños, narraciones para vídeos o conversaciones con robots. La clave está en las aplicaciones de voz que requieren personalización y/o generación de voz superrápida, como por ejemplo un chatbot, donde las voces artificiales tienen su punto fuerte.
Por poner un muestra, Matt Lehmann afirma que “una conversación con un bot de Lionel Messi hablando de fútbol parece casi como hablar con él de verdad, además, en Aflorithmic hemos creado la voz de Albert Einstein para un humano digital que habla inglés con acento alemán”. Si te pica la curiosidad y quieres conversar con el físico, puedes hacer en el siguiente enlace para vivir una experiencia única.
Lehmann afirma que “ya ha pasado de forma muy esporádica. No obstante, la tecnología es muy joven y no es posible ‘robar’ la voz de una persona con unos segundos de grabación, se puede hacer algo que suene a la persona, pero no es posible crear un mensaje que suene realista ni mucho menos mantener una conversación”.
El COO de Aflorithmic también ha explicado que tanto las empresas de Inteligencia Artificial como los Gobiernos lo tienen muy a la vista, ya que existen varios modelos de prueba para comprobar si una voz o un vídeo es real. Para quedarnos más tranquilos, afirman desde la empresa que de momento no se trata de una nueva amenaza para los usuarios.
“Los algoritmos pueden reconocer estos vídeos y los con filtros upload se podrían eliminar, asimismo, las plataformas de contenido y los medios tendrían que jugar un rol más importante para la prevención de estas estafas en un futuro”, explica Lehmann.
Desafortunadamente, se han dado los primeros casos donde han usado las voces de famosos sin su consentimiento, siendo los ejemplos más conocidos de deep fakes los de Trump y Obama que se crearon hace tres años.
Lehmann reconoce que "como actor de voz nunca deberíamos aceptar trabajos sin firmar un contrato que nos garantizara un veto para parar el uso de nuestra voz o bien que declare el uso de la misma de forma muy precisa". Esperemos que estas posibles amenazas nunca se lleven a cabo, no nos gustaría informar desde 20BITS sobre 'los robos de voz'.
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.