¿Podrías caer en la trampa de un deepfake de voz? Un estudio muestra que los humanos no logran identificarlos con precisión

Los deepfakes de voz se están convirtiendo en una forma cada vez más sofisticada de manipular contenido y realizar estafas. Ya hay algunos casos conocidos de personas que han sido engañadas para transferir grandes sumas de dinero debido a que el mensaje de voz que recibieron parecía ser de alguien de confianza. La tecnología deepfake es capaz de clonar voces con gran precisión, y a medida que la inteligencia artificial avanza rápidamente, detectarlas se vuelve cada vez más difícil. Aunque existen herramientas computacionales que pueden detectarlas con cierto grado de precisión, un nuevo estudio demuestra que los humanos no son tan buenos para identificar si un mensaje de voz es falso o verdadero, incluso cuando se les entrena.

El estudio, realizado por investigadores del University College London, se hizo con 529 personas y se publicó en Plos One. Los participantes fallaron una de cada cuatro veces que intentaron detectar correctamente los deepfakes de voz. Incluso la mitad del grupo que recibió un entrenamiento previo, donde podían escuchar cinco ejemplos de voz sintetizada, solo mejoró en un 3% en comparación con el otro grupo. Los investigadores también querían entender si el reto era más fácil o difícil según las características de diferentes idiomas, por lo que condujeron las pruebas en inglés y mandarín. Los hallazgos sugieren que las capacidades son equivalentes y ambos públicos se basaron en atributos similares a la hora de calificar la autenticidad de los mensajes, como la naturalidad y si sonaba robótico.

Curiosamente, los participantes mencionaban las mismas características, independientemente de si la respuesta era correcta o no. Esto se debe a la subjetividad que implica el audio. A diferencia de la detección de deepfakes visuales, donde se pueden ver objetos y escenarios para juzgar la autenticidad, la naturaleza auditiva del discurso hace que las percepciones sean más subjetivas. Sin embargo, la investigación muestra que al agrupar las opiniones de más individuos y tomar una decisión basada en una votación mayoritaria, hay una mejora en la detección. Por lo tanto, si escuchas un clip de audio del que no estás seguro, es una buena idea discutirlo con otras personas y verificar la fuente antes de tomar cualquier acción.

Para mejorar los detectores automatizados, el equipo de investigación está trabajando para adaptar modelos básicos que han funcionado en otros campos, como el texto y las imágenes. Según dice Kimberly Mai, autora principal del estudio, su equipo está haciendo esto para hacer que los detectores sean más robustos ante las diferencias en el audio de prueba. Además, las instituciones tienen la obligación de tomar partido y priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos derivados de los deepfakes de voz.