Es el perenne problema de la fiesta de cócteles - de pie en una habitación llena de gente, beber en la mano, tratando de escuchar lo que su compañero invitado está diciendo.
De hecho, los seres humanos son extraordinariamente expertos en mantener una conversación con una persona mientras filtran voces competidoras.
Sin embargo, quizás sorprendentemente, es una habilidad que la tecnología hasta hace poco no ha sido capaz de replicar.
Y eso importa cuando se trata de usar pruebas de audio en casos judiciales.
Las voces en segundo plano pueden hacer que sea difícil ser ciertos que hablan y lo que se dice, potencialmente haciendo las grabaciones inútiles.
El ingeniero eléctrico Keith McElveen, fundador y director tecnológico de Wave Sciences, se interesó en el problema cuando trabajaba para el gobierno de Estados Unidos en un caso de crímenes de guerra.
Lo que estábamos tratando de averiguar era quién ordenó la masacre de civiles.
Algunas de las pruebas incluían grabaciones con un montón de voces que hablaban a la vez - y ahí fue cuando me enteré de lo que era el problema de la fiesta de cócteles, dice.
Había tenido éxito en la eliminación de ruidos como sonidos de automóviles o acondicionadores de aire o ventiladores del habla, pero cuando empecé a tratar de quitar el habla del habla, resultó no sólo para ser un problema muy difícil, era uno de los problemas duros clásicos en la acústica.
Los sonidos rebotan alrededor de una habitación, y es matemáticamente horrible resolverlo.
La respuesta, dice, era utilizar la IA para tratar de identificar y detectar todos los sonidos competidores basados en el origen de los mismos en una habitación.
Esto no sólo significa que otras personas que pueden estar hablando - hay también una cantidad significativa de interferencia de la forma en que los sonidos se reflejan alrededor de una habitación, con la voz de los altavoces objetivo se escucha tanto directa como indirectamente.
En una cámara anecóica perfecta - una totalmente libre de ecos - un micrófono por altavoz sería suficiente para recoger lo que todo el mundo estaba diciendo; pero en una habitación real, el problema requiere un micrófono para cada sonido reflejado también.
McElveen fundó Wave Sciences en 2009, con la esperanza de desarrollar una tecnología que pudiera separar las voces superpuestas.
Inicialmente la firma utilizó un gran número de micrófonos en lo que se conoce como array beamforming.
Sin embargo, la retroalimentación de posibles socios comerciales fue que el sistema requería demasiados micrófonos por el costo que implicaba para dar buenos resultados en muchas situaciones - y no lo haría en muchos otros.
El estribillo común era que si pudiéramos encontrar una solución que abordara esas preocupaciones, estarían muy interesados, dice el señor McElveen.
Y, añade: Sabíamos que tenía que haber una solución, porque se puede hacerlo con sólo dos orejas.
La compañía finalmente resolvió el problema después de 10 años de investigación financiada internamente y presentó una solicitud de patente en septiembre de 2019.
Lo que se les ocurrió fue una IA que puede analizar cómo rebota el sonido alrededor de una habitación antes de llegar al micrófono o al oído.
Cogemos el sonido cuando llega a cada micrófono, retrocedemos para averiguar de dónde viene, y luego, en esencia, suprimemos cualquier sonido que no pudiera haber venido de donde la persona está sentada, dice el Sr. McElveen.
El efecto es comparable en ciertos aspectos a cuando una cámara se enfoca en un tema y difumina el primer plano y el fondo.
“Los resultados no suenan muy claros cuando solo puedes usar una grabación muy ruidosa para aprender de ella, pero siguen siendo impresionantes.
La tecnología tuvo su primer uso forense en el mundo real en un caso de asesinato en EE.UU., donde las pruebas que pudo proporcionar resultaron ser fundamentales para las condenas.
Después de que dos sicarios fueran arrestados por matar a un hombre, el FBI quería probar que habían sido contratados por una familia que estaba pasando por una disputa sobre la custodia de niños.
El FBI hizo arreglos para engañar a la familia para que creyera que estaban siendo chantajeados por su participación - y luego se sentó a ver la reacción.
Mientras que los mensajes y las llamadas telefónicas eran razonablemente fáciles de acceder para el FBI, las reuniones en persona en dos restaurantes eran un asunto diferente.
Pero el tribunal autorizó el uso del algoritmo de Wave Sciences, lo que significa que el audio pasó de ser inadmisible a ser una prueba fundamental.
Desde entonces, otros laboratorios gubernamentales, incluso en el Reino Unido, lo han sometido a una serie de pruebas.
La compañía ahora está comercializando la tecnología a los militares de Estados Unidos, que la ha utilizado para analizar las señales de sonar.
También podría tener aplicaciones en negociaciones de rehenes y escenarios suicidas, dice el señor McElveen, para asegurarse de que ambas partes de una conversación puedan ser escuchadas, no sólo el negociador con un megáfono.
A finales del año pasado, la compañía lanzó una aplicación de software utilizando su algoritmo de aprendizaje para su uso por laboratorios gubernamentales que realizan análisis forenses y acústicos de audio.
Eventualmente tiene como objetivo introducir versiones a medida de su producto para su uso en kit de grabación de audio, interfaces de voz para coches, altavoces inteligentes, realidad aumentada y virtual, sonar y dispositivos de audífonos.
Así que, por ejemplo, si hablas con tu coche o altavoz inteligente no importaría si hubiera mucho ruido a tu alrededor, el dispositivo todavía sería capaz de entender lo que estabas diciendo.
Según el educador forense Terri Armenta, de la Academia de Ciencias Forenses, la IA ya está siendo utilizada en otras áreas de la medicina forense.
Los modelos ML [machine learning] analizan los patrones de voz para determinar la identidad de los altavoces, un proceso particularmente útil en las investigaciones criminales donde la evidencia de voz necesita ser autenticada, dice.
Además, las herramientas de IA pueden detectar manipulaciones o alteraciones en las grabaciones de audio, asegurando la integridad de las pruebas presentadas ante los tribunales.
Y la IA también ha estado entrando en otros aspectos del análisis de audio.
Bosch tiene una tecnología llamada SoundSee, que utiliza algoritmos de procesamiento de señales de audio para analizar, por ejemplo, un sonido de motores para predecir un mal funcionamiento antes de que ocurra.
Las capacidades tradicionales de procesamiento de señales de audio carecen de la capacidad de entender el sonido como lo hacemos los humanos, dice el Dr. Samarjit Das, director de investigación y tecnología de Bosch USA.
Audio AI permite una comprensión más profunda e interpretación semántica del sonido de las cosas que nos rodean mejor que nunca, por ejemplo, sonidos ambientales o señales sonoras que emanan de las máquinas.
Pruebas más recientes del algoritmo Wave Sciences han demostrado que, incluso con sólo dos micrófonos, la tecnología puede funcionar tan bien como el oído humano - mejor, cuando se agregan más micrófonos.
Y también revelaron algo más.
Las matemáticas en todas nuestras pruebas muestran similitudes notables con la audición humana.
Hay pequeñas rarezas acerca de lo que nuestro algoritmo puede hacer, y la precisión con que puede hacerlo, que son asombrosamente similares a algunas de las rarezas que existen en la audición humana, dice McElveen.
Sospechamos que el cerebro humano puede estar usando las mismas matemáticas - que al resolver el problema de la fiesta de cócteles, podemos haber tropezado con lo que realmente sucede en el cerebro.