News

Solución de IA al 'problema de la fiesta de cocktail' usado en la corte

22/09/2024 16:46

Es el perenne problema de la fiesta de cócteles - de pie en una habitación llena de gente, beber en la mano, tratando de escuchar lo que su compañero invitado está diciendo.
De hecho, los seres humanos son extraordinariamente expertos en mantener una conversación con una persona mientras filtran voces competidoras.
Sin embargo, quizás sorprendentemente, es una habilidad que la tecnología hasta hace poco no ha sido capaz de replicar.
Y eso importa cuando se trata de usar pruebas de audio en casos judiciales.
Las voces en segundo plano pueden hacer que sea difícil ser ciertos que hablan y lo que se dice, potencialmente haciendo las grabaciones inútiles.
El ingeniero eléctrico Keith McElveen, fundador y director tecnológico de Wave Sciences, se interesó en el problema cuando trabajaba para el gobierno de Estados Unidos en un caso de crímenes de guerra.
Lo que estábamos tratando de averiguar era quién ordenó la masacre de civiles.
Algunas de las pruebas incluían grabaciones con un montón de voces que hablaban a la vez - y ahí fue cuando me enteré de lo que era el problema de la fiesta de cócteles, dice.
Había tenido éxito en la eliminación de ruidos como sonidos de automóviles o acondicionadores de aire o ventiladores del habla, pero cuando empecé a tratar de quitar el habla del habla, resultó no sólo para ser un problema muy difícil, era uno de los problemas duros clásicos en la acústica.
Los sonidos rebotan alrededor de una habitación, y es matemáticamente horrible resolverlo.
La respuesta, dice, era utilizar la IA para tratar de identificar y detectar todos los sonidos competidores basados en el origen de los mismos en una habitación.
Esto no sólo significa que otras personas que pueden estar hablando - hay también una cantidad significativa de interferencia de la forma en que los sonidos se reflejan alrededor de una habitación, con la voz de los altavoces objetivo se escucha tanto directa como indirectamente.
En una cámara anecóica perfecta - una totalmente libre de ecos - un micrófono por altavoz sería suficiente para recoger lo que todo el mundo estaba diciendo; pero en una habitación real, el problema requiere un micrófono para cada sonido reflejado también.
McElveen fundó Wave Sciences en 2009, con la esperanza de desarrollar una tecnología que pudiera separar las voces superpuestas.
Inicialmente la firma utilizó un gran número de micrófonos en lo que se conoce como array beamforming.
Sin embargo, la retroalimentación de posibles socios comerciales fue que el sistema requería demasiados micrófonos por el costo que implicaba para dar buenos resultados en muchas situaciones - y no lo haría en muchos otros.
El estribillo común era que si pudiéramos encontrar una solución que abordara esas preocupaciones, estarían muy interesados, dice el señor McElveen.
Y, añade: Sabíamos que tenía que haber una solución, porque se puede hacerlo con sólo dos orejas.
La compañía finalmente resolvió el problema después de 10 años de investigación financiada internamente y presentó una solicitud de patente en septiembre de 2019.
Lo que se les ocurrió fue una IA que puede analizar cómo rebota el sonido alrededor de una habitación antes de llegar al micrófono o al oído.
Cogemos el sonido cuando llega a cada micrófono, retrocedemos para averiguar de dónde viene, y luego, en esencia, suprimemos cualquier sonido que no pudiera haber venido de donde la persona está sentada, dice el Sr. McElveen.
El efecto es comparable en ciertos aspectos a cuando una cámara se enfoca en un tema y difumina el primer plano y el fondo.
“Los resultados no suenan muy claros cuando solo puedes usar una grabación muy ruidosa para aprender de ella, pero siguen siendo impresionantes.
La tecnología tuvo su primer uso forense en el mundo real en un caso de asesinato en EE.UU., donde las pruebas que pudo proporcionar resultaron ser fundamentales para las condenas.
Después de que dos sicarios fueran arrestados por matar a un hombre, el FBI quería probar que habían sido contratados por una familia que estaba pasando por una disputa sobre la custodia de niños.
El FBI hizo arreglos para engañar a la familia para que creyera que estaban siendo chantajeados por su participación - y luego se sentó a ver la reacción.
Mientras que los mensajes y las llamadas telefónicas eran razonablemente fáciles de acceder para el FBI, las reuniones en persona en dos restaurantes eran un asunto diferente.
Pero el tribunal autorizó el uso del algoritmo de Wave Sciences, lo que significa que el audio pasó de ser inadmisible a ser una prueba fundamental.
Desde entonces, otros laboratorios gubernamentales, incluso en el Reino Unido, lo han sometido a una serie de pruebas.
La compañía ahora está comercializando la tecnología a los militares de Estados Unidos, que la ha utilizado para analizar las señales de sonar.
También podría tener aplicaciones en negociaciones de rehenes y escenarios suicidas, dice el señor McElveen, para asegurarse de que ambas partes de una conversación puedan ser escuchadas, no sólo el negociador con un megáfono.
A finales del año pasado, la compañía lanzó una aplicación de software utilizando su algoritmo de aprendizaje para su uso por laboratorios gubernamentales que realizan análisis forenses y acústicos de audio.
Eventualmente tiene como objetivo introducir versiones a medida de su producto para su uso en kit de grabación de audio, interfaces de voz para coches, altavoces inteligentes, realidad aumentada y virtual, sonar y dispositivos de audífonos.
Así que, por ejemplo, si hablas con tu coche o altavoz inteligente no importaría si hubiera mucho ruido a tu alrededor, el dispositivo todavía sería capaz de entender lo que estabas diciendo.
Según el educador forense Terri Armenta, de la Academia de Ciencias Forenses, la IA ya está siendo utilizada en otras áreas de la medicina forense.
Los modelos ML [machine learning] analizan los patrones de voz para determinar la identidad de los altavoces, un proceso particularmente útil en las investigaciones criminales donde la evidencia de voz necesita ser autenticada, dice.
Además, las herramientas de IA pueden detectar manipulaciones o alteraciones en las grabaciones de audio, asegurando la integridad de las pruebas presentadas ante los tribunales.
Y la IA también ha estado entrando en otros aspectos del análisis de audio.
Bosch tiene una tecnología llamada SoundSee, que utiliza algoritmos de procesamiento de señales de audio para analizar, por ejemplo, un sonido de motores para predecir un mal funcionamiento antes de que ocurra.
Las capacidades tradicionales de procesamiento de señales de audio carecen de la capacidad de entender el sonido como lo hacemos los humanos, dice el Dr. Samarjit Das, director de investigación y tecnología de Bosch USA.
Audio AI permite una comprensión más profunda e interpretación semántica del sonido de las cosas que nos rodean mejor que nunca, por ejemplo, sonidos ambientales o señales sonoras que emanan de las máquinas.
Pruebas más recientes del algoritmo Wave Sciences han demostrado que, incluso con sólo dos micrófonos, la tecnología puede funcionar tan bien como el oído humano - mejor, cuando se agregan más micrófonos.
Y también revelaron algo más.
Las matemáticas en todas nuestras pruebas muestran similitudes notables con la audición humana.
Hay pequeñas rarezas acerca de lo que nuestro algoritmo puede hacer, y la precisión con que puede hacerlo, que son asombrosamente similares a algunas de las rarezas que existen en la audición humana, dice McElveen.
Sospechamos que el cerebro humano puede estar usando las mismas matemáticas - que al resolver el problema de la fiesta de cócteles, podemos haber tropezado con lo que realmente sucede en el cerebro.

Other Articles in News

Por qué tanto las empresas como los estafadores aman el sistema de pagos de la India

Todos los días, durante los últimos siete años, Arun Kumar ha establecido su puesto de frutas en una ajetreada calle Mumbai. No es una manera fácil de ganarse la vida. “Ser vendedor ambulante es un reto. Theres el miedo de ser robado o, como no soy un vendedor con licencia, el cuerpo local puede ven...

Cómo la IA está alimentando la incertidumbre para los desarrolladores de juegos

Soy muy consciente de que podría despertar mañana y que mi trabajo podría desaparecer”, dice Jess Hyland. La artista de videojuegos dice que la industria en la que ha pasado casi 15 años trabajando está en un terreno inestable en este momento. Un auge de jugadores y ganancias durante la pandemia pro...

¿Cómo serán las futuras peleas aéreas de perros?

Estoy volando un caza tifón sobre el mar de Irlanda y tengo un gran problema. Hay un jet hostil en mi cola, y no importa cómo empuje el joystick, o jugar con el acelerador, este enemigo todavía está allí. La amenaza está representada por un triángulo negro en la pantalla del ordenador delante de mí...

¿Por qué los hermanos de la tecnología están recurriendo a Trump

Donald Trump, cuyo tiempo en el cargo lo convirtió en un paria para muchos en el mundo de los negocios, ha encontrado nuevos campeones entre los líderes tecnológicos a medida que su camino de regreso a la Casa Blanca toma forma. Elon Musk, la persona más rica del mundo, se convirtió en el nombre más...

Los concursantes de la televisión de la realidad "no parecen reales"

Valerie Penso-Cuculich sabe una o dos cosas sobre elegir concursantes para reality shows. Es directora de casting para programas como Love Island USA, The Real Housewives of Dubai y The Millionaire Matchmaker. La Sra. Penso-Cuculich dice que AI ha complicado mucho más su primer contacto con los soli...

¿Puede la tecnología arreglar el sistema de boletos de concierto 'roto'?

Para el nativo de Nashville, Jacki Thrapp, volar a Europa este verano para ver a su ídolo Taylor Swift actuar en vivo fue un “sin cerebro”. Con los boletos más baratos para las fechas restantes en EE.UU. de la continua Gira Eras de Swift cuestan ahora $2,500 (£2.000) en el mercado de reventa, desde...

¿Es la captura de carbono una manera eficiente de abordar el CO2?

Podría ser una escena de la ciencia ficción. Los campos de lava musgosos, que se elevan sobre la oscuridad, son pilas de máquinas ruidosas del tamaño de contenedores de envío, cúpulas y tubos de plata zigzagueantes. Se encuentra a 30 km al suroeste de Reykjavik, la capital de Islandia, es la instala...

¿Podría Australia convertirse en una superpotencia de hidrógeno verde?

“Si recuerdas ser un niño y volar un globo o en un batido, tus mejillas se duelen porque hay una penalización energética asociada con la formación de burbujas”. Paul Barrett, el director ejecutivo de Dublín de la firma australiana de energía verde Hysata, está explicando el plan para crear el hidróg...

Los'superalimentos' se apoderan de los campos en el norte de la India

Al igual que su padre y abuelo antes de él, Phool dev Shahni una vez se ganaba la vida buceando hasta el fondo de los estanques de 8 pies de profundidad (2,4 m), fangosos. Solía bucear en 7 a 8 pies de agua durante horas al día - llegando a la superficie para respirar después de 8 a 10 minutos, expl...

No importa la risa - cómo AI está ayudando a los comediantes a escribir chistes

“¿Por qué el político trajo una escalera al debate? ¡Para asegurarse de que podría alcanzar nuevas alturas con sus promesas!” Pídele a AI que escriba una broma política, y lo anterior es un ejemplo de lo que puedes conseguir. Tal vez no lo suficientemente gracioso como para entregar en el escenario...