É o problema perene do coquetel - estar em uma sala cheia de pessoas, beber na mão, tentando ouvir o que seu colega está dizendo.
Na verdade, os seres humanos são notavelmente hábeis em manter uma conversa com uma pessoa enquanto filtram vozes concorrentes.
No entanto, talvez surpreendentemente, é uma habilidade que a tecnologia tem sido até recentemente incapaz de replicar.
E isso importa quando se trata de usar evidências de áudio em casos judiciais.
Vozes em segundo plano podem tornar difícil ter certeza de quem está falando e o que está sendo dito, potencialmente tornando as gravações inúteis.
O engenheiro elétrico Keith McElveen, fundador e diretor de tecnologia da Wave Sciences, ficou interessado no problema quando estava trabalhando para o governo dos EUA em um caso de crimes de guerra.
O que estávamos tentando descobrir era quem ordenou o massacre de civis.
Algumas das evidências incluíam gravações com um monte de vozes falando de uma só vez – e foi quando eu soube qual era o problema do coquetel, diz ele.
Eu tinha sido bem sucedido em remover o ruído como sons de automóveis ou condicionadores de ar ou ventiladores da fala, mas quando eu comecei a tentar remover a fala da fala, acabou não só por ser um problema muito difícil, foi um dos problemas difíceis clássicos em acústica.
Sons estão saltando em torno de uma sala, e é matematicamente horrível de resolver.
A resposta, diz ele, era usar a IA para tentar identificar e filtrar todos os sons concorrentes com base em onde eles originalmente vieram em uma sala.
Isso não significa apenas outras pessoas que podem estar falando - há também uma quantidade significativa de interferência da maneira como os sons são refletidos em torno de uma sala, com a voz dos alto-falantes alvo sendo ouvida direta e indiretamente.
Em uma câmara anecoica perfeita - totalmente livre de ecos - um microfone por alto-falante seria suficiente para pegar o que todos estavam dizendo; mas em uma sala real, o problema requer um microfone para cada som refletido também.
McElveen fundou a Wave Sciences em 2009, na esperança de desenvolver uma tecnologia que pudesse separar vozes sobrepostas.
Inicialmente, a empresa usou um grande número de microfones no que é conhecido como beamforming array.
No entanto, o feedback de potenciais parceiros comerciais foi que o sistema precisava de muitos microfones para o custo envolvido para dar bons resultados em muitas situações - e não funcionaria em muitos outros.
O refrão comum era que, se pudéssemos chegar a uma solução que abordasse essas preocupações, eles estariam muito interessados, diz McElveen.
E acrescenta: Sabíamos que tinha que haver uma solução, porque você pode fazê-lo com apenas duas orelhas.
A empresa finalmente resolveu o problema após 10 anos de pesquisa financiada internamente e entrou com um pedido de patente em setembro de 2019.
O que eles inventaram foi uma IA que pode analisar como o som salta ao redor de uma sala antes de chegar ao microfone ou ouvido.
Pegamos o som quando ele chega a cada microfone, recuamos para descobrir de onde veio e, em essência, suprimimos qualquer som que não poderia ter vindo de onde a pessoa está sentada, diz o Sr. McElveen.
O efeito é comparável em certos aspectos a quando uma câmera foca em um assunto e borra o primeiro plano e o plano de fundo.
“Os resultados não soam cristalinos quando você só pode usar uma gravação muito barulhenta para aprender, mas ainda são impressionantes.
A tecnologia teve seu primeiro uso forense no mundo real em um caso de assassinato nos EUA, onde as evidências que ela foi capaz de fornecer provaram ser centrais para as condenações.
Depois que dois assassinos foram presos por matar um homem, o FBI queria provar que eles haviam sido contratados por uma família que passava por uma disputa de custódia de crianças.
O FBI arranjou para enganar a família a acreditar que eles estavam sendo chantageados por seu envolvimento - e depois sentou-se para ver a reação.
Enquanto os textos e telefonemas eram razoavelmente fáceis para o FBI acessar, reuniões presenciais em dois restaurantes eram uma questão diferente.
Mas o tribunal autorizou o uso do algoritmo da Wave Sciences, o que significa que o áudio passou de inadmissível para uma peça fundamental de evidência.
Desde então, outros laboratórios governamentais, inclusive no Reino Unido, passaram por uma bateria de testes.
A empresa agora está comercializando a tecnologia para os militares dos EUA, que a usaram para analisar sinais de sonar.
Também poderia ter aplicações em negociações de reféns e cenários de suicídio, diz McElveen, para garantir que ambos os lados de uma conversa possam ser ouvidos - não apenas o negociador com um megafone.
No ano passado, a empresa lançou um aplicativo de software usando seu algoritmo de aprendizado para uso por laboratórios do governo realizando análise forense e acústica de áudio.
Eventualmente, pretende introduzir versões personalizadas de seu produto para uso em kit de gravação de áudio, interfaces de voz para carros, alto-falantes inteligentes, realidade aumentada e virtual, sonar e aparelhos auditivos.
Então, por exemplo, se você falar com seu carro ou alto-falante inteligente, não importaria se houvesse muito barulho acontecendo ao seu redor, o dispositivo ainda seria capaz de entender o que você estava dizendo.
A IA já está sendo usada em outras áreas forenses também, de acordo com a educadora forense Terri Armenta, da Academia de Ciências Forenses.
Os modelos de ML [machine learning] analisam os padrões de voz para determinar a identidade dos falantes, um processo particularmente útil em investigações criminais onde a evidência de voz precisa ser autenticada, diz ela.
Além disso, as ferramentas de IA podem detectar manipulações ou alterações nas gravações de áudio, garantindo a integridade das evidências apresentadas no tribunal.
E AI também tem vindo a fazer o seu caminho em outros aspectos da análise de áudio também.
A Bosch tem uma tecnologia chamada SoundSee, que usa algoritmos de processamento de sinal de áudio para analisar, por exemplo, um som de motores para prever um mau funcionamento antes que ele aconteça.
As capacidades tradicionais de processamento de sinal de áudio não têm a capacidade de entender o som da maneira que nós humanos, diz o Dr. Samarjit Das, diretor de pesquisa e tecnologia da Bosch EUA.
A IA de áudio permite uma compreensão mais profunda e interpretação semântica do som das coisas ao nosso redor melhor do que nunca - por exemplo, sons ambientais ou pistas sonoras que emanam de máquinas.
Testes mais recentes do algoritmo Wave Sciences mostraram que, mesmo com apenas dois microfones, a tecnologia pode funcionar tão bem quanto o ouvido humano - melhor, quando mais microfones são adicionados.
E eles também revelaram outra coisa.
A matemática em todos os nossos testes mostra semelhanças notáveis com a audição humana.
Há poucas estranhezas sobre o que o nosso algoritmo pode fazer, e com que precisão ele pode fazê-lo, que são surpreendentemente semelhantes a algumas das estranhezas que existem na audição humana, diz McElveen.
Suspeitamos que o cérebro humano pode estar usando a mesma matemática - que, ao resolver o problema do coquetel, podemos ter tropeçado no que realmente está acontecendo no cérebro.