News

Solução da IA para o "problema da festa do cocktail" usado em tribunal

22/09/2024 16:46

É o problema perene do coquetel - estar em uma sala cheia de pessoas, beber na mão, tentando ouvir o que seu colega está dizendo.
Na verdade, os seres humanos são notavelmente hábeis em manter uma conversa com uma pessoa enquanto filtram vozes concorrentes.
No entanto, talvez surpreendentemente, é uma habilidade que a tecnologia tem sido até recentemente incapaz de replicar.
E isso importa quando se trata de usar evidências de áudio em casos judiciais.
Vozes em segundo plano podem tornar difícil ter certeza de quem está falando e o que está sendo dito, potencialmente tornando as gravações inúteis.
O engenheiro elétrico Keith McElveen, fundador e diretor de tecnologia da Wave Sciences, ficou interessado no problema quando estava trabalhando para o governo dos EUA em um caso de crimes de guerra.
O que estávamos tentando descobrir era quem ordenou o massacre de civis.
Algumas das evidências incluíam gravações com um monte de vozes falando de uma só vez – e foi quando eu soube qual era o problema do coquetel, diz ele.
Eu tinha sido bem sucedido em remover o ruído como sons de automóveis ou condicionadores de ar ou ventiladores da fala, mas quando eu comecei a tentar remover a fala da fala, acabou não só por ser um problema muito difícil, foi um dos problemas difíceis clássicos em acústica.
Sons estão saltando em torno de uma sala, e é matematicamente horrível de resolver.
A resposta, diz ele, era usar a IA para tentar identificar e filtrar todos os sons concorrentes com base em onde eles originalmente vieram em uma sala.
Isso não significa apenas outras pessoas que podem estar falando - há também uma quantidade significativa de interferência da maneira como os sons são refletidos em torno de uma sala, com a voz dos alto-falantes alvo sendo ouvida direta e indiretamente.
Em uma câmara anecoica perfeita - totalmente livre de ecos - um microfone por alto-falante seria suficiente para pegar o que todos estavam dizendo; mas em uma sala real, o problema requer um microfone para cada som refletido também.
McElveen fundou a Wave Sciences em 2009, na esperança de desenvolver uma tecnologia que pudesse separar vozes sobrepostas.
Inicialmente, a empresa usou um grande número de microfones no que é conhecido como beamforming array.
No entanto, o feedback de potenciais parceiros comerciais foi que o sistema precisava de muitos microfones para o custo envolvido para dar bons resultados em muitas situações - e não funcionaria em muitos outros.
O refrão comum era que, se pudéssemos chegar a uma solução que abordasse essas preocupações, eles estariam muito interessados, diz McElveen.
E acrescenta: Sabíamos que tinha que haver uma solução, porque você pode fazê-lo com apenas duas orelhas.
A empresa finalmente resolveu o problema após 10 anos de pesquisa financiada internamente e entrou com um pedido de patente em setembro de 2019.
O que eles inventaram foi uma IA que pode analisar como o som salta ao redor de uma sala antes de chegar ao microfone ou ouvido.
Pegamos o som quando ele chega a cada microfone, recuamos para descobrir de onde veio e, em essência, suprimimos qualquer som que não poderia ter vindo de onde a pessoa está sentada, diz o Sr. McElveen.
O efeito é comparável em certos aspectos a quando uma câmera foca em um assunto e borra o primeiro plano e o plano de fundo.
“Os resultados não soam cristalinos quando você só pode usar uma gravação muito barulhenta para aprender, mas ainda são impressionantes.
A tecnologia teve seu primeiro uso forense no mundo real em um caso de assassinato nos EUA, onde as evidências que ela foi capaz de fornecer provaram ser centrais para as condenações.
Depois que dois assassinos foram presos por matar um homem, o FBI queria provar que eles haviam sido contratados por uma família que passava por uma disputa de custódia de crianças.
O FBI arranjou para enganar a família a acreditar que eles estavam sendo chantageados por seu envolvimento - e depois sentou-se para ver a reação.
Enquanto os textos e telefonemas eram razoavelmente fáceis para o FBI acessar, reuniões presenciais em dois restaurantes eram uma questão diferente.
Mas o tribunal autorizou o uso do algoritmo da Wave Sciences, o que significa que o áudio passou de inadmissível para uma peça fundamental de evidência.
Desde então, outros laboratórios governamentais, inclusive no Reino Unido, passaram por uma bateria de testes.
A empresa agora está comercializando a tecnologia para os militares dos EUA, que a usaram para analisar sinais de sonar.
Também poderia ter aplicações em negociações de reféns e cenários de suicídio, diz McElveen, para garantir que ambos os lados de uma conversa possam ser ouvidos - não apenas o negociador com um megafone.
No ano passado, a empresa lançou um aplicativo de software usando seu algoritmo de aprendizado para uso por laboratórios do governo realizando análise forense e acústica de áudio.
Eventualmente, pretende introduzir versões personalizadas de seu produto para uso em kit de gravação de áudio, interfaces de voz para carros, alto-falantes inteligentes, realidade aumentada e virtual, sonar e aparelhos auditivos.
Então, por exemplo, se você falar com seu carro ou alto-falante inteligente, não importaria se houvesse muito barulho acontecendo ao seu redor, o dispositivo ainda seria capaz de entender o que você estava dizendo.
A IA já está sendo usada em outras áreas forenses também, de acordo com a educadora forense Terri Armenta, da Academia de Ciências Forenses.
Os modelos de ML [machine learning] analisam os padrões de voz para determinar a identidade dos falantes, um processo particularmente útil em investigações criminais onde a evidência de voz precisa ser autenticada, diz ela.
Além disso, as ferramentas de IA podem detectar manipulações ou alterações nas gravações de áudio, garantindo a integridade das evidências apresentadas no tribunal.
E AI também tem vindo a fazer o seu caminho em outros aspectos da análise de áudio também.
A Bosch tem uma tecnologia chamada SoundSee, que usa algoritmos de processamento de sinal de áudio para analisar, por exemplo, um som de motores para prever um mau funcionamento antes que ele aconteça.
As capacidades tradicionais de processamento de sinal de áudio não têm a capacidade de entender o som da maneira que nós humanos, diz o Dr. Samarjit Das, diretor de pesquisa e tecnologia da Bosch EUA.
A IA de áudio permite uma compreensão mais profunda e interpretação semântica do som das coisas ao nosso redor melhor do que nunca - por exemplo, sons ambientais ou pistas sonoras que emanam de máquinas.
Testes mais recentes do algoritmo Wave Sciences mostraram que, mesmo com apenas dois microfones, a tecnologia pode funcionar tão bem quanto o ouvido humano - melhor, quando mais microfones são adicionados.
E eles também revelaram outra coisa.
A matemática em todos os nossos testes mostra semelhanças notáveis com a audição humana.
Há poucas estranhezas sobre o que o nosso algoritmo pode fazer, e com que precisão ele pode fazê-lo, que são surpreendentemente semelhantes a algumas das estranhezas que existem na audição humana, diz McElveen.
Suspeitamos que o cérebro humano pode estar usando a mesma matemática - que, ao resolver o problema do coquetel, podemos ter tropeçado no que realmente está acontecendo no cérebro.

Other Articles in News

Por que empresas e golpistas amam o sistema de pagamento da ndia

Todos os dias, nos últimos sete anos, Arun Kumar montou sua barraca de frutas em uma movimentada rua de Mumbai. Não é uma maneira fácil de ganhar a vida. “Ser vendedor de rua é um desafio. Há o medo de ser roubado ou, como não sou um fornecedor licenciado, o corpo local pode vir e desmantelar minha...

Como a IA está alimentando a incerteza para desenvolvedores de jogos

Estou muito ciente de que eu poderia acordar amanhã e meu trabalho poderia ter ido embora”, diz Jess Hyland. A artista de vídeo game diz que a indústria em que ela passou quase 15 anos trabalhando está em terreno “abalado” no momento. Um boom de jogadores e lucros durante a pandemia provocou uma enx...

Como serão os futuros combates aéreos?

Estou pilotando um caça Typhoon sobre o Mar da Irlanda e tenho um grande problema. Há um jato hostil na minha cauda, e não importa como eu empurro o joystick, ou brinco com o acelerador, esse inimigo ainda está lá. A ameaça é representada por um triângulo negro na tela do computador à minha frente q...

Por que os irmãos de tecnologia estão se voltando para Trump

Donald Trump, cujo tempo no cargo fez dele um pária para muitos no mundo dos negócios, encontrou novos campeões entre os líderes de tecnologia à medida que seu caminho de volta à Casa Branca toma forma. Elon Musk, a pessoa mais rica do mundo, tornou-se o maior nome ainda a lançar seu peso para trás...

Participantes de reality show 'não parecem reais'

Valerie Penso-Cuculich sabe uma coisa ou duas sobre escolher concorrentes para reality shows. Ela é diretora de elenco de programas como Love Island USA, The Real Housewives of Dubai e The Millionaire Matchmaker. Penso-Cuculich diz que a IA tornou seu primeiro contato com os candidatos muito mais co...

A tecnologia pode consertar o sistema de emissão de ingressos de concertos 'quebrados'?

Para a nativa de Nashville, Jacki Thrapp, voar para a Europa neste verão para ver seu ídolo Taylor Swift se apresentar ao vivo foi um “sem cérebro”. Com os ingressos mais baratos para as datas restantes dos EUA da contínua Eras Tour da Swift agora custando US $ 2.500 ( 2.000) no mercado de revenda,...

A captura de carbono é uma maneira eficiente de combater o CO2?

Pode ser uma cena de ficção científica. Os campos de lava musgosos e escuros são pilhas de máquinas barulhentas do tamanho de contêineres de transporte, cúpulas e tubos de prata ziguezagueados. Encontrada a 30 km a sudoeste da capital da Islândia, Reykjavik, esta é a maior instalação de captura dire...

A Austrália poderia se tornar uma superpotência de hidrogênio verde?

“Se você se lembra de ser criança e explodir um balão ou um milkshake, suas bochechas ficaram doloridas porque há uma penalidade energética associada à formação de bolhas.” Paul Barrett, executivo-chefe da empresa australiana de energia verde Hysata, nascido em Dublin, está explicando o plano para c...

'superalimentos' dominam campos no norte da ndia

Como seu pai e avô antes dele, Phool dev Shahni uma vez ganhou a vida mergulhando até o fundo de lagoas lamacentas (2,4 m). Eu costumava mergulhar em 7 a 8 pés de água por horas por dia - vindo à superfície para respirar depois de 8 a 10 minutos, explica o Sr. Shahni. Enquanto naquelas profundezas t...

Não importa o riso - como a IA está ajudando comediantes a escrever piadas

“Por que o político trouxe uma escada para o debate? Para ter certeza de que ele poderia alcançar novas alturas com suas promessas!” Peça à IA para escrever uma piada política, e o acima é um exemplo do que você pode obter. Talvez não seja engraçado o suficiente para entregar no palco na frente de u...