C'est le problème permanent de la fête des cocktails - se tenant dans une pièce pleine de gens, buvant à la main, essayant d'entendre ce que votre collègue invité dit.
En fait, les êtres humains sont remarquablement habiles à tenir une conversation avec une personne tout en filtrant les voix concurrentes.
Cependant, peut-être surprenant, sa compétence que la technologie a jusqu'à récemment été incapable de reproduire.
Et c'est important quand il s'agit d'utiliser les preuves audio dans les affaires judiciaires.
Les voix en arrière-plan peuvent rendre difficile d'être certains qui parlent et ce qu'on dit, potentiellement rendant les enregistrements inutiles.
L'ingénieur électrique Keith McElveen, fondateur et chef de la technologie de Wave Sciences, s'est intéressé au problème lorsqu'il travaillait pour le gouvernement américain sur une affaire de crimes de guerre.
Ce que nous essayions de découvrir, c'est qui a ordonné le massacre de civils.
Certaines des preuves comprenaient des enregistrements avec un tas de voix toutes parlant à la fois - et c'est quand j'ai appris quel était le problème de la fête de cocktail, dit-il.
J'avais réussi à éliminer le bruit comme les sons de l'automobile ou les climatiseurs ou les fans de la parole, mais quand j'ai commencé à essayer de supprimer la parole de la parole, il s'est avéré non seulement être un problème très difficile, c'était l'un des problèmes difficiles classiques dans l'acoustique.
Les sons rebondissent autour d'une pièce, et c'est mathématiquement horrible à résoudre.
La réponse, dit-il, était d'utiliser l'IA pour essayer d'identifier et de trier tous les sons concurrents en fonction de leur origine dans une pièce.
Cela ne signifie pas seulement d'autres personnes qui peuvent parler - il ya aussi une quantité importante d'interférences de la façon dont les sons se reflètent autour d'une pièce, avec la voix des haut-parleurs cibles étant entendus à la fois directement et indirectement.
Dans une chambre anéchoïque parfaite - totalement exempte d'échos - un microphone par haut-parleur suffirait à capter ce que tout le monde disait; mais dans une vraie pièce, le problème nécessite aussi un microphone pour chaque son réfléchi.
M. McElveen a fondé Wave Sciences en 2009, dans l'espoir de développer une technologie qui pourrait séparer les voix qui se chevauchent.
Initialement, l'entreprise utilisait un grand nombre de microphones dans ce que l'on appelle la formation de faisceaux de réseau.
Cependant, les commentaires des partenaires commerciaux potentiels étaient que le système exigeait trop de microphones pour que le coût en cause donne de bons résultats dans de nombreuses situations - et qu'il ne se produirait pas du tout dans beaucoup d'autres.
Le refrain commun était que si nous pouvions trouver une solution qui réponde à ces préoccupations, ils seraient très intéressés, dit M. McElveen.
Et, ajoute-t-il, nous savions qu'il devait y avoir une solution, parce que vous pouvez le faire avec seulement deux oreilles.
L'entreprise a finalement résolu le problème après 10 ans de recherche financée en interne et a déposé une demande de brevet en septembre 2019.
Ce qu'ils avaient trouvé était une AI qui peut analyser comment le son rebondit autour d'une pièce avant d'atteindre le microphone ou l'oreille.
Nous retenons le son en arrivant à chaque microphone, retour sur piste pour comprendre d'où il vient, et puis, en substance, nous supprimons tout son qui n'aurait pas pu venir d'où la personne est assise, dit M. McElveen.
L'effet est comparable à certains égards quand une caméra se concentre sur un sujet et brouille l'avant-plan et l'arrière-plan.
Les résultats ne sonnent pas cristal clair quand vous pouvez seulement utiliser un enregistrement très bruyant pour apprendre de, mais ils sont encore étonnants.
La technologie a eu sa première utilisation médico-légale réelle dans une affaire de meurtre aux États-Unis, où les preuves qu'elle a pu fournir se sont avérées essentielles aux condamnations.
Après l'arrestation de deux tueurs pour avoir tué un homme, le FBI a voulu prouver qu'ils avaient été embauchés par une famille qui avait eu un différend sur la garde d'enfants.
Le FBI s'est arrangé pour tromper la famille à croire qu'ils étaient chantage pour leur implication - et ensuite s'est assis pour voir la réaction.
Alors que les SMS et les appels téléphoniques étaient assez faciles d'accès pour le FBI, les réunions en personne dans deux restaurants étaient une question différente.
Mais le tribunal a autorisé l'utilisation de l'algorithme de Wave Sciences, ce qui signifie que l'audio est passé d'être inadmissible à un élément de preuve pivot.
Depuis lors, d'autres laboratoires gouvernementaux, y compris au Royaume-Uni, l'ont soumis à une batterie d'essais.
L'entreprise commercialise maintenant la technologie à l'armée américaine, qui l'a utilisée pour analyser les signaux sonar.
Il pourrait également présenter des demandes dans le cadre de négociations sur les otages et de scénarios de suicide, dit M. McElveen, pour s'assurer que les deux parties d'une conversation peuvent être entendues – pas seulement le négociateur avec un mégaphone.
À la fin de l'année dernière, la société a lancé une application logicielle utilisant son algorithme d'apprentissage pour les laboratoires gouvernementaux effectuant des analyses audio-légales et acoustiques.
Finalement, il vise à introduire des versions sur mesure de son produit pour une utilisation dans le kit d'enregistrement audio, les interfaces vocales pour les voitures, les haut-parleurs intelligents, la réalité augmentée et virtuelle, le sonar et les appareils auditifs.
Ainsi, par exemple, si vous parlez à votre voiture ou à un haut-parleur intelligent, il n'y aurait pas d'importance s'il y avait beaucoup de bruit autour de vous, l'appareil serait encore en mesure de faire ce que vous disiez.
L'IA est déjà utilisée dans d'autres domaines de la médecine légale, selon l'éducateur médico-légal Terri Armenta de l'Académie de médecine légale.
Les modèles ML [apprentissage automatique] analysent les modèles de voix pour déterminer l'identité des locuteurs, un processus particulièrement utile dans les enquêtes criminelles où les preuves vocales doivent être authentifiées, dit-elle.
De plus, les outils d'IA peuvent détecter des manipulations ou des modifications d'enregistrements audio, assurant ainsi l'intégrité des preuves présentées au tribunal.
Et l'IA a également fait son chemin dans d'autres aspects de l'analyse audio aussi.
Bosch possède une technologie appelée SoundSee, qui utilise des algorithmes de traitement de signaux audio pour analyser, par exemple, un son de moteurs pour prédire un dysfonctionnement avant qu'il ne se produise.
Selon le Dr Samarjit Das, directeur de la recherche et de la technologie à Bosch USA, les capacités traditionnelles de traitement des signaux audio ne permettent pas de comprendre le son comme nous le faisons chez les humains.
L'IA audio permet une compréhension plus profonde et une interprétation sémantique du son des choses qui nous entourent mieux que jamais - par exemple, des sons environnementaux ou des sons émanant de machines.
Des tests plus récents de l'algorithme Wave Sciences ont montré que, même avec seulement deux microphones, la technologie peut fonctionner aussi bien que l'oreille humaine - mieux, quand plus de microphones sont ajoutés.
Et ils ont aussi révélé quelque chose d'autre.
Les maths de tous nos tests montrent des similarités remarquables avec l'ouïe humaine.
Il y a peu d'étranges choses sur ce que notre algorithme peut faire, et à quel point il peut le faire avec précision, qui sont étonnamment semblables à certaines des bizarreries qui existent dans l'ouïe humaine, dit McElveen.
Nous soupçonnons que le cerveau humain utilise peut-être les mêmes maths - qu'en résolvant le problème de la fête des cocktails, nous avons peut-être trébuché sur ce qui se passe réellement dans le cerveau.