Es ist die mehrjährige Cocktailparty Problem - stehen in einem Raum voller Menschen, trinken in der Hand, versuchen zu hören, was Ihr Gast sagt.
Tatsächlich sind die Menschen bemerkenswert geschickt, ein Gespräch mit einer Person zu führen, während sie konkurrierende Stimmen herausfiltern.
Doch vielleicht überraschend, seine eine Fähigkeit, die Technologie hat bis vor kurzem nicht in der Lage, zu replizieren.
Und das ist wichtig, wenn es darum geht, Audio-Beweise in Gerichtsverfahren zu verwenden.
Stimmen im Hintergrund können es schwer machen, sicher zu sein, wer spricht und was gesagt wird, wodurch Aufnahmen nutzlos sind.
Elektroingenieur Keith McElveen, Gründer und Chief Technology Officer von Wave Sciences, interessierte sich für das Problem, als er für die US-Regierung an einem Fall von Kriegsverbrechen arbeitete.
Wir wollten herausfinden, wer das Massaker an Zivilisten befohlen hat.
Einige der Beweise beinhalteten Aufnahmen mit einem Haufen Stimmen, die alle auf einmal sprachen - und das ist, als ich erfuhr, was das Problem der Cocktailparty war, sagt er.
Ich hatte es geschafft, Geräusche wie Autogeräusche oder Klimaanlagen oder Ventilatoren aus der Sprache zu entfernen, aber als ich versuchte, Sprache aus der Sprache zu entfernen, stellte sich heraus, dass es nicht nur ein sehr schwieriges Problem war, es war eines der klassischen harten Probleme in der Akustik.
Geräusche hüpfen um einen Raum herum, und es ist mathematisch schrecklich zu lösen.
Die Antwort, sagt er, sei, KI zu benutzen, um alle konkurrierenden Klänge zu lokalisieren und abzuschirmen, basierend darauf, woher sie ursprünglich in einem Raum kamen.
Das bedeutet nicht nur andere Leute, die sprechen können - es gibt auch eine erhebliche Menge von Interferenzen von der Art, wie Klänge um einen Raum reflektiert werden, wobei die Ziellautsprecher Stimme sowohl direkt als auch indirekt gehört wird.
In einer perfekten Anechokammer - eines völlig frei von Echos - würde ein Mikrofon pro Lautsprecher ausreichen, um das aufzunehmen, was jeder sagte; aber in einem echten Raum, das Problem erfordert ein Mikrofon für jeden reflektierten Klang auch.
McElveen gründete im Jahr 2009 Wave Sciences in der Hoffnung, eine Technologie zu entwickeln, die überlappende Stimmen trennen könnte.
Zunächst verwendete das Unternehmen eine große Anzahl von Mikrofonen in so genannten Array-Beamforming.
Feedback von potentiellen Handelspartnern war jedoch, dass das System zu viele Mikrofone benötigt, um in vielen Situationen gute Ergebnisse zu erzielen - und in vielen anderen überhaupt nicht durchführen zu können.
Der gemeinsame Refrain war, dass, wenn wir eine Lösung finden könnten, die diese Bedenken anspricht, sie sehr interessiert wären, sagt Herr McElveen.
Und er fügt hinzu: Wir wussten, dass es eine Lösung geben musste, weil man es mit nur zwei Ohren machen kann.
Das Unternehmen löste das Problem schließlich nach 10 Jahren intern finanzierter Forschung und reichte im September 2019 eine Patentanmeldung ein.
Was ihnen eingefallen war, war eine KI, die analysieren kann, wie Ton um einen Raum herum hüpft, bevor sie das Mikrofon oder Ohr erreicht.
Wir fangen den Ton an, wenn er an jedem Mikrofon ankommt, um herauszufinden, woher er kommt, und dann, im Wesentlichen, unterdrücken wir jeden Ton, der nicht aus dem Sitzen der Person kommen konnte, sagt Herr McElveen.
Der Effekt ist in gewisser Hinsicht vergleichbar mit dem, wenn eine Kamera sich auf ein Thema konzentriert und den Vordergrund und den Hintergrund verwischt.
Die Ergebnisse klingen nicht kristallklar, wenn Sie nur eine sehr laute Aufnahme verwenden können, um von zu lernen, aber sie sind immer noch atemberaubend.
Die Technologie hatte ihren ersten wirklich-weltlichen forensischen Gebrauch in einem US-Mordfall, wo die Beweise, die sie liefern konnte, sich als zentral für die Verurteilungen erwiesen.
Nachdem zwei Attentäter verhaftet worden waren, weil sie einen Mann getötet hatten, wollte das FBI beweisen, dass sie von einer Familie angeheuert wurden, die einen Kinderhaftstreit durchmachte.
Das FBI arrangierte, die Familie dazu zu bringen, zu glauben, dass sie wegen ihrer Beteiligung erpresst würden - und setzte sich dann zurück, um die Reaktion zu sehen.
Während Texte und Telefonate für das FBI relativ leicht zugänglich waren, waren persönliche Treffen in zwei Restaurants eine andere Sache.
Aber das Gericht genehmigte die Verwendung von Wave Sciences-Algorithmus, was bedeutet, dass die Audio ging von unzulässig zu einem zentralen Beweisstück.
Seither haben andere staatliche Labors, auch im Vereinigten Königreich, eine Reihe von Tests durchgeführt.
Das Unternehmen vermarktet die Technologie nun an das US-Militär, das sie zur Analyse von Sonarsignalen genutzt hat.
Es könnte auch Anträge in Geiselverhandlungen und Selbstmordszenarien haben, sagt McElveen, um sicherzustellen, dass beide Seiten eines Gesprächs gehört werden können – nicht nur der Verhandlungsführer mit einem Megaphon.
Ende letzten Jahres veröffentlichte das Unternehmen eine Software-Anwendung mit seinem Lernalgorithmus für die Verwendung durch staatliche Labore, die Audio-Forensik und akustische Analyse.
Schließlich zielt es darauf ab, maßgeschneiderte Versionen seines Produkts für den Einsatz in Audio-Aufnahme-Kit, Sprachschnittstellen für Autos, intelligente Lautsprecher, Augmented und Virtual Reality, Sonar und Hörgeräte.
Wenn Sie zum Beispiel mit Ihrem Auto oder Ihrem intelligenten Lautsprecher sprechen, wäre es egal, wenn es viel Lärm um Sie herum gab, wäre das Gerät immer noch in der Lage, herauszufinden, was Sie sagten.
KI wird bereits in anderen Bereichen der Forensik eingesetzt, so der forensische Pädagoge Terri Armenta von der Forensic Science Academy.
ML [Machine Learning] Modelle analysieren Sprachmuster, um die Identität von Sprechern zu bestimmen, ein Prozess, der besonders bei strafrechtlichen Ermittlungen nützlich ist, bei denen Sprachbeweise authentifiziert werden müssen, sagt sie.
Darüber hinaus können KI-Tools Manipulationen oder Veränderungen in Audioaufzeichnungen erkennen, wodurch die Integrität der vor Gericht vorgelegten Beweise gewährleistet wird.
Und KI hat sich auch in andere Aspekte der Audioanalyse eingelassen.
Bosch verfügt über eine Technologie namens SoundSee, die mithilfe von Audiosignalverarbeitungsalgorithmen beispielsweise einen Motorensound analysiert, um eine Fehlfunktion vorherzusagen, bevor sie passiert.
Herkömmliche Audiosignalverarbeitungsfunktionen fehlen in der Fähigkeit, Sound so zu verstehen, wie wir Menschen es tun, sagt Dr. Samarjit Das, Leiter Forschung und Technologie bei Bosch USA.
Audio KI ermöglicht ein tieferes Verständnis und eine semantische Interpretation des Klangs von Dingen um uns herum besser als je zuvor - zum Beispiel Umweltgeräusche oder Klangqueues, die von Maschinen ausgehen.
Neuere Tests des Wave Sciences-Algorithmus haben gezeigt, dass die Technologie selbst mit nur zwei Mikrofonen sowohl das menschliche als auch das menschliche Ohr durchführen kann - besser, wenn mehr Mikrofone hinzugefügt werden.
Und sie enthüllten auch etwas anderes.
Die Mathematik in all unseren Tests zeigt bemerkenswerte Ähnlichkeiten mit dem menschlichen Hören.
Es gibt wenig Kuriositäten darüber, was unser Algorithmus tun kann, und wie genau er es kann, die erstaunlich ähnlich sind wie einige der Kuriositäten, die im menschlichen Hören existieren, sagt McElveen.
Wir vermuten, dass das menschliche Gehirn die gleiche Mathematik verwendet - dass wir bei der Lösung des Cocktail-Party-Problems vielleicht über das, was wirklich im Gehirn passiert, gestolpert sind.