News

KI's Lösung für das "Cocktail Party Problem" vor Gericht verwendet

22/09/2024 16:46

Es ist die mehrjährige Cocktailparty Problem - stehen in einem Raum voller Menschen, trinken in der Hand, versuchen zu hören, was Ihr Gast sagt.
Tatsächlich sind die Menschen bemerkenswert geschickt, ein Gespräch mit einer Person zu führen, während sie konkurrierende Stimmen herausfiltern.
Doch vielleicht überraschend, seine eine Fähigkeit, die Technologie hat bis vor kurzem nicht in der Lage, zu replizieren.
Und das ist wichtig, wenn es darum geht, Audio-Beweise in Gerichtsverfahren zu verwenden.
Stimmen im Hintergrund können es schwer machen, sicher zu sein, wer spricht und was gesagt wird, wodurch Aufnahmen nutzlos sind.
Elektroingenieur Keith McElveen, Gründer und Chief Technology Officer von Wave Sciences, interessierte sich für das Problem, als er für die US-Regierung an einem Fall von Kriegsverbrechen arbeitete.
Wir wollten herausfinden, wer das Massaker an Zivilisten befohlen hat.
Einige der Beweise beinhalteten Aufnahmen mit einem Haufen Stimmen, die alle auf einmal sprachen - und das ist, als ich erfuhr, was das Problem der Cocktailparty war, sagt er.
Ich hatte es geschafft, Geräusche wie Autogeräusche oder Klimaanlagen oder Ventilatoren aus der Sprache zu entfernen, aber als ich versuchte, Sprache aus der Sprache zu entfernen, stellte sich heraus, dass es nicht nur ein sehr schwieriges Problem war, es war eines der klassischen harten Probleme in der Akustik.
Geräusche hüpfen um einen Raum herum, und es ist mathematisch schrecklich zu lösen.
Die Antwort, sagt er, sei, KI zu benutzen, um alle konkurrierenden Klänge zu lokalisieren und abzuschirmen, basierend darauf, woher sie ursprünglich in einem Raum kamen.
Das bedeutet nicht nur andere Leute, die sprechen können - es gibt auch eine erhebliche Menge von Interferenzen von der Art, wie Klänge um einen Raum reflektiert werden, wobei die Ziellautsprecher Stimme sowohl direkt als auch indirekt gehört wird.
In einer perfekten Anechokammer - eines völlig frei von Echos - würde ein Mikrofon pro Lautsprecher ausreichen, um das aufzunehmen, was jeder sagte; aber in einem echten Raum, das Problem erfordert ein Mikrofon für jeden reflektierten Klang auch.
McElveen gründete im Jahr 2009 Wave Sciences in der Hoffnung, eine Technologie zu entwickeln, die überlappende Stimmen trennen könnte.
Zunächst verwendete das Unternehmen eine große Anzahl von Mikrofonen in so genannten Array-Beamforming.
Feedback von potentiellen Handelspartnern war jedoch, dass das System zu viele Mikrofone benötigt, um in vielen Situationen gute Ergebnisse zu erzielen - und in vielen anderen überhaupt nicht durchführen zu können.
Der gemeinsame Refrain war, dass, wenn wir eine Lösung finden könnten, die diese Bedenken anspricht, sie sehr interessiert wären, sagt Herr McElveen.
Und er fügt hinzu: Wir wussten, dass es eine Lösung geben musste, weil man es mit nur zwei Ohren machen kann.
Das Unternehmen löste das Problem schließlich nach 10 Jahren intern finanzierter Forschung und reichte im September 2019 eine Patentanmeldung ein.
Was ihnen eingefallen war, war eine KI, die analysieren kann, wie Ton um einen Raum herum hüpft, bevor sie das Mikrofon oder Ohr erreicht.
Wir fangen den Ton an, wenn er an jedem Mikrofon ankommt, um herauszufinden, woher er kommt, und dann, im Wesentlichen, unterdrücken wir jeden Ton, der nicht aus dem Sitzen der Person kommen konnte, sagt Herr McElveen.
Der Effekt ist in gewisser Hinsicht vergleichbar mit dem, wenn eine Kamera sich auf ein Thema konzentriert und den Vordergrund und den Hintergrund verwischt.
Die Ergebnisse klingen nicht kristallklar, wenn Sie nur eine sehr laute Aufnahme verwenden können, um von zu lernen, aber sie sind immer noch atemberaubend.
Die Technologie hatte ihren ersten wirklich-weltlichen forensischen Gebrauch in einem US-Mordfall, wo die Beweise, die sie liefern konnte, sich als zentral für die Verurteilungen erwiesen.
Nachdem zwei Attentäter verhaftet worden waren, weil sie einen Mann getötet hatten, wollte das FBI beweisen, dass sie von einer Familie angeheuert wurden, die einen Kinderhaftstreit durchmachte.
Das FBI arrangierte, die Familie dazu zu bringen, zu glauben, dass sie wegen ihrer Beteiligung erpresst würden - und setzte sich dann zurück, um die Reaktion zu sehen.
Während Texte und Telefonate für das FBI relativ leicht zugänglich waren, waren persönliche Treffen in zwei Restaurants eine andere Sache.
Aber das Gericht genehmigte die Verwendung von Wave Sciences-Algorithmus, was bedeutet, dass die Audio ging von unzulässig zu einem zentralen Beweisstück.
Seither haben andere staatliche Labors, auch im Vereinigten Königreich, eine Reihe von Tests durchgeführt.
Das Unternehmen vermarktet die Technologie nun an das US-Militär, das sie zur Analyse von Sonarsignalen genutzt hat.
Es könnte auch Anträge in Geiselverhandlungen und Selbstmordszenarien haben, sagt McElveen, um sicherzustellen, dass beide Seiten eines Gesprächs gehört werden können – nicht nur der Verhandlungsführer mit einem Megaphon.
Ende letzten Jahres veröffentlichte das Unternehmen eine Software-Anwendung mit seinem Lernalgorithmus für die Verwendung durch staatliche Labore, die Audio-Forensik und akustische Analyse.
Schließlich zielt es darauf ab, maßgeschneiderte Versionen seines Produkts für den Einsatz in Audio-Aufnahme-Kit, Sprachschnittstellen für Autos, intelligente Lautsprecher, Augmented und Virtual Reality, Sonar und Hörgeräte.
Wenn Sie zum Beispiel mit Ihrem Auto oder Ihrem intelligenten Lautsprecher sprechen, wäre es egal, wenn es viel Lärm um Sie herum gab, wäre das Gerät immer noch in der Lage, herauszufinden, was Sie sagten.
KI wird bereits in anderen Bereichen der Forensik eingesetzt, so der forensische Pädagoge Terri Armenta von der Forensic Science Academy.
ML [Machine Learning] Modelle analysieren Sprachmuster, um die Identität von Sprechern zu bestimmen, ein Prozess, der besonders bei strafrechtlichen Ermittlungen nützlich ist, bei denen Sprachbeweise authentifiziert werden müssen, sagt sie.
Darüber hinaus können KI-Tools Manipulationen oder Veränderungen in Audioaufzeichnungen erkennen, wodurch die Integrität der vor Gericht vorgelegten Beweise gewährleistet wird.
Und KI hat sich auch in andere Aspekte der Audioanalyse eingelassen.
Bosch verfügt über eine Technologie namens SoundSee, die mithilfe von Audiosignalverarbeitungsalgorithmen beispielsweise einen Motorensound analysiert, um eine Fehlfunktion vorherzusagen, bevor sie passiert.
Herkömmliche Audiosignalverarbeitungsfunktionen fehlen in der Fähigkeit, Sound so zu verstehen, wie wir Menschen es tun, sagt Dr. Samarjit Das, Leiter Forschung und Technologie bei Bosch USA.
Audio KI ermöglicht ein tieferes Verständnis und eine semantische Interpretation des Klangs von Dingen um uns herum besser als je zuvor - zum Beispiel Umweltgeräusche oder Klangqueues, die von Maschinen ausgehen.
Neuere Tests des Wave Sciences-Algorithmus haben gezeigt, dass die Technologie selbst mit nur zwei Mikrofonen sowohl das menschliche als auch das menschliche Ohr durchführen kann - besser, wenn mehr Mikrofone hinzugefügt werden.
Und sie enthüllten auch etwas anderes.
Die Mathematik in all unseren Tests zeigt bemerkenswerte Ähnlichkeiten mit dem menschlichen Hören.
Es gibt wenig Kuriositäten darüber, was unser Algorithmus tun kann, und wie genau er es kann, die erstaunlich ähnlich sind wie einige der Kuriositäten, die im menschlichen Hören existieren, sagt McElveen.
Wir vermuten, dass das menschliche Gehirn die gleiche Mathematik verwendet - dass wir bei der Lösung des Cocktail-Party-Problems vielleicht über das, was wirklich im Gehirn passiert, gestolpert sind.

Other Articles in News

Warum Unternehmen und Betrüger Indiens Zahlungssystem lieben

Jeden Tag, in den letzten sieben Jahren, hat Arun Kumar seinen Obststand auf einer belebten Straße in Mumbai eingerichtet. Es ist kein einfacher Weg, seinen Lebensunterhalt zu verdienen. Ein Straßenverkäufer zu sein, ist eine Herausforderung. Da ist die Angst, ausgeraubt zu werden, oder, da ich kein...

Wie KI Ungewissheit für Spieleentwickler tankt

Mir ist sehr bewusst, dass ich morgen aufwachen könnte und mein Job weg sein könnte, sagt Jess Hyland. Die Video-Spiel-Künstlerin sagt, die Industrie she-s verbrachte fast 15 Jahre arbeiten in ist auf .shaky. Ein Boom an Spielern und Gewinnen während der Pandemie löste eine Flut von Investitionen...

Wie werden zukünftige Lufthundkämpfe aussehen?

Ich fliege einen Typhoon-Kämpfer über die Irische See und ich habe ein großes Problem. Da ist ein feindlicher Jet auf meinem Schwanz, und egal, wie ich den Joystick schiebe oder mit dem Drosselspiel spiele, dieser Feind ist immer noch da. Die Bedrohung wird durch ein schwarzes Dreieck auf dem Comput...

Warum sich Tech-Bros an Trump wenden

Donald Trump, dessen Zeit im Amt ihn zu einer Paria für viele in der Geschäftswelt machte, hat neue Champions unter Tech-Führern gefunden, da sein Weg zurück ins Weiße Haus Gestalt annimmt. Elon Musk, der reichste Mensch der Welt, wurde der größte Name, der noch sein Gewicht hinter den ehemaligen Pr...

Wünschte Realität TV-Wettbewerber 'nicht real aussehen'

Valerie Penso-Cuculich weiß ein oder zwei Dinge über die Auswahl von Kandidaten für Reality-TV-Shows. Sie ist Casting Director für Programme wie Love Island USA, The Real Housewives of Dubai und The Millionaire Matchmaker. Frau Penso-Cuculich sagt, dass KI ihren ersten Kontakt mit Bewerbern wesentli...

Kann die Technologie das "gebrochene" Konzertticketsystem beheben?

Für Nashville gebürtige Jacki Thrapp, die in diesem Sommer nach Europa fliegt, um ihr Idol Taylor Swift live zu sehen, war ein -no-Brainer. Mit den billigsten Tickets für die restlichen US-Dates von Swift, die die Eras Tour fortsetzten, kosteten sie nun 2.500 $ (2.000 £) auf dem Wiederverkaufsmarkt,...

Ist die CO2-Abscheidung ein effizienter Weg, um CO2 zu bekämpfen?

Es könnte eine Szene aus Science-Fiction sein. Über dunkle, moosige Lavafelder ragen lärmende Maschinen in der Größe von Containern, Kuppeln und Zick-zack-Silberrohren. Gefunden 30 km südwestlich von Islands Hauptstadt Reykjavik, ist dies die weltweit größte direkte Lufterfassungsanlage (DAC). Mammo...

Könnte Australien zu einer grünen Wasserstoff-Supermacht werden?

Wenn du dich daran erinnerst, ein Kind zu sein und einen Ballon oder einen Milchshake in die Luft zu sprengen, wurden deine Wangen wund, weil es eine Energiestrafe gibt, die mit der Blasenbildung verbunden ist... Paul Barrett, der in Dublin geborene Geschäftsführer des australischen Öko-Energieunter...

Die "Superfood" übernehmen Felder in Nordindien

Wie sein Vater und Großvater vor ihm, Phool dev Shahni einmal verdient durch Tauchen auf den Boden von 8ft-Tief (2,4 m), schlammigen Teichen. Ich tauchte stundenlang in 7 bis 8ft Wasser - und kam nach 8 bis 10 Minuten an die Oberfläche, um zu atmen, erklärt Herr Shahni. Während er unten in diesen tr...

Kein Lachen - wie KI Komikern hilft, Witze zu schreiben

Warum brachte der Politiker eine Leiter in die Debatte? Um sicherzustellen, dass er mit seinen Versprechungen neue Höhen erreichen konnte!..Bitten Sie AI, einen politischen Witz zu schreiben, und das oben Gesagte ist ein Beispiel dafür, was Sie bekommen können. Vielleicht nicht lustig genug, um vor...