Çok yıllık kokteyl partisi sorunu - insanlarla dolu bir odada durmak, el ele içmek, misafir arkadaşınızın ne dediğini duymaya çalışmak.
Aslında, insanlar rakip sesleri süzerken bir kişiyle sohbet etme konusunda son derece ustadırlar.
Ancak, belki de şaşırtıcı bir şekilde, teknolojinin yakın zamana kadar çoğaltamadığı bir beceridir.
Ve bu, mahkeme davalarında ses kanıtlarının kullanılması söz konusu olduğunda önemlidir.
Arka plandaki sesler, kimin konuştuğundan ve ne söylendiğinden emin olmayı zorlaştırabilir ve potansiyel olarak kayıtları işe yaramaz hale getirebilir.
Wave Sciences'ın kurucusu ve baş teknoloji sorumlusu olan elektrik mühendisi Keith McElveen, bir savaş suçları davasında ABD hükümeti için çalışırken sorunla ilgilenmeye başladı.
Çözmeye çalıştığımız şey, sivillerin katledilmesini kimin emrettiğiydi.
Kanıtlardan bazıları, hepsi aynı anda konuşan bir grup ses içeren kayıtları içeriyordu - ve o zaman kokteyl partisi sorununun ne olduğunu öğrendim, diyor.
Otomobil sesleri, klimalar veya fanlar gibi sesleri konuşmadan çıkarmada başarılı olmuştum, ancak konuşmadan konuşmayı kaldırmaya çalıştığımda, sadece çok zor bir sorun değil, akustikteki klasik zor sorunlardan biriydi.
Sesler bir odanın etrafında sekiyor ve matematiksel olarak çözülmesi korkunç.
Cevap, aslında bir odada nereden geldiklerine bağlı olarak tüm rakip sesleri tespit etmek ve taramak için AI kullanmak olduğunu söylüyor.
Bu sadece konuşan diğer insanlar anlamına gelmez - seslerin bir odanın etrafına yansıtılmasından kaynaklanan önemli miktarda parazit de vardır, hedef hoparlörlerin sesi hem doğrudan hem de dolaylı olarak duyulur.
Mükemmel bir anekoik odada - biri yankılardan tamamen arınmış - hoparlör başına bir mikrofon herkesin söylediklerini almak için yeterli olurdu; ancak gerçek bir odada, sorun her yansıyan ses için de bir mikrofon gerektirir.
McElveen, üst üste binen sesleri ayırabilecek bir teknoloji geliştirmeyi umarak 2009 yılında Wave Sciences'ı kurdu.
Başlangıçta firma, dizi demetforming olarak bilinen şeylerde çok sayıda mikrofon kullandı.
Bununla birlikte, potansiyel ticari ortaklardan gelen geri bildirimler, sistemin birçok durumda iyi sonuçlar vermek için dahil olan maliyet için çok fazla mikrofon gerektirmesi ve diğer birçok durumda hiç performans göstermemesiydi.
McElveen, ortak kaçınmanın, bu endişeleri giderecek bir çözüm bulabilirsek, çok ilgilenecekleri olduğunu söylüyor.
Ve ekliyor: Bir çözüm olması gerektiğini biliyorduk, çünkü bunu sadece iki kulakla yapabilirsiniz.
Şirket nihayet 10 yıl boyunca dahili olarak finanse edilen araştırmalardan sonra sorunu çözdü ve Eylül 2019'da bir patent başvurusu yaptı.
Ortaya koydukları şey, mikrofona veya kulağa ulaşmadan önce bir odanın etrafında sesin nasıl sıçradığını analiz edebilen bir yapay zekaydı.
Her mikrofona gelirken sesi yakalarız, nereden geldiğini bulmak için geri adım atarız ve daha sonra, özünde, kişinin oturduğu yerden gelemeyecek herhangi bir sesi bastırırız, diyor Bay McElveen.
Etki, bir kameranın bir konuya odaklanıp önplanı ve arka planı bulanıklaştırmasıyla belirli açılardan karşılaştırılabilir.
“Sonuçlar, yalnızca öğrenmek için çok gürültülü bir kayıt kullanabildiğinizde kristal berraklığı göstermez, ancak yine de çarpıcıdır.
Teknoloji, ABD'deki bir cinayet davasında ilk gerçek dünya adli kullanımına sahipti ve sağladığı kanıtlar, mahkumiyetlerin merkezinde olduğunu kanıtladı.
İki tetikçi bir adamı öldürmekten tutuklandıktan sonra, FBI bir çocuk velayet anlaşmazlığı yaşayan bir aile tarafından işe alındığını kanıtlamak istedi.
FBI, aileyi, dahil oldukları için şantaja uğradıklarına inandırmak için kandırdı ve ardından tepkiyi görmek için geri oturdu.
Mesajlar ve telefon görüşmeleri FBI'ın erişimi için makul derecede kolay olsa da, iki restorandaki kişisel toplantılar farklı bir konuydu.
Ancak mahkeme, Wave Sciences'ın algoritmasının kullanılmasına izin verdi, bu da sesin kabul edilemez olmaktan önemli bir kanıt parçasına geçtiği anlamına geliyordu.
O zamandan beri, İngiltere de dahil olmak üzere diğer devlet laboratuvarları, bir dizi testten geçti.
Şirket şimdi teknolojiyi sonar sinyallerini analiz etmek için kullanan ABD ordusuna pazarlıyor.
McElveen, bir konuşmanın her iki tarafının da duyulabileceğinden emin olmak için rehine görüşmelerinde ve intihar senaryolarında da başvurular olabileceğini söylüyor - sadece bir megafonlu müzakereci değil.
Geçen yılın sonlarında şirket, ses adli tıp ve akustik analiz yapan devlet laboratuvarları tarafından kullanılmak üzere öğrenme algoritmasını kullanarak bir yazılım uygulaması yayınladı.
Sonunda, ses kayıt kitinde kullanılmak üzere ürününün özel sürümlerini, otomobiller için ses arayüzlerini, akıllı hoparlörleri, artırılmış ve sanal gerçeklik, sonar ve işitme cihazı cihazlarını tanıtmayı amaçlamaktadır.
Bu nedenle, örneğin, arabanızla veya akıllı hoparlörünüzle konuşursanız, etrafınızda çok fazla gürültü olması fark etmez, cihaz yine de ne söylediğinizi ortaya çıkarabilirdi.
Adli Bilimler Akademisi'nden adli eğitimci Terri Armenta'ya göre, yapay zeka zaten adli tıpın diğer alanlarında da kullanılıyor.
ML [makine öğrenimi] modelleri, ses kanıtlarının doğrulanması gereken ceza soruşturmalarında özellikle yararlı bir süreç olan hoparlörlerin kimliğini belirlemek için ses kalıplarını analiz ediyor.
Buna ek olarak, AI araçları ses kayıtlarındaki manipülasyonları veya değişiklikleri tespit edebilir ve mahkemede sunulan kanıtların bütünlüğünü sağlayabilir.
Ve AI ayrıca ses analizinin diğer yönlerine de yöneldi.
Bosch, ses sinyali işleme algoritmalarını analiz etmek için kullanan SoundSee adlı bir teknolojiye sahiptir, örneğin, bir arızayı gerçekleşmeden önce tahmin etmek için bir motor sesi.
Bosch ABD'de araştırma ve teknoloji direktörü Dr. Samarjit Das, geleneksel ses sinyali işleme yeteneklerinin insanların yaptığı gibi sesi anlama yeteneğinden yoksun olduğunu söylüyor.
Audio AI, çevremizdeki şeylerin sesini daha önce hiç olmadığı kadar iyi anlamamızı ve anlamsal olarak yorumlamamızı sağlar - örneğin, makinelerden yayılan çevresel sesler veya ses ipuçları.
Wave Sciences algoritmasının daha yeni testleri, sadece iki mikrofonla bile, teknolojinin insan kulağı kadar iyi performans gösterebileceğini göstermiştir - daha fazla mikrofon eklendiğinde daha iyi.
Onlar da başka bir şey ortaya koydular.
Tüm testlerimizdeki matematik, insan işitmesi ile dikkate değer benzerlikler göstermektedir.
McElveen, algoritmamızın neler yapabileceğine ve bunu ne kadar doğru yapabileceğine dair şaşırtıcı bir şekilde insan işitmesinde var olan bazı tuhaflıklara benzeyen küçük tuhaflıklar olduğunu söylüyor.
İnsan beyninin aynı matematiği kullanıyor olabileceğinden şüpheleniyoruz - kokteyl partisi problemini çözerken, beyinde gerçekte neler olup bittiğine rastlamış olabiliriz.