Это постоянная проблема коктейльной вечеринки - стоять в комнате, полной людей, пить в руке, пытаться услышать, что говорит твой товарищ гость.
На самом деле, люди удивительно умеют вести беседу с одним человеком, отталкивая при этом конкурирующие голоса.
Однако, возможно, удивительно, что технологии до недавнего времени не смогли воспроизвести этот опыт.
И это имеет значение, когда дело доходит до использования аудио улик в судебных делах.
Голоса на заднем плане могут усложнить определение того, кто говорит и что говорит, потенциально делая записи бесполезными.
Электрический инженер Кит Макэлвин, основатель и главный технологический сотрудник отдела наук о Вэйве, заинтересовался этой проблемой, когда он работал на правительство США по делу о военных преступлениях.
Мы пытались выяснить, кто приказал расправу над гражданскими лицами.
Некоторые из улик включали записи с кучей голосов, которые все разговаривали одновременно - и это когда я узнала, в чем была проблема коктейльной вечеринки, он сказал.
Мне удалось убрать шум, как автомобильные звуки, кондиционеры или вентиляторы из речи, но когда я начал пытаться убрать речь из речи, это оказалось не только очень сложной проблемой, но и одной из классических сложных проблем в акустике.
Звуки вращаются вокруг комнаты, и это математически ужасно разгадывать.
Ответ, по его словам, состоял в том, чтобы использовать AI, чтобы определить и отследить все конкурирующие звуки, исходя из того, откуда они изначально появились в комнате.
Это не просто означает, что другие люди, которые могут говорить, - есть также значительное вмешательство в то, как звуки отражаются вокруг комнаты, при этом голос зрителей-объектов слышится как прямо, так и косвенно.
В идеальной анехотической камере, полностью свободной от эха, одного микрофона на каждого оратора было бы достаточно, чтобы понять, что все говорят; но в реальной комнате проблема требует микрофона для каждого отраженного звука тоже.
Мистер МакЭлвин основал Wave Sciences в 2009 году, надеясь разработать технологию, которая могла бы разделять голоса.
Первоначально фирма использовала большое число микрофонов в так называемом блочной форме.
Однако в ответ на это потенциальные коммерческие партнеры отметили, что система требует слишком много микрофонов для покрытия связанных с этим расходов, с тем чтобы обеспечить хорошие результаты во многих ситуациях, и не будет функционировать вообще во многих других ситуациях.
По общему мнению, если бы мы смогли найти решение, которое позволило бы решить эти проблемы, они были бы очень заинтересованы, говорит мистер МакЭлвин.
И он добавляет: мы знали, что должно быть решение, потому что вы можете сделать это двумя ушами.
Компания наконец решила эту проблему после 10 лет исследований, финансируемых из внутренних источников, и подала патентное заявление в сентябре 2019 года.
То, что они придумали, это IA, который может проанализировать, как звук срабатывает вокруг комнаты, прежде чем добраться до микрофона или уха.
Мы поймаем звук, когда он попадает в каждый микрофон, обратно, чтобы выяснить откуда он взялся, и затем, по сути, мы подавляем любой звук, который не мог прийти оттуда, где человек сидит, говорит мистер МакЭлвин.
Воздействие в некоторых отношениях сопоставимо с тем, когда камера фокусируется на одной теме и стирает переднюю часть и фон.
▪ Результаты не звучат кристально ясно, когда вы можете использовать только очень шумную запись, чтобы учиться, но они все еще ошеломляют.
Технология была впервые использована в реальном мире в деле об убийстве в США, где доказательства, которые она смогла представить, доказали, что они имеют ключевое значение для вынесения обвинительных приговоров.
После того, как двое убийц были арестованы за убийство человека, ФБР хотело доказать, что они были наняты семьей, пережившей спор об опеке над ребенком.
ФБР договорилось обмануть семью, чтобы она поверила, что их шантажируют за их участие, а затем села, чтобы увидеть реакцию.
Хотя ФБР было достаточно легко получить доступ к сообщениям и телефонным звонкам, личные встречи в двух ресторанах были другим вопросом.
Но суд разрешил использовать алгоритм Wave Sciences, что означает, что звук переходит от неприемлемости к ключевому доказательству.
С тех пор другие правительственные лаборатории, в том числе в Соединенном Королевстве, провели тесты.
В настоящее время компания рекламирует эту технологию военным США, которые использовали ее для анализа сонарных сигналов.
Мистер МакЭлвин также может подавать заявления на переговоры о заложниках и о суицидах, чтобы убедиться, что обе стороны разговора могут быть услышаны – а не только переговорщик с мегафоном.
В конце прошлого года компания выпустила программное обеспечение с использованием своего алгоритма обучения для использования правительственными лабораториями, проводящими аудиомедицину и акустический анализ.
В конечном счете она намерена ввести специальные версии своего продукта для использования в наборе аудиозаписи, голосовых интерфейсах для автомобилей, умных говорящих, расширенных и виртуальных реалити-шоу, сонарных и слуховых устройствах.
Так, например, если вы будете говорить с машиной или умным оратором, будет неважно, если вокруг вас будет много шума, устройство все равно сможет выяснить, что вы говорите.
Согласно криминалисту Терри Арменте из Академии криминалистики, МА уже используется и в других областях судебной экспертизы.
По ее словам, модели ML [машинного обучения] анализируют характеристики голоса для определения личности выступающих, что особенно полезно в уголовном расследовании, когда показания голоса должны быть заверены.
Кроме того, средства ИИ могут выявлять манипуляции или изменения в аудиозаписях, обеспечивая целостность доказательств, представленных в суде.
И АИ также занимается другими аспектами аудиоанализа.
У Боша есть технология под названием SoundSee, которая использует алгоритмы обработки звуковых сигналов для анализа, например, звука моторов, чтобы предсказать сбой до того, как он произойдёт.
Традиционные возможности обработки аудиосигналов не позволяют понять звук, как мы, люди, говорят доктор Самарджит Дас, директор по исследованиям и технологиям в Бош-США.
Аудиовизуальная АИ позволяет лучше, чем когда-либо прежде, глубже понять и семантически интерпретировать звуки окружающих нас вещей - например, экологические звуки или звуковые сигналы, исходящие от машин.
Более поздние испытания алгоритма Wave Sciences показали, что даже с двумя микрофонами технология может работать так же, как и человеческое ухо - лучше, когда добавляется больше микрофонов.
И они также раскрыли что-то еще.
Математика во всех наших тестах показывает поразительное сходство с человеческим слухом.
Есть немного странностей о том, что наш алгоритм может сделать, и как точно он может сделать это, которые удивительно похожи на некоторые странности, которые существуют в человеческом слухе, говорит МакЭлвин.
Мы подозреваем, что человеческий мозг использует ту же математику - что при решении проблемы коктейльной вечеринки мы, возможно, наткнулись на то, что на самом деле происходит в мозгу.