Είναι το πρόβλημά του με τα κοκτέιλ πάρτι που στέκεται σε ένα δωμάτιο γεμάτο ανθρώπους, πίνει στο χέρι, προσπαθεί να ακούσει τι λέει ο καλεσμένος σας.
Στην πραγματικότητα, οι άνθρωποι είναι αξιοσημείωτα έμπειροι στο να κάνουν μια συζήτηση με ένα άτομο ενώ φιλτράρουν τις ανταγωνιστικές φωνές.
Ωστόσο, ίσως εκπληκτικά, είναι μια ικανότητα που η τεχνολογία μέχρι πρόσφατα δεν μπόρεσε να αναπαραχθεί.
Και αυτό έχει σημασία όταν πρόκειται για τη χρήση ηχητικών αποδείξεων σε δικαστικές υποθέσεις.
Οι φωνές στο παρασκήνιο μπορούν να κάνουν δύσκολο το να είσαι σίγουρος ποιος μιλάει και τι λέγεται, κάνοντας ενδεχομένως τις ηχογραφήσεις άχρηστες.
Ο ηλεκτρολόγος μηχανικός Keith McElveen, ιδρυτής και επικεφαλής της τεχνολογίας της Wave Sciences, ενδιαφέρθηκε για το πρόβλημα όταν δούλευε για την κυβέρνηση των ΗΠΑ σε μια υπόθεση εγκλημάτων πολέμου.
Αυτό που προσπαθούσαμε να βρούμε ήταν ποιος διέταξε τη σφαγή πολιτών.
Μερικές από τις αποδείξεις περιλάμβαναν ηχογραφήσεις με ένα μάτσο φωνές που μιλούσαν ταυτόχρονα - και τότε έμαθα ποιο ήταν το πρόβλημα του κοκτέιλ πάρτι, λέει.
Είχα πετύχει στην αφαίρεση του θορύβου όπως ήχους αυτοκινήτων ή κλιματιστικά ή οπαδοί από την ομιλία, αλλά όταν άρχισα να προσπαθώ να αφαιρέσω την ομιλία από την ομιλία, αποδείχθηκε όχι μόνο ότι ήταν ένα πολύ δύσκολο πρόβλημα, ήταν ένα από τα κλασικά σκληρά προβλήματα στην ακουστική.
Οι ήχοι αναπηδούν γύρω από ένα δωμάτιο, και είναι μαθηματικά φρικτό να λυθεί.
Η απάντηση, λέει, ήταν να χρησιμοποιήσουμε τον ΑΙ για να προσπαθήσουμε να εντοπίσουμε και να ελέγξουμε όλους τους ανταγωνιστικούς ήχους με βάση το πού προήλθαν αρχικά σε ένα δωμάτιο.
Αυτό δεν σημαίνει απλώς άλλους ανθρώπους που μπορεί να μιλούν - υπάρχει επίσης μια σημαντική ποσότητα παρεμβολής από τον τρόπο με τον οποίο οι ήχοι αντανακλάται γύρω από ένα δωμάτιο, με τη φωνή-στόχους να ακούγεται τόσο άμεσα όσο και έμμεσα.
Σε ένα τέλειο ανηχητικό θάλαμο - ένα εντελώς απαλλαγμένο από ηχώ - ένα μικρόφωνο ανά ομιλητή θα ήταν αρκετό για να σηκώσει αυτό που έλεγε ο καθένας · αλλά σε ένα πραγματικό δωμάτιο, το πρόβλημα απαιτεί ένα μικρόφωνο για κάθε ανακλώμενο ήχο επίσης.
Ο κ. McElveen ίδρυσε την Wave Sciences το 2009, ελπίζοντας να αναπτύξει μια τεχνολογία που θα μπορούσε να διαχωρίσει τις αλληλοεπικαλυπτόμενες φωνές.
Αρχικά η εταιρεία χρησιμοποίησε μεγάλους αριθμούς μικροφώνων σε αυτό που είναι γνωστό ως δέσμη διαμόρφωσης δέσμης.
Ωστόσο, ανατροφοδότηση από πιθανούς εμπορικούς εταίρους ήταν ότι το σύστημα απαιτούσε πάρα πολλά μικρόφωνα για το κόστος που συνεπάγεται για να δώσει καλά αποτελέσματα σε πολλές περιπτώσεις - και δεν θα εκτελούσε καθόλου σε πολλές άλλες.
Η κοινή εξαίρεση ήταν ότι, αν μπορούσαμε να καταλήξουμε σε μια λύση που αφορούσε αυτές τις ανησυχίες, θα ενδιαφέρονταν πολύ, αναφέρει ο κ. McElveen.
Και προσθέτει: Ξέραμε ότι έπρεπε να υπάρξει λύση, γιατί μπορείς να το κάνεις μόνο με δύο αυτιά.
Η εταιρεία έλυσε τελικά το πρόβλημα μετά από 10 χρόνια εσωτερικής χρηματοδότησης έρευνας και υπέβαλε αίτηση πατέντας τον Σεπτέμβριο του 2019.
Αυτό που είχαν σκεφτεί ήταν ένας ΑΙ που μπορεί να αναλύσει πώς ο ήχος αναπηδά γύρω από ένα δωμάτιο πριν φτάσει στο μικρόφωνο ή το αυτί.
Πιάνουμε τον ήχο καθώς φτάνει σε κάθε μικρόφωνο, πίσω για να καταλάβουμε από πού προήλθε, και στη συνέχεια, στην ουσία, καταστέλλουμε κάθε ήχο που δεν θα μπορούσε να έχει έρθει από εκεί που κάθεται το άτομο, λέει ο κ. McElveen.
Η επίδραση είναι συγκρίσιμη από ορισμένες απόψεις με την περίπτωση που μια κάμερα επικεντρώνεται σε ένα θέμα και θολώνει το προσκήνιο και το φόντο.
Τα αποτελέσματα δεν ακούγονται κρυστάλλινα όταν μπορείτε να χρησιμοποιήσετε μόνο μια πολύ θορυβώδη ηχογράφηση για να μάθετε από, αλλά εξακολουθούν να είναι εκπληκτική.
Η τεχνολογία είχε την πρώτη της πραγματική εγκληματολογική χρήση σε μια υπόθεση δολοφονίας των ΗΠΑ, όπου τα στοιχεία που ήταν σε θέση να παράσχει αποδείχτηκαν κεντρικά στις καταδίκες.
Αφού δύο εκτελεστές συνελήφθησαν επειδή σκότωσαν κάποιον, το FBI ήθελε να αποδείξει ότι τους προσέλαβε μια οικογένεια που αντιμετώπιζε μια διαμάχη για την κηδεμονία παιδιού.
Το FBI κανόνισε να ξεγελάσει την οικογένεια για να πιστέψει ότι τους εκβίαζαν για την ανάμειξή τους και μετά καθόταν πίσω για να δει την αντίδραση.
Ενώ μηνύματα και τηλεφωνήματα ήταν αρκετά εύκολο για το FBI να έχει πρόσβαση, συναντήσεις σε δύο εστιατόρια ήταν ένα διαφορετικό θέμα.
Αλλά το δικαστήριο ενέκρινε τη χρήση του αλγορίθμου Wave Sciences (Κύμα Επιστημών) που σημαίνει ότι ο ήχος έγινε από απαράδεκτος σε βασικό αποδεικτικό στοιχείο.
Από τότε, άλλα κυβερνητικά εργαστήρια, συμπεριλαμβανομένου του Ηνωμένου Βασιλείου, έχουν περάσει μια σειρά από δοκιμές.
Η εταιρεία προωθεί τώρα την τεχνολογία στον αμερικανικό στρατό, ο οποίος την χρησιμοποίησε για να αναλύσει τα σήματα του σόναρ.
Θα μπορούσε επίσης να έχει εφαρμογές σε διαπραγματεύσεις ομήρων και σενάρια αυτοκτονίας, λέει ο κ. McElveen, για να βεβαιωθείτε ότι και οι δύο πλευρές μιας συζήτησης μπορεί να ακουστεί ~ όχι μόνο ο διαπραγματευτής με ένα μεγάφωνο.
Στα τέλη του περασμένου έτους, η εταιρεία κυκλοφόρησε μια εφαρμογή λογισμικού χρησιμοποιώντας τον αλγόριθμο εκμάθησης της για χρήση από τα κυβερνητικά εργαστήρια που εκτελούν ηχητική ιατροδικαστική και ακουστική ανάλυση.
Στο τέλος στοχεύει να εισαγάγει προσαρμοσμένες εκδόσεις του προϊόντος του για χρήση σε κιτ ηχογράφησης, φωνητικές διεπαφές για αυτοκίνητα, έξυπνα ηχεία, αυξημένη και εικονική πραγματικότητα, συσκευές sonar και ακουστικών βοηθημάτων.
Έτσι, για παράδειγμα, αν μιλήσετε με το αυτοκίνητό σας ή έξυπνο ηχείο δεν θα είχε σημασία αν υπήρχε πολύς θόρυβος γύρω σας, η συσκευή θα ήταν ακόμα σε θέση να καταλάβει τι έλεγες.
Το ΑΙ χρησιμοποιείται ήδη και σε άλλους τομείς της εγκληματολογίας, σύμφωνα με τον ιατροδικαστή Τέρι Αρμέντα της Ιατροδικαστικής Ακαδημίας Επιστημών.
Τα μοντέλα ML [machine learning] αναλύουν τα μοτίβα φωνής για να καθορίσουν την ταυτότητα των ομιλητών, μια διαδικασία ιδιαίτερα χρήσιμη στις ποινικές έρευνες όπου τα στοιχεία φωνής πρέπει να επικυρωθούν, αναφέρει.
Επιπλέον, τα εργαλεία AI μπορούν να ανιχνεύσουν χειραγώγηση ή αλλαγές στις ηχογραφήσεις, εξασφαλίζοντας την ακεραιότητα των αποδεικτικών στοιχείων που παρουσιάζονται στο δικαστήριο.
Και η AI έχει επίσης κάνει το δρόμο της σε άλλες πτυχές της ανάλυσης ήχου πάρα πολύ.
Η Bosch έχει μια τεχνολογία που ονομάζεται SoundSee, η οποία χρησιμοποιεί αλγορίθμους επεξεργασίας σημάτων ήχου για να αναλύσει, για παράδειγμα, έναν ήχο κινητήρων για να προβλέψει μια δυσλειτουργία πριν συμβεί.
Παραδοσιακές δυνατότητες επεξεργασίας σημάτων ήχου δεν έχουν την ικανότητα να κατανοήσουν τον ήχο όπως εμείς οι άνθρωποι, λέει ο Δρ Samarjit Das, διευθυντής έρευνας και τεχνολογίας στην Bosch USA.
Το Audio AI επιτρέπει βαθύτερη κατανόηση και σημασιολογική ερμηνεία του ήχου των πραγμάτων γύρω μας καλύτερα από ποτέ - για παράδειγμα, περιβαλλοντικούς ήχους ή ήχους που προέρχονται από μηχανές.
Πιο πρόσφατες δοκιμές του αλγόριθμου Wave Sciences έχουν δείξει ότι, ακόμη και με μόνο δύο μικρόφωνα, η τεχνολογία μπορεί να εκτελέσει καθώς και το ανθρώπινο αυτί - καλύτερα, όταν προστίθενται περισσότερα μικρόφωνα.
Και επίσης αποκάλυψαν και κάτι άλλο.
Τα μαθηματικά σε όλες τις δοκιμές μας δείχνουν αξιοσημείωτες ομοιότητες με την ανθρώπινη ακοή.
Υπάρχουν λίγες παραδοξότητες σχετικά με το τι μπορεί να κάνει ο αλγόριθμος μας, και πόσο ακριβώς μπορεί να το κάνει, που είναι εκπληκτικά παρόμοια με μερικές από τις παραδοξότητες που υπάρχουν στην ανθρώπινη ακοή, λέει ο McElveen.
Υποψιαζόμαστε ότι ο ανθρώπινος εγκέφαλος μπορεί να χρησιμοποιεί τα ίδια μαθηματικά - ότι κατά την επίλυση του προβλήματος του κοκτέιλ κόμματος, μπορεί να έχουμε σκοντάψει σε ό, τι πραγματικά συμβαίνει στον εγκέφαλο.