Home Berita AI memecahkan 'masalah pesta koktail' dan terbukti berguna di pengadilan

AI memecahkan 'masalah pesta koktail' dan terbukti berguna di pengadilan

31
0
AI memecahkan 'masalah pesta koktail' dan terbukti berguna di pengadilan


Getty Images Empat wanita berusia tiga puluhan mengobrol sambil memegang minumanGambar Getty

Dalam kelompok, orang-orang menyaring obrolan di sekitar mereka – dan sekarang teknologi dapat melakukan hal yang sama

Ini adalah “masalah pesta koktail” yang abadi – berdiri di ruangan yang penuh orang, dengan minuman di tangan, mencoba mendengar apa yang dikatakan tamu lainnya.

Faktanya, manusia sangat mahir dalam melakukan percakapan dengan satu orang sambil menyaring suara-suara lain.

Namun, mungkin mengejutkan, itu adalah keterampilan yang hingga saat ini belum dapat ditiru oleh teknologi.

Dan itu penting saat menggunakan bukti audio dalam kasus pengadilan. Suara di latar belakang dapat menyulitkan untuk memastikan siapa yang berbicara dan apa yang dikatakan, sehingga rekaman berpotensi tidak berguna.

Insinyur listrik Keith McElveen, pendiri dan kepala teknologi Wave Sciences, menjadi tertarik pada masalah ini ketika ia bekerja untuk pemerintah AS dalam kasus kejahatan perang.

“Yang kami coba cari tahu adalah siapa yang memerintahkan pembantaian warga sipil. Beberapa bukti termasuk rekaman suara sekelompok orang yang berbicara sekaligus – dan saat itulah saya mengetahui apa “masalah pesta koktail” itu,” katanya.

“Saya telah berhasil menghilangkan bunyi seperti suara mobil atau AC atau kipas angin dari ujaran, tetapi ketika saya mulai mencoba menghilangkan ujaran dari ujaran, ternyata hal itu tidak hanya menjadi masalah yang sangat sulit, tetapi juga merupakan salah satu masalah sulit klasik dalam akustik.

“Suara memantul di seluruh ruangan, dan secara matematis sangat sulit untuk dipecahkan.”

Paul Cheney Keith McElveen berdiri di depan papan tulis sambil memegang spidolPaul Cheney

Keith McElveen mendirikan Wave Sciences pada tahun 2008 untuk fokus pada “masalah pesta koktail”

Jawabannya, katanya, adalah menggunakan AI untuk mencoba menentukan dan menyaring semua suara yang bersaing berdasarkan asal muasalnya di sebuah ruangan.

Ini tidak hanya berarti orang lain yang mungkin berbicara – ada juga sejumlah besar gangguan dari cara suara dipantulkan di sekitar ruangan, dengan suara pembicara yang dituju terdengar baik secara langsung maupun tidak langsung.

Dalam kondisi anechoic sempurna ruang yang benar-benar bebas gema – satu mikrofon per pembicara akan cukup untuk menangkap apa yang dikatakan setiap orang; tetapi di ruang nyata, masalahnya memerlukan satu mikrofon untuk setiap pantulan suara juga.

Tn. McElveen mendirikan Wave Sciences pada tahun 2009, dengan harapan dapat mengembangkan teknologi yang dapat memisahkan suara-suara yang saling tumpang tindih. Awalnya, perusahaan tersebut menggunakan sejumlah besar mikrofon dalam apa yang dikenal sebagai array beamforming.

Namun, masukan dari calon mitra komersial adalah bahwa sistem tersebut memerlukan terlalu banyak mikrofon dengan biaya yang dikeluarkan untuk memberikan hasil yang baik dalam banyak situasi – dan tidak akan berfungsi sama sekali dalam banyak situasi lainnya.

“Ucapan yang umum adalah jika kami dapat menemukan solusi yang mengatasi masalah tersebut, mereka akan sangat tertarik,” kata Tn. McElveen.

Dan, tambahnya: “Kami tahu pasti ada solusinya, karena Anda bisa melakukannya hanya dengan dua telinga.”

Perusahaan akhirnya memecahkan masalah tersebut setelah 10 tahun penelitian yang didanai secara internal dan mengajukan permohonan paten pada bulan September 2019.

Keith McElveen Gelombang suara di layar komputer Keith McElveenKeith McElveen

Butuh waktu 10 tahun bagi Wave Sciences untuk memecahkan “masalah pesta koktail”

Apa yang mereka temukan adalah AI yang dapat menganalisis bagaimana suara memantul di sekitar ruangan sebelum mencapai mikrofon atau telinga.

“Kami menangkap suara saat tiba di setiap mikrofon, melacaknya kembali untuk mencari tahu dari mana asalnya, dan kemudian, intinya, kami meredam suara apa pun yang tidak mungkin berasal dari tempat orang tersebut duduk,” kata Tn. McElveen.

Efeknya sebanding dalam hal tertentu seperti saat kamera berfokus pada satu subjek dan mengaburkan latar depan dan latar belakang.

“Hasilnya tidak terdengar sangat jelas ketika Anda hanya dapat menggunakan rekaman yang sangat bising untuk belajar, tetapi hasilnya tetap menakjubkan.”

Teknologi ini pertama kali digunakan dalam bidang forensik di dunia nyata dalam kasus pembunuhan di AS, yang mana bukti yang dapat diberikannya terbukti penting bagi putusan bersalah.

Setelah dua pembunuh bayaran ditangkap karena membunuh seorang pria, FBI ingin membuktikan bahwa mereka disewa oleh sebuah keluarga yang sedang mengalami pertikaian hak asuh anak. FBI mengatur cara untuk mengelabui keluarga tersebut agar percaya bahwa mereka diperas karena keterlibatan mereka – dan kemudian duduk santai untuk melihat reaksinya.

Meskipun teks dan panggilan telepon cukup mudah diakses oleh FBI, namun akses secara langsung Pertemuan di dua restoran adalah masalah yang berbeda. Namun pengadilan mengizinkan penggunaan algoritma Wave Sciences, yang berarti bahwa rekaman audio berubah dari tidak dapat diterima menjadi bukti penting.

Sejak saat itu, laboratorium pemerintah lainnya, termasuk di Inggris, telah melakukan serangkaian pengujian. Perusahaan tersebut kini memasarkan teknologi tersebut kepada militer AS, yang telah menggunakannya untuk menganalisis sinyal sonar.

Hal ini juga dapat diterapkan dalam negosiasi penyanderaan dan skenario bunuh diri, kata Tn. McElveen, untuk memastikan kedua belah pihak dalam percakapan dapat didengar – bukan hanya negosiator dengan megafon.

Akhir tahun lalu, perusahaan merilis aplikasi perangkat lunak yang menggunakan algoritma pembelajarannya untuk digunakan oleh laboratorium pemerintah yang melakukan forensik audio dan analisis akustik.

Getty Images Seorang ibu muda dan putranya yang masih kecil berbicara dengan pengeras suara pintar di meja di depan merekaGambar Getty

Akhirnya Wave ingin meluncurkan versi produknya untuk digunakan di speaker pintar

Pada akhirnya, perusahaan itu bermaksud memperkenalkan versi produk yang disesuaikan untuk digunakan dalam perangkat rekaman audio, antarmuka suara untuk mobil, pengeras suara pintar, realitas tertambah dan virtual, sonar, serta alat bantu dengar.

Jadi, misalnya, jika Anda berbicara ke mobil atau pengeras suara pintar, tidak masalah jika ada banyak suara bising di sekitar Anda, perangkat tersebut akan tetap mampu menangkap apa yang Anda katakan.

AI juga sudah digunakan di bidang forensik lainnya, menurut pendidik forensik Terri Armenta dari Akademi Ilmu Forensik.

“ML [machine learning] Model tersebut menganalisis pola suara untuk menentukan identitas pembicara, sebuah proses yang sangat berguna dalam investigasi kriminal di mana bukti suara perlu diautentikasi,” katanya.

“Selain itu, alat AI dapat mendeteksi manipulasi atau perubahan dalam rekaman audio, memastikan integritas bukti yang disajikan di pengadilan.”

Dan AI juga telah merambah ke aspek lain dari analisis audio.

Bosch Samarjit Das memegang Bosch SoundSeeBosch

Samarjit Das dengan SoundSee yang dapat memprediksi kerusakan mobil sebelum terjadi

Bosch memiliki teknologi bernama SoundSee, yang menggunakan algoritma pemrosesan sinyal audio untuk menganalisis, misalnya, suara motor guna memprediksi kerusakan sebelum terjadi.

“Kemampuan pemrosesan sinyal audio tradisional tidak memiliki kemampuan untuk memahami suara sebagaimana manusia,” kata Dr. Samarjit Das, direktur penelitian dan teknologi di Bosch USA.

“AI Audio memungkinkan pemahaman yang lebih mendalam dan interpretasi semantik terhadap suara benda-benda di sekitar kita, lebih baik dari sebelumnya – misalnya, suara lingkungan atau isyarat suara yang berasal dari mesin.”

Pengujian terkini terhadap algoritma Wave Sciences telah menunjukkan bahwa, bahkan dengan hanya dua mikrofon, teknologi tersebut dapat bekerja sebaik telinga manusia – lebih baik, jika lebih banyak mikrofon ditambahkan.

Dan mereka juga mengungkapkan hal lainnya.

“Hasil matematika dalam semua pengujian kami menunjukkan kemiripan yang luar biasa dengan pendengaran manusia. Ada sedikit keanehan tentang apa yang dapat dilakukan algoritme kami, dan seberapa akuratnya algoritme tersebut melakukannya, yang sangat mirip dengan beberapa keanehan yang ada dalam pendengaran manusia,” kata McElveen.

“Kami menduga bahwa otak manusia mungkin menggunakan matematika yang sama – bahwa dalam memecahkan masalah pesta koktail, kita mungkin telah menemukan apa yang sebenarnya terjadi di otak.”


LEAVE A REPLY

Please enter your comment!
Please enter your name here