Ide Judul Skripsi: Deep Learning Sebagai Metode Terbaik untuk Analisis Suara

Daftar Isi

merlindawibowo.comDeep learning merupakan salah satu subdisiplin dari Machine Learning (ML) yang menggunakan Deep Neural Network untuk mengatasi berbagai masalah dalam domain ML. Neural Network adalah model yang terinspirasi dari cara kerja neuron dalam otak manusia. Deep learning memanfaatkan dataset yang besar untuk menyelesaikan masalah dengan menggunakan jaringan saraf tiruan yang memiliki beberapa lapisan tersembunyi (hidden layers). Setiap lapisan ini merupakan algoritma yang bertugas untuk mengklasifikasi input yang diberikan, sehingga menghasilkan output.

Deep learning untuk analisis suara merupakan aplikasi dari teknologi kecerdasan buatan yang menggunakan jaringan saraf tiruan (neural networks), khususnya dalam konteks pemrosesan sinyal suara. Teknologi ini telah mengubah cara kita memahami dan memanfaatkan data suara dalam berbagai aplikasi, termasuk pengenalan ucapan, pengenalan suara, deteksi emosi dari suara, pengenalan musik, dan banyak lagi.

Dengan menggunakan deep learning, kita dapat mengembangkan model yang dapat mempelajari representasi-fitur dari sinyal suara secara otomatis, tanpa perlu menentukan secara manual fitur-fitur yang relevan. Misalnya, model deep learning dapat belajar untuk mengidentifikasi pola-pola kompleks dalam sinyal suara yang mewakili ucapan manusia atau emosi yang terkandung dalam suara.

Dengan menggunakan deep learning untuk analisis suara, kita dapat mencapai hasil yang sangat baik dalam berbagai tugas, seperti pengenalan ucapan, translasi suara ke teks, deteksi emosi dari suara, pengenalan pembicara, dan banyak lagi. Teknologi ini terus berkembang dan memberikan kontribusi signifikan dalam berbagai bidang, mulai dari komunikasi hingga pengolahan bahasa alami dan pengenalan pola.

Suara adalah getaran yang disebarkan melalui medium, seperti udara, yang dihasilkan oleh vibrasi objek atau sumber suara. Getaran ini merambat melalui medium dan bisa didengar oleh telinga manusia atau alat pendengaran lainnya. Secara umum, suara adalah bentuk energi mekanik yang menghasilkan sensasi pendengaran pada organ pendengaran.

Suara dapat berasal dari berbagai sumber, termasuk manusia (seperti bicara, bernyanyi, atau bersiul), hewan (seperti burung berkicau atau anjing menggonggong), alam (seperti angin berdesir atau air mengalir), atau benda-benda mekanik (seperti mesin beroperasi atau kendaraan bergerak). Setiap sumber suara memiliki karakteristiknya sendiri, termasuk frekuensi, amplitudo, dan pola getaran, yang menentukan bagaimana suara tersebut terdengar.

Butuh konsultasi untuk penyusunan SKRIPSI dan JURNAL?
Silahkan jangan ragu untuk hubungi kami.

Dalam konteks analisis suara, suara sering direkam dan diproses menggunakan berbagai teknik untuk memahami informasi yang terkandung di dalamnya. Hal ini meliputi penggunaan algoritma dan teknologi, termasuk Deep Learning dan Machine Learning, untuk mengklasifikasikan suara, mengidentifikasi pola atau sinyal tertentu, atau bahkan mengubah suara menjadi teks atau perintah yang dapat dipahami oleh komputer.

Dengan kata lain, suara adalah fenomena fisik yang terjadi karena getaran yang merambat melalui medium, dan merupakan sumber informasi yang kaya yang dapat dianalisis dan dimanfaatkan untuk berbagai tujuan, dari komunikasi hingga deteksi masalah atau kondisi tertentu.

Analisis suara adalah proses penggunaan teknologi untuk memahami, mengklasifikasikan, dan mengekstraksi informasi dari sinyal audio. Hal ini dapat melibatkan penggunaan berbagai teknik dan algoritma untuk mengidentifikasi pola-pola dalam suara, baik itu untuk tujuan pengenalan, pemantauan, atau pemrosesan lebih lanjut.

Berikut adalah beberapa contoh aplikasi dari analisis suara:

Pengenalan Suara: Identifikasi atau pengenalan suara adalah salah satu aplikasi utama dari analisis suara. Ini mencakup pengenalan suara manusia, pengenalan suara alat musik, pengenalan suara hewan, dan sebagainya. Contoh penerapannya termasuk pengenalan suara untuk pengendalian perangkat, pengenalan ucapan dalam sistem pengenal ucapan, atau identifikasi suara binatang untuk penelitian biologi.

Deteksi dan Diagnosis: Analisis suara juga digunakan untuk mendeteksi anomali atau pola yang tidak biasa dalam suara, yang dapat digunakan untuk diagnosis penyakit atau kondisi tertentu. Misalnya, deteksi suara jantung abnormal untuk diagnosis penyakit jantung, atau deteksi suara pernapasan yang tidak normal untuk diagnosa penyakit pernapasan.

Pemantauan dan Prediksi: Analisis suara dapat digunakan untuk memantau kondisi tertentu atau kejadian dalam lingkungan suara tertentu. Contohnya termasuk pemantauan lingkungan akustik di lingkungan perkotaan untuk deteksi kebisingan atau pemantauan suara air untuk deteksi kebocoran.

Analisis Emosi: Suara manusia dapat mengandung informasi tentang emosi atau perasaan seseorang. Analisis suara digunakan untuk mengidentifikasi emosi berdasarkan fitur-fitur akustik dalam suara, seperti intonasi, nada, dan ritme.

Pengklasifikasi: Analisis suara juga dapat digunakan untuk mengklasifikasikan suara ke dalam kategori atau kelas tertentu berdasarkan fitur-fitur yang dimilikinya. Misalnya, pengklasifikasi suara burung berdasarkan jenis spesies, pengklasifikasi suara kendaraan berdasarkan jenisnya, atau pengklasifikasi suara musik ke dalam genre tertentu.

Analisis suara memiliki berbagai aplikasi yang luas dan terus berkembang seiring dengan kemajuan teknologi, terutama dengan adopsi teknik-teknik Deep Learning dan Machine Learning dalam pengolahan sinyal audio.

Studi tentang pengklasifikasian suara menggunakan Deep Learning telah banyak dilakukan dan diterapkan dalam berbagai bidang teknologi di seluruh dunia. Penelitian sebelumnya telah menunjukkan bahwa Deep Learning, yang mengadopsi konsep pemikiran seperti otak manusia untuk memecahkan masalah, telah meningkatkan kinerja aplikasi, termasuk dalam pengklasifikasian suara.

Salah satu penelitian yang dilakukan oleh Chih-Yuan Koh, Jaw-Yuan Chang, Chiang-Lin Tai, Da-Yo Huang, Han-Hsing Hsieh, dan Yi-Wen Liu pada tahun 2019, yang berjudul “Pengklasifikasian Suara Burung Menggunakan Convolutional Neural Networks”, menggunakan algoritma Convolutional Neural Networks (CNN) untuk mengenali 659 spesies burung dari 50.000 rekaman suara. Mereka menggunakan dua model, yaitu ResNet dan Inception, dan mengubah pengklasifikasian suara burung menjadi pengklasifikasian gambar dengan mengubah suara burung menjadi spectrogram menggunakan skala MEL. Hasilnya menunjukkan bahwa model Inception memiliki classification mean average precision (c-mAP) sebesar 0,23, yang lebih tinggi dari model ResNet18 (0,13) dan ResNet34 (0,11).

Penelitian lain yang dilakukan oleh Anett Antony dan R. Gopikakumari pada tahun 2018, yang berjudul “Identifikasi Pembicara Berdasarkan Kombinasi Fitur MFCC dan UMRT”, mengidentifikasi pembicara baik yang bergantung pada teks maupun tidak pada kata-kata bahasa Inggris seperti “down”, “up”, “left”, “right”, “start”, “stop”, dan “pause”. Hasilnya menunjukkan bahwa ketika menggunakan kombinasi fitur MFCC dan UMRT, akurasi rata-rata meningkat sebesar 3% baik untuk pembicara bergantung pada teks maupun tidak, dibandingkan dengan hanya menggunakan MFCC saja.

Studi lainnya yang dilakukan oleh Jinru Yang, Xiaofan Huang, Hongkai Wu, dan Xingtong Yang pada tahun 2019, yang berjudul “Klasifikasi Emosi Berbasis EEG Menggunakan Bidirectional Long Short-Term Memory Network”, mengidentifikasi emosi seseorang melalui sinyal Electroencephalogram (EEG) menggunakan metode Bidirectional Long Short-Term Memory Network (BiLSTM). Metode ini berhasil mengklasifikasikan emosi seperti senang, sedih, takut, dan netral dengan akurasi sebesar 84,21%.

Ada juga penelitian tentang segmentasi suara jantung untuk diagnosis awal penyakit jantung yang dilakukan oleh Yao Chen, Jiancheng Lv, Yanan Sun, dan Bijue Jia pada tahun 2020. Mereka menggunakan metode Duration-LSTM (BiLSTM) dan mendapatkan nilai rata-rata F1-Score sebesar 96,11±0,27%.

Penelitian-penelitian tersebut menunjukkan beragam penerapan Deep Learning dalam analisis suara untuk berbagai tujuan, mulai dari pengenalan spesies burung hingga identifikasi emosi dan diagnosis penyakit jantung.

Deep Learning

Analisis suara dengan Deep Learning memiliki beberapa kelebihan yang membuatnya menjadi pilihan yang populer dalam berbagai aplikasi:

Baca Juga :   POV 10 Tujuan Travel ke Budapest Saat Autumn, Apakah anda tertarik?

Kemampuan Representasi yang Otomatis: Deep Learning mampu secara otomatis mempelajari fitur-fitur yang relevan dari data suara tanpa memerlukan ekstraksi fitur manual. Ini berarti model dapat menemukan pola yang kompleks dan abstrak dalam data suara tanpa harus mengandalkan pemahaman manusia tentang fitur-fitur apa yang penting.

Kemampuan Pembelajaran yang Mendalam: Deep Learning memungkinkan model untuk memahami hubungan yang sangat kompleks antara input dan output. Dengan banyaknya lapisan (layer) dan neuron dalam jaringan saraf, Deep Learning dapat menggali informasi yang tersembunyi dalam data suara yang mungkin sulit untuk ditemukan dengan metode tradisional.

Fleksibilitas dalam Menangani Data yang Kompleks: Suara merupakan sinyal yang kompleks dan dapat memiliki banyak variasi. Deep Learning mampu menangani data suara dalam berbagai bentuk dan ukuran tanpa memerlukan pemrosesan manual yang rumit. Ini membuatnya cocok untuk berbagai jenis data suara, termasuk suara manusia, suara alat musik, atau suara lingkungan.

Kinerja yang Tinggi: Deep Learning sering kali menghasilkan kinerja yang sangat baik dalam tugas-tugas analisis suara, terutama ketika dihadapkan dengan dataset yang besar dan kompleks. Dengan memanfaatkan kemampuan pemrosesan paralel dari arsitektur jaringan saraf, model Deep Learning dapat mempelajari pola dari jumlah data yang sangat besar dengan cepat.

Kemampuan Generalisasi: Model Deep Learning cenderung memiliki kemampuan generalisasi yang baik, artinya mereka dapat mengeneralisasi pola yang dipelajari dari data latih ke data baru yang belum pernah dilihat sebelumnya. Ini berarti model Deep Learning cenderung lebih baik dalam menangani data suara dari berbagai sumber dan kondisi.

Peningkatan Performa seiring dengan Jumlah Data: Salah satu kelebihan utama Deep Learning adalah kemampuannya untuk terus meningkatkan kinerja seiring dengan bertambahnya jumlah data latih yang tersedia. Ini berarti semakin banyak data suara yang digunakan untuk melatih model, semakin baik pula performa model tersebut.

Kombinasi dari kelebihan-kelebihan ini membuat Deep Learning menjadi pilihan yang kuat dalam analisis suara, terutama dalam aplikasi yang membutuhkan pemahaman yang mendalam dan kompleks terhadap data suara.

Beberapa jenis arsitektur deep learning yang umum digunakan dalam analisis suara termasuk Convolutional Neural Networks (CNN) dan Recurrent Neural Networks (RNN), termasuk jenisnya yang disebut Long Short-Term Memory (LSTM). CNN biasanya digunakan untuk memproses representasi spektrogram suara, sementara RNN dan LSTM sering digunakan untuk memodelkan urutan data suara, seperti ucapan.

MFCC

MFCC adalah salah satu teknik ekstraksi fitur yang sering digunakan dalam bidang penelitian teknologi suara karena dianggap efisien dalam menggambarkan sinyal suara melalui proses ekstraksi fitur. Proses ekstraksi fitur ini mengubah sinyal suara menjadi sejumlah parameter, seperti koefisien cepstral, yang merepresentasikan file audio, atau vektor fitur, yang mengubah sinyal suara menjadi vektor.

MFCC, diekspresikan dalam skala mel, sebenarnya meniru cara pendengaran manusia dalam menyaring sinyal suara, dengan menyaring secara linier untuk frekuensi rendah di bawah 1000 Hz dan secara logaritmik untuk frekuensi tinggi di atas 1000 Hz. Salah satu keunggulan MFCC adalah kemampuannya untuk menangkap informasi penting dari sinyal suara dan menyajikan data dengan sedikit detail yang mungkin tanpa mengorbankan informasi yang relevan dalam proses pengenalan suara.

LSTM

LSTM (Long Short Term Memory) adalah jenis model pemrosesan yang merupakan perkembangan dari RNN. LSTM dikembangkan oleh Hochreiter & Schmidhuber pada tahun 1997 dengan tujuan untuk mengatasi masalah gradien yang hilang yang terjadi saat backpropagation pada algoritma waktu dalam RNN. Pada RNN, informasi yang relevan untuk kejadian mendatang diekstraksi dan disimpan oleh sel-sel dalam lingkaran hitam. Namun, seiring berjalannya waktu dan pemrosesan kejadian baru, informasi tersebut cenderung hilang, yang seharusnya tetap dipertahankan untuk pengenalan pola jangka panjang.

Baca Juga :   Smart Drone Untuk Memberikan Peringatan Pelanggaran Physical Distancing dan Penggunaan Masker Saat Pandemi COVID-19 Dengan Teknologi Artificial Intelligent

LSTM memiliki kapasitas untuk belajar dan mengingat informasi dalam jangka panjang. Struktur LSTM menyerupai rangkaian, meskipun modulnya berulang, namun memiliki struktur yang berbeda. LSTM terdiri dari tiga unit utama: gerbang input, gerbang lupa, dan gerbang output. Jaringan LSTM terdiri dari blok memori yang disebut sel, di mana ada dua jenis state yang ditransfer ke sel berikutnya: cell state dan hidden state.

State cell adalah inti dari aliran data, yang memungkinkan data mengalir ke depan dengan data yang tidak berubah, tetapi mengalami transformasi linier tertentu. Gerbang sigmoid memungkinkan penambahan atau pengurangan data dari cell state. Setiap gerbang dalam LSTM menggunakan serangkaian operasi matriks yang memiliki bobot individu yang berbeda. LSTM didesain untuk mengatasi masalah ketergantungan jangka panjang dengan menggunakan gerbang untuk mengontrol proses pengingatan.

Langkah awal dalam pembangunan jaringan LSTM adalah mengidentifikasi informasi yang tidak relevan dan akan dihapus dari sel pada langkah tersebut. Proses ini ditentukan oleh fungsi sigmoid, yang mengambil output dari unit LSTM terakhir (ht-1) pada waktu t-1 dan input saat ini (Xt) pada waktu t. Fungsi sigmoid ini mengontrol bagian mana dari keluaran sebelumnya yang harus dihapus, dikenal sebagai gerbang lupa.

Langkah selanjutnya adalah memutuskan apakah informasi baru harus disimpan dalam keadaan sel dan memperbarui status sel. Langkah ini melibatkan dua lapisan, yaitu lapisan sigmoid dan lapisan tanh. Lapisan sigmoid menentukan apakah informasi baru harus diperbarui atau diabaikan, sementara lapisan tanh memberikan bobot pada nilai tersebut untuk menentukan level pentingnya. Nilai-nilai ini kemudian digunakan untuk memperbarui status sel.

Langkah terakhir adalah menghasilkan nilai output berdasarkan status sel, yang difilter melalui gerbang keluaran. Langkah ini melibatkan lapisan sigmoid untuk menentukan bagian mana dari status sel yang akan dijadikan output, yang kemudian dikalikan dengan nilai baru yang dihasilkan oleh lapisan tanh dari status sel.

CNN

CNN (Convolutional Neural Network) adalah jenis arsitektur jaringan saraf tiruan yang dirancang khusus untuk memproses data berupa gambar dan citra. Arsitektur CNN memiliki struktur yang terinspirasi oleh cara kerja visual cortex pada hewan, di mana lapisan-lapisan dalam jaringan ini secara bertahap menggabungkan fitur-fitur yang semakin kompleks untuk menghasilkan representasi yang lebih abstrak dari gambar yang diberikan.

Salah satu keunggulan utama CNN adalah kemampuannya dalam menangani data spasial seperti gambar dengan efektif. CNN menggunakan konvolusi, pooling, dan lapisan-lapisan lainnya untuk mengekstraksi fitur-fitur yang penting dari gambar secara otomatis. Kemudian, fitur-fitur ini diberikan kepada lapisan-lapisan berikutnya untuk pemrosesan lebih lanjut dan klasifikasi.

Arsitektur CNN umumnya terdiri dari beberapa jenis lapisan, termasuk lapisan konvolusi, lapisan aktivasi, dan lapisan pooling. Lapisan konvolusi bertanggung jawab untuk mengekstraksi fitur-fitur dari gambar menggunakan filter konvolusi. Lapisan aktivasi, seperti ReLU (Rectified Linear Unit), diterapkan untuk menambahkan non-linearitas ke jaringan. Lapisan pooling digunakan untuk mengurangi dimensi spasial dari fitur yang diekstraksi, sehingga mengurangi jumlah parameter yang diperlukan dalam jaringan dan meningkatkan invariansi terhadap translasi gambar.

CNN telah menjadi salah satu teknik yang paling sukses dalam pengolahan gambar dan citra, digunakan dalam berbagai aplikasi termasuk pengenalan gambar, klasifikasi objek, deteksi objek, dan segmentasi gambar. Keberhasilannya dalam memproses data visual telah membuatnya menjadi salah satu alat yang penting dalam bidang kecerdasan buatan.

Dari penjelasan di atas, dapat diketahui beberapa metode yang dapat digunakan untuk dilakukan analisis suara. Semoga bermanfaat!