Deteksi Suara dengan Mel Frequency Coefficient (MFCC)

Penggabungan dua algoritma Machine Learning yaitu Mel Frequency Coefficient (MFCC) dan Convolutional Neural Network (CNN) dapat digunakan untuk mengidentifikasi suara di lingkungan yang bising dengan hasil akurasi yang cukup tinggi. MFCC merupakan salah satu metode ekstraksi fitur yang banyak digunakan dalam bidang penelitian speech technology karena dinilai cukup handal dalam mempresentasikan sinyal suara melalui proses feature extraction. Feature Extraction merupakan proses pengkonversian sinyal suara menjadi beberapa tipe parameter seperti cepstral coefficient yang mempresentasikan audio file atau feature vector yang mengkonversi sinyal suara menjadi beberapa vektor. MFCC yang diekspresikan dalam skala mel sebenarnya mengadaptasi sistem pendengaran manusia, dimana sinyal suara akan disaring secara linear untuk frekuensi rendah yang kurang dari 1000 Hz dan secara logaritmik untuk frekuensi tinggi yang diatas 1000 Hz sehingga dapat merepresentasikan sinyal suara sebagaimana manusia merepresentasikannya. Salah satu keunggulan dari MFCC adalah mampu menangkap informasi-informasi penting yang terkandung pada sinyal suara dan menghasilkan data seminimal mungkin tanpa menghilangkan informasi yang penting dalam mengenali suara.

Berikut tahapan untuk proses deteksi suara dengan MFCC:

Preprosessing

Tahap preprocessing terbagi menjadi 2 tahap yaitu, silent removal dan stretching data. Silent removal adalah proses untuk membersihkan dataset dari jeda rekaman suara yang tidak diperlukan sehingga dataset hanya akan terdiri dari rekaman suara tanpa jeda diam. Stretching adalah proses pengubahan durasi atau kecepatan sinyal audio tanpa mempengaruhi nadanya yang bertujuan untuk menyamakan durasi setiap data rekaman yang sudah melalui tahap silent removal.

Pre-Emphasis

Pre-emphasis adalah tahap pertama yang dilakukan dalam proses perancangan model MFCC. Tahap ini dilakukan karena sinyal yang kerap kali mengalami gangguan noise, sehingga berpotensi mempengaruhi tingkat hasil akurasi. Penggunaan Pre-emphasis bertujuan agar level base band pada bagian frekuensi tinggi masih memiliki kualitas sinyal yang baik.

Frame Blocking

Setelah sinyal melewati proses pre-emphasis selanjutnya dilakukan proses frame blocking dimana sinyal akan diblok ke dalam frame dengan N sampel dan digeser sebesar M sampel. N merupakan lebar frame dan M merupakan lebar pergeseran setiap frame. Untuk mendapatkan resolusi frekuensi yang baik frame akan diambil sepanjang mungkin, sedangkan waktu sependek mungkin dimaksudkan untuk memperoleh ranah waktu terbaik.

Baca juga : Klasifikasi Citra Menggunakan Transfer Learning dan CNN

Windowing

Proses frame blocking mengakibatkan efek diskontinue pada ujung-ujung frame, maka dilakukan proses windowing yang akan mengurangi efek discontinue tersebut dan menghaluskan spectrum setelah melaluai proses frame blocking. Proses windowing yang biasa digunakan adalah Rectangular Window, Hamming Window dan Hanning Window. Dari ketiga fungsi tersebut peneliti menggunakan Hanning Window dikarenakan output yang dihasilkan lebih halus dibandingkan dengan fungsi yang lain.

Fast Fourier Transform (FFT)

Fast Fourier Transform merupakan pengembangan dari algoritma Discrete Fourier Transform (DFT) yang dikembangkan oleh Cooley dan Tukey yang berfungsi untuk mengubah sinyal digital pada ranah waktu ke ranah frekuensi. Pada tahap ini sinyal akan didekomposisi menjadi sinyal sinusiodal yang berupa unit real dan unit imajiner dimana sinyal sinusiodal merupakan sinusoid dari frekuensi yang sama tetapi dengan amplitude dan fase yang berbeda.

Mel Frequency Wrapping (MFW)

Mel Frequency Wrapping (MFW) merupakan filter berupa filterbank yang digunakan untuk mengetahui ukuran energi dari frequency band tertentu yang terkandung dalam sinyal suara. Proses output yang diperoleh dari filter disebut spektrum mel.

Discrete Cosine Transform (DCT)

DCT pada dasarnya memiliki kesamaan konsep dengan inverse fourier transform. Akan tetapi output yang dihasilkan DCT adalah mendekati Principle Component Analysis (PCA). PCA sendiri merupakan metode static klasik yang banyak dimanfaatkan dalam analisis data dan kompresi. DCT yang merupakan anggota dari kelas transformasi unit sinusoidal juga kerap digunakan untuk pengolahan gambar seperti file JPEG.

Perancangan Model CNN

Data hasil ekstraksi ciri pada MFCC berupa spektogram akan dilakukan proses training dan testing data menggunakan CNN. Data akan dibagi menjadi dua dengan perbandingan 70:30 dimana 70 merupakan data training dan 30 merupakan data testing. Model pola pembelajaran pada komputer agar dapat mengenali pengucapan ‘ain yang benar, pengucapan ‘ain yang salah dan pengucapan yang bukan ‘ain. Model yang akurat akan membentuk kurva yang smooth dengan mengikuti pola trend dari data yang di testing.

Baca juga : Klasifikasi Citra BioMedical dengan Machine Learning

Performasi dari model machine learning tersebut akan diuji dan dievaluasi menggunakan Confusion Matrix sebagai acuan. Confusion Matrix akan merepresentasikan prediksi dan kondisi dari data yang dihasilkan oleh algoritma Machine Learning dengan aktual. Berdasarkan Confusion Matrix ini akan ditentukan tingkat Accuracy yang merupakan rasio prediksi benar (positif dan negatif) dengan keseluruhan data.

Semoga bermanfaat!!