Algoritma Klasifikasi pada Machine Learning

Daftar Isi

Perlu kita ketahui bahwa algoritma pada Machine Learning dapat digunakan untuk membantu dalam proses pengolahan data. Beberapa algoritma ini digunakan bergantung kepada data yang dihimpun bahkan studi kasus atau permasalahan yang perlu diketahui penyelesaiannya. Salah satunya adalah proses klasifikasi pada data. Klasifikasi adalah langkah di mana objek dikelompokkan ke dalam kelas dengan karakteristik yang sama. Pada dasarnya, klasifikasi dilakukan dengan mendefinisikan fitur dengan frase penting. Biasanya data yang dapat dilakukan proses klasifikasi ini telah memiliki label yang nantinya dapat diklasifikasikan berdasarkan kelas yang telah ditentukan sebelumnya. Data training dan  testing  digunakan untuk training dan testing dalam proses klasifikasi data ini. 

Beberapa peneliti sering menggunakan algoritma klasifikasi ini dengan cara membandingkan satu algoritma dengan algoritma klasifikasi lainnya sebelum memilih algoritma mana yang tepat. Karena pada dasarnya ketika melakukan sebuah eksperimen dalam penelitian alangkah baiknya untuk melakukan perbandingan algoritma secara try-and-error sebelum sepenuhnya diimplementasikan pada keseluruhan data. Perbandingan algoritma ini biasanya dilakukan dengan mengetahui algoritma mana yang memiliki tingkat akurasi tertinggi. Ketika memiliki tingkat akurasi yang tinggi maka algoritma tersebut dirasa sesuai untuk diimplementasikan pada proses pengolahan data tersebut. 

Baca juga : Mengenal Machine Learning

Beberapa algoritma klasifikasi yang dapat diimplementasikan pada Machine Learning :

Naive Bayes

Naïve Bayes merupakan salah satu metode yang digunakan dalam melakukan klasifikasi berdasarkan perhitungan probabilitas. Naïve Bayes dapat menghasilkan akurasi yang tinggi dikarenakan memiliki cara kerja yang cepat dan sederhana. Hal ini membuat Naïve Bayes sangat populer dan sering digunakan. Naïve Bayes merupakan salah satu metode dalam klasifikasi yang dapat menggunakan pengetahuan probabilitas dan statistik dengan menerapkan teorema Bayes dalam berbagai bidang.

Support Vector Machine (SVM)

Support Vector Machine (SVM) adalah metode pembelajaran terawasi yang digunakan untuk mengklasifikasikan data untuk menemukan hyperplane terbaik dengan mempartisi ruang input kelas. Support vector machine memiliki prinsip dasar klasifikasi linier. Hal pertama yang penting untuk memahami klasifikasi  SVM adalah menemukan hyperplane yang optimal. Tujuannya adalah untuk membedakan antara dua kelas data yang berbeda, yaitu positif (1) dan negatif (-1). Data positif (1) ditandai dengan simbol kuning dan data negatif (-1) ditandai dengan simbol merah. Secara umum gambaran proses SVM dapat dilihat pada gambar di bawah ini. Diagram di sebelah kiri  gambar  menggambarkan  kemungkinan ekstraksi batas SVM untuk menghasilkan kumpulan data. Grafik di sebelah kanan menunjukkan batas-batas diskriminasi dengan cadangan maksimum. Margin, atau garis pemisah, adalah jarak antara dua kelas data terdekat di hyperplane. Hyperlevel dengan margin terbaik yang digeneralisasi untuk  hasil klasifikasi yang lebih baik.

Gambaran Proses SVM dalam Menemukan Hyperplane

Decision Tree

Sebuah pohon keputusan menggunakan diagram seperti pohon dan bekerja sebagai sistem pendukung keputusan. Algoritma ini telah berhasil diterapkan sebagai metode klasifikasi. Dalam algoritma ini, simpul internal mewakili pengujian atribut, cabang mewakili hasil pengujian, dan simpul daun mewakili pengidentifikasi kelas. Saat memilih atribut root, perlu untuk menetapkan nilai validasi tertinggi dari atribut yang ada. Validasi adalah salah satu atribut pemilihan dimensi yang digunakan untuk memilih atribut uji untuk setiap node di pohon.

Baca Juga :   12 Kota Terunik di Dunia, Mana yang Tertarik Ingin Kamu Kunjungi?

Random Tree

Pohon acak atau Random Tree memeriksa pohon keputusan dan menggunakan subset acak untuk setiap penugasan atribut yang tersedia. Algoritma ini terdiri dari dua langkah. Pertama, algoritma ini dapat membangun pohon keputusan dengan menggunakan beberapa data sebagai data pelatihan dan memilih nilai fitur yang akan dipotong yang memaksimalkan pengambilan informasi sesuai dengan kebutuhan setiap tahap. Struktur yang dihasilkan, yang disebut bingkai pohon, diulang sampai pohon mencapai tujuan yang ditentukan. Kedua, data latih digunakan untuk menentukan nilai atau klasifikasi yang sesuai melalui perhitungan statistik kelas pada simpul daun. Fitur data pelatihan digunakan untuk membangun struktur pohon dan data itu sendiri digunakan untuk memperbarui probabilitas kelas. Probabilitas ini digunakan untuk melacak jumlah sampel yang diklasifikasikan oleh setiap node. Pada titik uji, setiap pohon menghasilkan probabilitas kelas. Probabilitas semua pohon dalam suatu kelompok dirata-ratakan untuk mendapatkan estimasi probabilitas total dari kelas tersebut. Algoritma ini mudah diimplementasikan dan juga dapat memberikan hasil prediksi yang maksimal karena kelebihan dari merepresentasikan data dalam bentuk pohon dibandingkan dengan pendekatan lainnya.

Random Forest

Hutan Acak atau Random Forest digunakan dalam klasifikasi, regresi dan tugas-tugas lain berdasarkan metode ensemble sesuai dengan pembelajaran pengetahuan. Kinerja algoritma ini disesuaikan dengan menggunakan metode pohon keputusan, di mana setiap pohon dikompresi dari sampel bootstrap dari data pelatihan. Kemudian, subset atribut diambil secara acak dari fitur terbaik dengan memilihnya dalam dua bagian. Algoritma ini menghasilkan sampel data acak dan memberikan urutan kunci untuk mengembangkan pohon pilihan. Proses klasifikasi didasarkan pada data yang tidak teramati, mengambil mayoritas untuk setiap pohon. Dapat memberikan efisiensi yang maksimal untuk berbagai permasalahan operasional, terutama pada saat pengumpulan data yang tidak boleh tumpang tindih. Oleh karena itu, menggabungkan beberapa klasifikasi pohon harus dipelajari secara terpisah. Selain itu, algoritma ini menangani noise dan outlier dengan baik dan mudah diimplementasikan.

Baca Juga :   Mengurutkan Elemen Bubble sort (Sorting) dengan C++ dan Raptor

K-Nearest Neighbor (KNN)

KNN merupakan algoritma yang paling mudah untuk dipahami dan diimplementasikan, sehingga banyak penelitian yang menerapkan metode ini dalam proses klasifikasi. Algoritma ini memilih nilai yang sesuai untuk k yang merupakan kumpulan data yang paling dekat dengan target. Proses klasifikasi  bergantung pada nilai k. Untuk memilih nilai k ini, algoritma ini harus dijalankan beberapa kali untuk  menghasilkan nilai k yang berbeda dan kemudian mengambil nilai performa terbaik.

Baca juga : Memilih Algoritma Machine Learning yang Tepat

Penentuan algoritma klasifikasi terbaik atau yang tepat biasanya dapat dilakukan dengan melakukan  perhitungan dengan mencari nilai Confussion Matrix dari masing-masing algoritma. Nilai ini nantinya akan dibanding mana yang memang memberikan nilai tertinggi dan terbaik. Confusion Matrix adalah metode untuk menghitung keakuratan konsep  data mining. Dalam klasifikasi data, jumlah data uji yang benar dan salah ditabulasikan.



Kelas Prediksi


10
Kelas sebenarnya1TPFN

0FPTN
Tabel Confusion Matrix

Keterangan :

  1. True Positive (TP), adalah jumlah dokumen dari kelas 1 yang benar dan diklasifikasikan sebagai kelas 1.
  2. True Negative (TN), adalah jumlah dokumen dri kelas 0 yang benar diklasifikasikan sebagai kelas 0.
  3. False Positive (FP), adalah jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1.
  4. False Negative (FN), adalah jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0. 

Nantinya dari tabel tersebut dapat dijadikan sebagai patokan dalam perhitungan nilai Akurasi, Recall, Presisi, dan F1-Score. Akurasi merupakan persentase dari total sentimen yang benar dikenali. Perhitungan akurasi dilakukan dengan cara membagi jumlah data sentimen yang benar dengan total data dan data uji untuk menghitung nilai akurasinya. Sementara, Presisi merupakan perbandingan jumlah data relevan yang ditemukan terhadap jumlah data yang ditemukan. Perhitungan precision dilakukan dengan cara membagi jumlah data benar yang bernilai positif dibagi dengan jumlah data benar yang bernilai positif dan data salah yang bernilai positif. Nilai dari data salah bernilai positif diambil dari jumlah nilai selain true positif kolom yang sesuai tiap kelasnya. Recall merupakan perbandingan jumlah materi relevan yang ditemukan terhadap jumlah materi yang relevan. Perhitugan recall dilakukan dengan cara membagi data benar bernilai positif dengan hasil penjumlahan dari data benar yang bernilai positif dan data salah yang bernilai negatif. Nilai dari data salah yang bernilai negatif diambil dari jumlah nilai selain true positif baris yang sesuai tiap kelasnya. Terakhir, F1-Score merupakan parameter tunggal ukuran keberhasilan retrieval yang menggabungkan recall dan precision. Nilai F1-Score didapat dari perhitungan hasil perkalian precision dan recall dibagi dengan hasil penjumlahan presisi dan recall kemudian dikalikan dua.

Baca Juga :   Open AI : Pengertian dan Perkembangan Terbaru

Semoga bermanfaat!!