Analisis Sentimen dengan Algoritma Linear Model
Daftar Isi
Sosial media memiliki pengaruh yang siginifikan saat adanya pandemi covic 19 melanda baik di Indonesia maupun hingga diseluruh dunia. Dampak dari pandemi juga membuat aktivitas harian maupun ekonomi di luar rumah diminimalisir oleh masyarakat, sehingga membuat masyarakat menjadi terbiasa dengan adanya platform digital, terutama untuk pembelian produk secara daring. Dari perilaku masyarakat diatas, membuat sosial media sebagai salah satu media yang online yang baik untuk melakukan promosi untuk produk anda. Ketika melakukan promosi secara digital lewat sosial media, konten yang dimiliki harus menarik perhatian para pengguna sosial media. Sehingga salah satu hal yang dapat dilakukan adalah dengan melakukan analisis sentimen selain dengan menggunakan himpunan data dalam bentuk teks yang diambil dari sosial media. Misalnya menggunakan sosial media Twitter yang dapat menggunakan pustaka dari twitter API dan tweepy.
Baca juga : Mengenal CNN pada Klasifikasi Citra
Ketika data sudah diambil, data kemudian akan melewati proses preprocessing menggunakan bahasa pemrograman python. Tahapan pertama adalah memilah kolom yang akan digunakan dan melakukan pembersihan data pada kolom isi teks twitter. Pada Tahap Selanjutnya adalah mengubah data berupa kata kata menjadi vektor agar bisa diolah oleh komputer menggunakan word2vec dan fastextdengan pustaka gensim untuk melakukan dua proses pencarian kata yang sama, pertama dari data wikipedia bahasa indonesia dan yang kedua dengan membuat kamus sendiri. Setelah preprocessing data selesai dan menjadi vektor, kemudian langkah selanjutnya adalah memprediksi tanggapan menggunakan algoritme keluarga linear model yaitu algoritme linear regression, bayesian ridge regression, lasso, dan ridge regression. Model yang dibuat dapat membantu para pebisnis mendapatkan kata yang tepat untuk dijadikan konten pada saat promosi supaya dalam melakukan branding dapat berjalan sesuai rencana dan mendatangkan penjualan yang lebih banyak.
Word2Vec didasarkan pada ide deep learning dengan kata direpresentasikan dalam vektor. Word2Vec mentrasformasikan operasi dokumen menjadi perhitungan vektor dalam ruang vektor kata. Relasi semantik pada dokumen dapat dikarakterisasi berdasarkan kesamaan kata di dalam ruang vektor. Tahap awal pada proses word2vec yaitu membangun kosakata dari data teks pelatihan dan kemudian mempelajari representasi vektor dari kumpulan kata. Vektor yang dihasilkan dapat digunakan sebagai fitur untuk penerapan dalam kasus natural language processing dan machine learning. Selain itu, FastText adalah metode word embedding open source yang dikembangkan oleh Tim Facebook Research Lab dalam melakukan klasifikasi maupun vektorisasi pada teks yang merupakan pengembangan dari Word2Vec. Metode ini mempelajari representasi kata dengan mempertimbangkan informasi subword. Setiap kata direpresentasikan sebagai sekumpulan karakter n-gram.
Algoritma pada linear model.
Linear Regression
Linear Regression yaitu pemodelan dan analisis data numerik yang terdiri dari satu atau lebih variable independen dan nilai variabel dependen. LinearRegression cocok dengan model linier dengan koefisien w = (w1, …, wp) untuk meminimalkan jumlah sisa kuadrat antara target yang diamati dalam kumpulan data, dan target yang diprediksi oleh pendekatan linier. Secara matematis itu memecahkan masalah bentuk:
Regresi Linier akan mengambil array metode fitnya X, y dan akan menyimpan koefisien model linier dalam anggota koefisiennya.
Bayesian Ridge Regression
Ridge memperkirakan model probabilitas dari masalah regresi seperti dijelaskan di atas. Prioritas koefisien w diberikan oleh Gaussian bola:
Priors atas a dan lambda dipilih sebagai distribusi gamma, konjugasi prior untuk ketepatan Gaussian. Model yang dihasilkan disebut bayesian ridge regression, dan mirip dengan ridge klasik.
Baca juga : Mengenal Machine Learning
Ridge Regression
Ridge regression adalah modifikasi dari metode kuadrat terkecil dengan menambahkan parameter ridge dalam menentukan nilai bobot model regresi yang menghasilkan penduga bias dari koefisien regresi. Ridge regression mengurangi dampak multikolinearitas dengan menentukan penduga yang bias tetAPI mempunyai varian yang lebih kecil dari varian penduga linear regression berganda.
Keterangan:
B = Koefisien parameter regression
X = Variabel faktor penyebab
λ = Parameter ridge (0 ≤ λ ≤ 1)
I = Matriks identitas (p x p)
Y = Variabel akibat
Lasso Regression
Lasso adalah bagian dari algoritma linear model yang memperkirakan koefisien sparse. Model ini berguna dalam beberapa konteks karena memiliki kecenderungan memilih solusi dengan koefisien bukan nol yang lebih sedikit, secara efektif mengurangi jumlah fitur yang menjadi tumpuan solusi yang diberikan. Dalam kondisi tertentu, ia dapat memulihkan set koefisien bukan nol yang tepat. Secara matematis, ini terdiri dari model linear dengan tambahan istilah regularisasi. Fungsi tujuan untuk meminimalkan adalah:
Estimasi lasso menyelesaikan minimalisasi penalti kuadrat terkecil dengan a||w||1 ditambahkan, di mana a adalah konstanta dan ||w||1 adalah norma l1 dari vektor koefisien.
Semoga bermanfaat!!