Mengenal Data Mining
Daftar Isi
Merlindawibowo.com – Data mining adalah suatu teori istilah yang biasa digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatis yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengeksplorasi informasi pengetahuan dan berguna selain bermanfaat yang tersimpan di dalam jumlah besar. Data mining, biasa juga dikenal nama lain knowledge discovery in database (KDD), yaitu kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition jarang digunakan karena termasuk bagian dari data mining.
Secara sederhana data mining ialah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining sering disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Data mining dapat diartikan sebagai suatu proses menemukan pola yang menarik dari data dalam jumlah besar, Data tersebut disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing.
Data mining diartikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semi otomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar. Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.
Baca juga : Wonderful Indonesia
Baca juga : Mengenal Business Intelligence
Karakteristik dari Data Mining
Data mining merupakan kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Adapun Karakteristik data mining sebagai berikut:
- Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
- Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.
- Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor :
- Pertumbuhan yang begitu cepat dalam kumpulan data.
- Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang baik.
- Adanya peningkatan akses data melalui navigasi web dan intranet.
- Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.
- Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi).
- Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.
Proses Data Mining
Data mining bukan hanya suatu bidang yang baru. Salah satu dari kesulitan mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak teknik dan aspek dari bidang-bidang ilmu yang sudah ada terlebih dahulu. Pada Gambar di bawah, menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligence), machine learning, statistik, database, dan juga information retrieval.
Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
1. Data Selection
Pemilihan data (seleksi) dari sekumpulan operasional data perlu dilakukan sebelum tahap penggalian informasi saat KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum proses data mining tersebut dapat dilaksanakan, perlu dilakukan proses cleaning terhadap data yang menjadi fokus KDD. Proses cleaning diantaranya adalah membuang duplikasi data, memeriksa data mana yang tidak konsisten, dan memperbaiki kesalahan yang ada pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
Baca juga : Topologi Business Intelligence
3. Transformation
Coding merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD disebut juga proses kreatif dan sangat tergantung pada jenis atau pola informasi tertentu yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari informasi atau pola yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Dalam data mining Teknik, metode, atau metode sangat bervariasi. Tujuan dan proses KDD secara keseluruhan bergantung pada pemilihan metode dan metode yang tepat.
5. Interpretation/Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti dan dipahami oleh pihak yang mempunyai kepentingan. Dalam tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan berlawanan dengan fakta atau hipotesis yang ada sebelumnya.
Semoga artikel ini dapat bermanfaatt!!