Sekelumit tentang Data Mining
Informasi dan data yang disimpan secara digital telah mengalami peningkatan signifikan selama dua dekade terakhir. Hal itu dimungkinkan berkat teknologi pangkalan data yang dapat melakukan penyimpanan data bervolume besar dan dapat diakumulasi.
Dimulai sejak 1980-an ketika kapasitas penyimpanan komputer meningkat, perusahaan-perusahaan mulai menyimpan data transaksional lebih banyak. Namun, koleksi dari data yang sering disebut dengan data warehouse ini kian lama kian sulit untuk dianalisis menggunakan pendekatan statistika secara konvensional.
Dalam beberapa tahun, konferensi-konferensi dan pertemuan-pertemuan digelar untuk membahas perkembangan artificial intelligence, machine learning, neural networks, dan expert systems. Para ilmuwan mulai membuka kemungkinan bahwa semua perkembangan itu dapat diimplementasikan ke dalam apa yang disebut dengan knowledge discovery.
Barulah pada 1995 digelar pertemuan bertajuk First International Conference on Knowledge Discovery and Data Mining di Montreal, Kanada untuk membahas topik ini secara serius. Di tahun-tahun ini jugalah perusahaan data mining awal diperkenalkan dan diluncurkan.
Definisi dan Tahapan di Data Mining
Dalam disiplin ilmu komputer, data mining termasuk cabang disiplin ilmu yang relatif masih muda. Kemunculannya berbarengan dengan perkembangan artificial intelligence dan machine learning.
Terdapat beberapa definisi tentang data mining dan salah satunya adalah proses penemuan pola yang menarik dari data berjumlah besar. Ada juga pendapat yang mengatakan bahwa data mining adalah eksplorasi secara otomatis dan semi-otomatis terhadap data dalam jumlah yang besar untuk mencari pola spesifik.
Ensiklopedia Britannica sendiri mendefinisikan data mining atau juga dikenal dengan knowledge discovery in database sebagai proses penemuan pola dan relasi yang berguna dalam volume data yang besar.
Dari beberapa definisi di atas, secara ringkas dapat disimpulkan bahwa data mining merupakan proses ekstraksi dan penemuan suatu pola atau knowledge tertentu yang berguna dari himpunan data berjumlah besar.
Meskipun sama-sama didasarkan pada proses analitis, data mining berbeda secara fundamental dengan machine learning. Salah satu perbedaannya adalah data mining bertujuan menemukan pola tertentu, sementara machine learning telah terlebih dahulu “dilatih” dengan training dataset untuk kemudian membuat machine learning semakin pintar dan efisien dalam membaca dan mengolah pola yang telah ada.
Untuk mendapatkan pola atau knowledge berguna yang dibutuhkan, data mining harus melewati beberapa tahapan, yang terdiri dari sebagai berikut:
Selection
Seleksi data dilakukan sebelum dimulainya tahap penggalian. Data hasil seleksi kemudian akan disimpan ke dalam suatu berkas yang terpisah dari database.
Cleansing
Setelah dilakukan seleksi, perlu dilakukan proses cleansing terhadap data, yakni membuang data duplikat dan inkonsisten atau memperbaiki kesalahan-kesalahan minor di dalam data.
Transformation
Pada proses transformation, dilakukan coding terhadap data yang telah diseleksi dan dibersihkan sebelumnya yang bertujuan menempatkan data-data relevan.
Data mining
inilah tahap terpenting, yakni proses pencarian pola atau informasi menarik dalam data terpilih yang dilakukan dengan teknik atau metode tertentu.
Interpretation
Setelah melewati empat tahap sebelumnya, di tahap interpretation ini dilakukan visualisasi dalam berbagai bentuk yang mudah dipahami untuk menyampaikan pola atau informasi berguna yang telah ada.
Dari sisi teknik, data mining terdiri dari tujuh macam, yakni classification, clustering, regression, association rules, outer detection, sequential patterns, dan prediction. Masing-masing teknik tersebut sama-sama berguna, tergantung pada tujuan suatu perusahaan atau individu yang menggunakannya. Misalnya pada teknik classification, informasi-informasi penting dan relevan yang telah diperoleh dapat dikategorikan ke dalam kelas-kelas berbeda.
Bagi suatu perusahaan, data mining sangat bermanfaat untuk setidaknya tiga hal, yakni memudahkan pengambilan keputusan, membantu membuat prediksi, dan menekan ongkos produksi.
Kesimpulan
Perusahaan dapat mengambil keuntungan dari penerapan data mining karena ia berfungsi layaknya detektif yang melakukan investigasi data di masa lalu dan saat ini untuk memprediksi hasil di masa depan beserta dampak-dampaknya.
Analisis terhadap data yang sedemikian besar tersebut tentu dapat dilakukan secara manual seperti sebelum-sebelumnya, tetapi kecepatan pemrosesan dalam data mining akan sangat mengurangi waktu yang dibutuhkan oleh suatu perusahaan atau bisnis dalam melakukan analisis data.
Penulis: Arlandy Ghifari
Editor: M. Wahyu Hidayat