Data Science Adalah Bidang Ilmu Populer, Mengapa?

No comments yet

Data Science adalah bidang ilmu yang tengah populer seiring dengan perkembangan teknologi dan peningkatan volume data secara masif. Riset menemukan bahwa 95% bisnis masih memiliki masalah terkait data. Oleh karena itu, Data Science adalah salah satu disiplin ilmu yang dapat diterapkan di berbagai industri dan memiliki tingkat kebutuhan tinggi.

Apabila kamu tertarik mempelajari apa itu Data Science, berikut ini serba-serbi Data Science yang perlu kamu ketahui lebih lanjut.

Apa itu data science?

Secara teoretis, disadur dari Data Robot, data science adalah bidang ilmu yang menggabungkan kecakapan di bidang ilmu tertentu, keahlian pemrograman, serta penguasaan matematika dan statistik untuk menarik wawasan (insight) dari data. 

Pada praktiknya, data science adalah ilmu yang memasukkan logika matematika dan metode statistika ke dalam bahasa pemrograman. Tujuan utama penerapan data science adalah menguak wawasan (insight), informasi, pengetahuan, dan lainnya.

Namun, seorang data scientist bernama Jonathan Ma yang dikenal dengan persona Joma Tech, menyebut bahwa data science adalah ilmu yang memanfaatkan data dengan tujuan menyelesaikan suatu masalah. Menurut pria yang pernah bekerja di sejumlah perusahaan teknologi di AS itu, ada kekeliruan bahwa data science hanya berfokus pada machine learning dan programming. Padahal, kata dia, titik berat Data Science justru terletak pada seberapa besar dampak yang dapat dihasilkan pada bidang atau bisnis tertentu. 

Kemunculan data science

Priestley & Mcgrath (2019) dalam makalahnya yang berjudul The Evolution of Data Science: A New Mode of Knowledge Production merangkum, data science adalah penyatuan ilmu statistika dan ilmu komputer. Kedua bidang ilmu ini berkembang dengan memanfaatkan perkembangan penggunaan internet yang menghasilkan Big Data. 

Seiring perkembangan internet pada tahun 90-an, pakar statistika dan ilmu komputer menyadari penggunaan internet telah melahirkan arus dan volume data yang begitu banyak, sehingga diberi nama Big Data. Pakar melihat bahwa data yang dihasilkan dari penggunaan internet dapat dimanfaatkan lebih jauh. Terlebih, volumenya terus bertambah, sehingga terdapat kemungkinan penemuan wawasan baru dari data ini.

Sayangnya, ilmu statistika tradisional tidak memiliki kemampuan untuk menyimpan dan memproses Big Data. Kemudian komputer dipandang menjadi solusi karena mempunyai kemampuan automatisasi dan penyimpanan lebih baik. Kemampuan ini membantu data scientist memproses data dengan lebih cepat dan tepat.

Seiring perkembangan abad 21, pertumbuhan pengguna internet menciptakan permintaan di berbagai lini atas pengelolaan data. Hingga tahun 2019, diperkirakan setidaknya terdapat 50 zettabyte data tersebar di internet. Dengan demikian, data science adalah bidang ilmu yang akan terus popular dan berkembang.

Komponen Esensial bagi Data Science

Terdapat tiga komponen esensial dari Data Science. Komponen esensial pertama dari data science adalah statistika. Untuk mentransformasi data, seorang Data Scientist membutuhkan ilmu statistika yang membantunya membedah data dan memetakan pola di dalamnya. Pengetahuan ini penting untuk memahami perspektif atau paradigma yang digunakan di data science.

Komponen kedua dari data science adalah pemrograman. Untuk mengolah data dalam volume sangat banyak, seorang Data Scientist membutuhkan program yang dapat membantu proses pengolahan data. Program tertentu dapat membantu Data Scientist mengekstraksi, memilah data, dan menganalisis data. Dengan pendekatan terprogram, penghitungan secara manual tidak lagi dibutuhkan, dan dari sini muncul istilah automasi. Automasi ini memudahkan Data Scientist melimpahkan pengerjaan proses repetitif yang mudah dilakukan kepada komputer.

Komponen ketiga dari data science adalah visualisasi. Visualisasi data di data science bertujuan untuk mengomunikasikan hasil analisis yang ditemukan. Visualisasi data juga bertujuan untuk menyajikan informasi sehingga informasi lebih mudah dipahami, tidak bias, dan ditransfer menjadi pengetahuan. Grafik akan memberikan gambaran visual secara singkat dan komunikatif.

Data science adalah, pada intinya, mengubah data menjadi informasi. Data, begitu saja, tidak cukup bermanfaat. Ia butuh ditransformasikan dari ketidakjelasan menjadi informasi yang berguna” – Max, Pengajar Data Science di codingwithmax

Tahapan apa yang dilakukan dalam Data Science?

Berkeley School of Information menjelaskan, terdapat lima tahapan yang perlu dilalui di Data Science, yaitu capture, maintain, process, analyze, dan communicate.

Capture

Ia merupakan tahapan yang berhubungan dengan pemerolehan data (data acquisition), data entry (entri data), signal reception (resepsi sinyal), dan data extraction (ekstraksi data). Pada tahapan ini Data Scientist berusaha menggali data lebih jauh dengan berbagai teknik yang mampu digunakan dari berbagai sumber.

Maintain

Di tahapan ini Data Scientist dituntut mengelola dan mengorganisasikan data, yang meliputi data warehousing, data cleansing, data staging, data processing, dan data architecture.

Process

Data Scientist memproses data sesuai kebutuhan hingga mencapai gambaran umum yang diharapkan. Proses ini mencakup data mining, clustering/classification, data modeling, dan data summarization.

Analyze

Tahap ini mencakup exploratory/confirmatory, predictive analysis, regression, text mining, dan qualitative analysis. Pada tahap ini data dianalisis untuk menunjukkan hubungan yang mungkin terjadi antar komponen data. Hasil analisis juga menunjukkan dinamika data sesuai dengan kebutuhan dan fokus masalah.

Communication

Sebagai tahap terakhir, communication mencakup data reporting, data visualization, business intelligence, dan decision making. Tahap ini menyajikan hasil analisis data kepada user untuk penentuan keputusan.

Kesimpulan

Data Science adalah bidang ilmu yang lahir dari perkembangan teknologi dan merupakan sebuah respons dari kehadiran Big Data yang menarik untuk ditelaah. Lahirnya Data Science merupakan medium bagi pakar untuk menemukan wawasan baru dari big data.Dengan teknik apa pun yang digunakan, Data Science adalah bidang ilmu yang fleksibel dengan tools yang digunakan. Pada akhirnya Data Science bermuara pada satu tujuan, yaitu menyelesaikan masalah dengan data.

 

Penulis: Muhammad Ihsan

Editor: M. Wahyu Hidayat, Cahya Amalinadhi

Data Wrangling Adalah Langkah Penting di Data Science, Mengapa?

No comments yet

Data wrangling adalah sebuah proses yang tidak dapat dilepaskan dari Data Science. Dengan banyaknya data yang tersedia di internet, data scientist harus mengolah data mentah menjadi data yang dapat dianalisis dengan mudah.

Menurut sebuah laporan, pada tahun 2021 pengguna layanan berbasis internet menghasilkan data sebesar 74 zettabyte dalam setahun. Data sebesar ini akan terus meningkat seiring pertambahan pengguna dan digitalisasi di bermacam aspek hidup manusia.

Statista memprediksi, pada tahun 2022 pengguna akan menghasilkan 94 zettabyte. Prediksi ini terus meningkat hingga tahun 2025 yang mencapai 463 zettabyte (2020: 64 zb; 2021: 74 zb; 2022: 94 zb; 2023: 118 zb; 2024: 149 zb; 2025: 463 zb).

Jumlah produksi dan konsumsi data ini tentu merupakan potensi bagi Data Scientist untuk menyelami kedalaman Big Data. Namun, salah satu isu di lapangan adalah sebagian besar data bersifat tidak terstruktur. Mengatasi hal ini, data wrangling adalah salah satu metode yang data scientist gunakan untuk membantu proses kerja mereka.

Data wrangling

Merujuk pada artikel lainnya mengenai data science, data wrangling adalah bagian dari tahap maintain dari life cycle of data science. Jika Anda familiar dengan kerangka kerja OSEMN, data wrangling termasuk ke dalam pada tahap Scrubbing. 

Pada umumnya, terdapat beberapa istilah yang merujuk pada proses ini, yaitu data wrangling, data munging, atau data remediation. Data wrangling adalah proses mengubah data mentah ke dalam format yang lebih mudah diolah. 

Proses data wrangling (akan dijabarkan selanjutnya) mencakup beberapa langkah, seperti menggabungkan beberapa sumber data (merging), mengidentifikasi dan menangani missing value.

Situasi yang memerlukan Data wrangling

Seperti yang sudah dibahas sebelumnya, data lake yang diperoleh dari big data bersifat tidak terstruktur. Terlebih lagi, data ini berjumlah sangat banyak, sehingga tidak efisien apabila proses filtering dilakukan secara manual. Dalam menangani kumpulan data sangat besar, proses data wrangling secara otomatis akan memudahkan Data Scientist

Perlu diketahui, data wrangling adalah proses yang menuntut dan memakan waktu, baik dari sisi kapasitas komputasi maupun sumber daya manusia. Bahkan dapat dikatakan, proses data wrangling merupakan separuh beban kerja dari seluruh tahap kerja data science.

Proses Data wrangling

Terdapat banyak perspektif mengenai proses data wrangling. Perbedaan proses ini bergantung pada jenis data dan kebutuhan analisis. Pada artikel ini, akan disajikan proses data wrangling yang paling sederhana. 

Data wrangling adalah proses yang terbagi menjadi tiga tahap besar:

  1. Mengambil data dari berbagai sumber dan mengumpulkan data.
  2. Membersihkan data.
  3. Menggabungkan data sesuai dengan kebutuhan analisis.

Tahap pertama data wrangling adalah Preprocessing (praproses) dan Standardizing (standarisasi). Preprocessing merupakan ekstraksi data kemudian dikumpulkan dalam satu lokasi, sementara standardizing merupakan penyamaan format data, agar mudah dipahami. Data hasil ekstraksi dapat memiliki format informasi yang berbeda dengan yang dibutuhkan.

Tahap kedua data wrangling adalah data cleansing (pembersihan). Di tahap ini data dibersihkan dari noise, missing, atau erroneous elements (gangguan, kosong, kesalahan). Proses ini bisa jadi memakan waktu cukup lama mengingat jumlah data dapat mencapai puluhan atau ratusan ribu data.

Tahap ketiga dari data wrangling adalah Consolidating (penggabungan), Matching (pencocokan), dan Filtering (penyaringan). Consolidating merupakan penggabungan data dari berbagai sumber menjadi satu kesatuan data yang koheren. Misal, menggabungkan data penjualan dari berbagai outlet se-Jakarta.

Matching merupakan pencocokan data dengan kumpulan data yang ada sebelumnya. Misalnya, data pengguna suatu situs web tahun 2021, disatukan dengan data pengguna kumulatif. Adapun filtering, ia mencakup proses pemakaian filter pada data melalui pengaturan tertentu.

Contoh perspektif lain dari proses kerja data wrangling adalah discovery, structuring, cleaning, enriching, dan validating. Proses ini dapat Anda pelajari lebih lanjut di sini.

Perangkat Lunak untuk Data wrangling

Terdapat banyak perangkat lunak yang dapat digunakan untuk membantu proses data wrangling. Namun, artikel ini hanya mencantumkan beberapa perangkat lunak yang paling umum digunakan untuk proses data wrangling. Di antaranya Anda dapat mempertimbangkan Excel Power Query / Spreadsheets, OpenRefine, Google DataPrep, Tabula, DataWrangler, dan CSVKit.

Selain itu, Anda juga dapat menggunakan Python atau R, apabila ada kebutuhan untuk melakukan data wrangling yang lebih kompleks. Beberapa pustaka Python untuk data wrangling adalah Numpy, Pandas, Matplotlib, Plotly, dan Theano. Sementara di R Anda dapat mempertimbangkan Dplyr, Purrr, Splitstackshape, dan Magrittr.

Kesimpulan

Proses data wrangling adalah proses esensial untuk mempermudah kerja Data Scientist. Automasi data wrangling membantu data scientist memproses lebih banyak data dengan waktu lebih singkat dan efisien.

Data wrangling juga memungkinkan hasil analisis lebih akurat, valid, dan reliabel, yang pada akhirnya akan membantu perusahaan menetapkan pengembangan yang akurat.

Referensi

Andre, L. (2021, June 15). 53 important statistics about how much data is created every day. Financesonline.com. https://financesonline.com/how-much-data-is-created-every-day/

Bushkovskyi, O. (2019, January 24). What is data wrangling (Data Munging)? (+16 tools). theappsolutions.com. https://theappsolutions.com/blog/development/data-wrangling-guide-to-data-preparation/

From data Munging to data wrangling. (2021, September 21). Trifacta. https://www.trifacta.com/data-munging/

Holst, A. (2021, June 7). Total data volume worldwide 2010-2025. Statista. https://www.statista.com/statistics/871513/worldwide-data-created/

Stobierski, T. (2021, January 19). Data wrangling: What it is & why it’s important. Harvard Business School Online. https://online.hbs.edu/blog/post/data-wrangling

Todd, S. (2020, November 2). Data wrangling vs. data cleaning: What’s the difference? Inzata Analytics. https://www.inzata.com/data-wrangling-vs-data-cleaning-whats-the-difference/

What is data wrangling and what are the steps? (n.d.). Altair.com. https://www.altair.com/what-is-data-wrangling/

 

Penulis: Muhammad Ihsan

Editor: M. Wahyu Hidayat