`

Data Wrangling Adalah Langkah Penting di Data Science, Mengapa?

Data wrangling adalah sebuah proses yang tidak dapat dilepaskan dari Data Science. Dengan banyaknya data yang tersedia di internet, data scientist harus mengolah data mentah menjadi data yang dapat dianalisis dengan mudah.

Menurut sebuah laporan, pada tahun 2021 pengguna layanan berbasis internet menghasilkan data sebesar 74 zettabyte dalam setahun. Data sebesar ini akan terus meningkat seiring pertambahan pengguna dan digitalisasi di bermacam aspek hidup manusia.

Statista memprediksi, pada tahun 2022 pengguna akan menghasilkan 94 zettabyte. Prediksi ini terus meningkat hingga tahun 2025 yang mencapai 463 zettabyte (2020: 64 zb; 2021: 74 zb; 2022: 94 zb; 2023: 118 zb; 2024: 149 zb; 2025: 463 zb).

Jumlah produksi dan konsumsi data ini tentu merupakan potensi bagi Data Scientist untuk menyelami kedalaman Big Data. Namun, salah satu isu di lapangan adalah sebagian besar data bersifat tidak terstruktur. Mengatasi hal ini, data wrangling adalah salah satu metode yang data scientist gunakan untuk membantu proses kerja mereka.

Data wrangling

Merujuk pada artikel lainnya mengenai data science, data wrangling adalah bagian dari tahap maintain dari life cycle of data science. Jika Anda familiar dengan kerangka kerja OSEMN, data wrangling termasuk ke dalam pada tahap Scrubbing. 

Pada umumnya, terdapat beberapa istilah yang merujuk pada proses ini, yaitu data wrangling, data munging, atau data remediation. Data wrangling adalah proses mengubah data mentah ke dalam format yang lebih mudah diolah. 

Proses data wrangling (akan dijabarkan selanjutnya) mencakup beberapa langkah, seperti menggabungkan beberapa sumber data (merging), mengidentifikasi dan menangani missing value.

Situasi yang memerlukan Data wrangling

Seperti yang sudah dibahas sebelumnya, data lake yang diperoleh dari big data bersifat tidak terstruktur. Terlebih lagi, data ini berjumlah sangat banyak, sehingga tidak efisien apabila proses filtering dilakukan secara manual. Dalam menangani kumpulan data sangat besar, proses data wrangling secara otomatis akan memudahkan Data Scientist

Perlu diketahui, data wrangling adalah proses yang menuntut dan memakan waktu, baik dari sisi kapasitas komputasi maupun sumber daya manusia. Bahkan dapat dikatakan, proses data wrangling merupakan separuh beban kerja dari seluruh tahap kerja data science.

Proses Data wrangling

Terdapat banyak perspektif mengenai proses data wrangling. Perbedaan proses ini bergantung pada jenis data dan kebutuhan analisis. Pada artikel ini, akan disajikan proses data wrangling yang paling sederhana. 

Data wrangling adalah proses yang terbagi menjadi tiga tahap besar:

  1. Mengambil data dari berbagai sumber dan mengumpulkan data.
  2. Membersihkan data.
  3. Menggabungkan data sesuai dengan kebutuhan analisis.

Tahap pertama data wrangling adalah Preprocessing (praproses) dan Standardizing (standarisasi). Preprocessing merupakan ekstraksi data kemudian dikumpulkan dalam satu lokasi, sementara standardizing merupakan penyamaan format data, agar mudah dipahami. Data hasil ekstraksi dapat memiliki format informasi yang berbeda dengan yang dibutuhkan.

Tahap kedua data wrangling adalah data cleansing (pembersihan). Di tahap ini data dibersihkan dari noise, missing, atau erroneous elements (gangguan, kosong, kesalahan). Proses ini bisa jadi memakan waktu cukup lama mengingat jumlah data dapat mencapai puluhan atau ratusan ribu data.

Tahap ketiga dari data wrangling adalah Consolidating (penggabungan), Matching (pencocokan), dan Filtering (penyaringan). Consolidating merupakan penggabungan data dari berbagai sumber menjadi satu kesatuan data yang koheren. Misal, menggabungkan data penjualan dari berbagai outlet se-Jakarta.

Matching merupakan pencocokan data dengan kumpulan data yang ada sebelumnya. Misalnya, data pengguna suatu situs web tahun 2021, disatukan dengan data pengguna kumulatif. Adapun filtering, ia mencakup proses pemakaian filter pada data melalui pengaturan tertentu.

Contoh perspektif lain dari proses kerja data wrangling adalah discovery, structuring, cleaning, enriching, dan validating. Proses ini dapat Anda pelajari lebih lanjut di sini.

Perangkat Lunak untuk Data wrangling

Terdapat banyak perangkat lunak yang dapat digunakan untuk membantu proses data wrangling. Namun, artikel ini hanya mencantumkan beberapa perangkat lunak yang paling umum digunakan untuk proses data wrangling. Di antaranya Anda dapat mempertimbangkan Excel Power Query / Spreadsheets, OpenRefine, Google DataPrep, Tabula, DataWrangler, dan CSVKit.

Selain itu, Anda juga dapat menggunakan Python atau R, apabila ada kebutuhan untuk melakukan data wrangling yang lebih kompleks. Beberapa pustaka Python untuk data wrangling adalah Numpy, Pandas, Matplotlib, Plotly, dan Theano. Sementara di R Anda dapat mempertimbangkan Dplyr, Purrr, Splitstackshape, dan Magrittr.

Kesimpulan

Proses data wrangling adalah proses esensial untuk mempermudah kerja Data Scientist. Automasi data wrangling membantu data scientist memproses lebih banyak data dengan waktu lebih singkat dan efisien.

Data wrangling juga memungkinkan hasil analisis lebih akurat, valid, dan reliabel, yang pada akhirnya akan membantu perusahaan menetapkan pengembangan yang akurat.

Referensi

Andre, L. (2021, June 15). 53 important statistics about how much data is created every day. Financesonline.com. https://financesonline.com/how-much-data-is-created-every-day/

Bushkovskyi, O. (2019, January 24). What is data wrangling (Data Munging)? (+16 tools). theappsolutions.com. https://theappsolutions.com/blog/development/data-wrangling-guide-to-data-preparation/

From data Munging to data wrangling. (2021, September 21). Trifacta. https://www.trifacta.com/data-munging/

Holst, A. (2021, June 7). Total data volume worldwide 2010-2025. Statista. https://www.statista.com/statistics/871513/worldwide-data-created/

Stobierski, T. (2021, January 19). Data wrangling: What it is & why it’s important. Harvard Business School Online. https://online.hbs.edu/blog/post/data-wrangling

Todd, S. (2020, November 2). Data wrangling vs. data cleaning: What’s the difference? Inzata Analytics. https://www.inzata.com/data-wrangling-vs-data-cleaning-whats-the-difference/

What is data wrangling and what are the steps? (n.d.). Altair.com. https://www.altair.com/what-is-data-wrangling/

 

Penulis: Muhammad Ihsan

Editor: M. Wahyu Hidayat