Data Wrangling Adalah Langkah Penting di Data Science, Mengapa?

No comments yet

Data wrangling adalah sebuah proses yang tidak dapat dilepaskan dari Data Science. Dengan banyaknya data yang tersedia di internet, data scientist harus mengolah data mentah menjadi data yang dapat dianalisis dengan mudah.

Menurut sebuah laporan, pada tahun 2021 pengguna layanan berbasis internet menghasilkan data sebesar 74 zettabyte dalam setahun. Data sebesar ini akan terus meningkat seiring pertambahan pengguna dan digitalisasi di bermacam aspek hidup manusia.

Statista memprediksi, pada tahun 2022 pengguna akan menghasilkan 94 zettabyte. Prediksi ini terus meningkat hingga tahun 2025 yang mencapai 463 zettabyte (2020: 64 zb; 2021: 74 zb; 2022: 94 zb; 2023: 118 zb; 2024: 149 zb; 2025: 463 zb).

Jumlah produksi dan konsumsi data ini tentu merupakan potensi bagi Data Scientist untuk menyelami kedalaman Big Data. Namun, salah satu isu di lapangan adalah sebagian besar data bersifat tidak terstruktur. Mengatasi hal ini, data wrangling adalah salah satu metode yang data scientist gunakan untuk membantu proses kerja mereka.

Data wrangling

Merujuk pada artikel lainnya mengenai data science, data wrangling adalah bagian dari tahap maintain dari life cycle of data science. Jika Anda familiar dengan kerangka kerja OSEMN, data wrangling termasuk ke dalam pada tahap Scrubbing. 

Pada umumnya, terdapat beberapa istilah yang merujuk pada proses ini, yaitu data wrangling, data munging, atau data remediation. Data wrangling adalah proses mengubah data mentah ke dalam format yang lebih mudah diolah. 

Proses data wrangling (akan dijabarkan selanjutnya) mencakup beberapa langkah, seperti menggabungkan beberapa sumber data (merging), mengidentifikasi dan menangani missing value.

Situasi yang memerlukan Data wrangling

Seperti yang sudah dibahas sebelumnya, data lake yang diperoleh dari big data bersifat tidak terstruktur. Terlebih lagi, data ini berjumlah sangat banyak, sehingga tidak efisien apabila proses filtering dilakukan secara manual. Dalam menangani kumpulan data sangat besar, proses data wrangling secara otomatis akan memudahkan Data Scientist

Perlu diketahui, data wrangling adalah proses yang menuntut dan memakan waktu, baik dari sisi kapasitas komputasi maupun sumber daya manusia. Bahkan dapat dikatakan, proses data wrangling merupakan separuh beban kerja dari seluruh tahap kerja data science.

Proses Data wrangling

Terdapat banyak perspektif mengenai proses data wrangling. Perbedaan proses ini bergantung pada jenis data dan kebutuhan analisis. Pada artikel ini, akan disajikan proses data wrangling yang paling sederhana. 

Data wrangling adalah proses yang terbagi menjadi tiga tahap besar:

  1. Mengambil data dari berbagai sumber dan mengumpulkan data.
  2. Membersihkan data.
  3. Menggabungkan data sesuai dengan kebutuhan analisis.

Tahap pertama data wrangling adalah Preprocessing (praproses) dan Standardizing (standarisasi). Preprocessing merupakan ekstraksi data kemudian dikumpulkan dalam satu lokasi, sementara standardizing merupakan penyamaan format data, agar mudah dipahami. Data hasil ekstraksi dapat memiliki format informasi yang berbeda dengan yang dibutuhkan.

Tahap kedua data wrangling adalah data cleansing (pembersihan). Di tahap ini data dibersihkan dari noise, missing, atau erroneous elements (gangguan, kosong, kesalahan). Proses ini bisa jadi memakan waktu cukup lama mengingat jumlah data dapat mencapai puluhan atau ratusan ribu data.

Tahap ketiga dari data wrangling adalah Consolidating (penggabungan), Matching (pencocokan), dan Filtering (penyaringan). Consolidating merupakan penggabungan data dari berbagai sumber menjadi satu kesatuan data yang koheren. Misal, menggabungkan data penjualan dari berbagai outlet se-Jakarta.

Matching merupakan pencocokan data dengan kumpulan data yang ada sebelumnya. Misalnya, data pengguna suatu situs web tahun 2021, disatukan dengan data pengguna kumulatif. Adapun filtering, ia mencakup proses pemakaian filter pada data melalui pengaturan tertentu.

Contoh perspektif lain dari proses kerja data wrangling adalah discovery, structuring, cleaning, enriching, dan validating. Proses ini dapat Anda pelajari lebih lanjut di sini.

Perangkat Lunak untuk Data wrangling

Terdapat banyak perangkat lunak yang dapat digunakan untuk membantu proses data wrangling. Namun, artikel ini hanya mencantumkan beberapa perangkat lunak yang paling umum digunakan untuk proses data wrangling. Di antaranya Anda dapat mempertimbangkan Excel Power Query / Spreadsheets, OpenRefine, Google DataPrep, Tabula, DataWrangler, dan CSVKit.

Selain itu, Anda juga dapat menggunakan Python atau R, apabila ada kebutuhan untuk melakukan data wrangling yang lebih kompleks. Beberapa pustaka Python untuk data wrangling adalah Numpy, Pandas, Matplotlib, Plotly, dan Theano. Sementara di R Anda dapat mempertimbangkan Dplyr, Purrr, Splitstackshape, dan Magrittr.

Kesimpulan

Proses data wrangling adalah proses esensial untuk mempermudah kerja Data Scientist. Automasi data wrangling membantu data scientist memproses lebih banyak data dengan waktu lebih singkat dan efisien.

Data wrangling juga memungkinkan hasil analisis lebih akurat, valid, dan reliabel, yang pada akhirnya akan membantu perusahaan menetapkan pengembangan yang akurat.

Referensi

Andre, L. (2021, June 15). 53 important statistics about how much data is created every day. Financesonline.com. https://financesonline.com/how-much-data-is-created-every-day/

Bushkovskyi, O. (2019, January 24). What is data wrangling (Data Munging)? (+16 tools). theappsolutions.com. https://theappsolutions.com/blog/development/data-wrangling-guide-to-data-preparation/

From data Munging to data wrangling. (2021, September 21). Trifacta. https://www.trifacta.com/data-munging/

Holst, A. (2021, June 7). Total data volume worldwide 2010-2025. Statista. https://www.statista.com/statistics/871513/worldwide-data-created/

Stobierski, T. (2021, January 19). Data wrangling: What it is & why it’s important. Harvard Business School Online. https://online.hbs.edu/blog/post/data-wrangling

Todd, S. (2020, November 2). Data wrangling vs. data cleaning: What’s the difference? Inzata Analytics. https://www.inzata.com/data-wrangling-vs-data-cleaning-whats-the-difference/

What is data wrangling and what are the steps? (n.d.). Altair.com. https://www.altair.com/what-is-data-wrangling/

 

Penulis: Muhammad Ihsan

Editor: M. Wahyu Hidayat

Analytics untuk Menggali Wawasan Penting dari Data

No comments yet

Transformasi digital menjadi langkah penting bagi organisasi dan perusahaan modern untuk mencapai target bisnis masing-masing. Berbagai teknologi seperti kecerdasan buatan dapat bermanfaat untuk merespons banyaknya informasi dan data. Apabila Anda bekerja di bidang usaha yang memanfaatkan teknologi dan melibatkan data dalam volume sangat besar, penting untuk memahami analytics.

Pengertian analytics

Secara sederhana, analytics dapat dipahami sebagai proses untuk menemukan dan mengomunikasikan pola-pola bermakna dari data. Ini berkaitan dengan mengubah data mentah menjadi wawasan untuk mengambil keputusan. Berkat analytics, perusahaan atau organisasi bisa mendapatkan wawasan berarti yang tersembunyi di dalam data. Ini adalah sesuatu yang dapat dimanfaatkan oleh setiap pemimpin, manajer, atau pelaku bisnis, terutama di industri berbasis data saat ini. Menariknya, ia tidak hanya dapat berperan penting di industri, tetapi juga bisa berkontribusi pada sains, perawatan kesehatan, dan bidang lainnya di mana sejumlah besar data dihasilkan.

Analytics, yang juga dapat disebut sebagai data analytics, terdiri empat jenis, yaitu (1) analytics deskriptif, (2) analytics diagnostik, (3) analytics prediktif, dan (4) analytics preskriptif. 

Deskriptif

Pertama, ia dapat memberikan wawasan dengan menyajikan rangkuman secara deskriptif berdasarkan data yang dianalisis.

Diagnostik

Kedua, untuk membantu menjawab pertanyaan tentang mengapa suatu fenomena terjadi dengan melengkapi analitik deskriptif.

Prediktif

Ketiga, untuk menjawab pertanyaan tentang apa yang akan terjadi di masa depan. Ia menganalisis data historis untuk mengidentifikasi tren dan menentukan apakah tren itu cenderung berulang.

Preskriptif

Terakhir, untuk membantu menjawab pertanyaan tentang apa yang harus dilakukan dengan menggunakan wawasan dari analytics prediktif. Dengan demikian, keputusan berdasarkan data dapat diambil.

Kegunaan analytics

Analytics dapat diterapkan di berbagai sektor yang menggunakan data untuk pengambilan keputusan. Namun, analytics berkontribusi signifikan pada bidang bisnis karena mampu merangkum informasi penting dari data dalam volume besar. Di bidang bisnis, analytics memiliki empat kegunaan. 

Pertama, mengumpulkan, menggabungkan, dan menganalisis data akan memberi wawasan mendalam tentang perilaku pelanggan. Selain itu, ia juga memberikan pemahaman berharga tentang pengembangan produk dan menjawab pertanyaan kunci seperti fitur mana yang mendorong penjualan.

Kedua, memungkinkan pemimpin bisnis mengidentifikasi tren dan pola tertentu untuk pengambilan keputusan. Ini dapat mendorong kinerja operasional optimal dan berpotensi memangkas biaya.

Ketiga, membantu perusahaan mengidentifikasi aktivitas mencurigakan atau berbahaya tepat waktu. Ini dapat mengurangi potensi kerugian.

Terakhir, menjadi alat dasar dalam memahami keinginan dan kebutuhan audiens target bisnis. Dengan demikian, pebisnis dapat berfokus pada pengembangan produk dan layanan yang mendorong pertumbuhan dan membangun loyalitas pelanggan.

Kesimpulan

Secara garis besar, analytics merupakan instrumen penting di era big data seperti saat ini. Ia dapat dimanfaatkan untuk menggali wawasan penting dari data untuk pengambilan keputusan secara efektif. 

 

Writer: Leon Aruan

Editor: M. Wahyu Hidayat

Machine Learning Adalah Subdomain Artificial Intelligence, Apa Saja Jenisnya?

No comments yet

Machine learning adalah subdomain artificial intelligence yang terus berkembang memenuhi bermacam aspek kehidupan manusia. Aplikasi machine learning dapat dilihat langsung dari munculnya fitur-fitur teknologi termutakhir – seperti rekomendasi konten di Netflix, pendeteksi suara oleh Siri, penerjemah oleh Google Translate dan sebagainya. 

Laporan di penghujung tahun 2021 menunjukan bahwa implementasi machine learning adalah bagian esensial proses bisnis yang mampu meningkatkan berbagai indikator termasuk di antaranya produktivitas, efisiensi, dan keamanan. Peningkatan komponen efisiensi yang diperoleh misalnya, tersebar pada berbagai aspek: analisis bisnis (33%), keamanan (25%), penjualan & pemasaran (16%), layanan pelanggan (10%), dan lainnya (16%). 

Melihat tren dan manfaat yang diperoleh, sangat menarik untuk mengetahui lebih lanjut tentang apa itu machine learning serta kemampuannya dalam menyediakan tools yang dapat meningkatkan efisiensi kerja manusia di masa sekarang dan mendatang. 

Definisi Machine Learning

Perlu ada pengetahuan mendasar mengenai sebelum mengenal Machine Learning. Pertama, frasa “Learning” didefinisikan sebagai suatu proses, dengan arti “untuk mendapatkan pengetahuan, pemahaman, atau keterampilan” dan “modifikasi kecenderungan perilaku dengan pengalaman”. 

Selanjutnya “Machine” secara umum diartikan sebagai sistem yang dapat mengubah dan merespons struktur, program, atau data berdasarkan input sehingga mampu mengoptimalkan kinerja. 

Sehingga, Machine learning adalah bentuk perubahan dalam sistem yang melibatkan pengenalan, diagnosis, perencanaan, kontrol, dan prediksi untuk mencapai sistem baru yang lebih optimal. Acuan machine learning adalah kemampuan sistem untuk mengintegrasikan pengetahuan melalui pengamatan skala besar, sehingga menghasilkan pengetahuan baru.

Pada praktiknya, Machine learning adalah ilmu multidisiplin yang berintikan ilmu komputer, matematika, dan statistik. Subjek terkait Machine Learning yaitu Artificial Intelligence (AI), data mining, deep learning, data science, natural language processing  dan sebagainya. 

Namun secara umum, machine learning adalah subdomain artificial intelligence yang mampu mengoptimalkan prediksi hasil tanpa diprogram secara eksplisit. Domain machine learning mampu menyelesaikan masalah berdasarkan pengalaman dan data yang ada. 

Seperti halnya kognisi manusia, kinerja machine learning adalah hasil pembelajaran dan pelatihan untuk memecahkan masalah berdasarkan pola terdahulu. Dari logika ini, hasil pembelajaran mampu diproses oleh machine learning sebagai tools baru yang dapat memecahkan berbagai masalah dengan mengungkap pola yang sudah digeneralisasi. 

Sebagai tambahan, machine learning adalah sistem yang memiliki kemampuan untuk menyesuaikan bentuk fungsional dari struktur yang kompleks dan fleksibel ke dalam data. 

Dari sisi proses, machine learning adalah sistem yang dapat digunakan untuk memprediksi masa depan berdasarkan data dan pengalaman masa lalu, dilihat dari proses berdasarkan pengamatan data dari pengalaman atau instruksi langsung. Setelah itu, mesin mampu melakukan tugas kompleks dan dinamis, serta memprediksi secara lebih akurat. Ia juga akan bereaksi dalam situasi berbeda dan berperilaku cerdas sesuai keadaan. 

Machine learning mendorong kompetensi mesin untuk belajar tanpa harus diprogram. Proses pembelajaran ini disebut sebagai training model, di mana setelah melatih model, mesin mampu menggeneralisasi data baru, dilanjutkan dengan generasi korelasi dan prediksi sehingga diperoleh penyelesaian tugas sesuai tujuan. 

Pada praktiknya, pendekatan yang digunakan machine learning adalah supervised learning, unsupervised learning, semi-supervised learning, dan reinforcement learning. Jenis algoritma yang dipilih bergantung pada jenis data yang ingin diprediksi.

Supervised learning

Data scientist menyediakan algoritma dengan set data pelatihan berlabel, yaitu dengan input dan output dari algoritma yang sudah ditentukan.

Unsupervised learning

Data scientist melatih set data yang tidak berlabel, yaitu terdiri dari input dengan output yang belum ditetapkan. Algoritma akan memindai kumpulan data untuk mencari koneksi diantaranya. 

Semi-Supervised Learning: 

Pemodelan machine learning ini merupakan kombinasi dua jenis di atas. Data scientist dapat memberi algoritma dari data training berlabel. Namun, modelnya bebas untuk mengeksplorasi dan mengembangkan pemahamannya sendiri tentang kumpulan data.

Reinforcement Learning 

Data scientist menggunakan jenis ini untuk menyelesaikan masalah pengambilan keputusan berurutan atau proses multi-step berdasarkan umpan balik dari lingkungan. Mereka memprogram algoritma untuk menyelesaikan tugas dan memberikannya isyarat positif atau negatif saat berhasil menyelesaikan tugas. Namun, sebagian besar algoritma dapat memutuskan sendiri langkah apa yang harus diambil.

Tren perkembangan machine learning yang pesat ini tidak lepas dari manfaat yang ditawarkan. Secara umum, kegunaan rangkaian algoritma machine learning adalah:

  1. mengumpulkan pemahaman tentang fenomena yang menghasilkan data,
  2. mengabstraksi pemahaman fenomena yang mendasarinya dalam bentuk mode
  3. memprediksi nilai masa depan fenomena menggunakan model yang dihasilkan; dan 
  4. mendeteksi perilaku anomali yang ditunjukkan oleh fenomena yang diamati.

Dari berbagai manfaat yang ada, dua aspek penting yang mendorong urgensi penggunaan machine learning adalah kompleksitas masalah dan kebutuhan akan adaptasi. Kompleksitas masalah yang dimaksud dalam machine learning adalah kemampuannya untuk belajar mendeteksi pola yang bermakna dari kumpulan data kompleks. Oleh karena itu, ia sangat menjanjikan untuk membuka peluang manfaat baru. 

Kesimpulan

Machine learning bukan hanya tentang kemajuan teknologi, namun juga tentang bagaimana manusia dan efisiensi akan terlihat pada waktu mendatang. Forbes mengungkapkan perkembangan pesat machine learning beberapa tahun terakhir sejak 2020 dan akan terus meluaskan fokus pengembangannya hingga satu dekade kedepan. 
Saat ini, penggunaan machine learning adalah kebutuhan berbagai aspek kehidupan manusia dan akan terus menjadi tren di masa mendatang. Dengan melihat berbagai urgensi, manfaat, hingga tren perkembangan yang ada, machine learning merupakan peluang menjanjikan. Ia juga akan terus menumbuhkan eksistensinya dalam dunia teknologi informasi.

 

Penulis: Alivia Rayneta Yuni

Editor: Sigit Suryo, Ghifari Adam

Mengenal Internet of Things

No comments yet

Internet of Things (IoT) mendukung kemajuan pesat teknologi berkat inovasinya dalam menghubungkan beberapa perangkat fisik portabel melalui Internet dan digital. Terminologi Internet of Things diperkenalkan pada tahun 1999 oleh teknolog Inggris Kevin Ashton sebagai jaringan yang tidak hanya menghubungkan orang, tetapi juga objek di sekitar mereka. Pada masa itu, banyak orang beranggapan bahwa teknologi ini hanya sekadar fiksi ilmiah. Namun, saat ini Internet of Things menjadi teknologi canggih nyata yang mampu memudahkan aktivitas manusia di tengah perkembangan masyarakat digital. 

Apa itu Internet of Things?

Global System for Mobile Communications Association mendefinisikan IoT sebagai perangkat atau sistem yang terhubung secara cerdas untuk memanfaatkan data yang dikumpulkan oleh sensor. Teknologi ini menghubungkan berbagai perangkat fisik melalui internet, sehingga memungkinkan mereka untuk berbagi informasi dan jaringan. 

Automasi dan konvergensi IoT sangat potensial dalam meningkatkan kualitas hidup masyarakat konsumen dan produktivitas perusahaan, mengingat tujuan utamanya adalah menciptakan perangkat yang bisa menghubungkan objek, kapan saja dan di mana saja.

Karakteristik Internet of Things

Setelah mengenal tentang apa itu Internet of Things, selanjutnya perlu diketahui karakteristik yang mencirikan IoT sendiri. Berikut terdapat lima karakteristik IoT mengutip dari riset Patel dkk. (2016).

  1. Connectivity 

Konektivitas memungkinkan aksesibilitas dan kompatibilitas jaringan.

  1. Things-related services 

Internet of Things mampu mengkoneksikan perangkat fisik dengan perangkat virtual dengan berbagai batasan diantaranya.

  1. Heterogeneity 

Perangkat IoT dapat berinteraksi dengan perangkat lain melalui jaringan yang berbeda.

  1. Dynamic changes 

Keadaan perangkat dapat berubah secara dinamis: connected, disconnected, berganti lokasi, kecepatan sistem, dan sebagainya.

  1. Enormous scale 

Jumlah perangkat yang terhubung dikelola melalui data skala besar.

Penerapan Internet of Things di berbagai lingkup area

Potensi penerapan Internet of Things cukup beragam karena meresap ke hampir semua aspek kehidupan sehari-hari. Penerapan Internet of Things dapat mencakup berbagai area kehidupan, seperti tertuang dalam riset  “Internet of Things (IOT): Research Challenges and Future Applications”, yakni:

  1. Kota Pintar, mencakup sistem transportasi pintar, gedung pintar, pengelolaan sampah otomatis, pencahayaan pintar, parkir pintar, dan pemetaan kota. 
  2. Layanan Kesehatan, mencakup sistem pelacakan pasien, staf, dan objek, sistem identifikasi dan autentikasi, serta pengumpulan data dan penginderaan otomatis; 
  3. Pertanian Pintar, mencakup sistem pemeriksaan kelembapan tanah, pemantauan dan pengontrolan produk pertanian, serta pengaturan kondisi iklim mikro untuk memaksimalkan produksi dan kualitas produk.
  4. Ritel dan Logistik, mencakup pengamatan kondisi penyimpanan di seluruh rantai pasokan, pelacakan produk, serta pemrosesan pembayaran berdasarkan lokasi atau periode aktivitas.
  5. Rumah Pintar, mengintegrasikan teknologi ke sensor dan perangkat pintar seperti gateway broadband, ponsel, komputer, TV, kamera pengawas, dan lampu otomatis.

Tantangan penggunaan Internet of Things

Merefleksi dari karakteristik dan penerapan IoTThings, sangat penting bagi para teknolog untuk bisa memastikan keberhasilan sistem serta fungsinya. Menurut Hussein (2019), tantangan penggunaan Internet of Things terletak pada sisi privasi dan keamanan, sehingga dibutuhkan desain keamanan yang dapat melindungi data dan sistem secara efektif dan dari ujung ke ujung. Selain itu, pemrosesan, analisis, dan manajemen data juga perlu menjadi perhatian khusus di tengah karakteristik IoT yang heterogen dan mencakup data berskala besar.

Masa depan Internet of Things

Ketika Internet of Things terus berkembang, potensi penghubungan objek secara lebih sinergis akan meningkat dan membawa kemudahan bagi konsumen dan perusahaan. Survei memperkirakan total pasar IoT di seluruh dunia bernilai 389 miliar dolar AS pada tahun 2020, dan diprediksi akan meningkat menjadi lebih dari satu triliun dolar AS pada tahun 2030. Tidak hanya itu, jumlah perangkat yang terhubung dengan IoT diperkirakan juga akan tumbuh tiga kali lipat selama satu dekade tersebut. 

Seperti halnya bentuk inovasi teknologi lainnya, solusi penyempurnaan keberhasilan sistem dari IoT perlu menjadi perhatian. Implikasinya harus diselesaikan untuk memungkinkan adopsi massal sistem, sehingga IoT dapat terus memenuhi pencapaian beragam tujuan dan efisiensi.

 

Penulis: Alivia Rayneta Yuniar

Editor: Mochamad Wahyu Hidayat, C. Bagus Jati K.

Credit Scoring

No comments yet

The ability to distinguish the risks enables the ability to better manage them.

Credit risk is one of the major risks faced by banking and financial institutions which leads to the possibility of a loss resulting from a borrower’s failure to repay a loan or meet contractual obligations. In 2018, we piloted a Machine Learning Algorithm in the biggest microfinance institution that helped improve their credit decision.

The Challenge

Since this institution is a bank that specialized in micro credit and prone to high NPL since there is no system to accurately analyze the default risks for the unbankable market segment.

The Solution

As a pilot project, we developed a machine learning powered credit scoring system and psychometric scoring to capture ‘the unbankables’.

The Outcome:

  • Reduce credit failure by 50%.
  • Increase potential revenue by 10%.

Logistic Route Optimization

No comments yet

Time is money; timely distribution means cost-efficiency.

Choosing the most optimum route in the distribution process is critical for a logistic company. With one of the biggest logistic companies in Indonesia, we created a machine learning model aimed to improve this process and reduce inefficiency.

The Challenge

The delivery assignment process to the truck drivers in a big logistic company was done manually and takes approximately 6 hours per day. The delivery route is then determined by the drivers themselves using their knowledge which often leads to long delivery time due to traffic congestion.

The Solution

We developed an assignment management system with Vehicle Routing Problem (VRP) model to make delivery assignment more efficient as well as to estimate the distances of logistic route options and select the most optimal one.

The Outcome

  • Automate delivery assignment for 200 trucks and 140.000 customers
  • Reduce delivery total distance by 15%