Kang Nur


Suka main, njajan, dan data
Share: 

Diperbarui Jumat, 25 Agu 2023

Ditulis oleh Kang Nur

Life Cycle pada Proyek Data Analytics

Apa itu life cycle pada proyek data analytics?

Life cycle pada proyek data analytics adalah serangkaian tahapan atau langkah-langkah untuk mengelola data dari data berbentuk raw (data mentah) hingga siap diimplementasikan. Tujuannya untuk membantu data analyst memastikan proses analisis data berjalan secara sistematis dan efektif. Ada empat tahap yang akan dibahas disini, yaitu:

  1. Business Understanding

    Business understanding adalah pemahaman terhadap data, masalah yang ingin diselesaikan dan tujuan yang akan dicapai menggunakan analisis data. Biasanya pada tahap ini melibatkan seseorang yang memiliki domain expertise, yaitu seseorang yang telah memiliki pengetahuan mendalam pada bidang tertentu, contoh dalam bidang keuangan, kesehatan, manufaktur, energi, dll.

    Pada tahap ini pula data analyst sering berkomunikasi dengan business analyst yang menjadi jembatan antara sisi bisnis dan teknis untuk memastikan bahwa analisis data yang dilakukan benar-benar sesuai dengan goal bisnis dan memberikan nilai tambah. Mengapa begitu? dikarenakan business analyst memiliki pemahaman yang mendalam tentang kebutuhan bisnis, tujuan, masalah, proses, dll.

  2. ETL Pipeline

    Gambar 1. ETL Pipeline

    ETL merupakan singkatan dari Extract, Transform, dan Load yang mengacu pada serangkaian proses yang digunakan untuk mengambil data dari resources yang ada (extract), mengubahnya menjadi bentuk sesuai kebutuhan bisnis (transform) dan mengekspor ke penyimpanan data (load) untuk dilakukan analisis lebih lanjut. Berikut detailnya:

    1. Extract Data

      Tahap ini melibatkan pengambilan data dari berbagai resources yang tersedia. Ada banyak sekali resouces data yang bisa diambil seperti dari database, text file (CSV, TSV, JSON), API, cloud, data streaming, dll.

    2. Transform Data

      Tujuan tahap ini adalah untuk merubah bentuk atau format data sesuai kebutuhan bisnis, sering disebut data preparation, data preprocessing dan istilah lainnya. Banyak sekali sesuatu yang dilakukan ditahap ini, seperti:

      • Remove duplicate: Menghapus data yang serupa.

      • Remove irrelevant: Menghapus data yang tidak relevan pada kebutuhan bisnis.

      • Fix error: memperbaiki data jika terjadi kesalahan.

      • Fill missing values: Mengisi data yang hilang dengan metode tertentu.

      • Fix data types: Memperbaiki format data yang tidak sesuai.

    3. Load Data

      Setelah dilakukan transformasi data, kemudian data disimpan pada data department seperti data warehouse, data lake, cloud storage atau bahkan bisa langsung digunakan untuk pembuatan model pada machine learning

  3. Oh iya, tahap ETL Pipeline adalah tahap yang paling banyak menghabiskan waktu dan effort diperkirakan 70% dari proyek analisis data atau 2/3.

  1. Exploratory Data Analysis

    EDA atau Exploratory Data Analysis adalah tahap yang digunakan untuk mengeksplorasi, memahami, dan menggali informasi lebih dalam dari data. Tujuannya untuk mengidentifikasi distribusi data, menemukan pola dan korelasi, mendeteksi anomali, dan memilih metode analisis yang tepat.

    Sebagai contoh, seorang data analyst bekerja di sebuah e-commerce, dan mendapatkan pertanyaan seperti berikut:

    "Bagaimana pola pembelian pelanggan?"

    Untuk menjawab pertanyaan ini, data analyst menjawab dengan melakukan identifikasi pola pembelian pelanggan pada data transaksi. Setelah itu membuat visualisasi seperti histogram atau bar chart untuk melihat distribusi jumlah transaksi per pelanggan. Dari sini data analyst melihat pelanggan yang sering, jarang atau cuman sekali berbelanja.

  2. Conclusion

    Ini adalah tahap terakhir pada siklus proyek data analytics. Tahap ini adalah menggambarkan hasil akhir dari analisis data dan untuk menyampaikan insight kepada klien atau stackholder untuk mengarahkan tindakan selanjutnya. Jika seorang data analyst tidak dapat menyampaikan conclusion apapun, maka analisis data dianggap gagal atau tidak berguna. Berikut ringkasan pertanyaan untuk membuat sebuah conclusion.

    1. Apa temuan utama dari analisis data?

    2. Bagaimana hasil analisis data terhadap implikasi bisnis?

    3. Apa rekomendasi yang harus diambil untuk langkah-langkah selanjutnya?

    4. Apa saja batasan atau limitasi selama proses analisis data?

    5. Apakah sudah tepat menggunakan jenis visualisasi ?

Penutup

Dalam mengerjakan proyek analisis data, life cycle ini memberikan sebuah langkah yang efektif bagi seorang data analyst. Dan juga, seorang data analyst dapat membuat sebuah solusi untuk memecahkan masalah atau mencapai tujuan dengan sistematis, dari data didapat hingga disajikan.

Referensi :

  1. Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing, 5, 13-22.
  2. Kimball, Ralph et al. (2011). The Data Warehouse Lifecycle Toolkit, 2nd Edition. Wiley.
  3. Data, MIT. (2016). Secondary Analysis of Electronic Health Records. 10.1007/978-3-319-43742-2.
,