data cleaning: tahap kritis yang sering diremehkan, padahal menentukan akurasi analisis

Surabaya, Februari 2026 – Banyak orang mengenal data science lewat hal-hal yang terlihat keren: machine learning, dashboard interaktif, atau model prediksi yang “katanya” akurat. Padahal, sebelum semua itu bekerja, ada satu tahap yang diam-diam menjadi penentu kualitas hasil: data cleaning.

Sederhananya, data cleaning adalah proses menyiapkan data agar layak dianalisis. Bukan cuma “hapus data jelek”, tetapi memastikan dataset punya struktur yang rapi, nilai yang konsisten, dan tidak menipu saat dibaca oleh manusia maupun model. Karena satu hal yang sering luput: model yang bagus tidak bisa mengalahkan data yang buruk.

Kenapa Data Cleaning Penting

Di dunia nyata, data jarang datang dalam kondisi sempurna. Data bisa berasal dari form yang diisi manusia, sensor yang error, sistem yang berbeda-beda, atau gabungan beberapa sumber. Akibatnya, dataset sering berisi:

nilai kosong atau tidak terisi
format yang tidak konsisten
duplikasi data
salah ketik atau salah kategori
outlier yang ekstrem
perbedaan skala atau satuan

Kalau masalah ini dibiarkan, hasil analisis bisa bias, model bisa belajar pola yang salah, dan keputusan bisnis bisa meleset. Dalam konteks akademik, insight yang ditulis pun bisa terlihat “benar” di angka, tapi salah secara realita.

Apa Saja yang Dilakukan dalam Data Cleaning

Berikut komponen utama data cleaning yang paling sering ditemui.

1. Menangani Missing Values

Missing values atau nilai yang hilang adalah salah satu masalah paling umum. Dampaknya tidak kecil, karena banyak algoritma gagal membaca nilai kosong atau akan menghasilkan perhitungan yang tidak akurat.

Beberapa strategi yang biasanya dipakai:

Menghapus baris atau kolom tertentu jika jumlah nilai kosong kecil atau kolomnya tidak penting
Imputasi sederhana seperti mengisi dengan mean, median, atau modus
Imputasi berbasis model untuk memperkirakan nilai yang hilang berdasarkan pola variabel lain
Membuat kategori khusus seperti “Unknown” pada data kategorikal jika konteksnya masuk akal

Kuncinya adalah memahami: nilai hilang itu terjadi karena apa? Karena memang tidak relevan, karena kesalahan input, atau karena proses pengumpulan data yang tidak konsisten.

2. Mendeteksi dan Menangani Outlier

Outlier adalah nilai yang jauh berbeda dari mayoritas data. Misalnya, penghasilan 10 juta di antara data rata-rata 3 juta masih wajar, tetapi 1 miliar mungkin perlu dicek.

Yang penting: outlier tidak selalu salah. Terkadang itu adalah kejadian langka yang justru penting untuk analisis, misalnya fraud, lonjakan trafik, atau kasus ekstrem dalam kesehatan.

Pilihan tindakan yang umum:

verifikasi ulang sumber datanya
melakukan transformasi, misalnya log transform untuk data yang sangat timpang
melakukan winsorizing atau clipping pada batas tertentu
menghapus hanya jika terbukti error atau tidak valid

3. Menyamakan Format dan Konsistensi

Ini bagian yang kelihatannya sepele, tapi bisa bikin model “bingung”.

Contoh masalah:

penulisan kategori tidak konsisten: “Laki-laki”, “L”, “male”, “Pria”
format tanggal campur: DD-MM-YYYY dan YYYY-MM-DD
satuan berbeda: cm versus inci, kg versus lb
angka terbaca sebagai teks karena ada koma atau simbol tertentu

Solusinya adalah standarisasi: membuat format tunggal dan aturan penulisan yang konsisten.

4. Menghapus Duplikasi

Duplikasi data bisa membuat dataset “terlihat banyak”, padahal isinya mengulang. Ini berbahaya karena bisa menimbulkan bias.

Duplikasi bisa berupa:

baris yang benar-benar sama
data yang sama tapi beda penulisan sedikit
entri ganda dari sistem berbeda saat proses penggabungan data

Menghapus duplikasi membuat dataset lebih representatif dan mempercepat proses training model.

5. Normalisasi dan Standarisasi Skala

Beberapa algoritma sensitif terhadap skala, terutama yang berbasis jarak atau gradien. Jika satu fitur bernilai 0–1 dan fitur lain 0–1.000.000, fitur besar akan “mendominasi”.

Dua teknik yang umum:

Normalisasi: mengubah rentang data menjadi 0 sampai 1
Standarisasi: membuat mean 0 dan standar deviasi 1

Pemilihan teknik tergantung jenis model dan distribusi datanya.

Dampak Nyata Data Cleaning

Ketika data cleaning dilakukan dengan benar, manfaatnya terasa langsung:

analisis lebih akurat dan minim bias
model machine learning lebih stabil dan bisa digeneralisasi
interpretasi hasil lebih mudah dipahami
workflow tim lebih efisien karena mengurangi perbaikan di akhir
keputusan berbasis data lebih dapat dipertanggungjawabkan

Bahkan di banyak proyek, porsi waktu terbesar memang sering jatuh ke data cleaning. Bukan karena data scientist “lambat”, tetapi karena kerja data yang benar itu dimulai dari fondasinya.

Data cleaning memang tidak se-viral machine learning, tapi ia adalah tahap yang menentukan apakah analisis kamu layak dipercaya atau tidak. Algoritma tercanggih tidak akan menghasilkan insight yang bernilai jika input datanya berantakan. Jadi kalau ingin hasil data science yang kuat, mulailah dari satu kebiasaan penting: bersihkan data dengan serius, sebelum menyimpulkan apa pun.

Penulis: Fujiyama / Foto: Dokumentasi Public Relations

Data Cleaning: Tahap Kritis yang Sering Diremehkan, Padahal Menentukan Akurasi Analisis