Pertemuan 3: Data Preprocessing

🎯 Tujuan Pembelajaran

Setelah mengikuti pertemuan ini, mahasiswa mampu:

Memahami pentingnya preprocessing dalam pipeline machine learning
Menangani missing value secara tepat
Melakukan encoding data kategorikal
Melakukan feature scaling
Melakukan train-test split dengan benar
Memahami potensi data leakage

🧠 1. Mengapa Data Preprocessing Penting?

Dalam praktik nyata, data hampir tidak pernah bersih.
Masalah umum:

Missing value
Outlier
Data kategorikal
Skala fitur berbeda
Data tidak seimbang

Jika preprocessing salah → model:

Overfitting
Underfitting
Bias
Tidak stabil

Pipeline umum ML:

1	EDA → Preprocessing → Feature Engineering → Modeling → Evaluation

Preprocessing adalah fondasi sebelum modeling.

📊 2. Menangani Missing Value

🔎 Mengecek Missing Value

import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")

df.isnull().sum()

🛠 Strategi Penanganan Missing Value

1️⃣ Menghapus Data

1	df.dropna(inplace=True)

Digunakan jika:

Missing sangat sedikit
Tidak memengaruhi distribusi data

2️⃣ Imputasi Mean / Median

1	df["age"].fillna(df["age"].median(), inplace=True)

Digunakan untuk data numerik.

Mean → jika distribusi normal
Median → jika ada outlier

3️⃣ Imputasi Modus (Kategorikal)

1	df["embarked"].fillna(df["embarked"].mode()[0], inplace=True)

🔤 3. Encoding Data Kategorikal

Machine learning hanya menerima angka.

🎯 Label Encoding

Digunakan untuk kategori biner.

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df["sex"] = le.fit_transform(df["sex"])

Output:

male → 1
female → 0

🎯 One Hot Encoding

Digunakan untuk kategori > 2.

1	df = pd.get_dummies(df, columns=["embarked"], drop_first=True)

Kenapa drop_first=True? → Menghindari dummy variable trap (multicollinearity).

📏 4. Feature Scaling

Beberapa algoritma sensitif terhadap skala fitur:

KNN
SVM
Logistic Regression
Neural Network

Tidak sensitif:

Decision Tree
Random Forest

📌 Standardization (Z-score)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

numerical_cols = ["age", "fare"]
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

Formula:
z = \frac{x - \mu}{\sigma}

📌 Normalization (MinMaxScaler)

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

Range: 0 – 1

✂️ 5. Train-Test Split

Tujuan:

Menghindari overfitting
Mengukur performa model pada data baru

from sklearn.model_selection import train_test_split

X = df.drop("survived", axis=1)
y = df["survived"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

Artinya:

80% training
20% testing

⚠️ 6. Data Leakage (Konsep Penting!)

Kesalahan umum:
❌ Scaling sebelum train-test split
❌ Menggunakan seluruh data untuk imputasi

Yang benar:
Split dulu → Fit hanya di data training → Transform training & test

Contoh benar:

scaler = StandardScaler()

X_train[numerical_cols] = scaler.fit_transform(X_train[numerical_cols])
X_test[numerical_cols] = scaler.transform(X_test[numerical_cols])

🧪 Praktikum Lengkap (Ringkas)

import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

df = sns.load_dataset("titanic")

# Handle missing
df["age"].fillna(df["age"].median(), inplace=True)
df["embarked"].fillna(df["embarked"].mode()[0], inplace=True)

# Encoding
le = LabelEncoder()
df["sex"] = le.fit_transform(df["sex"])
df = pd.get_dummies(df, columns=["embarked"], drop_first=True)

# Split
X = df.drop("survived", axis=1)
y = df["survived"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Scaling
scaler = StandardScaler()
numerical_cols = ["age", "fare"]

X_train[numerical_cols] = scaler.fit_transform(X_train[numerical_cols])
X_test[numerical_cols] = scaler.transform(X_test[numerical_cols])

📝 Tugas Mandiri

Lakukan preprocessing lengkap pada dataset apapun di Kaggle.
Jelaskan:
- Mengapa encoding diperlukan?
- Mengapa scaling diperlukan?
- Apa itu data leakage?
Dokumentasikan dalam template: https://github.com/AzharRizkiZ/Template-DS-ML
Upload ke GitHub.

🎓 Target Kompetensi Setelah Pertemuan 3

Siswa mampu:

Menyiapkan dataset real untuk modeling
Menghindari kesalahan preprocessing
Memahami pipeline machine learning dasar