Pertemuan 2: Exploratory Data Analysis (EDA)

🎯 Tujuan Pembelajaran

Setelah mengikuti pertemuan ini, mahasiswa diharapkan mampu:

  • Memahami konsep dan tujuan Exploratory Data Analysis (EDA)
  • Membaca dan memahami struktur dataset
  • Mengidentifikasi missing value dan outlier
  • Membuat visualisasi data dasar
  • Mendokumentasikan hasil EDA dalam bentuk laporan

📘 Materi

1. Pengertian Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) adalah proses awal dalam analisis data untuk memahami:

  • Struktur data
  • Pola dan hubungan antar fitur
  • Anomali atau kesalahan data

EDA dilakukan sebelum preprocessing dan pemodelan machine learning.


2. Statistik Deskriptif

Statistik deskriptif digunakan untuk melihat gambaran umum dataset.

Beberapa fungsi penting di pandas:

  • head() dan tail()
  • info()
  • describe()

Statistik dasar yang perlu dipahami:

  • Mean (rata-rata)
  • Median
  • Minimum dan maksimum
  • Standar deviasi

3. Visualisasi Data

Visualisasi membantu memahami data secara intuitif.

Jenis visualisasi dasar:

  • Histogram → distribusi data
  • Boxplot → mendeteksi outlier
  • Scatterplot → hubungan antar fitur
  • Heatmap korelasi → hubungan antar fitur numerik

4. Permasalahan Umum pada Dataset

  • Missing value
  • Outlier
  • Distribusi tidak normal
  • Ketidakseimbangan data (imbalance)

🔧 Latihan Praktik

A. Import Library dan Dataset

1
2
3
4
5
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = sns.load_dataset("titanic")

B. Eksplorasi Awal Dataset

1
2
3
df.head()
df.info()
df.describe()

C. Visualisasi Data

1
2
3
4
5
6
7
8
9
10
11
# Histogram usia
sns.histplot(df["age"].dropna())
plt.show()

# Boxplot usia
sns.boxplot(x=df["age"])
plt.show()

# Heatmap korelasi
sns.heatmap(df.corr(numeric_only=True), annot=True)
plt.show()

Tugas Mandiri

  1. Lakukan Exploratory Data Analysis (EDA) pada dataset Titanic.
  2. Identifikasi:
    • Kolom yang memiliki missing value
    • Kolom yang memiliki outlier
  3. Buat minimal:
    • 1 histogram
    • 1 boxplot
    • 1 heatmap korelasi
  4. Buat laporan menggunakan template berikut:
    https://github.com/AzharRizkiZ/Template-DS-ML
  5. Upload notebook dan laporan ke GitHub.

Tugas Tambahan

  1. Ambil dataset bebas dari Kaggle.
  2. Lakukan EDA lengkap (statistik + visualisasi).
  3. Buat laporan menggunakan template yang sama.
  4. Upload hasil ke GitHub.

Referensi