Statistika Lab Work 7

Data Preprocessing menggunakan Python

Data Preprocessing adalah sebuah tahapan awal dalam sebuah pengolahan data sebelum data diaplikasikan dengan algoritma machine learning. Data yang biasanya kita gunakan dalam kehidupan sehari — hari entah itu dari database, data excel dan sumber lainnya, merupakan data unstruktur (datanya tidak sempurna). Misalkan dalam sebuah dataset (kumpulan data) terdapat data yang kosong, tipe data yang berbeda dengan yang lain, dan sebagainya. Masalah tersebut harus bisa kita selesaikan terlebih dahulu agar data yang kita kelola lebih mudah dan outputnya sesuai dengan yang kita harapkan.

Terdapat beberapa case yang akan kita pelajari satu per satu, antara lain seperti:

  • Mengimport libraries
  • Mengimport dataset
  • Menangani data kosong di dataset
  • Mengolah data string menjadi kategori
  • Membagi dataset menjadi training dan test set
  • Feature Scaling

Informasi Dataset

Sumber Data: Kaggle Deskripsi: Memberikan informasi dari penumpang Titanic yang selamat dan tidak. Jumlah data: 1309 Jumlah atribut: 12 (termasuk class)

Terdiri dari:

  • PassengerId urutan nomor data dari penumpang
  • Survived: status selamat (0:meninggal, 1:selamat)
  • Pclass: kelas kamar dari penumpang (1: highclass, 2:midclass, 3:lowclass)
  • Name: nama penumpang
  • Sex: jenis kelamin penumpang (male, female)
  • Age: umur penumpang
  • SibSp: jumlah saudara kandung dan pasangan dari penumpang yang ada di kapal
  • Parch: jumlah orangtua dan anak dari penumpang
  • Ticket: kode tiket penumpang
  • Fare: ongkos tiket yang dibeli penumpang
  • Cabin: Kode kabin
  • Embarked: Kota keberangkatan penumpang (C:Cherbourg, Q:Queenstown, S:Southampton)

Modul

Download Modul 7

Dataset

Download Dataset

Written by

Azhar Rizki Zulma

I'm a Information System, Independent Developer, Publisher, Mountainer, Nature Lovers, Musician, Producer, and Blogger.