K-Means Algorithm Clustering

Dalam sistem klasifikasi, terdapat 2 jenis klasifikasi yaitu supervised classification dan unsupervised classification. Clustering dapat dianggap yang paling penting dalam masalah unsupervised learning. Sebuah cluster merupakan kumpulan objek-objek yang "sama" di antara mereka dan "berbeda" pada objek dari cluster lainnya.

K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k<n. Secara umum, K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Tujuan K-means adalah untuk mendapatkan kelompok-kelompok, dimana dalam 1 kelompok, memiliki tingkat homogenitas yang tinggi dan memiliki tingkat heterogenitas yang tinggi antar kelompok.

Berikut gambaran dari K-Means:


Analisis Cluster K-Means adalah teknik statistika yang berguna untuk mengelompokkan objek ke dalam K cluster yang telah ditentukan di awal, dimana setiap objek:
  1. Mempunyai tingkat homogenitas yang tinggi dalam satu kelompok
  2. Mempunyai tingkat heterogenitas yang tinggi antar kelompok


Langkah-langkah dalam Algoritma K-means Clustering antara lain sebagai berikut:

1.       Menentukan jumlah cluster

2.       Menentukan nilai centroid

Dalam menentukan nilai centroid untuk awal iterasi, nilai awal centroid dilakukan secara acak. Sedangkan jika menentukan nilai centroid yang merupakan tahap dari iterasi, maka digunakan rumus sebagai berikut:

3.       Menghitung jarak antara titik centroid dengan titik tiap objek

4.       Pengelompokkan objek untuk menentukan anggota cluster adalah dengan memperhitungkan jarak minimum objek

5.       Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain


           Metode K-Means Clustering hanya bisa mengolah data dalam bentuk angka, maka untuk data yang berbentuk nominal harus diinisialisasikan terlebih dahulu dalam bentuk angka. Langkah-langkahnya adalah sebagai berikut:

  •      Urutkan data berdasarkan frekuensi kemunculannya
  •    Inisialisasikan data tersebut mulai dari data tertinggi dengan nilai 1, kemudian data selanjutnya 2, 3 dan seterusnya


    Contoh Kasus

    Tabel di bawah berisi tentang indeks tingkat kemiskinan 10 wilayah. Seorang peneliti ingin mengelompokkan wilayah tersebut menjadi 3 kelompok berdasarkan indeks kedalaman kemiskinan (X) dan indeks keparahan (Y). Sebagai seorang data scientist, kalian diminta untuk membantu analisis dengan menggunakan analisis cluster K-Means.

Penyelesaian:

Dari tabel di atas terdapat 2 variabel input yaitu X dan Y serta jumlah datanya ada 10. Data dari tabel di atas kita pindahkan ke tabel berikut:


Kemudian kita hitung jarak setiap data ke centroid pertama (C1), centroid kedua (C2) dan centroid ketiga (C3) dengan menggunakan rumus sebagai berikut:

Kemudian kita petakan hasilnya ke dalam tabel berikut:


Diperoleh hasil iterasi 2 sebagai berikut:

Karena terdapat hasil yang berbeda antara iterasi 1 dan 2, maka lanjut ke iterasi 3 sebagai berikut:

Diperoleh hasil dari iterasi 3 sebagai berikut:

Karena masih ada data yang berubah tempatnya, maka kita harus melakukan iterasi lagi.
Iterasi 4
Memperoleh hasil sebagai berikut:

Karena tidak ada lagi data yang berubah posisinya, maka prosesnya telah selesai. Lalu kita dapat membuat grafiknya sebagai berikut:

Iterasi 1

Iterasi 2

Iterasi 3

Iterasi 4








Sekian dari saya, terimakasih cantik/ganteng sudah berkunjung di blog saya 😊

Komentar

Postingan populer dari blog ini

Klasifikasi Support Vector Machine (SVM)

Klasifikasi Naive Bayes

Neural Network