K-Means Algorithm Clustering

Desember 24, 2021

Dalam sistem klasifikasi, terdapat 2 jenis klasifikasi yaitu supervised classification dan unsupervised classification. Clustering dapat dianggap yang paling penting dalam masalah unsupervised learning. Sebuah cluster merupakan kumpulan objek-objek yang "sama" di antara mereka dan "berbeda" pada objek dari cluster lainnya.

K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k<n. Secara umum, K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Tujuan K-means adalah untuk mendapatkan kelompok-kelompok, dimana dalam 1 kelompok, memiliki tingkat homogenitas yang tinggi dan memiliki tingkat heterogenitas yang tinggi antar kelompok.

Berikut gambaran dari K-Means:

Analisis Cluster K-Means adalah teknik statistika yang berguna untuk mengelompokkan objek ke dalam K cluster yang telah ditentukan di awal, dimana setiap objek:

Mempunyai tingkat homogenitas yang tinggi dalam satu kelompok
Mempunyai tingkat heterogenitas yang tinggi antar kelompok

Langkah-langkah dalam Algoritma K-means Clustering antara lain sebagai berikut:

1. Menentukan jumlah cluster

2. Menentukan nilai centroid

Dalam menentukan nilai centroid untuk awal iterasi, nilai awal centroid dilakukan secara acak. Sedangkan jika menentukan nilai centroid yang merupakan tahap dari iterasi, maka digunakan rumus sebagai berikut:

3. Menghitung jarak antara titik centroid dengan titik tiap objek

4. Pengelompokkan objek untuk menentukan anggota cluster adalah dengan memperhitungkan jarak minimum objek

5. Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain

Metode K-Means Clustering hanya bisa mengolah data dalam bentuk angka, maka untuk data yang berbentuk nominal harus diinisialisasikan terlebih dahulu dalam bentuk angka. Langkah-langkahnya adalah sebagai berikut:

Urutkan data berdasarkan frekuensi kemunculannya
Inisialisasikan data tersebut mulai dari data tertinggi dengan nilai 1, kemudian data selanjutnya 2, 3 dan seterusnya

Contoh Kasus

Tabel di bawah berisi tentang indeks tingkat kemiskinan 10 wilayah. Seorang peneliti ingin mengelompokkan wilayah tersebut menjadi 3 kelompok berdasarkan indeks kedalaman kemiskinan (X) dan indeks keparahan (Y). Sebagai seorang data scientist, kalian diminta untuk membantu analisis dengan menggunakan analisis cluster K-Means.

Penyelesaian:

Dari tabel di atas terdapat 2 variabel input yaitu X dan Y serta jumlah datanya ada 10. Data dari tabel di atas kita pindahkan ke tabel berikut:

Kemudian kita hitung jarak setiap data ke centroid pertama (C1), centroid kedua (C2) dan centroid ketiga (C3) dengan menggunakan rumus sebagai berikut: