K-Means Algorithm Clustering
Dalam sistem klasifikasi, terdapat 2 jenis klasifikasi yaitu supervised classification dan unsupervised classification. Clustering dapat dianggap yang paling penting dalam masalah unsupervised learning. Sebuah cluster merupakan kumpulan objek-objek yang "sama" di antara mereka dan "berbeda" pada objek dari cluster lainnya.
K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k<n. Secara umum, K-means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Tujuan K-means adalah untuk mendapatkan kelompok-kelompok, dimana dalam 1 kelompok, memiliki tingkat homogenitas yang tinggi dan memiliki tingkat heterogenitas yang tinggi antar kelompok.
Berikut gambaran dari K-Means:
- Mempunyai tingkat homogenitas yang tinggi dalam satu kelompok
- Mempunyai tingkat heterogenitas yang tinggi antar kelompok
1.
Menentukan jumlah cluster
2.
Menentukan nilai centroid
Dalam menentukan nilai centroid untuk awal
iterasi, nilai awal centroid dilakukan secara acak. Sedangkan jika menentukan
nilai centroid yang merupakan tahap dari iterasi, maka digunakan rumus sebagai
berikut:
3.
Menghitung jarak antara titik centroid dengan
titik tiap objek
4.
Pengelompokkan objek untuk menentukan anggota
cluster adalah dengan memperhitungkan jarak minimum objek
5. Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain
Metode K-Means Clustering hanya bisa mengolah data dalam bentuk angka, maka untuk data yang berbentuk nominal harus diinisialisasikan terlebih dahulu dalam bentuk angka. Langkah-langkahnya adalah sebagai berikut:
- Urutkan data berdasarkan frekuensi kemunculannya
- Inisialisasikan data tersebut mulai dari data tertinggi dengan nilai 1, kemudian data selanjutnya 2, 3 dan seterusnya











Komentar
Posting Komentar