clustering

Belajar Mengenal K-Means Clustering Part (1)

DW ADS

Hai sobat Exsight, kamu pernah menjumpai data yg memiliki banyak jenis dan bingung cara mengelompokkannya? Dalam ilmu statistika ada loh satu metode yang bisa kamu gunakan untuk menganalisis hal tersebut. Metode ini bisa dijadikan salah satu referensi untuk kamu loh. penasaran seperti apa? yuk baca secara lengkap penjelasan berikut ini yaa 😊

Pengertian Clustering

Clustering adalah sebuah metode statistika yang digunakan untuk mengidentifikasi sub kelompok dalam data sedemikian rupa sehingga data dalam kelompok (cluster) yang sama memiliki karakteristik sangat mirip sedangkan data dalam kelompok yang berbeda memiliki karakteristik sangat berbeda. Dengan kata lain, sub kelompok yang homogen dalam data sehingga data di setiap cluster semirip mungkin menurut ukuran kesamaan berdasarkan jarak euclidean. Apabila terdapat n obyek dan p variabel, maka observasi dengan i=1,2,…, n dan j = 1,2,…,p dapat digambarkan sebagai berikut:

 Variabel 1Variabel 2…Variabel p
Objek 1X11X12…X1p
Objek 2X21X22…X2p
. .. .. .. .. .
Objek nXn1Xn2…Xnp

Fungsi jarak euclidean digunakan untuk mengukur jarak titik objek satu dengan objek yang lainnya. Jarak euclidean dirumuskan sebagai berikut:

jarak euclidean clustering

dimana, p = banyak variabel yang diamati

d(i,j) = jarak antara objek i dan objek j

xik = nilai objek i pada variabel yang diamati

xjk = nilai objek j pada variabel yang diamati

Clustering banyak digunakan dalam berbagai hal seperti pada business intelligence, pengenalan pola citra, keamanan, dan segmentasi pasar dimana biasanya digunakan untuk mencari pelanggan yang mirip satu sama lain baik dari segi perilaku atau atribut yang sedang dicari. Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan pada kesempatan kali ini admin akan membahas salah satu algoritma pengelompokan yang paling banyak digunakan yaitu K-Means Clustering yang merupakan salah satu metode data clustering non-hierarchical.

Algoritma K-Means

Algoritma kmeans merupakan algoritma iteratif dimana akan mempartisi kumpulan data ke dalam cluster yang berbeda dan tidak akan tumpang tindih karena setiap data hanya dimiliki oleh satu kelompok. Hal ini dilakukan agar data dalam satu kelompok (intra-cluster) menjadi semirip mungkin sehingga jumlah jarak kuadrat antara titik data dan pusat cluster adalah minimum dan juga menjaga jarak antar cluster sejauh mungkin. Semakin sedikit variasi yang dimiliki dalam cluster, semakin homogen data berada dalam cluster yang sama.

Tahap algoritma K-Means Clustering mengikuti langkah-langkah sebagai berikut:

  1. Tentukan jumlah cluster K
  2. Tetapkan nilai awal titik pusat (centroid) terlebih dahulu dengan mengacak data dan kemudian secara acak pilih K titik data untuk centroid tanpa penggantian.
  3. Lakukan iterasi sampai tidak ada perubahan pada titik pusat yaitu penetapan titik data ke cluster tidak berubah (tetap).
  4. Hitung jumlah kuadrat jarak antara titik data dan semua titik pusat.
  5. Tetapkan setiap titik data ke cluster terdekat
  6. Hitung titik pusat untuk cluster dengan mengambil rata-rata dari semua titik data yang dimiliki setiap cluster.

Asumsi-Asumsi K-Means Clustering

Sebelum melakukan tahap pengelompokan, perlu dicek terlebih dahulu syarat yang harus dipenuhi yaitu:

  • Sampel mewakili populasi

Untuk mengecek apakah sampel sudah mewakili populasi atau belum, dibutuhkan nilai Kaiser-Meyer-Olkin (KMO), dimana nilai KMO yang lebih dari 0,5 menandakan bahwa sampel yang diambil dapat mewakili populasi yang ada.

  • Tidak terjadi multikolinearitas

Untuk mengecek tidak terjadinya multikolinearitas dibutuhkan nilai Variance Inflation Factor (VIF) yang dirumuskan sebagai berikut:

VIF=
\frac{1}{1-R_t^2}

dengan R adalah koefisien determinasi

Asumsi terpenuhi apabila nilai VIF < 10 sehingga tidak terjadi multikolinearitas.

Penutup

Nah, jelas kan penjelasan dari admin bahwa clustering bisa banget kamu gunakan sebagai solusi jika menemukan data dengan berbagai jenis atau kelompok yang cukup rumit agar bisa dikelompokkan berdasarkan kemiripannya dan bisa membantumu menarik kesimpulan dari data yang kamu dapatkan. Semoga bermanfaat ya! Jika kamu masih penasaran dengan algoritma clustering lainnya, jangan sungkan untuk bertanya di kolom komentar atau menghubungi admin melalui tombol WA.

See you di artikel selanjutnya!

Baca juga: Belajar Aplikasi R untuk Pemula

Referensi

  1. https://towardsdatascience.com/k-means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-aa03e644b48a
  2. https://www.yumpu.com/en/document/read/29326175/an-overview-on-clustering-methods-arxiv
  3. https://geospasialis.com/k-means-clustering/

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

1 thought on “Belajar Mengenal K-Means Clustering Part (1)”

  1. Pingback: Clustering Metode Ensemble ROCK #1 - Exsight

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!