Hai sobat Exsight, kamu pernah menjumpai data yg memiliki banyak jenis dan bingung cara mengelompokkannya? Dalam ilmu statistika ada loh satu metode yang bisa kamu gunakan untuk menganalisis hal tersebut. Metode ini bisa dijadikan salah satu referensi untuk kamu loh. penasaran seperti apa? yuk baca secara lengkap penjelasan berikut ini yaa 😊
Pengertian Clustering
Clustering adalah sebuah metode statistika yang digunakan untuk mengidentifikasi sub kelompok dalam data sedemikian rupa sehingga data dalam kelompok (cluster) yang sama memiliki karakteristik sangat mirip sedangkan data dalam kelompok yang berbeda memiliki karakteristik sangat berbeda. Dengan kata lain, sub kelompok yang homogen dalam data sehingga data di setiap cluster semirip mungkin menurut ukuran kesamaan berdasarkan jarak euclidean. Apabila terdapat n obyek dan p variabel, maka observasi dengan i=1,2,…, n dan j = 1,2,…,p dapat digambarkan sebagai berikut:
Variabel 1 | Variabel 2 | … | Variabel p | |
Objek 1 | X11 | X12 | … | X1p |
Objek 2 | X21 | X22 | … | X2p |
. . | . . | . . | . . | . . |
Objek n | Xn1 | Xn2 | … | Xnp |
Fungsi jarak euclidean digunakan untuk mengukur jarak titik objek satu dengan objek yang lainnya. Jarak euclidean dirumuskan sebagai berikut:
dimana, p = banyak variabel yang diamati
d(i,j) = jarak antara objek i dan objek j
xik = nilai objek i pada variabel yang diamati
xjk = nilai objek j pada variabel yang diamati
Clustering banyak digunakan dalam berbagai hal seperti pada business intelligence, pengenalan pola citra, keamanan, dan segmentasi pasar dimana biasanya digunakan untuk mencari pelanggan yang mirip satu sama lain baik dari segi perilaku atau atribut yang sedang dicari. Terdapat dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan pada kesempatan kali ini admin akan membahas salah satu algoritma pengelompokan yang paling banyak digunakan yaitu K-Means Clustering yang merupakan salah satu metode data clustering non-hierarchical.
Algoritma K-Means
Algoritma kmeans merupakan algoritma iteratif dimana akan mempartisi kumpulan data ke dalam cluster yang berbeda dan tidak akan tumpang tindih karena setiap data hanya dimiliki oleh satu kelompok. Hal ini dilakukan agar data dalam satu kelompok (intra-cluster) menjadi semirip mungkin sehingga jumlah jarak kuadrat antara titik data dan pusat cluster adalah minimum dan juga menjaga jarak antar cluster sejauh mungkin. Semakin sedikit variasi yang dimiliki dalam cluster, semakin homogen data berada dalam cluster yang sama.
Tahap algoritma K-Means Clustering mengikuti langkah-langkah sebagai berikut:
- Tentukan jumlah cluster K
- Tetapkan nilai awal titik pusat (centroid) terlebih dahulu dengan mengacak data dan kemudian secara acak pilih K titik data untuk centroid tanpa penggantian.
- Lakukan iterasi sampai tidak ada perubahan pada titik pusat yaitu penetapan titik data ke cluster tidak berubah (tetap).
- Hitung jumlah kuadrat jarak antara titik data dan semua titik pusat.
- Tetapkan setiap titik data ke cluster terdekat
- Hitung titik pusat untuk cluster dengan mengambil rata-rata dari semua titik data yang dimiliki setiap cluster.
Asumsi-Asumsi K-Means Clustering
Sebelum melakukan tahap pengelompokan, perlu dicek terlebih dahulu syarat yang harus dipenuhi yaitu:
- Sampel mewakili populasi
Untuk mengecek apakah sampel sudah mewakili populasi atau belum, dibutuhkan nilai Kaiser-Meyer-Olkin (KMO), dimana nilai KMO yang lebih dari 0,5 menandakan bahwa sampel yang diambil dapat mewakili populasi yang ada.
- Tidak terjadi multikolinearitas
Untuk mengecek tidak terjadinya multikolinearitas dibutuhkan nilai Variance Inflation Factor (VIF) yang dirumuskan sebagai berikut:
VIF= \frac{1}{1-R_t^2}
dengan R adalah koefisien determinasi
Asumsi terpenuhi apabila nilai VIF < 10 sehingga tidak terjadi multikolinearitas.
Penutup
Nah, jelas kan penjelasan dari admin bahwa clustering bisa banget kamu gunakan sebagai solusi jika menemukan data dengan berbagai jenis atau kelompok yang cukup rumit agar bisa dikelompokkan berdasarkan kemiripannya dan bisa membantumu menarik kesimpulan dari data yang kamu dapatkan. Semoga bermanfaat ya! Jika kamu masih penasaran dengan algoritma clustering lainnya, jangan sungkan untuk bertanya di kolom komentar atau menghubungi admin melalui tombol WA.
See you di artikel selanjutnya!
Baca juga: Belajar Aplikasi R untuk Pemula
Referensi
- https://towardsdatascience.com/k-means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-aa03e644b48a
- https://www.yumpu.com/en/document/read/29326175/an-overview-on-clustering-methods-arxiv
- https://geospasialis.com/k-means-clustering/
Pingback: Clustering Metode Ensemble ROCK #1 - Exsight