
Halo halo semua sobat Exsight, kira-kira metode apa nih yang sering sobat Exsight gunakan jika ingin melakukan pengelompokkan data unsupervised ?
Seringkali metode clustering digunakan dalam pengelompokkan data. Jenis data yang digunakan biasanya data numerik lalu dianalisis menggunakan metode hierarchical maupun non-hierarchical seperti K-Means Clustering.
Nah bagaimana jadinya jika kita memiliki suatu data, dimana datanya terdiri atas data numerik dan data kategorik serta ingin dilakukan clustering? Maka metode yang dapat digunakan yaitu clustering dengan metode ensemble ROCK. Yuk baca secara lengkap penjelasan berikut ini yaa.
Konsep Dasar Clustering Metode Ensemble ROCK

Definisi Clustering
Clustering adalah suatu metode statistika multivariat yang digunakan untuk mengelompokkan data pengamatan kedalam beberapa kelompok sesuai dengan karakteristiknya. Algoritma clustering terdiri atas ukuran kemiripan yang digunakan sebagai dasar untuk menggabungkan atau memisahkan data objek dari kumpulan data.
Apabila nilai ukuran dari perbedaan antara dua objek semakin besar, maka semakin besar pula perbedaan antara dua objek tersebut, sehingga data cenderung tidak berada dalam kelompok yang sama.
Adapun definisi untuk Clustering metode Ensemble ROCK adalah suatu metode yang dapat digunakan dalam pengelompokkan data campuran kategorik dan numerik.
Tujuan
Tujuan dari adanya Clustering metode Ensemble ROCK yaitu menggabungkan hasil pengelompokkan dari beberapa algoritma pengelompokkan untuk mendapatkan kelompok yang lebih baik.
Kelebihan dari Ensemble ROCK yaitu mengatasi masalah yang sering terjadi dalam metode clustering lain, seperti efek dari noise dan outlier yang dapat menyebabkan hasil yang tidak stabil. Selain itu dengan menggunakan Ensemble ROCK, hasil akurasi pengelompokkan data dapat ditingkatkan menjadi lebih baik
Clustering Data Numerik (Agglomerative Hierarchy Clustering)
Pengelompokkan data numerik secara umum terdiri atas 2 jenis yaitu hierarchical dan non-hierarchical . Nah pada artikel ini, kita akan berfokus pada hierarchical clustering atau biasa disebut juga Agglomerative Hierarchy Clustering (AHC).
Metode AHC digunakan apabila jumlah kelompok yang akan dibentuk belum diketahui sebelumnya serta data amatan tidak terlalu banyak. Beberapa jenis metode AHC diantaranya Single Linkage, Complete Linkage , dan Average Linkage.
Clustering data numerik dihitung berdasarkan ukuran ketidakmiripan atau jarak. Biasanya, ukuran ketidakmiripan yang digunakan yaitu Jarak Euclidian dengan rumus sebagai berikut.

a. Single Linkage
Single linkage merupakan metode pengelompokkan yang didasarkan pada jarak terdekat atau kesamaan yang banyak. Adapun rumus ukuran jarak untuk single linkage adalah sebagai berikut.

b. Complete Linkage
Complete linkage merupakan metode dimana cluster dibentuk dengan cara mengelompokkan objek yang memiliki jarak terjauh atau kesamaan yang sedikit. Nah rumus ukuran jarak untuk complete linkage adalah sebagai berikut.

c. Average Linkage
Average linkage merupakan metode dimana klaster dibentuk berdasarkan nilai rata-rata jarak seluruh individu dalam satu kelompok dengan rata-rata jarak seluruh individu pada kelompok lain. Adapun rumus ukuran jarak untuk average linkage adalah sebagai berikut.

Clustering Data Kategorik (ROCK)
Clustering data kategorik dilakukan menggunakan metode ROCK (Robust Clustering using Links). Konsep pengelompokkan pada metode ROCK dilakukan menggunakan link, dimana jika data pengamatan memiliki tingkat hubungan (link) yang tinggi digabungkan dalam satu kelompok dan begitu pula sebaliknya.
Pengelompokkan menggunakan metode ROCK terdiri atas beberapa tahapan yaitu sebagai berikut.
1. Menghitung nilai similaritas
Similaritas merupakan ukuran yang menentukan tingkat kemiripan antara data pengamatan ke-i dan ke-j.

2. Menentukan Tetangga (Neighbors)
Penentuan pengamatan Xi dan Xj sebagai tetangga yaitu berdasarkan nilai

dalam hal ini, nilai treshold (theta) yang digunakan berkisar antara 0 sampai 1 menyesuaikan data yang ada.
3. Menghitung nilai Link
Perhitungan nilai link untuk semua kemungkinan pasangan dari n objek dapat menggunakan matriks A. Matriks A adalah matriks berukuran 𝑛𝑛 × 𝑛𝑛 yang bernilai 1 (jika Xi dan Xj dinyatakan tetangga) serta bernilai 0 jika Xi dan Xj (dinyatakan bukan tetangga).
4. Menentukan Goodness Measure
Goodnes Measure digunakan sebagai dasar penggabungan kelompok pada algoritma ROCK. Goodness Measure berupa persamaan yang menghitung jumlah lnk dibagi dengan kemungkinan link yang terbentuk berdasarkan ukuran kelompoknya.
Rumus perhitungan Goodness Measure adalah sebagai berikut.

dimana ni dan nj adalah jumlah anggota dalam kelompok ke-i dan kelompok ke-j, sedangkan

Clustering Data Campuran (Ensemble ROCK)
Sesuai dengan namanya “Ensemble ROCK“, metode ini digunakan untuk mengelompokkan data campuran (data numerik dan data kategorik) dengan menggunakan algoritma CEBMDC (Cluster Ensemble Based Mixed Data Clustering).
Tahapan dari metode Ensemble ROCK adalah sebagai berikut:

- Melakukan pembagian data menjadi 2 subdata, yaitu data murni numerik & data murni kategorik.
- Mengelompokkan objek yang memiliki variabel numerik dengan algoritma clustering data numerik, serta mengelompokkan objek yang memiliki variabel kategorik dengan algoritma clustering data kategorik.
- Melakukan penggabungan (combining) hasil pengelompokkan variabel numerik & kategorik, proses ini disebut juga proses ensemble.
- Melakukan pengelompokkan ensemble menggunakan algoritma clustering data kategorik (ROCK) untuk mendapatkan kelompok akhir (final cluster).
Kinerja Hasil Pengelompokkan
Hasil cluster dikatakan baik apabila terbentuk kelompok/cluster dengan homogenitas yang tinggi antar anggota kelompok dan heterogenitas yang tinggi antar kelompok. Kinerja hasil pengelompokkan dibedakan untuk pengelompokkan data numerik dan data kategorik sebagai berikut.
a. Kinerja Hasil Pengelompokkan Data Numerik
Indeks validitas untuk menentukan jumlah kelompok optimum pada pengelompokan Agglomerative Hierarchy Clustering (AHC) adalah sebagai berikut.

Penentuan jumlah kelompok yang terbentuk dapat dilihat berdasarkan nilai maksimum dari Pseudo-F dan minimum ICD Rate dengan rumus sebagai berikut.

b. Kinerja Hasil Pengelompokkan Data Kategorik
Indeks validitas untuk menentukan jumlah kelompok optimum pada pengelompokan ROCK (Robust Clustering using Links) adalah sebagai berikut.


Kinerja suatu metode pengelompokan data kategorik semakin baik apabila nilai rasio SW dan SW semakin kecil. Artinya terdapat homogenitas maksimum dalam kelompok dan heterogenitas maksimum antar kelompok
Referensi
Zengyou, H., Xiaofei, X., & Shengchun, D. (2005). A Cluster Ensemble Method for Clustering Categorical Data. Information Fusion Elsevier, Vol.6, 143-151.
M. Dutta, A. K. Mahanta, dan A. K. Pujari. (2005). QROCK: A quick version of the ROCK algorithm for clustering of categorical data. Pattern Recognition Letters, Vol. 26, 2364–2373.
Demikian penjelasan terkait Clustering Metode Ensemble ROCK. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.
