Tutorial

Clustering K-Medoids

Clustering K-Medoids – Hai hai sobat Exsight, seiring berkembangnya zaman kemampuan untuk mengekstrak informasi berharga dari kumpulan data sangatlah penting untuk kita kuasai. Salah satu teknik yang bisa kita gunakan untuk menemukan pola tersembunyi di dalam data adalah clustering. Ketika membicarakan tentang clustering, seringkali metode K-Means menjadi topik utama. Namun, di balik bayang-bayang popularitas K-Means,terdapat metode lain yang tak kalah menariknya untuk menangani data dengan outlier dan noise, yaitu metode clustering K-Medoids. Tanpa berlama-lama lagi, yuk simak artikel ini dengan seksama yaa!

Definisi

Clustering k-medoids adalah salah satu metode clustering yang mirip dengan k-means, tetapi berbeda dalam cara memilih pusat kluster (centroid). Pada k-medoid, pusat kluster dipilih dari data aktual yang ada, bukan dari rata-rata posisi data. Metode clustering K-Medoids menawarkan pendekatan yang lebih kuat dengan memilih pusat kluster dari data yang sebenarnya, bukan sekadar rata-rata. Hal ini menjadikan metode clustering K-Medoids mampu menghasilkan kluster yang lebih representatif, terutama ketika kita berurusan dengan data yang tidak ideal atau memiliki karakteristik unik

Konsep Dasar

Clustering K-Medoids adalah salah satu metode clustering yang digunakan untuk mengelompokkan data ke dalam beberapa kluster berdasarkan kesamaan di antara data-data tersebut. Berikut adalah konsep dasar dari clustering K-Medoids:

  1. Medoid sebagai Pusat Kluster
    Berbeda dengan metode clustering K-Means yang menggunakan rata-rata (mean) sebagai pusat kluster, clustering K- Medoids menggunakan medoid, yaitu data titik yang sebenarnya dalam dataset yang menjadi pusat kluster. Medoid adalah titik yang meminimalkan jarak total ke semua titik lain dalam kluster.
  2. Pengukuran Jarak
    Sama halnya seperti clustering K-Means, pada clustering K-Medoids menggunakan pengukuran jarak untuk menentukan kesamaan antara titik-titik data. Umumnya, jarak Euclidean digunakan, tetapi jenis jarak lain seperti Manhattan distance juga bisa digunakan tergantung pada konteks dan tipe data.
  3. Proses Iteratif:
    • Inisialisasi
      Pilih k data secara acak sebagai medoid awal.
    • Penugasan (Assignment)
      Setiap data dalam dataset ditugaskan ke kluster yang medoidnya paling dekat berdasarkan jarak terpendek.
    • Pembaruan Medoid
      Untuk setiap cluster yang terbentuk, tentukan medoid baru dengan memilih titik yang meminimalkan total jarak dalam kluster tersebut.
    • Iterasi
      Ulangi langkah penugasan dan pembaruan hingga tidak ada perubahan pada medoid, atau hingga perubahan total jarak tidak signifikan.
  4. Kekokohan Terhadap Outlier
    Salah satu kelebihan dari clustering K-Medoids dibandingkan dengan clustering K-Means adalah kekokohannya terhadap outlier atau data ekstrem. Karena medoid adalah titik nyata dari data, metode ini lebih tahan terhadap pengaruh negatif dari data yang berada jauh dari pusat kluster.
  5. Kompleksitas Komputasi
    Clustering K-Medoids biasanya lebih lambat daripada clustering K-Means karena perlu menghitung jarak antara setiap titik data dengan setiap medoid, terutama jika dataset besar. Namun, keunggulan dalam menangani outlier dan memberikan kluster yang lebih representatif menjadikan K-Medoids pilihan yang baik dalam situasi tertentu.

Clustering K-Medoids sering digunakan dalam analisis data yang mengandung noise atau outlier, serta dalam situasi di mana hasil yang lebih stabil dan robust diinginkan dibandingkan dengan K-Means.

Perbedan Clustering K-Medoids & K-Means

Penelitian mengenai clustering seringkali dikaitkan dengan metode K-Means, namun tentunya terdapat perbedaan mendasar antara clustering K-Medoids dan K-Means, yaitu sebagai berikut.

NoAspek PerbedaanClustering K-MedoidsClustering K-Means
1.Pemilihan Pusat ClusterPusat cluster disebut dengan medoid, dimana medoid merupakan salah satu titik data sebenarnya dari dataset yang memiliki total jarak terkecil terhadap semua titik lain dalam cluster tersebut. Medoid selalu merupakan titik data aktual dalam dataset, tidak seperti centroid dalam K-Means.Pusat cluster atau disebut dengan centroid , dimana centroid merupakan rata-rata aritmatika dari semua data dalam satu cluster. Centroid dapat berupa titik data yang bukan bagian dari dataset asli, karena dihitung berdasarkan rata-rata posisi semua titik dalam cluster tersebut.
2.Ketahanan (Robustness) Terhadap OutlierLebih tahan terhadap outliers dan noise. Hal ini dikarenakan medoid adalah titik data yang sebenarnya, pemilihan medoid tidak dipengaruhi oleh outliers secara signifikan. Ini membuat K-Medoids lebih stabil dalam menghadapi dataset yang memiliki nilai ekstrim.Lebih sensitif terhadap outliers dan data yang memiliki noise, karena centroid bisa dipengaruhi oleh nilai ekstrim. Outliers dapat menyebabkan centroid bergerak jauh dari pusat cluster yang sebenarnya.
3.KomputasiLebih memakan waktu komputasi, terutama untuk dataset yang besar, karena harus menghitung total jarak untuk setiap titik data dalam cluster setiap kali mengubah medoid. Proses ini membuat K-Medoids lebih lambat dibandingkan K-Means.Lebih efisien dalam hal komputasi karena perhitungan centroid lebih sederhana dan langsung. Algoritma K-Means biasanya lebih cepat dalam konvergensi.
4.Hasil ClusteringCenderung memberikan hasil clustering yang lebih stabil karena medoid adalah titik data yang sebenarnya, sehingga perubahan dalam dataset atau inisialisasi tidak terlalu memengaruhi hasil akhir secara signifikan.Hasil clustering dapat bervariasi karena centroid yang dihitung dapat berubah dengan dataset yang berbeda atau inisialisasi yang berbeda.

Kelebihan dan Kelemahan

Terdapat beberapa kelebihan dan kelemahan dari algoritma Clustering K-Medoids diantaranya adalah sebagai berikut.

Kelebihan

1. Robust terhadap Outlier
K-Medoids menggunakan medoid sebagai pusat klaster, yang merupakan titik data aktual dari dataset. Berbeda dengan centroid di K-means yang bisa sangat dipengaruhi oleh data ekstrem atau outlier, medoid tidak terpengaruh secara signifikan. Hal ini membuat K-medoids lebih tahan terhadap outlier, sehingga hasil klasterisasi lebih stabil dan representatif.

2. Medoid adalah Titik Data Nyata
Dalam K-medoids, pusat setiap klaster adalah medoid yang dipilih dari titik data yang ada, bukan centroid yang dihitung. Hal ini menjadikan hasil klasterisasi lebih mudah diinterpretasikan karena medoid merupakan elemen dari dataset asli.

3. Stabilitas pada Distribusi Data yang Tidak Merata
Algorima K-Medoids lebih baik dalam menangani situasi di mana data tidak terdistribusi secara merata. Hal ini dikarenakan pemilihan medoid tidak terpengaruh oleh jarak rata-rata yang bisa dipengaruhi oleh ukuran klaster, metode ini bisa memberikan hasil klasterisasi yang lebih konsisten.

Kelemahan

1. Waktu Komputasi Lebih Tinggi
Proses menemukan medoid yang optimal di K-medoids membutuhkan perhitungan jarak antara setiap titik data dengan setiap medoid, dan memerlukan iterasi untuk mengevaluasi biaya total klasterisasi. Ini bisa memakan waktu, terutama untuk dataset yang besar, karena banyaknya perhitungan yang harus dilakukan. Oleh karena itu, K-medoids sering lebih lambat dibandingkan K-means.

2. Tidak Cocok untuk Dataset yang Sangat Besar
Dikarenakan waktu komputasi yang lebih tinggi, K-medoids tidak cocok digunakan untuk dataset dengan jumlah data yang sangat besar. Skalabilitas menjadi masalah karena setiap iterasi membutuhkan pengecekan semua kemungkinan medoid, yang bisa menjadi sangat tidak efisien dengan bertambahnya jumlah data.

3. Pemilihan Medoid Awal yang Sulit
Hasil akhir dari K-medoids bisa dipengaruhi oleh pemilihan medoid awal. Jika medoid awal tidak dipilih dengan baik, algoritma mungkin akan menemukan solusi suboptimal yang tidak merepresentasikan struktur data dengan baik.

Tahapan Algoritma Clustering K Medoids

  1. Menentukan k sebagai banyaknya klaster yang ingin dibentuk.
  2. Membangkitkan k pusat klaster (medoid) secara acak.
  3. Menghitung jarak objek non-medoid dengan medoid pada tiap klaster dan menempatkan tiap objek non-medoid tersebut ke medoid terdekat, kemudian hitung total jaraknya.
  4. Memilih secara acak objek non-medoid pada masing-masing klaster sebagai kandidat medoid baru
  5. Menghitung jarak setiap objek non- medoid baru dan menempatkan tiap objek non-medoid tersebut ke kandidat medoid terdekat, kemudian hitung total jaraknya.
  6. Menghitung selisih total jarak (Stotal jarak), dimana
    Stotal jarak = total jarak pada kandidat medoidbaru – total jarak pada medoid lama
  7. Jika diperoleh nilai Stotaljarak< 0, maka kandidat medoidbaru tersebut menjadi medoidbaru dan jika diperoleh Stotaljarak > 0 iterasi berhenti
  8. Kembali ke langkah (4) sampai (7) sampai tidak terjadi perubahan medoidatau Stotal jarak> 0

Tutorial Clustering K-Medoids dengan Software R

Selengkapnya kita akan mencoba tutorial clustering K-Medoids dengan software R. Adapun studi kasus yang akan kita gunakan yaitu terkait Tindak Pindak Kriminal yang didapatkan dari situs Badan Pusat Statistik Indonesia tahun 2022. Adapun data bisa di-download di sini.
Keterangan terkait data yang digunakan yaitu:
* Tidak terdapat missing value pada data.
* Data terdiri atas 34 observasi.

Clustering K- Medoids

#Load Library

Tahapan awal, sebelum melakukan running syntax di software R terlebih dahulu melakukan load library R.  Adapun syntax R yang digunakan adalah sebagai berikut.

# Import library untuk data wrangling
library(tidyverse)
library(dplyr)

# Import library untuk visualisasi
library(factoextra) # Visualisasi hasil clustering
library(gridExtra) # Visualisasi karakteristik cluster
library(GGally) # Correlation matrix
library(ggiraphExtra)
library(sf) # Read data map
library(plotly) # Interactive Plotting
library(Rtsne)

# Machine Learning - Clustering 
library(cluster)
library(factoextra)
library(mvnTest)

#Load Data

data=read.csv(file.choose(),header=TRUE,sep=",")
rownames(data) <- data$Provinsi
Clustering K- Medoids
Gambar 1. Data

Berdasarkan Gambar 1. terlihat bahwa data yang digunakan terdiri atas 34 data dengan 7 variabel.

#Standarisasi Data

dataclus <- data[,-1]
datafix<-scale(dataclus)
Clustering K- Medoids
Gambar 2. Data Setelah Distandarisasi

#Penentuan Jumlah Cluster (K optimum)

set.seed(1000)

fviz_nbclust(x =datafix, 
             FUNcluster = pam,
             method = 'wss',
             k.max = 10)
Clustering K- Medoids
Gambar 3. Penentuan Jumlah Cluster (K Optimum)

Jumlah cluster optimum (K Optimum) dapat ditentukan juga menggunakan bantuan grafik Elbow, dimana k minimum akan didapat ketika grafik sudah tidak bergerak menurun dengan tajam.
Berdasarkan Gambar 3, terlihat bahwa grafik sudah tidak bergerak menurun dengan tajam ketika pada titik cluster 4 sehingga dapat diartikan jumlah cluster optimum yaitu sebesar 4.

#Hasil Pembagian Cluster

RNGkind(sample.kind = "Rounding")
set.seed(1000)

customer_kmedoid <- pam(x =datafix, k = 4, metric = "euclidean", stand = FALSE)
table(customer_kmedoid$clustering)
fviz_cluster(object = customer_kmedoid, data = datafix)
clustering K- Medoids
Gambar 4. Visualisasi Pembagian Cluster Berdasarkan Provinsi

Hasil pada Gambar 4, menampilkan informasi bahwa terdapat 4 cluster yang terbentuk dalam hal ini terlihat bahwa untuk cluster yang ditandai dengan warna Hijau hanya terdiri atas 1 provinsi yaitu Sumatera Utara. Kemudian untuk cluster yang ditandai dengan warna Ungu terdiri atas Provinsi Jawa Timur, DKI Jakarta, Sumatera Selatan, dan Sulawesi Selatan, sedangkan provinsi-provinsi lainnya terdapat pada cluster yang ditandai dengan warna Merah dan warna Biru.

Clustering K- Medoids
Gambar 5. Jumlah Anggota Tiap Cluster

Secara lebih detail apabila kita perhatikan jumlah Provinsi tiap cluster terlihat seperti pada Gambar 5. dimana terlihat bahwa mayoritas Provinsi terdapat pada cluster 3 sebanyak 17 provinsi, lalu di posisi terbanyak kedua terdapat 12 provinsi pada cluster 1.

Secara lebih pengkategorian cluster untuk masing- masing Provinsi adalah sebagai berikut.

ProvinsiCluster K- Medoid
Aceh1
Sumatera Utara2
Sumatera Barat1
Riau1
Jambi3
Sumatera Selatan4
Bengkulu1
Lampung1
Kep. Bangka Belitung3
Kep. Riau3
DKI Jakarta4
Jawa Barat1
Jawa Tengah1
DI Yogyakarta3
Jawa Timur4
Banten3
Bali3
Nusa Tenggara Barat3
Nusa Tenggara Timur1
Kalimantan Barat3
Kalimantan Tengah3
Kalimantan Selatan1
Kalimantan Timur3
Kalimantan Utara3
Sulawesi Utara1
Sulawesi Tengah1
Sulawesi Selatan4
Sulawesi Tenggara3
Gorontalo3
Sulawesi Barat3
Maluku3
Maluku Utara3
Papua Barat3
Papua1
Tabel 1. Pembagian Cluster Tiap Provinsi

Berdasarkan Tabel di atas selanjutnya kita melakukan profiling cluster untuk mengetahui karakteristik dari setiap cluster . Dalam hal ini kita akan menghitung nilai Rata-Rata Tiap Cluster pada Data Asli yaitu sebagai berikut.

VariabelCluster 1Cluster 2Cluster 3Cluster 4
Nyawa33,50096,00010,94160,750
Fisik951,0005396,000344,2353108,250
Kesusilaan873,5006949,000435,6473284,250
Kemerdekaan2201,33312973,000882,1184950,000
Hak Milik39,50086,00028,882150,750
Narkotika840,0004287,000355,2941921,000
Penipuan210,250904,00094,176219,250
Tabel 2. Nilai Rata- Rata Tiap Cluster pada Data Asli

Berdasarkan Tabel 2. diperoleh informasi bahwa nilai hampir sebagian besar kejahatan (kejahatan nyawa, fisik, kesusilaan, kemerdekaan, Narkotika, dan Penipuan) memiliki nilai rata- rata tertinggi pada Cluster 2 , dalam hal ini hanya terdapat 1 Provinsi yang masuk dalam Cluster 2 yaitu Provinsi Sumatera Utara.

Namun ada 1 kejahatan dengan nilai rata-rata tertinggi di cluster lainnya, yaitu kejahatan Hak Milik dimana nilai rata-rata tertinggi sebesar 150,750 dan terdapat pada cluster 4. Adapun cluster 4 terdiri atas 4 provinsi yaitu Provinsi Sumatera Selatan, DKI Jakarta, Jawa Timur, dan Sulawesi Selatan.

Referensi

Nahdliyah, M., Widiharih, T., & Prahutama, A. (2019). Metode K- Medoids Clustering dengan Validasi Silhouette Index dan C- Index (Studi Kasus Jumlah Kriminalitas Kabupaten/Kota di Jawa Tengah Tahun 2018). Jurnal Gaussian, Vol.8, No.2, 161 – 170.

Oktarina, C., Notodiputro, K., & Indahwati. (2020). Comparison of K- Means Clustering Method and K- Medoids on Twitter Data. Indonesian Journal of Statistics and Its Applications, Vol.4, No.1, 189- 202.

https://rpubs.com/Anoe/cluster-kmeans-kmedoids

Finally, sampai sudah nih kita di penghujung artikel, sekian dulu ya penjelasan terkait Clustering K- Medoids . Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. Bye bye!

Clustering K-Medoids Read More »

Analisis Survival Cox Proportional Hazard dengan SPSS

Hai hai sobat Exsight, masih ingat gak nih? Pada beberapa artikel yang lalu, kita pernah membahas terkait suatu analisis statistika yang berkaitan dengan ketahanan hidup. Yapss analisis tersebut bernama analisis survival. Dulu kita pernah membahas pada artikel Analisis Survival Cox Proportional Hazard. Melanjutkan dari artikel sebelumnya, sekarang kita akan membahas lebih detail, di mana dalam hal ini berfokus pada penerapan analisis survival Cox Proportional Hazard menggunakan software SPSS.

Tanpa berlama- lama lagi cuss simak artikel kali ini dengan seksama yaa!

Konsep Dasar

Analisis survival adalah metode statistik yang digunakan untuk menganalisis data di mana hasil utamanya adalah waktu sampai suatu peristiwa terjadi. Peristiwa ini bisa berupa kematian, kegagalan produk, kambuhnya penyakit, atau kejadian penting lainnya. Secara umum konsep dasar dan cara kerja analis survival dapat dilihat pada Gambar 1.

analisis survival
Gambar 1. Konsep Dasar Analisis Survival

Data Survival
Analisis survival diawali dari adanya data survival. Data survival melibatkan waktu hingga suatu kejadian (misalnya, kematian, kambuhnya penyakit, kegagalan mesin) terjadi.

Distribusi Data (Data Distribution)
Jika data mengikuti distribusi tertentu, kita menggunakan Model Survival Parametrik (Parametric Survival Model). Jika data tidak mengikuti distribusi tertentu, kita lanjut ke langkah berikutnya yaitu pengecekan asumsi Proportional Hazards (PH).

Asumsi Proportional Hazards (PH Assumption)

Jika asumsi Proportional Hazards (PH) dipenuhi, kita menggunakan Model Cox Proportional Hazards (Cox PH).
Pada model Cox PH, kita bisa memilih antara:
Model Interaksi (Interaction Model): Model yang mempertimbangkan interaksi antar variabel.
Model Tanpa Interaksi (No Interaction Model): Model yang tidak mempertimbangkan interaksi antar variabel.

Jika asumsi Proportional Hazards (PH) tidak dipenuhi, kita memiliki dua pilihan model

  • Model Stratifikasi (Stratified Model) yaitu model yang membagi data ke dalam strata untuk mengatasi pelanggaran asumsi PH.
    Pada model Stratifikasi, kita bisa memilih antara:
    • Model Interaksi (Interaction Model)
    • Model Tanpa Interaksi (No Interaction Model)
  • Model Ekstensi (Extended Model): Model yang memperluas model dasar untuk mengatasi pelanggaran asumsi PH. Pada model Ekstensi, kita juga bisa memilih antara:
    • Model Interaksi (Interaction Model)
    • Model Tanpa Interaksi (No Interaction Model)

Kelebihan dan Kelemahan

Dalam penerapannya, analisis survival Cox Proportional Hazard memiliki beberapa kelebihan dan kelemahan diantaranya adalah sebagai berikut.

Kelebihan

  1. Tidak Memerlukan Asumsi Distribusi Survival
    Model Cox Proportional Hazard tidak memerlukan asumsi spesifik tentang bentuk distribusi waktu survival, sehingga lebih fleksibel dibandingkan model parametrik.
  2. Interpretasi yang Mudah
    Koefisien dalam model Cox Proportional Hazard dapat dengan mudah diinterpretasikan sebagai hazard ratio, yang menunjukkan risiko relatif dari kejadian (event) berdasarkan perubahan pada variabel kovariat.
  3. Kemampuan Menangani Data Censored
    Model Cox Proportional Hazard dapat dengan efektif menangani data yang tidak lengkap atau censored, yang umum terjadi dalam studi survival.
  4. Penyesuaian untuk Kovariat Multiple
    Model Cox Proportional Hazard dapat mengakomodasi banyak kovariat sekaligus, memungkinkan analisis multivariat yang kompleks.

Kelemahan

  1. Kesulitan dalam Menangani Non Proportional Hazard
    Jika asumsi proporsional hazard tidak terpenuhi, harus ada penyesuaian atau model alternatif (seperti stratified model, extended model, model time-dependent covariate) yang bisa memperumit analisis.
  2. Penggunaan yang Kompleks untuk Data yang Besar
    Dalam dataset yang sangat besar atau kompleks, model Cox Proportional Hazard bisa menjadi sulit untuk diimplementasikan dan diinterpretasikan tanpa perangkat lunak statistik yang canggih dan pengetahuan yang mendalam.
  3. Ketergantungan pada Data Berkualitas
    Model Cox Proportional Hazard sangat sensitif terhadap kualitas data. Data yang tidak lengkap atau tidak akurat dapat mempengaruhi hasil analisis secara signifikan.
  4. Tidak Menghitung Efek Waktu Secara Eksplisit
    Sementara model Cox Proportional Hazard menganggap proporsional hazard, ia tidak menghitung perubahan efek kovariat terhadap hazard over time secara eksplisit yang bisa menjadi batasan dalam beberapa analisis.

Tutorial SPSS Analisis Survival Cox Proportional Hazard

Studi Kasus

Studi kasus yang akan kita gunakan pada pembahasan artikel kali ini akan menggunakan dataset terkait Pasien Penderita Penyakit Leukemia.

Leukemia adalah jenis penyakit kanker darah yang terjadi ketika fungsi sumsum tulang mengalami gangguan sehingga menyebabkan produksi sel darah putih yang tidak normal, terlalu banyak, tidak terkendali, dan tidak berfungsi sebagaimana mestinya. Tumbuhnya sel darah putih yang abnormal dan tidak berfungsi normal tersebut menyebabkan tubuh tidak mampu melawan infeksi dan juga menyebabkan terganggunya kemampuan sumsum tulang dalam memproduksi sel darah merah dan trombosit yang penting bagi tubuh.

Selengkapnya dataset terkait Leukemia dapat diakses disini. Adapun keterangan dari masing- masing variabel adalah sebagai berikut.

VariabelKeterangan
SurvtWaktu Survival pasien penderita penyakit Leukemia (dalam satuan tahun)
RxTreatment (Penanganan), terdapat 2 kategori:
* Rx = 0 untuk New Treatment (Penanganan dengan Metode Baru)
* Rx =1 untuk Standard Treatment (Penanganan dengan Metode Lama)
Log_WBCLog White Blood Cell Count (Jumlah Sel Darah Putih dalam Tubuh Pasien)
RelapseStatus Pasien
* 0 untuk Status Censored
* 1 untuk Status Relapse
SexJenis Kelamin, terdapat 2 kategori:
* 1 untuk Perempuan
* 0 untuk Laki- Laki

Sebagai catatan, apabila sobat Exsight perhatikan pada Tabel di atas, untuk variabel Relapse, terdapat 2 kategori yaitu 0 (Censored) dan 1 (Relapse). Penjelasan lebih lengkapnya dari masing- masing kategori tersebut adalah sebagai berikut.

  • 1 untuk Status Relapse
    Kategori ini menunjukkan kejadian yang menjadi fokus utama dalam selang waktu penelitian (kambuhnya penyakit leukemia ).
  • 0 untuk Status Censored
    Untuk kategori 0 menunjukkan kejadian censored dalam hal ini yaitu (kambuhnya penyakit leukemia belum terdeteksi). Istilah “censored” dapat diartikan bahwa selama waktu penelitian, kambuhnya penyakit belum bisa terdeteksi dengan pasti (bisa saja, selama waktu penelitian pasien tiba- tiba pindah rumah sakit, penelitian sudah selesai sebelum terdeteksi kambuhnya penyakit leukemia pada pasien).

Dengan menggunakan status ini, peneliti dapat menganalisis data survival untuk menentukan berbagai hal, seperti probabilitas bertahan hidup tanpa kambuh (relapse-free survival) atau waktu rata-rata sampai terjadinya kejadian tertentu.

analisis survival
  1. Buka software SPSS, kemudian entry data pada variable view dan data view.
analisis survival
Gambar 2. SPSS Tahap 1a

Pada bagian data view berisi data-data dari masing-masing variabel, sedangkan untuk bagian variable view berisi pendefinisian dari masing-masing (khususnya terkait jenis data pada bagian measure).

analisis survival
Gambar 3. SPSS Tahap 1b

2. Tahapan SPSS berikutnya yaitu kita perlu klik Analyze – Survival – Cox Regression seperti yang tertera pada Gambar 4.

analisis survival
Gambar 4. SPSS Tahap 2

3. Setelah kita melakukan tahapan seperti pada Gambar 4. nantinya akan muncul output seperti yang tertera pada Gambar 5. Dalam hal ini terdapat beberapa variabel yang perlu diisi dalam tempat- tempat tertentu. Seperti halnya untuk:
– Variabel Survt kita masukkan dalam Time (ditunjukkan seperti pada kotak Merah).
– Variabel Rx, Log_WBC, dan Sex kita masukkan dalam Covariates (seperti yang tertera pada kotak Merah).
– Variabel Relapse kita masukkan dalam Status (ditandai dengan kotak berwarna hijau).

Sebagai catatan apabila kita perhatikan untuk variabel Relapse terdapat tanda tanya (?). Hal ini menandakan bahwa kita perlu mendefinisikan dari variabel Relapse kategori apa yang menjadi fokus utama sebagai kejadian. Dalam hal ini kita fokus pada kategori 1 untuk Status Relapse Kategori ini menunjukkan bahwa kejadian yang sedang dipelajari (kambuhnya penyakit leukemia telah terjadi).

Dalam hal ini kita fokus pada kotak yang ditandai warna hijau, kita pilih Define Event, setelah itu akan muncul pop-up seperti kotak pada sebelah kanan. Pada bagian Value(s) Indicating Event Has Occured kita tandai pada bagian Single Value. Setelah itu kita isikan dengan nilai sebesar 1, lalu klik Continue.

analisis survival
Gambar 5. SPSS Tahap 3

4. Masih melanjutkan dari tahapan pada Gambar 5, setelah itu kita klik pada tombol Save, sehingga akan muncul Pop-Up seperti yang tertera pada bagian kanan. Dalam hal ini untuk bagian Save Model Variables kita centang pada bagian Partial residuals. Kemudian kita klik Continue.

analisis survival
Gambar 5. SPSS Tahap 3

5. Setelah melakukan tahapan seperti pada Gambar 5. sehingga akan muncul tampilan 3 kolom variabel baru berupa Residual untuk masing- masing kovariates yaitu:
– PR1_1 (Residual untuk variabel Rx)
– PR2_1 (Residual untuk variabel Log_WBC)
– PR3_1 (Residual untuk variabel Sex).
Secara lebih detail, untuk residual- residual untuk tiap variabel dapat dilihat pada Gambar 6.

analisis survival
Gambar 6. Residual Variabel (Rx, Log_WBC, Sex)

6. Tahapan berikutnya melanjutkan dari tahapan pada Gambar 5, kita klik pada bagian Options, nantinya akan muncul tampilan seperti pada pop-up disebelah kanan. Dalam hal ini kita centang pada Model Statistics yaitu CI for exp(B) 95%. Selanjutnya kita beri tanda centang pada Display baseline function. Kemudian kita klik Continue.
Lalu kembali lagi pada pop- up yang di sebelah kiri, kita klik OK.

analisis survival
Gambar 7 . SPSS Tahap 4

7. Selanjutnya kita akan melanjutkan pengecekan asumsi Proportional Hazard, dengan cara berdasarkan Gambar 6, residual- residual variabel kita buat plotnya. Caranya klik Graphs lalu klik Legacy Dialogs kemudian klik Scatter/Dot.

analisis survival
Gambar 8 . SPSS Tahap 5

8. Melanjutkan dari Gambar 8, berikutnya kita klik pada bagian Simple Scatter lalu klik Define

analisis survival
Gambar 9 . SPSS Tahap 6

9. Selanjutnya dalam hal ini kita buat Scatterplot untuk residual tiap kovariat, sehingga kita akan buat scatterplot untuk
– PR1_1 (Residual untuk variabel Rx)
– PR2_1 (Residual untuk variabel Log_WBC)
– PR3_1 (Residual untuk variabel Sex).

Dalam hal ini pada Gambar 10, kita akan membuat scatterplot dimana untuk bagian Y-Axis kita isi dengan Partial residual for Rx [PR1_1] sedangkan untuk bagian X-Axis kita isi dengan Survt. Lalu klik OK.

Dengan cara yang sama kita buat Sccaterplot untuk variabel PR2_1 dan PR3_1 dalam hal ini diisikan pada bagian Y Axis.

analisis survival
Gambar 10 . SPSS Tahap 7

Pembahasan Hasil Output SPSS

Interpretasi Hasil (Karakteristik Data)

Setelah klik OK, maka didapatkan hasil output SPSS sebagai berikut.

analisis survival
Gambar 11. Output Plot Residual Variabel Log_WBC
analisis survival
Gambar 12. Output Plot Residual Variabel Rx
analisis survival
Gambar 13. Output Plot Residual Variabel Sex

Apabila kita perhatikan pada Gambar 11, Gambar 12, dan Gambar 13 menampilkan hasil output Plot residual parsial. Plot residual parsial digunakan untuk mengidentifikasi apakah efek kovariat berubah seiring waktu, yang dapat melanggar asumsi proportional hazard.. Apabila kita perhatikan pada keseluruhan hasil output plot residual tidak membentuk pola sistematis. Jika tidak ada pola yang jelas atau residual tersebar acak tanpa menunjukkan tren, ini menunjukkan bahwa asumsi proportional hazard mungkin dipenuhi.

analisis survival
Gambar 14. Hasil Output SPSS (1)

Selanjutnya ditampilkan pula, berdasarkan hasil output SPSS pada Gambar 14. diketahui bahwa terdapat 42 data yang digunakan dalam analisis survival Cox Proportional Hazard dimana 30 data termasuk (data Event atau Pasien Mengalami Kambuh Penyakit Leukemia) sedangkan 12 data lainnya termasuk (data Censored atau Pasien Tidak Mengalami Kambuh Penyakit Leukemia).

Interpretasi Hasil (Pengecekan Asumsi Proportional Hazard)

analisis survival
Gambar 15. Hasil Output SPSS (2)

Selanjutnya pada hasil output SPSS kita perhatika pada bagian Block1:Method=Enter (bagian ini memuat model Cox Proportional Hazard mencakup semua kovariat atau variabel yang dimasukkan dalam analisis).

Omnibus Tests of Model Coefficients digunakan untuk menguji apakah secara keseluruhan model yang mencakup semua kovariat yang dimasukkan secara signifikan lebih baik dalam menjelaskan data dibandingkan dengan model tanpa kovariat (model null). Berdasarkan Gambar 15. terlihat bahwa pada hasil overall (score) nilai Chi-Square sebesar 44,571 dengan P-Value atau disebut juga dengan Sig yaitu sebesar 0,000. Dalam hal ini kita akan menggunakan taraf signifikansi sebesar 5% atau 0,05, maka dikarenakan P-Value bernilai lebih kecil daripada taraf signifikansi maka secara statistik terbukti bahwa bahwa kovariat (variabel) yang dimasukkan dalam model memiliki pengaruh secara keseluruhan terhadap hasil survival.

analisis survival
Gambar 16. Hasil Output SPSS (3)

Setelah dilakukan pengujian secara keseluruhan, selanjutnya diuji pengaruh masing-masing kovariat dalam model terhadap hazard rate. Apabila kita perhatikan pada Gambar 16, terlihat bahwa nilai Sig. atau P-Value untuk variabel Rx dan Log_WBC bernilai lebih kecil daripada taraf signifikansi (0,05). Sedangkan untuk variabel Sex memiliki P-Value dengan nilai lebih besar daripada taraf signifikansi (0,05). Sehingga dapat diartikan bahwa hanya variabel Rx dan Log WBC berpengaruh signifikan terhadap waktu survival pasien leukemia.

Selanjutnya dapat dilihat pula berdasarkan Gambar 16 bahwa terdapat kolom Exp(B) atau menunjukkan tentang Hazard Ratio (HR). Apabila kita perhatikan nilai Hazard Ratio untuk variabel yang signifikan yaitu:
– Rx dengan Hazard Ratio sebesar 4,018
– Log_WBC dengan Hazard Ratio sebesar 4,922.

Rx dengan Hazard Ratio sebesar 4,018
Nilai HR sebesar 4,018 menunjukkan bahwa pasien yang menerima penanganan penyakit leukemia (Rx) memiliki risiko relapse (kambuh) yang 4,018 kali lebih tinggi dibandingkan dengan kelompok referensi (misalnya, kelompok yang tidak menerima penanganan tertentu), jika semua variabel lain dianggap konstan. Ini menunjukkan bahwa jenis penanganan yang diberikan secara signifikan mempengaruhi risiko relapse, dan penanganan tersebut mungkin kurang efektif dalam mencegah relapse atau mungkin berhubungan dengan kondisi yang lebih parah.

Log_WBC dengan Hazard Ratio sebesar 4,922.
Nilai HR sebesar 4,922 untuk variabel Log WBC menunjukkan bahwa dengan setiap peningkatan satu unit dalam logaritma jumlah sel darah putih, risiko relapse meningkat 4,922 kali lipat, dengan asumsi semua variabel lain konstan. Hal ini mengindikasikan bahwa jumlah sel darah putih yang lebih tinggi (setelah diubah menjadi skala logaritmik) berkorelasi dengan peningkatan risiko relapse pada pasien leukemia. Ini bisa berarti bahwa jumlah sel darah putih yang lebih tinggi mencerminkan beban penyakit yang lebih besar atau respons yang tidak menguntungkan terhadap pengobatan.

Referensi

Kleinbaum, D., & Klein, M. (2012). Survival Analysis A Self-Learning Text Third Edition. Atlanta: Springer.

https://www.siloamhospitals.com/informasi-siloam/artikel/apa-itu-leukemia

Yeayy selesai sudah penjelasan terkait Analisis Survival dengan Software SPSS. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Analisis Survival Cox Proportional Hazard dengan SPSS Read More »

Chi-Square Test: Tutorial SPSS

Hai hai sobat Exsight. Kembali lagi dalam artikel Exsight. By the way, sobat Exsight masih ingat gak nih, pada beberapa artikel yang lalu pernah disinggung terkait topik Penjelasan dan Langkah Mudah Uji Chi Square di RStudio. Nah melanjutkan dari artikel sebelumnya, kali ini kita akan membahas lebih mendalam terkait Tutorial Chi-Square yakni dengan software SPSS. Tanpa berlama-lama lagi, yuk yuk simak artikel ini dengan seksama!

Deskripsi

Uji Chi-Square dapat digunakan untuk mengetahui ada tidaknya korelasi antar dua variabel khususnya pada data berskala nominal. Langkah uji chi square adalah dengan membuat tabulasi silang suatu variabel berdasarkan kategorinya dan dilanjutkan dengan melakukan uji hipotesis untuk menguji apakah frekuensi yang diamati berbeda dari frekuensi yang diharapkan. Jika diperoleh keputusan bahwa terdapat perbedaan antara frekuensi yang diamati dengan frekuensi yang diharapkan, maka dapat disimpulkan bahwa kedua variabel memiliki korelasi.

Hipotesis pada uji Chi-Square yaitu sebagai berikut.
H0 : Tidak terdapat hubungan yang signifikan antara dua variabel
H1 : Terdapat hubungan yang signifikan antara dua variabel

Uji Chi-square dapat dirumuskan sebagai berikut:

di mana
X^{2} = Distribusi Chi-square
Oi = Nilai observasi (pengamatan) ke-i
Ei = Nilai ekspektasi ke-i = \frac{\left ( Total Baris \right )\left ( Total Kolom \right )}{Total Keseluruhan}

Konsep Dasar Chi-Square Test

Konsep dasar yang digunakan untuk chi-square test adalah data berasal dari sampel acak dan dapat disajikan dalam tabel dua arah.

* Data Dapat Disajikan dalam Tabel Dua Arah
Uji chi-square biasanya digunakan untuk menguji hubungan antara dua variabel kategori. Data ini harus bisa disusun dalam tabel kontingensi dua arah, di mana satu variabel ditampilkan sebagai baris dan variabel lainnya sebagai kolom.
Contoh:
Misalkan kita memiliki data tentang preferensi minuman (teh atau kopi) berdasarkan jenis kelamin (pria atau wanita). Data ini dapat disusun dalam tabel dua arah dengan baris untuk jenis kelamin dan kolom untuk preferensi minuman.

Pentingya Chi-Square Test

Mengapa Chi-Square Test Penting dalam Analisis Data?

*Validasi Hubungan Antar Variabel
Uji chi-square membantu dalam menentukan apakah ada hubungan yang signifikan antara dua variabel kategori. Hal ini penting untuk memahami dinamika antar variabel dalam berbagai konteks penelitian.

*Mengidentifikasi Perbedaan
Dalam analisis data, chi-square test digunakan untuk mengidentifikasi perbedaan dalam distribusi frekuensi antar kelompok, yang bisa sangat berguna dalam bidang seperti pemasaran, psikologi, dan ilmu sosial lainnya.

Tahapan Chi-Square Test

Langkah – langkah dalam pengujian Chi-square yaitu sebagai berikut.

  1. Merumuskan hipotesis H0 dan hipotesis H1
  2. Menetapkan alpha atau taraf signifikansi (umumnya menggunakan alpha 5%)
  3. Menghitung statistik uji
  4. Melakukan pengujian dan interpretasi hasil

Rumus pada uji Chi–square sebenarnya tidak hanya ada satu. Apabila pada tabel kontingensi 2 X 2 maka rumus yang digunakan adalah Continuty Correction. Apabila tabel kontingensi 2 X 2, tetapi tidak memenuhi syarat dalam uji Chi-square maka rumus yang digunakan adalah Fisher Exact Test. Sedangkan apabila tabel kontingensi lebih dari 2 X 2 misal 2 X 3 maka rumus yang digunakan adalah Pearson Chi-square.

Kelebihan dan Kelemahan

Terdapat beberapa kelebihan dan kelemahan pada uji chi-square diantaranya adalah sebagai berikut.

Kelebihan

  1. Sederhana dan Mudah Dipahami
    Uji chi-square menggunakan formula yang relatif sederhana, sehingga mudah dipahami bahkan oleh mereka yang baru mempelajari statistik.
  2. Analisis Data Kategorikal
    Uji ini sangat cocok untuk menganalisis data kategorikal, contoh data kategorikal diantaranya seperti jenis kelamin, warna favorit, atau status pernikahan.
  3. Tidak Membutuhkan Asumsi Distribusi Normal
    Berbeda dengan banyak uji statistik lainnya, uji chi-square tidak memerlukan asumsi bahwa data harus berdistribusi normal.
  4. Fleksibelitas
    Dapat digunakan untuk berbagai macam analisis, termasuk uji kecocokan (goodness of fit), uji kemandirian (test of ndependence), dan uji homogenitas.
  5. Apliksi Penerapan Luas
    Uji chi-square digunakan dalam berbagai bidang seperti biologi, kedokteran, ilmu sosial, pemasaran, dan lainnya untuk menguji hipotesis tentang distribusi frekuensi.

Kelemahan

  1. Sensitivitas terhadap Ukuran Sampel
    Uji chi-square sangat sensitif terhadap ukuran sampel. Ukuran sampel yang terlalu kecil dapat menghasilkan hasil yang tidak dapat diandalkan, sementara ukuran sampel yang sangat besar dapat menyebabkan uji menjadi terlalu sensitif dan mendeteksi perbedaan yang tidak bermakna secara praktis.
  2. Tidak Dapat Digunakan untuk Data Kontinu
    Uji Chi- Square hanya dapat digunakan untuk data kategorikal. Untuk data kontinu, data harus diubah menjadi kategori, yang dapat menyebabkan hilangnya informasi.
  3. Frekuensi Harapan
    Untuk hasil yang dapat diandalkan, uji chi-square menyaratkan bahwa frekuensi harapan dalam setiap sel tabel kontingensi tidak boleh terlalu kecil (idealnya tidak kurang dari 5). Ini dapat menjadi kendala dalam analisis data dengan banyak kategori atau sampel yang kecil.
  4. Keterbatasan dalam Analisis Multivariat
    Uji chi-square terbatas pada analisis dua variabel (univariat atau bivariat) dan tidak cocok untuk analisis multivariat yang melibatkan lebih dari dua variabel tanpa modifikasi atau penggunaan metode statistik tambahan.
  5. Keterbatasan Interpretasi
    Meskipun uji chi-square dapat menunjukkan adanya asosiasi antara variabel-variabel kategorikal, uji ini tidak memberikan informasi tentang kekuatan atau arah hubungan tersebut.

Tutorial SPSS Uji Chi-Square

Studi Kasus

Studi kasus pada artikel kali ini akan menggunakan data yang serupa dengan data pada artikel sebelumnya yakni pada artikel pengujian Chi-Square dengan R Studio. Dalam hal ini data yang digunakan merupakan data keterlibatan warga baik laki-laki dan perempuan pada kegiatan kerja bakti di suatu wilayah. Selengkapnya data bisa diakses disini.

Chi-Square

Dataset terdiri atas 99 data, dimana terdiri atas 2 variabel yaitu: Variabel Jenis Kelamin dan Variabel Kerja Bakti. Kedua variabel tersebut merupakan variabel kategorik yang bersifat nominal. Adapun untuk Variabel Jenis Kelamin terdiri atas 2 kategori (Laki-laki dan Perempuan), sedangkan Variabel Kerja Bakti juga terdiri atas 2 kategori (Terlibat dan Tidak)

  1. .Buka software SPSS, kemudian entry data pada variable view dan data view.
Chi-Square
Gambar 1. SPSS Tahap 1a

Pada bagian data view berisi data-data dari masing-masing variabel, sedangkan untuk bagian variable view berisi pendefinisian dari masing-masing (khususnya terkait jenis data pada bagian measure).

Chi-Square
Gambar 2. SPSS Tahap 1b

3. Tahapan berikutnya klik Analyze lalu klik Descriptive Statistics, kemudian klik Crosstabs

Chi-Square
Gambar 3. SPSS Tahap 2

4.Selanjutnya akan muncul tampilan dialog box seperti halnya pada Gambar 4., dalam hal ini untuk bagian Row(s) kita isi dengan variabel Jenis_Kelamin, lalu untuk bagian Column(s) diisi dengan variabel Kerja_Bakti. Kemudian, tak lupa, kita juga perlu klik pada bagian Statistics.

Chi-Square
Gambar 4. SPSS Tahap 3

5. Apabila kita klik pada bagian Statistics , nantinya akan muncul tampilan seperti pada Gambar 5. Dalam hal ini, kita centang pada bagian Chi- Square, lalu kita klik Continue.

Chi-Square

Gambar 5.
SPSS Tahap 4

6. Setelah itu nantinya akan muncul kembali tampilan SPSS seperti halnya pada Gambar 4. Dalam hal ini sekarang kita klik tombol Cells, seperti yang terlihat pada Gambar 6.

Chi-Square
Gambar 6. SPSS Tahap 5

7. Nantinya akan muncul tampilan seperti Gambar 7. Kemudian pada display Crosstabs: Cell Display, dalam hal ini pada bagian Counts, kita centang pada bagian Observed dan bagian Expected. Lalu kita klik Continue.

Chi-Square
Gambar 7. SPSS Tahap 6

Pembahasan Hasil Output SPSS

Setelah klik OK, maka didapatkan hasil output SPSS sebagai berikut.

Chi-Square
Gambar 8. Hasil Output SPSS (1)

Berdasarkan hasil output SPSS pada Gambar 8. diketahui bahwa terdapat 99 data dimana seluruhnya diproses dalam analisis. Artinya tidak ada missing value atau data yang hilang sehingga tingkat kevalidan penggunaan data dalam pada proses chi-square valid 100%.

Chi-Square

Gambar 9.
Hasil Output SPSS (2)

Selanjutnya didapatkan pula hasil output SPSS seperti yang terlampir pada Gambat 9. , dalam hal ini output di atas menampilkan tabel tabulasi silang yang menunjukkan hubungan antara variabel Jenis Kelamin dan variabel Kerja Bakti. Interpretasi dari output pada Gambar 9 di atas yaitu:

  • Dari 99 data, secara keseluruhan terdapat data laki- laki yaitu sebanyak 47 orang dan perempuan sebanyak 52 orang. Adapun apabila ditinjau berdasarkan keterlibatan dalam kegiatan kerja bakti, diketahui bahwa terdapat 59 orang yang terlbat dan 40 lainnya tidak demikian.
  • Nilai 41 pada baris pertama kolom pertama menunjukkan bahwa terdapat 41 orang laki-laki yang terlibat dalam kegiatan kerja bakti. Sedangkan 6 orang laki-laki lainnya tidak terlibat dalam kerja bakti ditunjukkan pada baris pertama kolom kedua.
  • Nilai 18 pada baris ketiga kolom pertama menunjukkan bahwa terdapat 18 orang perempuan yang terlibat dalam kegiatan kerja bakti. Sedangkan 34 orang perempuan lainnya tidak terlibat dalam kerja bakti ditunjukkan pada baris ketiga kolom kedua.
Chi-Square
Gambar 10. Hasil Output SPSS (3)

Di awal artikel khususnya pada bagian deskripsi, telah disebutkan terkait hipotesis untuk pengujian chi-square. Namun dalam hal ini, penulisan hipotesis perlu dilakukan penyesuaian, sesuai data yang kita gunakan, di mana melibatkan variabel Jenis Kelamin dan variabel Kerja Bakti. Hipotesis dapat dituliskan sebagai berikut.

H0 : Tidak terdapat hubungan yang signifikan antara variabel Jenis Kelamin dan variabel Kerja Bakti.
H1 : Terdapat hubungan yang signifikan antara variabel Jenis Kelamin dan variabel Kerja Bakti.

Berdasal output SPSS pada Gambar 10. untuk interpretasil hasil pengujian chi- square, kita fokuskan pada nilai-nilai yang terdapat pada baris yang sama dengan baris “Continuity Correction” karena tabel kontingensi yang diuji merupakan tabel 2×2 dan tidak ada sel dengan nilai eskpektasi kurang dari 5. Dalam hal ini kita perhatikan nilai Asymptotic Significance (2- sided) atau yang biasa disebut dengan p-value, dimana nilainya sebesar 0.000. Namun, jika pada tabel 2×2 terdapat sel dengan nilai eskpektasi kurang dari 5, maka gunakan p-value pada baris “Fisher’s Exact Test“.

Apabila pada pengujian ini, kita menggunakan taraf signifikansi (alpha) sebesar 5% atau 0.05, maka didapatkan nilai Asymptotic Significance (2- sided) lebih kecil daripada p-value yakni 0.000 < 0.05. Sehingga dapat diambil keputusan bahwa Tolak H0, artinya terdapat hubungan yang signifikan antara variabel Jenis Kelamin dan variabel Kerja Bakti.

Referensi

Dewanti, D. (2023). Metode Statistika Populer untuk Penelitian. Bogor: Exsight.

https://www.spssindonesia.com/2015/01/uji-chi-square-dengan-spss-lengkap.html

Negara, I. (2018). Penggunaan Uji Chi-Square untuk Mengetahui Pengaruh Tingkat Pendidikan dan Umur Terhadap Pengetahuan PENASUN Mengenai HIV-AIDS di Provinsi DKI Jakarta. Prosiding Seminar Nasional Matematika dan Terapannya.

Sekian penjelasan terkait Tutorial Chi-Square dengsn SPSS. Jika masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Chi-Square Test: Tutorial SPSS Read More »

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!