Halo, halo sobat Exsight! Jika kita bicara soal data, pasti kita penasaran dengan cerita apa yang disembunyikan di balik angka-angka dan fakta-fakta yang kita punya, kan? Nah, pada artikel kali ini kita akan membahas tentang Analisis Diskriminan, sebuah metode keren yang digunakan untuk menggali harta karun dari data yang kita miliki.
Bayangkan saja, ketika kita punya sejumlah besar informasi tentang berbagai kelompok orang atau objek, seperti karakteristik mereka, minat, atau bahkan prestasi, dengan menggunakan metode statistika, yaitu Analisis Diskriminan, kita dapat mengidentifikasi pola dan perbedaan di antara kelompok-kelompok ini.
Pada artikel ini, selain akan dibahas tentang apa itu diskriminan secara teoritis, dalam hal ini dilengkapi pula tutorial analisis diskriminan dengan SPSS. Maka dari itu, simak dengan seksama yaa!
Definisi
Analisis diskriminan merupakan sebuah metode statistik multivariat yang digunakan untuk menentukan perbedaan atau diskriminasi antara dua atau lebih kelompok berbeda berdasarkan pada variabel-variabel yang telah ditentukan sebelumnya. Pada analisis diskriminan, variabel-variabel yang digunakan saling bergantung satu sama lain (dependen). Variabel-variabel dalam analisis diskriminan terdiri atas variabel dependen dan variabel independen. Variabel dependen melibatkan data kategorik atau kualitatif (ordinal atau nominal), sedangkan variabel independen berupa data kuantitatif (interval atau rasio).
Tujuan dari analisis diskriminan adalah untuk menemukan kombinasi linear atau non-linear dari variabel-variabel independen yang paling baik dapat memisahkan atau membedakan antara kelompok-kelompok tersebut. Metode diskriminan seringkali digunakan dalam klasifikasi atau pengelompokan data ke dalam kategori atau kelas yang berbeda berdasarkan karakteristik atau atribut tertentu yang diamati.
Konsep Dasar
Konsep dasar dari analisis diskriminan yakni melibatkan teknik statistik yang digunakan untuk membedakan atau mengklasifikasikan objek atau individu ke dalam dua atau lebih kelompok berbeda berdasarkan pada variabel-variabel yang telah ditentukan sebelumnya. Berikut adalah beberapa konsep dasar dalam analisis diskriminan:
- Tujuan Utama:
- Mengidentifikasi variabel atau atribut yang paling membedakan antara kelompok-kelompok yang diamati.
- Memahami bagaimana variabel-variabel tersebut digunakan untuk memisahkan atau mengklasifikasikan objek ke dalam kelompok yang sesuai.
- Variabel Dependen:
- Variabel dependen dalam analisis diskriminan adalah variabel kategorikal yang menggambarkan kelompok-kelompok yang akan diprediksi atau diklasifikasikan.
- Variabel Independen:
- Variabel independen adalah variabel atau atribut yang digunakan untuk membedakan atau memisahkan kelompok-kelompok yang berbeda. Variabel ini bisa bersifat numerik atau kategorikal.
- Fungsi Diskriminan:
- Tujuan utama analisis ini adalah untuk menemukan fungsi diskriminan yang optimal, baik linier maupun non-linier, yang dapat memaksimalkan pemisahan antara kelompok-kelompok yang berbeda.
- Evaluasi dan Interpretasi:
- Setelah analisis dilakukan, evaluasi dilakukan terhadap kinerja model dalam membedakan kelompok-kelompok.
- Variabel mana yang memiliki pengaruh yang paling besar dalam membedakan kelompok juga dievaluasi dan diinterpretasikan.
Analisis diskriminan dapat membantu kita dalam mengklasifikasikan objek atau individu ke dalam kelompok-kelompok berbeda berdasarkan karakteristik atau atribut tertentu yang diamati.
Jenis- Jenis Analisis Diskriminan
Jenis-jenis analisis diskriminan dapat dibagi menjadi beberapa kategori berdasarkan pendekatannya dan cara penerapannya. Berikut adalah beberapa jenis analisis diskriminan:
A. Analisis Diskriminan Linier
Metode ini menggunakan pendekatan linier untuk memisahkan atau membedakan antara kelompok-kelompok yang berbeda berdasarkan kombinasi linier dari variabel-variabel independen. Tujuan utamanya adalah untuk menemukan fungsi linear yang paling baik dalam membedakan antara kategori-kategori yang ada.
B. Analisis Diskriminan Non-Linier
Berbeda dengan analisis diskriminan linier, analisis diskriminan non- linier lebih fleksibel dan dapat menangani pola yang tidak dapat diuraikan secara linier.
C. Analisis Diskriminan Berganda
Dalam analisis diskriminan berganda, terdapat lebih dari dua kelompok atau kategori yang dipertimbangkan. Metode ini berfokus pada pemisahan atau klasifikasi lebih dari dua kelompok dengan menggunakan beberapa variabel independen sekaligus.
Setiap jenis analisis diskriminan memiliki kelebihan dan kelemahan serta dapat lebih tepat digunakan tergantung pada kondisi data yang dimiliki serta tujuan analisis yang ingin dicapai.
Kelebihan dan Kelemahan
Terdapat beberapa kelebihan dan kelemahan dalam analisis diskriminan diantaranya sebagai berikut.
Kelebihan
- Mampu Mengelompokkan Data
Analisis diskriminan dapat memisahkan atau mengelompokkan data ke dalam kategori-kategori yang berbeda berdasarkan pada variabel-variabel yang relevan. Analisis diskriminan dapat membantu kita dalam identifikasi pola atau perbedaan antara kelompok-kelompok tersebut. - Fleksibel dalam Penggunaan Variabel
Metode ini memungkinkan penggunaan berbagai jenis variabel, baik numerik maupun kategorikal, sehingga memberikan keleluasaan dalam analisis terhadap berbagai jenis data. - Mendukung Pengambilan Keputusan
Dapat memberikan wawasan yang mendalam terhadap variabel-variabel yang paling berpengaruh dalam membedakan antara kelompok-kelompok yang diamati. Selain itu, dapat membantu kita dalam pengambilan keputusan. - Mengatasi Asumsi Normalitas dan Homogenitas Varians
Analisis diskriminan tidak bergantung pada asumsi normalitas distribusi data atau homogenitas varians, sehingga lebih robust terhadap pelanggaran asumsi tersebut.
Kelemahan
- Sensitif terhadap Outlier
Analisis diskriminan dapat dipengaruhi oleh data pencilan (outlier) yang dapat memengaruhi akurasi dan validitas hasil analisis. - Memerlukan Jumlah Sampel yang Cukup
Untuk memberikan hasil yang akurat dan dapat diandalkan, analisis diskriminan memerlukan jumlah sampel yang memadai di setiap kelompok sehingga kurangnya data dapat mempengaruhi hasilnya. - Memerlukan Asumsi Non-Multikolinieritas
Metode ini mengharapkan bahwa variabel-variabel yang digunakan tidak terlalu berkorelasi satu sama lain (multikolinieritas), jika terdapat korelasi tinggi, dapat menyulitkan interpretasi hasil. - Tidak Mengidentifikasi Sebab-Akibat
Analisis diskriminan hanya mengidentifikasi perbedaan antara kelompok-kelompok tanpa menentukan hubungan sebab-akibat di antara variabel-variabel tersebut.
Penerapan Analisis Diskriminan
Analisis diskriminan memiliki berbagai penerapan yang luas dalam berbagai bidang. Berikut adalah beberapa contoh penerapannya:
A. Bisnis dan Pemasaran
- Memahami profil pelanggan untuk mengidentifikasi preferensi pembelian atau perilaku belanja yang berbeda.
- Menganalisis faktor-faktor yang mempengaruhi keberhasilan atau kegagalan produk di pasar.
- Segmentasi pasar untuk mengidentifikasi karakteristik khusus dari kelompok konsumen yang berbeda.
B. Sumber Daya Manusia dan Manajemen SDM
- Memprediksi faktor-faktor yang memengaruhi karyawan untuk sukses dalam pekerjaan atau dalam mendapatkan promosi.
- Mengidentifikasi atribut atau karakteristik yang paling berkaitan dengan tingkat kepuasan kerja.
C. Kesehatan dan Kedokteran
- Menganalisis faktor-faktor yang membedakan antara pasien yang rentan terhadap suatu penyakit atau kondisi kesehatan tertentu.
- Memahami variabel apa yang paling mempengaruhi hasil dari pengobatan tertentu.
D. Keuangan dan Ekonomi
- Mengklasifikasikan kreditur berdasarkan risiko kredit.
- Menentukan faktor-faktor yang mempengaruhi performa keuangan sebuah perusahaan atau sektor industri.
E. Ilmu Sosial dan Psikologi
- Mengidentifikasi faktor-faktor yang berbeda di antara kelompok demografis dalam hal preferensi politik atau perilaku sosial.
- Menganalisis variabel apa yang paling membedakan antara kelompok dalam psikologi manusia atau sosiologi.
Tutorial SPSS
Studi Kasus
Studi kasus yang akan kita gunakan dalam hal ini menggunakan data sampel terkait Lung Cancer (Kanker Paru-Paru) yang didapatkan dari situs kaggle.com, dimana data di-publish oleh Ms. Nancy Al Aswad.
* Tidak terdapat missing value pada data.
* Data terdiri atas 309 observasi.
Data terdiri atas 16 variabel yaitu:
Variabel | Keterangan Variabel | Skala Data |
Gender | M = Male F = Female | Kategorik |
Age | Numerik | |
Smoking | 1 = No 2 = Yes | Kategorik |
Yellow Finger | 1 = No 2 = Yes | Kategorik |
Anxiety | 1 = No 2 = Yes | Kategorik |
Peer Pressure | 1 = No 2 = Yes | Kategorik |
Chronic Disease | 1 = No 2 = Yes | Kategorik |
Fatigue | 1 = No 2 = Yes | Kategorik |
Allergy | 1 = No 2 = Yes | Kategorik |
Wheezing | 1 = No 2 = Yes | Kategorik |
Alcohol | 1 = No 2 = Yes | Kategorik |
Coughing | 1 = No 2 = Yes | Kategorik |
Shortness of Breath | 1 = No 2 = Yes | Kategorik |
Swallowing Difficulty | 1 = No 2 = Yes | Kategorik |
Chest Pain | 1 = No 2 = Yes | Kategorik |
Lung Cancer | 1 = No 2 = Yes | Kategorik |
Pada Tabel 1. variabel Lung Cancer berperan sebagai variabel Dependen, sedangkan lainnya merupakan variabel Independen.
Tutorial
1.Buka software SPSS, kemudian entry data pada variable view dan data view.
Pada bagian data view berisi data-data dari masing-masing variabel, sedangkan untuk bagian variable view berisi pendefinisian dari masing-masing (khususnya terkait jenis data pada bagian measure).
2. Tahapan selanjutnya klik Analyze – klik Classifiy – klik Discriminant
3. Kemudian pada bagian Grouping Variables, kita isi dengan variabel dependen yaitu LUNG_CANCER, dalam hal ini untuk variabel LUNG_CANCER perlu kita definisikan terlebih dahulu, dengan cara klik Define Range.
4. Pada bagian Define Range, kita isikan nilai Minimum yaitu 1 (melambangkan kategori No) dan nilai Maksimum yaitu 2 (melambangkan kategori Yes)
5. Selanjutnya pada bagian Independents, kita isikan dengan variabel- variabel independen sebanyak 15 variabel sebagai berikut. Lalu kita pilih pada bagian Use stepwise method.
6. Mengacu pada Gambar 5., tahapan berikutnya klik pada bagian Statistics, sehingga muncul tampilan seperti pada Gambar 6. Apabila kita perhatikan pada Gambar 6, kita centang seluruh kotak, baik pada bagian Descriptive, Function Coefficients, dan Matrices. Lalu kita klik Continue.
7. Kita perhatikan kembali, mengacu pada Gambar 5, klik pada bagian Statistics, sehingga muncul tampilan seperti pada Gambar 7. Kita centang pada bagian Wilks’ lambda, Summary of steps, lalu pada bagian Criteria, kita pilih Use F Value dengan nilai Entry yaitu 3.84 dan nilai Removal yaitu 2.71. Lalu klik Continue.
8. Masih mengacu pada Gambar 5, klik pada bagian Classify, sehingga muncul tampilan seperti pada Gambar 8. Untuk bagian-bagian yang perlu dicentang, sesuaikan seperti pada Gambar 8.
Selanjutnya klik Continue dan Klik OK.
Pembahasan Hasil Output SPSS
Setelah klik OK, maka didapatkan hasil output SPSS sebagai berikut.
Hasil output pada Gambar 9. menunjukkan hasil uji kesamaan rata-rata variabel dalam hal ini menggunakan uji Wilks’ Lambda. Pada artikel ini, taraf signifikansi yang digunakan yaitu alfa 5% atau 0.05. Kriteria pengujian yang digunakan adalah sebagai berikut.
- Apabila nilai Sig atau p-value > 0,05 maka tidak ada perbedaan dalam kelompok
- Apabila nilai Sig atau p-value < 0,05 maka ada perbedaan dalam kelompok
Berdasarkan Gambar 9. diketahui bahwa variabel-variabel yang menunjukkan adanya perbedaan dalam kelompok atau dengan kata lain variabel independen yang memberikan perbedaan pada variabel dependen (LUNG_CANCER) yaitu variabel:
* YELLOW_FINGER
* ANXIETY
* PEER_PRESSURE
* FATIGUE
* ALLERGY
* WHEEZING
* ALCOHOL_CONSUMING
* COUGHING
* SWALLOWING_DIFFICULTY
* CHEST_PAIN
Selanjutnya berdasarkan hasil output SPSS pada Gambar 10. diperoleh informasi bahwa nilai Canonical Correlation yaitu sebesar 0.620. Nilai canonical correlation digunakan untuk mengukur derajat hubungan antara hasil diskriminan atau besarnya variabilitas yang mampu diterangkan oleh variabel independen terhadap variabel dependen.
Apabila nilai canonical correlation sebesar 0,620 dikuadratkan (0,620 x 0,620) = 0.3844, artinya 38.44% varians dari variabel independen (kelompok) dapat dijelaskan dari model diskriminan yang terbentuk.
Nilai korelasi kanonikal menunjukan hubungan antara nilai diskriminan dengan kelompok. Nilai Canonical Correlation sebesar 0,620 berarti hubungannya cukup tinggi karena mendekati angka 1 (besarnya korelasi antara 0-1).
Referensi
Sampai disini dulu penjelasan terkait Analisis Diskriminan. Untuk interpretasi lanjutan terkait fungsi diskriminan yang terbentuk serta ukuran akurasi dari model akan dibahas pada bagian selanjutnya yaa.
Jika masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.
Pingback: Analisis Diskriminan Dengan Software R (Part 2) - Exsight