Rahmania Azwarini

Analisis Diskriminan dengan Software R (Part 2)

Holaa, ketemu lagi nih dengan sobat Exsight. Dalam klasifikasi pada ilmu statistik, tentunya sobat Exsight tidak asing dong dengan salah satu metode klasifikasi ini. Yapss benar, yaitu metode Analisis Diskriminan. Pada beberapa artikel yang lalu, kita pernah membahas terkait metode ini beserta penerapannya dengan software SPSS. Selengkapnya bisa di cek di artikel Analisis Diskriminan (Part 1).

Nah berbeda dari sebelumnya, sekarang kita akan membahas lebih detail penerapan Analisis Diskriminan dengan software lainnya, yaitu software R. Yuk yuk langsung saja, bisa dibaca lanjut ya untuk pembahasannya!

Konsep Dasar Analisis Diskriminan

Analisis diskriminan merupakan sebuah metode statistik multivariat yang digunakan untuk menentukan perbedaan atau diskriminasi antara dua atau lebih kelompok berbeda berdasarkan pada variabel-variabel yang telah ditentukan sebelumnya. 

Tujuan dari analisis diskriminan adalah untuk menemukan kombinasi linear atau non-linear dari variabel-variabel independen yang paling baik dapat memisahkan atau membedakan antara kelompok-kelompok tersebut. Metode diskriminan seringkali digunakan dalam klasifikasi atau pengelompokan data ke dalam kategori atau kelas yang berbeda berdasarkan karakteristik atau atribut tertentu yang diamati.

Jenis-Jenis Analisis Diskriminan

Jenis-jenis analisis diskriminan dapat dibagi menjadi beberapa kategori berdasarkan pendekatannya dan cara penerapannya. Berikut adalah beberapa jenis analisis diskriminan:

A. Analisis Diskriminan Linier
Metode ini menggunakan pendekatan linier untuk memisahkan atau membedakan antara kelompok-kelompok yang berbeda berdasarkan kombinasi linier dari variabel-variabel independen. Tujuan utamanya adalah untuk menemukan fungsi linear yang paling baik dalam membedakan antara kategori-kategori yang ada.

B. Analisis Diskriminan Non-Linier
Berbeda dengan analisis diskriminan linier, analisis diskriminan non-linier lebih fleksibel dan dapat menangani pola yang tidak dapat diuraikan secara linier.

C. Analisis Diskriminan Berganda
Dalam analisis diskriminan berganda, terdapat lebih dari dua kelompok atau kategori yang dipertimbangkan. Metode ini berfokus pada pemisahan atau klasifikasi lebih dari dua kelompok dengan menggunakan beberapa variabel independen sekaligus.

Setiap jenis analisis diskriminan memiliki kelebihan dan kelemahan serta dapat lebih tepat digunakan tergantung pada kondisi data yang dimiliki serta tujuan analisis yang ingin dicapai.

Dalam hal ini, untuk artikel kali ini, kita akan berfokus pada tutorial analisis diskriminan linier menggunakan software R.

Asumsi Analisis Diskriminan

Terdapat beberapa asumsi yang harus dipenuhi sebelum dilakukan analisis diskriminan, diantaranya adalah sebagai berikut.

  1. Variabel- variabel prediktor (independen) mengikuti distribusi normal multivariat.
  2. Tidak terdapat outlier pada variabel independen.
  3. Adanya homogenitas varians antara kelompok data (matriks varians-kovarians variabel penjelas berukuran pxp pada kedua kelompok harus sama)

Studi Kasus

Dalam hal ini, kita akan menggunakan studi kasus menggunakan data sampel terkait Lung Cancer (Kanker Paru- Paru) data akses disini, yang didapatkan dari situs kaggle.com, dimana data di-publish oleh Ms. Nancy Al Aswad.
* Tidak terdapat missing value pada data.
* Data terdiri atas 309 observasi.

Data terdiri atas 16 variabel, yaitu:

VariabelSimbol VariabelKeterangan VariabelSkala Data
GenderX1M = Male
F = Female
Kategorik
AgeX2Numerik
SmokingX31 = No
2 = Yes
Kategorik
Yellow FingerX41 = No
2 = Yes
Kategorik
AnxietyX51 = No
2 = Yes
Kategorik
Peer PressureX61 = No
2 = Yes
Kategorik
Chronic DiseaseX71 = No
2 = Yes
Kategorik
FatigueX81 = No
2 = Yes
Kategorik
AllergyX91 = No
2 = Yes
Kategorik
WheezingX101 = No
2 = Yes
Kategorik
AlcoholX111 = No
2 = Yes
Kategorik
CoughingX121 = No
2 = Yes
Kategorik
Shortness of BreathX131 = No
2 = Yes
Kategorik
Swallowing DifficultyX141 = No
2 = Yes
Kategorik
Chest PainX151 = No
2 = Yes
Kategorik
Lung CancerY1 = No
2 = Yes
Kategorik
Tabel 1. Data

Pada Tabel 1. variabel Lung Cancer berperan sebagai variabel Dependen, sedangkan lainnya merupakan variabel Independen.

Tutorial Analisis Diskriminan dengan Software R

Load Library

Sebelum melakukan running syntax di software R untuk analisis diskriminan, terlebih dahulu melakukan load library R. Adapun library yang diperlukan untuk analisis diskriminan, yaitu:

library(MVN)
library(biotools)
library(candisc)
library(MASS)
library(caret)

Load Data

Kemudian melakukan input data ke R. Data yang diinput diberi nama sebagai data. Perlu diperhatikan untuk jenis file data yang diinput ke R, untuk tutorial kali ini jenis file data yang digunakan yaitu dalam format CSV. Syntax yang digunakan untuk load data adalah sebagai berikut.

data<-read.csv(file.choose(),header=TRUE,sep=",")
analisis diskriminan

Model Diskriminan

Tahapan selanjutnya yaitu melakukan running model diskriminan, syntax yang digunakan adalah sebagai berikut.

#Model Diskriminan
modellda<-lda(data$LUNG_CANCER~., data = data)
modellda
analisis diskriminan
analisis diskriminan

Berdasarkan hasil output R di atas terlihat hasil untuk Prior Probabilities of Groups. Dalam hal ini Prior Probabilities of Groups merupakan probabilitas yang diberikan kepada setiap kelompok berdasarkan informasi awal atau asumsi sebelum data fitur digunakan. Hasil di atas menunjukkan bahwa probabilitas kelompok NO (tidak memiliki penyakit kanker paru- paru ) sebesar 0,1261 dan probabilitas kelompok YES (memiliki penyakit paru- paru) sebesar 0,8737864.

Penggunaan Prior Probabilities of Groups dapat membantu dalam membuat keputusan klasifikasi yang lebih akurat dengan mempertimbangkan distribusi kelompok yang mungkin tidak seimbang dalam data.

Hasil output lainnya yaitu Group Means. Group Means dalam hasil output analisis diskriminan merujuk pada rata-rata nilai untuk masing-masing variabel independen (prediktor) dalam setiap kelompok yang sedang dianalisis. Group Means memberikan informasi tentang karakteristik rata-rata dari setiap kelompok berdasarkan variabel yang digunakan dalam model diskriminan.

Kemudian terdapat pula hasil output coefficients of linear discriminants. Coefficients of linear discriminants pada hasil output analisis diskriminan merujuk pada koefisien yang digunakan untuk membentuk kombinasi linier dari variabel prediktor yang memaksimalkan perbedaan antara kelompok. Koefisien ini menunjukkan kontribusi masing-masing variabel prediktor dalam menentukan fungsi diskriminan. Fungsi diskriminan dibangun sedemikian rupa sehingga nilai koefisien optimal untuk memaksimalkan perbedaan antara kelompok. Berdasarkan coefficients of linear discriminants, maka diperoleh fungsi diskriminan dengan persamaan sebagai berikut:

D=0.006610150X_{1}+0.008736665X_{2}+0.448595676X_{3}+0.733785633X_{4}+0.471094976X_{5}
+\\0.540638400X_{6}+0.560243295X_{7}+0.921038883X_{8}+0.912006373X_{9}+0.367686786X_{10}+\\1.189833401X_{11}+0.648283306X_{12}+0.272951385X_{13}+0.610664146X_{14}+0.169307312X_{15}

Berdasarkan persamaan model di atas, dapat diinterpretasikan bahwa koefisien diskriminan linier tertinggi yaitu terdapat pada variabel Alcohol Consuming (X11), yaitu sebesar 1.189833401. Sedangkan variabel dengan koefisien diskriminan linier terendah adalah variabel Gender (X1) dengan nilai variabel sebesar 0.006610150.

Hal ini dapat diartikan bahwa variabel Alcohol Consuming (X11) adalah faktor paling penting dalam memprediksi apakah pasien memiliki penyakit kanker paru-paru. Sedangkan variabel Gender (X1) tidak terlalu memegang peran penting dalam prediksi apakah pasien memiliki penyakit kanker paru-paru.

Dengan kata lain, dalam konteks kesehatan, dapat ditekankan bahwa konsumsi alkohol memegang peran penting dalam menentukan risiko penyakit kanker paru-paru.

Secara keseluruhan, coefficients of linear discriminants memberikan wawasan yang mendalam tentang peran masing-masing variabel dalam memisahkan kelompok dan membantu dalam membangun model diskriminan yang dapat diandalkan dan akurat.

Ketepatan Model

Ketepatan model dalam analisis diskriminan merujuk pada seberapa baik model tersebut mampu mengklasifikasikan data ke dalam kategori yang benar. Dalam analisis diskriminan, tujuan utama adalah membedakan atau mengklasifikasikan objek atau individu ke dalam dua atau lebih kelompok berdasarkan beberapa variabel independen.

#Ketepatan Model
pred_LDA1<- predict(modellda, data)
confmatLDA1<-confusionMatrix(pred_LDA1$class,as.factor(data$LUNG_CANCER),positive = "YES")
confmatLDA1
analisis diskriminan

Pada tabel Confusion Matrix and Statistics, diketahui bahwa:
– Terdapat 28 (pasien yang tidak memiliki penyakit Kanker Paru- Paru dan diprediksi memiliki penyakit Kanker Paru- Paru).
– Terdapat 261 (pasien yang benar-benar tidak memiliki penyakit Kanker Paru- Paru dan diprediksi tidak memiliki penyakit Kanker Paru-Paru).
– Terdapat 11 (Pasien yang sebenarnya tidak memiliki penyakit kanker paru-paru tetapi diprediksi memiliki penyakit kanker paru-paru)
– Terdapat 9 (Pasien yang sebenarnya memiliki penyakit kanker paru- paru tetapi diprediksi tidak memiliki penyakit kanker paru-paru).

Informasi lainnya yaitu berdasarkan analisis diskriminan terlihat bahwa nilai akurasi sebesar 0.9353. Akurasi merupakan proporsi dari total jumlah prediksi yang benar. Artinya model yang terbentuk pada analisis diskriminan memiliki akurasi sebesar 93.53% yang berarti model ini memprediksi dengan benar 93.53% dari semua kasus.

Hasil output software di atas menampilkan pula nilai sensitivity. Sensitivity adalah proporsi prediksi positif yang benar. Pada hasil, didapatkan nilai untuk sensitivity yaitu sebesar 0.9667. Artinya dari semua pasien yang benar-benar memiliki penyakit kanker paru- paru, model diskriminan ini berhasil mengidentifikasi 96.67% dari mereka.

Selanjutnya untuk hasil output di atas terkait nilai Specificity. Nilai Specificity mengukur kemampuan model untuk benar-benar mengidentifikasi negatif sejati (True Negatives) dari semua kasus yang benar-benar negatif. Specificity sering disebut juga sebagai True Negative Rate. Dikarenakan model diskriminan di atas memiliki nilai specificity sebesar 0.7179 , ini berarti 71.79% dari semua kasus yang sebenarnya negatif (tidak memiliki penyakit kanker paru-paru) telah diidentifikasi dengan benar oleh model.

Adapun untuk hasil output Positive Predictive Value (PPV) mengukur proporsi dari semua prediksi positif yang benar-benar positif. Model diskriminan di atas memiliki nilai Positive Predictive Value (PPV) sebesar 0.9596, ini berarti 95,96% dari semua kasus yang diprediksi positif oleh model benar-benar positif (memiliki penyakit kanker paru-paru).

Lalu untuk hasil Negative Predictive Value (NPV) mengukur proporsi dari semua prediksi negatif yang benar-benar negatif. Model diskriminan di atas memiliki memiliki nilai Negative Predictive Value (NPV) sebesar 0.7568, ini berarti 75,68% dari semua kasus yang diprediksi negatif oleh model benar-benar negatif (tidak memiliki penyakit kanker paru-paru).

Secara keseluruhan, model diskriminan yang terbentuk ini tampaknya cukup andal dalam memprediksi apakah seorang pasien memiliki penyakit tertentu. Namun, ada ruang untuk perbaikan, terutama dalam mengurangi jumlah false positives dan false negatives untuk meningkatkan hasil lebih lanjut.

Referensi

Kartikawati, A., Mukid, M, A. & Ispriyanti, D. (2013). Perbandingan Analisis Diskriminan Linier Klasik dan Analisis Diskriminan Linier Robust untuk Pengklasifikasian Kesejahteraan Masyarakat Kabupaten/Kota di Jawa Tengah. Jurnal Gaussian, Vol. 2, No. 3.

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Pearson Education.

Sampai di sini dulu penjelasan terkait Analisis Diskriminan dengan Software R. Jika sobat Exsight masih ada yang dibingungkan terkait pembahasan pada artikel ini, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. See you in the next article yaa!

Analisis Diskriminan dengan Software R (Part 2) Read More »

Multivariate Adaptive Regression Spline (MARS)

Hai hai sobat Exsight, masih ingat gak nih, pada beberapa artikel yang lalu, kita pernah membahas tentang artikel Regresi Spline, apa sih itu?. Melanjutkan dari artikel yang sebelumnya, kita akan membahas lebih lanjut pengembangan dari Regresi Spline, yaitu MARS (Multivariate Adaptive Regression Spline).

Definisi

Multivariate Adaptive Regression Spline (MARS) adalah pendekatan untuk regresi multivariat nonparamterik yang
dilakukan untuk mengatasi permasalahan dimensi yang tinggi dan diskontiunitas pada data, sehingga menghasilkan prediksi variabel respon yang akurat. Metode MARS tidak memerlukan asumsi tentang hubungan fungsional yang mendasar antara variabel respon dan prediktor.

Multivariate Adaptive Regression Splines (MARS) merupakan salah satu teknik dalam analisis regresi yang dirancang khusus untuk menangani kompleksitas dalam data. MARS menggabungkan konsep regresi spline dengan proses adaptasi multivariat untuk membangun model regresi yang lebih fleksibel dan mampu menyesuaikan diri dengan pola yang rumit dalam data. Dengan menggunakan metode MARS, kita dapat mengatasi tantangan yang sering dihadapi ketika melakukan analisis data, seperti pola non-linear, interaksi antara variabel, dan data yang outlier, tanpa harus mengasumsikan bentuk tertentu dari hubungan antara variabel. Hal ini menjadikan metode MARS efektif dalam analisis data khususnya dalam penanganan data yang kompleks dan bervariasi.

Konsep Dasar Multivariate Adaptive Regression Spline (MARS)

Ada beberapa hal yang perlu diperhatikan dalam membangun model MARS, diantaranya yaitu sebagai berikut:

  1. Knot
    Knot merupakan akhir sebuah garis regresi (region) dan awal sebuah garis (region) yang lain. Pada setiap titik knot diharapkan adanya kontinuitas dan fungsi basis satu region dengan region lainnya.
  2. Basic Function
    Basic Function merupakan suatu fungsi yang digunakan untuk menjelaskan hubungan antara variabel respon dan variabel prediktor. Basic Function dapat diartikan sebagai sekumpulan fungsi yang digunakan untuk mempresentasikan infromasi yang terdiri atas satu atau lebih variabel termasuk interaksi antar variabel. Suatu fungsi basis adalah jarak antar knot yang berurutan

Model umum persamaan Multivariate Adaptive Regression Splines (MARS) dapat dirumuskan seperti pada persamaan 1 sebagai berikut.

\hat{f}\left ( x \right )=\alpha _{0}+\sum_{m=1}^{M}\alpha _{m}\prod_{k=1}^{K_{m}}\left [ S_{km}\cdot \left ( x_{v\left ( k,m \right )} \right )-t_{m} \right ]_{+}
\begin{matrix}
dengan:\\ 
\alpha _{0}\, =Parameter\, fungsi\, basis\, induk\\ 
\alpha _{m}\, =Parameter\, dari\, fungsi\, basis\, ke-m\\ 
M\, =Maksimum\, fungsi\, basis\, \left ( \mathit{nonconstant} \,fungsi\, basis\right )\, \\ 
K_{m}\, =Derajat\, interaksi\\ 
S_{km}\, =Nilainya\, \pm \, 1\, jika\, data\, berada\, di\, sebelah\, kanan\, titik\, knot\, atau\, di\, kiri\, titik\, knot\\ 
x_{v\left ( k,m \right )}\, =Variabel\, prediktor\\ 
t_{km}\, =Nilai\, knot\, dari\, variabel\, prediktor\, x_{v\left ( k,m \right )}
\end{matrix}

Berdasarkan persamaan di atas, maka model MARS dapat dituliskan pula pada persamaan 2 sebagai berikut.

\hat{f}\left (\mathbf{x} \right )=\alpha _{0}+\sum_{m=1}^{M}\alpha _{m}B_{m}\left ( \mathbf{x} \right )
dengan\, B_{m}\left ( x \right )=\prod_{k=1}^{K_{m}}\left [ S_{km}\left ( x_{v\left ( k,m \right )}-t_{km} \right ) \right ]

Apabila dituliskan dalam bentuk matriks, maka dapat dituliskan menjadi:

\mathbf{y}=\mathbf{B}\alpha +\mathbf{\varepsilon }
dimana\, y=\left ( y_{i},\cdots,y_{n}  \right )^{T},\, \alpha =\left ( \alpha _{0},\cdots ,\alpha _{m} \right )^{T},\, \varepsilon =\left ( \varepsilon _{1},\cdots ,\varepsilon _{m} \right )^{T}
B=\begin{bmatrix}
1 &  \prod_{k=1}^{K}\left [ s_{1m}\left ( x_{1\left ( 1m \right )} \right )-t_{m} \right ] &  \cdots & \prod_{k=1}^{K_{M}}\left [ s_{Mm}\left ( x_{1\left ( Mm \right )} -t_{Mm}\right ) \right ]\\ 

1 & \prod_{k=1}^{K}\left [ s_{1m}\left ( x_{2\left ( 1m \right )} \right )-t_{m} \right ] &\cdots   &\prod_{k=1}^{K_{M}}\left [ s_{Mm}\left ( x_{2\left ( Mm \right )} -t_{Mm}\right ) \right ] \\ 

\vdots  &\vdots   &\ddots   &\vdots  \\ 
1 & \prod_{k=1}^{K}\left [ s_{1m}\left ( x_{n\left ( 1m \right )} \right )-t_{m} \right ]  &\cdots   & \prod_{k=1}^{K_{M}}\left [ s_{Mm}\left ( x_{n\left ( Mm \right )} -t_{Mm}\right ) \right ] 
\end{bmatrix}

Metode MARS memiliki keunggulan dalam penentuan titik knot secara otomatis oleh data dan menghasilkan model yang kontinu pada knot. Penentuan lokasi titik knot dan jumlah peubah ditentukan berdasarkan pada data dengan menggunakan kriteria lack-of-fit (LOF).

Kriteria lack-of-fit (LOF) mengukur seberapa baik model yang dibangun sesuai dengan data aktual. Semakin kecil nilai LOF, semakin baik model tersebut sesuai dengan data. Titik knot yang dipilih seharusnya menghasilkan model spline yang memiliki LOF yang rendah. Dalam praktiknya, penentuan titik knot pada metode MARS melibatkan proses iteratif di mana titik knot diatur dan model dievaluasi berdasarkan kriteria seperti LOF. Titik knot yang optimal adalah titik di mana LOF mencapai nilai minimum atau mendekati nol, menunjukkan bahwa model spline memiliki kesesuaian yang baik dengan data yang diberikan.

Metode MARS menentukan titik knot mengunakan algoritma forward stepwise dan backward stepwise. Forward stepwise dilakukan untuk mendapatkan fungsi dengan jumlah fungsi basis maksimum. Kriteria pemilihan fungsi basis pada forward stepwise adalah dengan meminimumkan kriteria lack-of-fit.

Untuk memenuhi konsep parsemoni (model sederhana) dilakukan backward stepwise dengan membuang basis fungsi yang memiliki kontribusi kecil terhadap respon dari forward stepwise hingga tidak ada fungsi basis yang dapat dikeluarkan. Adapun untuk tahap backward stepwise digambarkan dalam tiga langkah, yaitu menentukan fungsi basis yang harus dihapus dari model, menghapus fungsi basis yang telah ditentukan, dan menentukan model akhir. Fungsi basis yang kontribusinya terhadap nilai dugaan terkecil akan dihilangkan. Ukuran kontribusi yang digunakan dalam tahap backward stepwise adalah nilai Generelized Cross Validation (GCV)

Perlu diperhatikan bahwa dalam pemilihan model paling optimum (terbaik) dalam model MARS adalah jika nilai GCV dari model tersebut memiliki nilai GCV yang paling rendah (minimum) di antara model-model lain.

Perbedaan Antara MARS dan Spline

Terdapat beberapa perbedaan mendasar antara metode Multivariate Adaptive Regression Splines (MARS) dan metode regresi Spline diantaranya adalah:

NoPerbedaanSplineMARS
1.Konstruksi ModelModel dibangun dengan menggunakan fungsi spline untuk memodelkan hubungan antara variabel independen dan variabel dependen. Fungsi spline ini terdiri dari segmen-segmen polinomial yang terhubung secara mulus pada titik-titik yang disebut sebagai “titik knots“. Pemilihan jumlah dan posisi titik knots ini dapat memengaruhi bentuk keseluruhan model.MARS menggabungkan regresi spline dengan proses adaptasi multivariat. Model MARS dibentuk melalui iterasi adaptif, dimulai dengan model awal yang terdiri dari fungsi-fungsi spline sederhana. Selanjutnya, model ini disesuaikan secara iteratif dengan menambah atau menghapus fungsi-fungsi spline serta menyesuaikan koefisien-koefisiennya. Proses adaptasi ini memungkinkan model MARS untuk menyesuaikan kompleksitasnya sesuai dengan pola dalam data, tanpa harus memilih titik knots sebelumnya.
2.Proses AdaptasiDalam regresi spline, penentuan jumlah dan posisi titik knots biasanya dilakukan sebelumnya dan tidak mengalami perubahan selama proses pembentukan model. Hal ini berarti menunjukkan bahwa kompleksitas model cenderung tetap konstan.MARS mengadopsi proses adaptasi iteratif. Model awal dibangun dengan sedikit fungsi-fungsi spline, dan kemudian model tersebut disesuaikan secara bertahap dengan menambah atau menghapus fungsi-fungsi spline serta menyesuaikan koefisien-koeffisiennya. Proses adaptasi ini memungkinkan MARS untuk menyesuaikan model secara dinamis terhadap pola yang kompleks dalam data.
3.Kemampuan Menangani InteraksiApabila terdapat interaksi antara variabel, interaksi tersebut harus didefinisikan dan dimasukkan secara manual ke dalam model.MARS memiliki kemampuan secara otomatis menangani interaksi antara variabel independen. Proses adaptasi MARS memungkinkan model untuk menyesuaikan diri terhadap interaksi yang kompleks secara dinamis, tanpa perlu spesifikasi manual dari interaksi tersebut.

Kelebihan dan Kelemahan

Terdapat beberapa kelebihan dan kelemahan dari Multivariate Adaptive Regression Spline diantaranya adalah sebagai berikut.

Kelebihan

  1. Fleksibilitas
    MARS mampu menangani berbagai jenis pola non-linear dan interaksi antara variabel, membuatnya cocok untuk data yang kompleks.
  2. Interpretabilitas
    Model MARS menghasilkan aturan sederhana yang mudah dipahami, memungkinkan interpretasi yang lebih mudah oleh pengguna.
  3. Efisiensi komputasi
    Algoritma MARS cenderung lebih cepat daripada beberapa metode regresi non-linear lainnya, membuatnya cocok untuk analisis data besar.
  4. Toleransi terhadap data yang tidak teratur
    MARS dapat menangani data yang tidak teratur atau memiliki banyak pencilan tanpa mempengaruhi kinerja model secara signifikan.

Kelemahan

  1. Sensitif terhadap pengaturan parameter
    Hasil dari model MARS dapat bervariasi tergantung pada pengaturan parameter yang dipilih, seperti jumlah knot dan tingkat kompleksitas.
  2. Kemungkinan overfitting
    Seperti halnya dengan banyak metode regresi non-linear, MARS rentan terhadap overfitting jika tidak diatur dengan baik, terutama pada dataset kecil.
  3. Keterbatasan dalam menangani ketergantungan spasial
    MARS cenderung kurang efektif dalam menangani pola spasial dalam data, seperti yang sering terjadi dalam masalah prediksi geografis.
  4. Interpretasi yang rumit pada model yang kompleks
    Meskipun MARS menghasilkan aturan yang mudah dipahami, model MARS dapat menjadi sangat kompleks dan sulit untuk diinterpretasikan dengan baik, terutama jika melibatkan banyak variabel dan interaksi.

Penerapan MARS dalam Berbagai Bidang

Metode Multivariate Adaptive Regression Splines (MARS) memiliki aplikasi yang luas dalam berbagai bidang. Berikut adalah beberapa contoh penerapan MARS:

A. Keuangan dan Ekonomi
MARS dapat digunakan untuk memprediksi harga saham, nilai tukar mata uang, atau kinerja keuangan perusahaan berdasarkan faktor-faktor ekonomi yang kompleks.

Multivariate Adaptive Regression Spline

B. Pemasaran
Dalam pemasaran, metode Multivariate Adaptive Regression Splines (MARS) dapat digunakan untuk memprediksi perilaku konsumen, seperti keputusan pembelian atau respons terhadap kampanye pemasaran, berdasarkan berbagai faktor seperti demografi, preferensi, dan perilaku sebelumnya.

Multivariate Adaptive Regression Spline

C. Ilmu Kesehatan
Multivariate Adaptive Regression Splines (MARS) dapat diterapkan dalam pengembangan model prediktif untuk diagnosis penyakit, prediksi hasil klinis, atau estimasi risiko kesehatan individu berdasarkan faktor-faktor yang kompleks seperti riwayat kesehatan, genetik, dan gaya hidup.

Multivariate Adaptive Regression Spline

D. Bidang Teknologi dan Teknik
MARS dapat digunakan dalam pengembangan model prediktif untuk peramalan permintaan, estimasi keausan mesin, atau prediksi kinerja sistem teknik berdasarkan faktor-faktor yang kompleks seperti kondisi operasional, suhu, atau kelembaban.

Multivariate Adaptive Regression Spline

E. Sains dan Sosial
Dalam sains sosial, MARS dapat digunakan untuk memahami hubungan antara variabel-variabel kompleks seperti pendapatan, pendidikan, dan status sosial dengan perilaku atau keputusan masyarakat.

Multivariate Adaptive Regression Spline

Referensi

Fatmawati, B., Sutikno, & Andari, S. (2017). Multivariate Adaptive Regression Spline untuk Prakiraan Cuaca Jangka Pendek dengan Pra- Pemrosesan Independent Component Analysis. Surabaya: Institut Teknologi Sepuluh Nopember.

Kishartini, Safitri, D., & Ispriyanti, D. (2014). Multivariate Adaptive Regression Splines (MARS) untuk Klasifikasi Status Kerja di Kabupaten Demak. Jurnal Gaussian, Vol.3, No.4, Hal. 711 – 718.

Pintowati, W., & Otok, B. (2012). Pemodelan Kemiskinan di Provinsi Jawa Timur dengan Pendekatan Multivariate Adaptive. Jurnal Sains dan Seni ITS, Vol.1, No.1.

Sekian penjelasan terkait Multivariate Adaptive Regression Spline. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. Bye bye!

Multivariate Adaptive Regression Spline (MARS) Read More »

Pengecekan Normalitas Data dengan Software R

Masih ingat gak nih sobat Exsight, pada beberapa artikel Exsight sebelumnya, kita pernah membahas terkait normalitas data. Beberapa artikel tersebut diantaranya berjudul:
Distribusi Normal pada Data #1
Uji Normalitas Shapiro-Wilk dengan SPSS #2
Tutorial Pembuatan Q-Q Plot untuk Cek Normalitas Data #3

Berbeda dari artikel- artikel sebelumnya, di mana sebagian besar berkaitan dengan penerapan software SPSS. Nah, untuk artikel kali ini, akan berfokus pada pengecekan normalitas data menggunakan software R. Tanpa berlama- lama lagi, yuk yuk simak artikel ini dengan seksama yaa!

Studi Kasus

Studi kasus dalam artikel kali ini terkait pengecekan normalitas data, kita akan menggunakan data terkait nilai ujian dari 20 mahasiswa di suatu perguruan tinggi. Untuk data bisa diakses disini.

pengecekan normalitas data
normalitas

Tahapan R untuk Pengecekan Normalitas Data

Pengecekan normalitas data dapat dilakukan menggunakan berbagai uji normalitas yang kerap kali digunakan diantaranya adalah:
A. Uji normalitas Shapiro Wilk
B. Uji normalitas Kolmogorov-Smirnov
C. Uji normalitas Anderson-Darling
D. Uji normalitas Jarque-Bera
E. Uji normalitas Pearson Chi-Square
F. Uji normalitas Cramer-von Mises
G. Uji normalitas Shapiro-Francia

Load Library

Sebelum melakukan running syntax di software R untuk pengecekan normalitas data, terlebih dahulu melakukan load library R. Adapun library yang diperlukan untuk pengecekan normalitas data yaitu

#Library
library(nortest)

Load Data

Tahapan selanjutnya yaitu melakukan load data pada software R. Adapun syntax yang digunakan adalah sebagai berikut.

data<-read.csv(file.choose(),header=TRUE,sep=”,”)

A. Uji Normalitas Shapiro Wilk

Hipotesis yang digunakan untuk uji normalitas adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

Apabila p-value yang dihasilkan dari uji Shapiro-Wilk bernilai lebih besar dari tingkat signifikansi yang ditentukan sebelumnya (biasanya 0.05), maka diambil keputusan hipotesis nol diterima artinya data berdistribusi normal. Sebaliknya, jika p-value lebih kecil dari tingkat signifikansi, maka hipotesis nol ditolak dan dapat diartikan data tidak berdistribusi normal.

Uji Normalitas Shapiro- Wilk

Syntax R yang digunakan untuk uji normalitas Shapiro- Wilk adalah sebagai berikut.

shapiro.test(data$Nilai_Ujian)
normalitas

Berdasarkan hasil output software R di atas, diketahui bahwa untuk hasil p-value yaitu sebesar 0.82 , dikarenakan p-value bernilai lebih besar dari taraf signifikansi (5% atau 0.05) maka diambil keputusan Terima H0 atau Gagal Tolak H0. Artinya data nilai ujian apabila dilakukan pengecekan menggunakan uji Shapiro- Wilk berdistribusi Normal.

B. Uji Normalitas Kolmogorov-Smirnov

Sama seperti halnya uji normalitas Shapiro-Wilk. Untuk uji normalitas Kolmogorov-Smirnov, hipotesis yang digunakan adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

Uji Normalitas Kolmogorov-Smirnov

#Kolmogorov-Smirnov
nortest::lillie.test(data$Nilai_Ujian)
normalitas

Hasil output software R menunjukkan bahwa untuk p-value hasil pengujian Kolmogorov-Smirnov yaitu sebesar 0.6946, dalam hal ini, dapat dilihat bahwa untuk p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05). Sehingga berdasarkan hasil pengujian dapat diambil keputusan Terima H0 atau Gagal Tolak H0. Artinya data nilai ujian apabila dilakukan pengecekan normalitas data menggunakan uji Kolmogorov- Smirnov berdistribusi Normal.

C. Uji Normalitas Anderson Darling

Uji normalitas Anderson-Darling sering digunakan dalam analisis data untuk memastikan bahwa asumsi normalitas terpenuhi sebelum menerapkan metode statistik yang memerlukan data berdistribusi normal.

Uji normalitas Anderson-Darling dinamakan berdasarkan dua statistikawan, Theodore W. Anderson dan Donald A. Darling, yang mengembangkannya pada tahun 1952. Keduanya adalah statistikawan dari Universitas Princeton. Mereka menciptakan metode ini sebagai alternatif yang lebih sensitif dibandingkan dengan metode uji normalitas yang sudah ada pada saat itu, seperti uji normalitas Kolmogorov-Smirnov serta uji normalitas Shapiro-Wilk.

Anderson dan Darling mengembangkan uji normalitas ini dengan fokus pada meningkatkan ketepatan dalam mengidentifikasi ketidaknormalan dalam data. Mereka mengusulkan penggunaan statistik Anderson-Darling sebagai alat untuk mengukur kesesuaian antara data yang diamati dengan distribusi normal yang diharapkan.

Hipotesis yang digunakan untuk pengecekan normalitas data dengan Anderson-Darling adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

Uji Normalitas Anderson Darling

#Anderson-Darling
nortest::ad.test(data$Nilai_Ujian)
normalitas

Berdasarkan output software R di atas, terlihat bahwa untuk p-value hasil pengujian normalitas dengan Anderson Darling yaitu sebesar 0.8159. Dikarenakan p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05) maka diambil keputusan Terima H0 atau Gagal Tolak H0. Sehingga dapat diartikan, data nilai ujian apabila dilakukan pengecekan menggunakan uji Anderson Darling berdistribusi Normal.

D. Uji Normalitas Jarque-Bera

Uji normalitas Jarque-Bera dinamakan sesuai dengan nama dua ekonom, Carlos Jarque dan Anil K. Bera. Uji normalitas Jarque-Bera pertama kali dikembangkan pada tahun 1980. Carlos Jarque dan Anil K. Bera merupakan profesor di bidang ekonomi dan statistik di Universitas Illinois di Urbana-Champaign pada saat itu.

Perhitungan Statistik Jarque- Bera didasarkan pada kurtosis dan skewness dari sampel data. Skewness mengukur simetri data, sedangkan kurtosis mengukur tajam atau datar dari puncak distribusi.

Penelitian oleh Carlos Jarque dan Anil K. Bera menunjukkan bahwa skewness dan kurtosis dari sampel data memiliki distribusi asimtotik, yang memungkinkan mereka untuk menentukan distribusi sampling dari statistik Jarque-Bera. Hal ini memungkinkan penggunaan nilai kritis untuk menguji hipotesis nol bahwa data berasal dari distribusi normal.

Seiring dengan peningkatan penggunaan teknik statistik dalam berbagai bidang, uji normalitas Jarque-Bera menjadi semakin populer karena sensitivitasnya terhadap deviasi dari distribusi normal. Meskipun demikian, seperti halnya dengan semua metode statistik, penting untuk memahami kekuatan dan keterbatasan uji normalitas Jarque-Bera dalam konteks penggunaannya.

Hipotesis yang digunakan untuk pengecekan normalitas data dengan Jarque-Bera adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

Uji Normalitas Jarque-Bera

#Jarque-Bera
library(tseries)
tseries::jarque.bera.test(data$Nilai_Ujian)
normalitas

Hasil output software R menunjukkan bahwa untuk p-value hasil pengujian Jarque-Bera yaitu sebesar 0.7725, dalam hal ini, dapat dilihat bahwa untuk p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05). Sehingga berdasarkan hasil pengujian dapat diambil keputusan Terima H0 atau Gagal Tolak H0. Artinya data nilai ujian apabila dilakukan pengecekan normalitas data menggunakan uji Jarque-Bera berdistribusi Normal.

E. Uji Normalitas Pearson Chi-Square

Uji normalitas Pearson Chi-Square pertama kali diperkenalkan oleh Karl Pearson, seorang ahli statistik Inggris pada akhir abad ke-19 dan awal abad ke-20. Karl Pearson adalah salah satu tokoh utama dalam perkembangan statistik modern. Kontribusi Pearson dalam penggunaan uji Chi-Square dalam konteks normalitas adalah penggunaannya dalam pengujian goodness-of-fit untuk mengevaluasi sejauh mana suatu distribusi teoritis (misalnya distribusi normal) sesuai dengan distribusi data yang diamati. Pengujian goodness-of-fit ini menjadi dasar bagi penggunaan uji normalitas Pearson Chi-Square seperti yang kita kenal saat ini.

Hipotesis yang digunakan untuk pengecekan normalitas data dengan Pearson Chi-Square adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

Uji Normalitas Pearson Chi-Square

#Pearson Chi-Square
nortest::pearson.test(data$Nilai_Ujian)
normalitas

Berdasarkan output software R di atas, terlihat bahwa untuk p-value hasil pengujian normalitas dengan Pearson Chi-Square yaitu sebesar 0.7907. Dikarenakan p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05) maka diambil keputusan Terima H0 atau Gagal Tolak H0. Sehingga dapat diartikan, data nilai ujian apabila dilakukan pengecekan menggunakan uji Pearson Chi- Square berdistribusi Normal.

F. Uji normalitas Cramer-von Mises

Uji normalitas Cramér-von Mises, yang juga dikenal sebagai uji Cramér-von Mises-Wald-Wolfowitz, adalah metode statistik yang digunakan untuk menguji apakah data berdistribusi normal. Metode ini dinamai berdasarkan dua ahli statistik, Harald Cramér dan Richard von Mises, yang berkontribusi dalam pengembangannya.

Uji ini awalnya dirancang untuk menguji kesesuaian model dalam statistik nonparametrik, tetapi kemudian digunakan secara luas untuk menguji normalitas data. Penggunaan uji Cramer-von Mises telah menjadi populer dalam analisis data modern, terutama karena sensitivitasnya terhadap variasi dalam distribusi data dan kemampuannya untuk mengatasi banyak distribusi non normal.

Meskipun uji normalitas Cramér-von Mises bukanlah salah satu uji normalitas yang paling umum digunakan, kontribusi Cramér dan von Mises dalam pengembangannya tetap diakui sebagai bagian penting dari sejarah statistik dan analisis data.

Uji normalitas Cramer-von Mises

Hipotesis yang digunakan untuk pengecekan normalitas data dengan Cramer-von Mises adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

#Cramer-von Mises
nortest::cvm.test(data$Nilai_Ujian)
normalitas

Hasil output software R menunjukkan bahwa untuk p-value hasil pengujian Cramer-von Mises yaitu sebesar 0.7666, dalam hal ini, dapat dilihat bahwa untuk p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05). Sehingga berdasarkan hasil pengujian dapat diambil keputusan Terima H0 atau Gagal Tolak H0. Artinya data nilai ujian apabila dilakukan pengecekan normalitas data menggunakan uji Cramer-von Mises berdistribusi Normal.

G. Uji normalitas Shapiro-Francia

Uji normalitas Shapiro- Francia adalah metode statistik yang digunakan untuk menguji apakah suatu data memiliki distribusi normal (pengecekan normalitas data). Uji ini dinamakan berdasarkan nama dua ahli statistik, yaitu Samuel Shapiro dan Morton Francia, yang berkontribusi dalam pengembangannya.

Uji normalitas Shapiro-Francia mengukur kesesuaian antara distribusi data dan distribusi normal dengan membandingkan kemiripan antara dua kelompok estimasi dari varians sampel. Uji ini memiliki keunggulan dalam mengatasi beberapa kelemahan yang dimiliki oleh uji normalitas lainnya, seperti uji Shapiro-Wilk, terutama dalam hal ukuran sampel yang besar.

Meskipun tidak sepopuler uji normalitas Shapiro-Wilk, uji Shapiro-Francia tetap digunakan dalam analisis data modern karena keakuratannya dan kemampuannya untuk menangani ukuran sampel yang besar. Kontribusi Shapiro dan Francia dalam pengembangan teknik ini memiliki nilai penting dalam sejarah statistik dan analisis data.

Uji normalitas Shapiro-Francia

Hipotesis yang digunakan untuk pengecekan normalitas data dengan Shapiro-Francia adalah sebagai berikut.
H0 : Data berdistribusi normal
H1 : Data tidak berdistribusi normal

#Shapiro-Francia
nortest::sf.test(data$Nilai_Ujian)
normalitas

Berdasarkan output software R di atas, terlihat bahwa untuk p-value hasil pengujian normalitas dengan Shapiro- Francia yaitu sebesar 0.8934. Dikarenakan p-value bernilai lebih besar daripada taraf signifikansi (5% atau 0.05) maka diambil keputusan Terima H0 atau Gagal Tolak H0. Sehingga dapat diartikan, data nilai ujian apabila dilakukan pengecekan menggunakan uji Shapiro-Francia berdistribusi Normal.

Kesimpulan

Berdasarkan hasil pengecekan normalitas data, baik dengan menggunakan:
A. Uji normalitas Shapiro Wilk
B. Uji normalitas Kolmogorov-Smirnov
C. Uji normalitas Anderson-Darling
D. Uji normalitas Jarque-Bera
E. Uji normalitas Pearson Chi-Square
F. Uji normalitas Cramer-von Mises
G. Uji normalitas Shapiro-Francia
Dapat disimpulkan bahwa data terkait nilai ujian dari 20 mahasiswa di suatu perguruan tinggi, berdistribusi normal.

Referensi

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. John Wiley & Sons.

Finally, sampai sudah kita di penghujung artikel, sekian penjelasan terkait Pengecekan Normalitas Data dengan Software R. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Pengecekan Normalitas Data dengan Software R Read More »

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!