Pada artikel sebelumnya, sudah pernah dibahas mengenai berbagai jenis uji korelasi berdasarkan skala data, sumber serta distribusi data. Nah, pada artikel kali ini akan dibahas lebih lanjut mengenai salah satu uji korelasi, yaitu Korelasi Pearson dan bagaimana cara pengaplikasiannya menggunakan software R. Jika kamu belum membaca artikel sebelumnya, kamu bisa klik di sini.
Korelasi Pearson
Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk mengukur kekuatan dan arah hubungan linier dari dua variabel yang berskala interval atau rasio. Uji korelasi pearson ini merupakan analisis statistika parametrik yang mensyaratkan data memiliki sebaran normal. Pada analisis ini, nilai koefisien korelasi dapat dihitung dengan menggunakan Pearson Product Moment dengan persamaan sebagai berikut:
Nilai r pada persamaan di atas selalu berada di antara -1 sampai 1 (-1 ≤ r ≤ 1). Apabila nilai r = 1 maka disebut dengan korelasi linier positif sempurna. Apabila nilai r = -1 maka dinamakan korelasi linier negatif sempurna, sedangkan apabila nilai r = 0 menunjukkan bahwa tidak terdapat korelasi di antara kedua variabel tersebut.
Menurut Walpole et al. (2012) dalam bukunya yang berjudul Probability and Statistics for Engineers and Scientists, pengujian koefisien korelasi dilakukan dengan menggunakan uji hipotesis sebagai berikut:
- Hipotesis
H0 : ρ = 0 (tidak terdapat korelasi linier di antara kedua variabel)
H1 : ρ ≠ 0 (terdapat korelasi linier di antara kedua variabel)
- Statistik Uji
dengan n merupakan banyaknya pasangan data dari variabel-variabel yang diduga berkorelasi dan r merupakan nilai koefisien korelasi yang diperoleh berdasarkan persamaan (a) atau persamaan (b).
- Kriteria Uji
H0 ditolak jika nilai p-value <
atau
Jika H0 ditolak, maka terdapat korelasi linier di antara kedua variabel.
Nah, jika kita sudah mengetahui serta memahami dasar teori dari korelasi pearson, maka kita akan mencoba mengaplikasikan uji tersebut menggunakan software R.
Langkah Analisis di R
Misal ingin diketahui apakah terdapat hubungan antara Indeks Pembangunan Manusia (IPM) dan Harapan Lama Sekolah (HLS) di Jawa Tengah. Karena kedua indikator tersebut merupakan data berskala rasio, maka korelasi pearson merupakan uji korelasi yang tepat untuk menganalisis korelasi antar kedua variabel tersebut.
Data yang digunakan dalam tahap analisis dapat di-download di sini
Langkah pertama yang harus dilakukan saat akan melakukan analisis data menggunakan R adalah melakukan input data. Banyak cara yang dapat dilakukan untuk mengimpor data, disini saya menggunakan sintaks read_excel yang terdapat pada library (readxl)
#Input Data
library(readxl) #Mengaktifkan library readxl
data=read_excel(file.choose()) #Memilih file yang akan dianalisis
Setelah sintaks tersebut di-run, silahkan pilih data yang akan dianalisis. Jangan lupa untuk menyimpan data dalam format .xlsx jika ingin menggunakan sintaks read_excel.
Untuk mengecek apakah data telah diinput secara benar, kita dapat mengetikkan sintaks berikut
View(data)
Maka data akan terlihat sebagai berikut
Data tersebut terdiri dari 35 baris dan 3 kolom.
Sebelum dilakukan uji korelasi pearson, maka kita harus melakukan pengecekan asumsi normalitas terhadap kedua data tersebut. Metode uji normalitas yang saya gunakan di sini adalah uji Shapiro Wilk yang terdapat pada library nortest. Kamu bisa menggunakan uji normalitas lain sesuai dengan kebutuhan
#Uji normalitas
library(nortest)
shapiro.test(data$IPM)
shapiro.test(data$HLS)
Berikut hasil pengujiannya
> shapiro.test(data$IPM)
Shapiro-Wilk normality test
data: data$IPM
W = 0.94138, p-value = 0.06165
> shapiro.test(data$HLS)
Shapiro-Wilk normality test
data: data$HLS
W = 0.94315, p-value = 0.06981
Dari output di atas, kita dapat menyimpulkan bahwa pada taraf signifikansi 5%, kedua variabel berdistribusi normal. Hal ini dikarenakan kedua variabel memiliki p-value > 0.05.
Karena uji asumsi normalitas kedua variabel terpenuhi, maka kita dapat melanjutkan ke analisis utama kita, yaitu uji korelasi pearson. Pengujian akan dilakukan dengan sintkas cor.test sebagai berikut
#Uji Korelasi Pearson
cor.test(data$IPM,data$HLS,method=c('pearson'))
Dan berikut hasil pengujiannya
> cor.test(data$IPM,data$HLS,method=c('pearson'))
Pearson's product-moment correlation
data: data$IPM and data$HLS
t = 11.458, df = 33, p-value = 4.816e-13
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7986102 0.9455189
sample estimates:
cor
0.893947
Berdasarkan uji hipotesis dan cara penarikan kesimpulan seperti yang telah dijelaskan sebelumnya, kita memperoleh informasi bahwa pada taraf signifikansi 5%, terdapat korelasi linier yang signifikan antara variabel IPM dan HLS. Adapun korelasi antar kedua bernilai positif, yaitu sebesar 0.893947
Korelasi positif tersebut juga dapat dilihat dari scatterplot berikut
#Plot antara IPM dan HLS
plot(data$IPM,data$HLS,main='IPM vs HLS')
Terlihat jelas dari plot tersebut bahwa keduanya memiliki korelasi positif. Hal ini berarti bahwa jika HLS mengalami peningkatan, maka IPM juga akan mengalami peningkatan dan begitu juga sebaliknya.
Okaaay, sekian penjelasan mengenai uji korelasi pearson dan tutorialnya di software R. Semoga bermanfaat dan jangan lupa share ke teman-teman mu biar banyak yang makin tau apa itu uji korelasi pearson. Jika kamu ada pertanyaan atau kendala, silahkan hubungi Exsight untuk penjelasan lebih lanjut.
See you in the next article!
Baca Juga: PENJELASAN DAN LANGKAH MUDAH UJI KORELASI SPEARMAN RHO DI R STUDIO
Pingback: Feature Selection In Data Mining - Exsight