Regresi logistik biner merupakan suatu metode analisis data yang digunakan untuk mencari hubungan antar variabel respon (y) yang bersifat biner atau dikotomus dengan variabel prediktor (x) yang bersifat polikotomus.
Data Biner
Apa itu data biner ?
Data biner adalah data yang hanya memiliki dua kemungkinan hasil. Secara umum, hasil yang didapatkan dilambangkan dengan Y=1 (berhasil) dan Y=0 (gagal) dengan probabilitas p dan q=1-p.
Regresi Logistik Biner
Model regresi logistik merupakan model regresi variabel respon biner yang melibatkan transformasi logit. Model regresi logistik diperoleh dari fungsi logistik dengan definisi sebagai berikut:
Definisi 1. Fungsi kepadatan peluang (fkp) bagi variabel random X yang berdistribusi logistik adalah:
dengan nilai tengah µ dan ragam σ^2= π^2 τ^2/3
Langkah pertama dalam pembentukan model ini adalah mentransformasikan variabel respon pada persamaan (2.4) di bawah ini dengan nilai [0,1] menjadi variabel respon dengan nilai (-∞, ∞). sebagai berikut
Dengan analisis regresi biasa hubungan tersebut dapat dinyatakan dalam model:
Karena Yi hanya memiliki dua kemungkinan nilai akibat juga memiliki kondisi yang sama, dimana:
Dalam keadaan seperti ini tidak dapat lagi diasumsikan berdistribusi normal, melainkan berdistribusi Bernoulli yang memiliki distribusi peluang Yi :
Dengan nilai tengah E(Yi ) yaitu:
dari persamaan (2) diperoleh nilai tengah E(Yi ) yaitu:
dari asumsi diketahui E(εi) =0, maka:
Dengan mensubstitusikan persamaan (4) dalam persamaan (5) diperoleh:
Persamaan (6) disebut model peluang linier (linier probability model). Kemudian membentuk model yang baru berdasarkan nilai yang telah ditransformasi tersebut. Diketahui bahwa:
Berdasarkan fkp dari distribusi logistik diperoleh:
Misalkan y=1+exp{(u-μ)/τ} dan dy/du= exp{(u-μ)/τ}.1/τ,maka∶
Misalkan β0=(-μ)⁄τ dan β1=1⁄τ,maka:
Persamaan (7) adalah fungsi logistik dengan satu variabel prediktor. Sedangkan untuk dua atau lebih variabel prediktor x1, x2, …, xk maka persamaan (7) dapat diperluas menjadi:
Jika ηi=β0+β1 X1i+β2 X2i+⋯+βk Xki maka persamaan (8) dapat ditulis menjadi:
Persamaan (9) adalah bentuk umum dari model logistik, juga dikenal sebagai fungsi logit. Jika ηi→-∞ maka pi→0 dan pi→1. Hubungan ini berbentuk kurva seperti terlihat pada Gambar 1. Oleh karena itu , dapat dijamin bahwa nilai pi akan selalu berada pada kisaran [0,1].
Kemudian, untuk membentuk model regresi logistik, transformasi pertama yang dilakukan pada persamaan (6) untuk mempertahankan struktur linier dari model. Transformasi yang dilakukan adalah transformasi logit, yang didefinisikan sebagai berikut:
Dari persamaan (9) diperoleh:
Sehingga diperoleh:
Berdasarkan persamaan (10) diperoleh:
Karena ηi=β0+β1 X1i + β2 X2i +⋯+βk Xki, maka diperoleh model lnier sebagai berikut:
Persamaan (12) merupakan hasil transformasi logit dan disebut sebagai model regresi logistik.
Pendugaan Regresi Logistik Biner
Pendugaan parameter dalam regresi logistik dilakukan dengan menggunakan metode maximum likelihood. Metode tersebut memprediksi koefisien β dengan memaksimalkan fungsi likelihood dan mengharuskan data mengikuti suatu distribusi tertentu. Pada regresi biner, setiap pengamatan mengikuti distribusi Bernoulli sehingga fungsi likelihood dapat ditentukan.
Fungsi probabilitas untuk setiap pasangan sebagai berikut:
dengan
Setiap pasangan pengamatan diasumsikan independen, sehingga fungsi likelihood merupakan kombinasi dari fungsi distribusi masing-masing pasangan yaitu sebagai berikut:
Fungsi likelihoood dapat dimaksimukan dalam bentuk logL(β) dinyatakan dengan L(β)
Berdasarkan sifat logaritma natural persamaan di atas dapat dibentuk seperti berikut:
Dari persamaan di atas diperoleh:
Sehingga diperoleh:
Dengan ηi=β0 + β1 X1i + β2 X2i +⋯+ βk Xki. Sehingga turunan pertamanya adalah:
Berdasarkan persamaan (10) diperoleh:
Selanjutnya turunan pertama dari L(β) terhadap β1 , yaitu:\
Berdasarkan persamaan di atas diperoleh:
Dengan melakukan hal yang sama pada turunan pertama dari L(β) terhadap (β0, β1, β2, …, βk), maka diperoleh:
Berdasarkan persamaan (10) diperoleh:
Dalam bentuk matriks diperoleh:
Selanjutnya akan dicari turunan keduanya yaitu:
Berdasarkan persamaan (10) diperoleh:
Sehingga diperoleh:
berdasarkan persamaan (10) diperoleh :
Misal turunan parsial pertama dari terhadap βj, j ≤ k adalah
Berdasarkan persamaan (10) diperoleh:
Maka turunan parsial kedua terhadap βu , u ≤ k adalah:
Berdasarkan persamaan (10) diperoleh:
Dengan melakukan hal sama pada turunan kedua L(β) terhadap βj maka diperoleh:
Berdasarkan persamaan (11), diperoleh:
Jika dinyatakan dalam bentuk matriks adalah sebagai berikut:
Interpretasi Koefisien Regresi Logistik
Misalkan diketahui model regresi logistik dengan k variabel prediktor sebagai berikut:
Persamaan ini juga dapat ditulis menjadi :
Ruas kiri dari Persamaan (24) di atas merupakan perbandingan antara probabilitas berhasil (pi) dengan probabilitas gagal (1-pi) yang disebut odds. Sedangkan perbandingan nilai odds antara dua individu disebut odds ratio, yang dinotasikan:
Artinya, odds (risiko) terjadinya Y = 1 pada kategori X = 1 adalah exp (β1) dikalikan dengan odds (risiko) terjadinya Y = 1 pada kategori X = 0.
Jika variabel prediktor adalah variabel kategorik dengan lebih dari dua kategorik (polikotomi), maka interpretasi dilakukan dengan cara yang sama seperti interpretasi variabel dikotomi, namun perlu dibentuk variabel boneka (dummy) terlebih dahulu.
Sementara untuk variabel prediktor kontinu, interpretasi dilakukan setiap kenaikan nilai X sebesar satu (satuan) yang mengakibatkan perubahan nilai odds (resiko) terjadinya Y =1 sebesar exp (β1) kali.
Penutup
Nah, sekian penjelasan terkait regresi logistik biner. Untuk tutorial analisisnya, bisa teman-teman tunggu di artikel selanjutnya yaa. Jangan lupa juga untuk membaca jenis regresi laiinya di web https://exsight.id/blog/
Atau jika kamu masih penasaran terkait regresi logistik biner, jangan sungkan untuk bertanya di kolom komentar atau menghubungi admin melalui tombol bantuan di kanan bawah.
See you di artikel selanjutnya!