Hello sobat Exsight! Sebelum kita membahas tentang regresi LASSO, apakah kalian masih ingat regresi linear? Yuk kita review dulu.
Regresi linear adalah suatu metode yang digunakan untuk melihat hubungan antara variabel bebas (penjelas) dan variabel terikat (respon). Selain itu, regresi linear juga digunakan sebagai teknik analisis data dalam memprediksi nilai dari data baru. Terdapat dua jenis regresi linear, yaitu regresi linear sederhana dan regresi linear berganda. Model pada regresi linear berganda ialah:
Dengan:
Y = variabel respon
Xi = variabel prediktor
b0 = intercept atau nilai Y jika tidak memberikan pengaruh
bi = koefisien regresi atau rata-rata pengaruh Xi terhadap Y jika Xi naik/turun satu satuan dan nilai variabel prediktor lainnya tetap.
e = galat/error
Kita tau bahwa mencari nilai penduga parameter betha (b0, b1, b2, .., bn) dapat dilakukan dengan mengunakan metode kuadrat terkecil untuk meniminumkan jumlah kuadrat galat (JKG) sehingga model yang dihasilkan merupakan model terbaik untuk mempresentasikan populasi dengan error yang terkecil.
Kalau kalian mau membaca lebih lanjut tentang regresi linear berganda bisa lihat di artikel Exsight lainnya pada link ini yaaaa https://exsight.id/blog/2022/03/31/perbedaan-regresi-linear-berganda-panel/
Mengapa Menggunakan Regresi LASSO (Least Absolute Shrinkage and Selection Operator)?
Pada model regresi linear berganda dapat terjadi suatu permasalahan, yaitu terdapat multikolinearitas antar variabel prediktor. Multikolinearitas dapat menyebabkan tingginya variansi dalam model, sehingga model tidak dapat mempresentasikan populasi dengan baik. Seperti yang kita tahu bahwa model yang baik itu ketika memiliki error kecil dan ragam kecil. Oleh karena itu, metode regresi LASSO (Least Absolute Shrinkage and Selection Operator) dapat digunakan untuk menyelesaikan permasalahan multikolinearitas.
Apa itu Regresi LASSO?
Metode LASSO (Least Absolute Shrinkage and Selection Operator) dikembangkan pertama kali oleh Thibsirani (1996). Metode LASSO menyusutkan koefisien regresi dari variabel penjelas/prediktor dengan galat mendekati atau tepat 0, karenanya keuntungan dari metode subset selection dan regresi ridge dapat dipertahankan. Model yang dihasilkan dapat diinterpretasi seperti pada subset selection dan stabil seperti pada regresi ridge. Metode regresi LASSO (Least Absolute Shrinkage and Selection Operator) dapat mengestimasi parameter secara simultan dan menyeleksi variabel. Penduga koefisien pada regresi LASSO dituliskan sebagai berikut (Tibshirani, 1996):
dengan fungsi kendala dimana yang disebut parameter tuning. Semakin besar nilai lambda maka nilai betha duga akan mendekati nol atau bahkan nol. Ketika nilai betha duga nol maka variabel tersebut akan dihilangkan dalam model.
Metode ini biasanya digunakan pada machine learning untuk menyeleksi variabel-variabel penting pada data sehingga model yang dibentuk lebih tepat. Contoh penerapan metode regresi LASSO pada data kesehatan. Misal data pasien yang mengidap penyakit kanker, dimana data ini memiliki banyak variabel (nama, jenis kelamis, umur, tekanan darah, Acid Phosphatase, stage, dan lain sebagainya) kemudian akan digunakan metode LASSO untuk menyeleksi variabel mana saja yang dapat digunakan untuk model data penyakit kanker tersebut. Model yang paling optimal dapat digunakan untuk melakukan klasifikasi data baru apakah pasien mengidap penyakit kanker atau tidak dengan menggunakan variabel-variabel yang penting saja.
Metode Pengembangan LASSO
Regresi LASSO seringkali dianggap penting dalam analisis data modern, tetapi masih memliki beberapa keterbatasan (Zou dan Hastie, 2005). Juga pada penelitian (Zou, 2006) menyebutkan bahwa seleksi variabel metode regresi LASSO tidak konsisten. Hal ini sejalan dengan penelitian Fan dan Li (2001) yang menyatakan seleksi variabel LASSO yang kurang konsisten. Serta terdapat bias dari estimasi LASSO dan beberapa kondisi yang membuat oracle properties tidak terpenuhi. Oleh karena itu terdapat beberapa perkembangan dari metode LASSO. Berikut beberapa metode perkembangan LASSO:
- Adaptive LASSO
- Smooth LASSO
- Sparse Group LASSO
- Weight LAD LASSO
Metode regresi LASSO dapat dikerjakan di program R. Penyelesaian LASSO di R akan dibahas pada artikel berikutnya ya.
Referensi
Fan, J & Li, R. 2001. Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, Vol. 96, No. 456, Hal. 1348-1360. Tersedia di: https://www.jstor.org/stable/3085904
Tibshirani, R. 1996. Regression Shrinkage and Selection via the Lasso. Journal of The Royal Statistical Society, Vol. 58, No.1, Hal. 267-288.
Zou, H & Hastie, T. 2005. Regularization and Variable Selection via the Elastic Net. Journal of The Royal Statistical Society, Vol. 67, No.2, Hal. 301-320.
Zou, Hui. 2006. The Adaptive LASSO and Its Oracle Properties. Journal of the American Statistical Association, Vol. 101, No. 476. Hal. 1418-1429.
good article
Pingback: Feature Selection In Data Mining - Exsight