Hai hai sobat Exsight, dalam artikel ini kita akan membahas suatu model regresi yang mungkin bagi beberapa sobat Exsight sudah tidak asing mendengar nama ini, yaitu Regresi Poisson. Lebih lanjut kita akan membahas lebih dalam terkait konsep dasar dari distribusi Poisson, asumsi- asumsi yang mendasari, model regresi Poisson, kelebihan dan kelemahan, evaluasi model regresi serta penerapannya dalam berbagai bidang. Tanpa berlama-lama lagi, yuk simak artikel ini dengan seksama yaa!
Distribusi Poisson
Distribusi Poisson adalah distribusi probabilitas yang menggambarkan jumlah kejadian yang terjadi dalam interval waktu atau ruang tertentu, dengan asumsi bahwa kejadian tersebut terjadi secara acak dengan tingkat kejadian yang konstan, tetapi dengan tingkat kejadian yang rendah dalam interval waktu atau ruang yang kecil. Distribusi ini pertama kali ditemukan oleh seorang matematikawan Prancis bernama Siméon Denis Poisson, beliau menggunakan regresi Poisson untuk menggambarkan distribusi jumlah insiden kecelakaan di Prancis pada abad ke-19.
Dalam distribusi Poisson, parameter kunci yang digunakan adalah λ (lambda), yang mewakili tingkat kejadian rata-rata dalam interval waktu atau ruang yang dianalisis. Distribusi Poisson menggambarkan distribusi probabilitas acak yang menyatakan banyak kejadian sukses dalam selang waktu tertentu, dimana distribusi Poisson menjadi model patokan (benchmark) bagi data cacahan (count). Distribusi Poisson menggambarkan probabilitas terjadinya k kejadian dalam interval waktu atau ruang tertentu.
Fungsi probabilitas dari distribusi Poisson dapat dinyatakan melalui persamaan berikut.
p\left ( y \right )=\frac{e^{-\lambda }\lambda ^{y}}{y\, !}
Berdasarkan persamaan di atas, p(y) melambangkan probabilitas terjadinya event, dan λ (lambda) melambangkan rata-rata terjadinya event per periode tertentu.
Model Regresi Poisson
Model regresi Poisson merupakan model regresi nonlinier yang dipergunakan untuk data diskret, dimana model regresi ini berasal dari distribusi Poisson. Distribusi Poisson memiliki fungsi penghubung berupa ln yang digunakan untuk menjamin nilai-nilai dari ekspektasi variabel respon yang bernilai bilangan bulat non negatif.
\begin{matrix} ln\left [ E\left ( Y \right ) \right ]=ln\left ( \lambda \right )=x^{T}\beta \\ \lambda =e^{x^{T}\beta } \end{matrix}
Penaksiran parameter model regresi Poisson univariat menggunakan metode Maximum Likelihood Estimation (MLE), yaitu dengan memaksimumkan nilai fungsi Likelihood dengan metode iterasi numerik. Fungsi likelihood dari suatu distribusi Poisson adalah sebagai berikut.
\begin{matrix} L\left ( \beta \right )=\prod_{i=1}^{n}\frac{exp\left ( -\lambda _{i} \right )\lambda _{i}^{y_{i}}}{y_{i}!}\\ \\ ln\, L\left ( \mathbf{\beta } \right )=\sum_{i=1}^{n}\left ( y_{i}\, ln\lambda _{i}-\lambda _{i}-ln\left ( y_{i}\, ! \right )\right ) \end{matrix}
Parameter-parameter yang telah diperoleh kemudian dilakukan pengujian, baik secara serentak maupun secara parsial. Pengujian parameter model regresi Poisson univariat dilakukan dengan menggunakan metode Maximum Likelihood Ratio Test
Asumsi – Asumsi
Asumsi yang harus terpenuhi dalam regresi Poisson yaitu nilai mean dan varians dari variabel respon harus bernilai sama (ekuidispersi atau equidispersion). Namun pada kenyataannya sering kali ditemui kasus ketika varians dari variabel respon lebih besar dari nilai rata-ratanya atau disebut overdispersi. Overdispersi muncul ketika terjadi pelanggaran pada asumsi distribusi data, misal ketika data dikelompokkan sehingga melanggar asumsi observasi kebebasan likelihood. Salah satu cara untuk mendeteksi keberadaan overdispersi adalah melihat nilai Variance Test (VT). Rumus perhitungan untuk nilai Variance Test adalah sebagai berikut.
VT=\sum_{i=1}^{n}\frac{\left ( y_{i}-\bar{y} \right )^{2}}{\bar{y}}=\left ( n-1 \right )\frac{s^{2}}{\bar{y}}
Apabila nilai indeks dispersi < 1 maka terjadi underdispersi, sedangkan apabila nilai indeks dispersi > 1 maka terjadi overdispersi
Selain itu pengecekan keberadaan overdispersi dapat dicari menggunakan suatu uji statistik lainnya. Dalam hal ini, uji statistik dapat dicari menggunakan package AER pada software R. Uji ini mengikuti distribusi Poisson yang mana nilai varians sama dengan nilai rata-rata dengan hipotesis sebagai berikut.
\begin{matrix} Hipotesis\\ H_{0}:\, Var\left ( Y \right )=\mu \\ H_{1}:\, Var\left ( Y \right )=\mu +a.g\left ( . \right ) \end{matrix}
Kelebihan dan Kelemahan
Terdapat beberapa kelebihan dan kelemahan pada regresi Poisson diantaranya
Kelebihan
- Cocok untuk Data Diskrit
Regresi Poisson dirancang khusus untuk mengatasi data yang bersifat diskrit atau data cacah, seperti jumlah kejadian atau frekuensi suatu peristiwa sehingga regresi Poisson sangat sesuai untuk analisis data yang umumnya tidak dapat diolah dengan regresi linear. - Model yang Tepat
Regresi Poisson memodelkan data dengan tepat ketika distribusi Poisson cocok dengan data observasi, sehingga hasil dari regresi Poisson dapat lebih akurat dan memungkinkan estimasi parameter yang lebih baik. - Memahami Hubungan Kausalitas
Regresi Poisson dapat membantu kita dalam memahami hubungan sebab-akibat antara variabel independen dan jumlah kejadian yang diamati sehingga regresi Poisson cukup aplikatif dalam berbagai bidang seperti analisis risiko dan epidemiologi. - Pengendalian Overdispersi
Dalam beberapa kasus, Regresi Poisson dapat diperluas untuk mengatasi overdispersi dengan model Generalized Linear Model (GLM), sehingga dapat menghasilkan estimasi yang lebih akurat.
Kelemahan
- Asumsi Distribusi Poisson
Regresi Poisson hanya sesuai ketika data mengikuti distribusi Poisson. Jika data terlalu terdispersi atau terlalu terkonsentrasi (overdispersi atau underdispersi), regresi Poisson tidak akan memberikan hasil yang tepat. - Hanya untuk Data Non-Negatif
Regresi Poisson tidak dapat digunakan untuk data yang memiliki nilai negatif, karena distribusi Poisson hanya berlaku untuk bilangan bulat non-negatif (data cacah). - Keterbatasan dalam Model Hubungan Linear
Seperti regresi lainnya, Regresi Poisson juga mengasumsikan hubungan antara variabel independen dan dependen adalah linear. Ini mungkin tidak sesuai untuk hubungan yang kompleks atau non-linear. - Kemungkinan Zero-Inflasi
Regresi Poisson dapat mengalami kesulitan dalam menangani situasi ketika terdapat nilai nol yang terlalu tinggi (zero-inflasi). Untuk mengatasi kasus ini, seringkali dilakukan pengembangan model regresi seperti metode regresi Zero-Inflated Poisson.
Evaluasi Model
Evaluasi model Regresi Poisson adalah langkah penting dalam analisis data untuk memastikan bahwa model yang dikembangkan sesuai dengan data yang diamati. Berikut adalah beberapa langkah evaluasi yang umumnya digunakan dalam model Regresi Poisson:
A. Goodness of Fit
Langkah pertama adalah mengukur sejauh mana model Regresi Poisson sesuai dengan data. Salah satu metode yang umum digunakan adalah uji deviance, yang membandingkan deviance model dengan deviance model referensi. Nilai deviance yang rendah menunjukkan kesesuaian yang baik antara model dan data.
B. Likelihood Ratio Test
Uji rasio likelihood (likelihood ratio test) dapat digunakan untuk memeriksa apakah model Regresi Poisson yang lebih kompleks secara signifikan lebih baik daripada model yang lebih sederhana. Likelihood Ratio Test berguna untuk mengevaluasi apakah penambahan variabel independen tambahan memiliki efek yang signifikan pada model.
C. Uji Signifikansi Parameter
Evaluasi model juga mencakup uji signifikansi individu untuk setiap parameter dalam model regresi. Uji signifikansi parameter berguna untuk menentukan apakah variabel independen tertentu memiliki efek yang signifikan terhadap variabel dependen.
D. Overdispersi
Jika terdapat indikasi overdispersi (variabilitas lebih besar dari yang diharapkan), maka model Regresi Poisson mungkin tidak sesuai. Dalam kasus ini, dapat dikembangkan alternatif pemodelan regresi seperti Generalized Linear Model (GLM) dengan distribusi negatif binomial maupun dengan model Zero-Inflated Poisson Regression.
E. Kesesuaian Model
Evaluasi kesesuaian model melibatkan analisis residu, seperti plot residu dan Q-Q plot, untuk memeriksa apakah residu model menunjukkan pola yang tidak acak. Residu yang menunjukkan pola tertentu dapat mengindikasikan bahwa model Regresi Poisson tidak sesuai.
F. Validasi Model
Jika memungkinkan, membagi data menjadi data pelatihan (data training) dan data uji (data testing) dapat membantu kita untuk mengukur sejauh mana model Regresi Poisson memprediksi data yang tidak digunakan dalam pelatihan. Ini membantu dalam mengevaluasi sejauh mana model dapat digeneralisasi ke data yang belum pernah dilihat sebelumnya.
G. Penanganan Outlier
Evaluasi model juga melibatkan identifikasi dan penanganan outlier, dalam hal ini outlier yaitu berupa nilai pengamatan yang jauh dari yang diharapkan. Outlier dapat memengaruhi hasil model, dan mereka mungkin perlu diperlakukan atau dihapus jika diperlukan.
H. Informasi Model
Evaluasi model juga mencakup penggunaan informasi model, seperti Akaike Information Criterion (AIC) atau Bayesian Information Criterion (BIC), untuk membandingkan model yang berbeda dan memilih model yang paling sesuai dengan data.
Evaluasi model Regresi Poisson adalah tahap penting dalam analisis data, hal ini dikarenakan adanya evaluasi dapat membantu memastikan bahwa model yang digunakan adalah representasi yang baik dari hubungan antara variabel dependen dan independen dalam dataset yang diamati.
Penerapan dalam Berbagai Bidang
Beberapa penerapan Regresi Poisson diantaranya:
A. Epidemiologi
Dalam studi epidemiologi, Regresi Poisson digunakan untuk menganalisis penyebaran penyakit dan faktor-faktor yang mempengaruhinya. Model regresi ini memungkinkan peneliti untuk mengidentifikasi hubungan antara variabel independen seperti usia, jenis kelamin, dan faktor risiko tertentu dengan tingkat kejadian penyakit.
B. Asuransi dan Aktuaria
Regresi Poisson digunakan untuk memodelkan klaim asuransi dan estimasi frekuensi klaim. Model regresi ini membantu perusahaan asuransi dalam menghitung tarif premi yang sesuai dan mengelola risiko secara efisien.
C. Ekologi
Regresi Poisson juga dapat diterapkan dalam studi ekologi, model regresi ini digunakan untuk menganalisis populasi hewan atau tanaman, dan bagaimana faktor-faktor seperti perubahan lingkungan memengaruhi kelimpahan dan distribusi dari hewan maupun tumbuhan tersebut.
D. Teknologi dan Produksi
Dalam manufaktur, Regresi Poisson dapat digunakan untuk menganalisis jumlah cacat atau kegagalan produksi. Model regresi ini membantu perusahaan untuk meningkatkan kontrol kualitas dan efisiensi produksi.
E. Lalu Lintas dan Transportasi
Studi tentang lalu lintas jalan raya seringkali menggunakan Regresi Poisson untuk menganalisis kecelakaan lalu lintas dan faktor-faktor yang memengaruhi tingkat kejadian kecelakaan.
Regresi Poisson merupakan metode regresi yang cukup serbaguna dalam analisis statistik, dan aplikasinya dapat ditemukan di berbagai bidang, membantu peneliti dan profesional untuk memahami hubungan antara variabel independen dan jumlah kejadian dalam konteks yang beragam.
Referensi
Sampai disini dulu penjelasan terkait Regresi Poisson. Jika masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.