Overdispersi dan Underdispersi pada Data #1

DW ADS

Hai hai sobat Exsight, pernah gak sih kalian mengalami suatu kondisi ketika melakukan analisis data, dimana data yang diamati jauh lebih bervariasi daripada yang diharapkan oleh model? Atau kondisi sebaliknya, data memiliki variasi yang jauh lebih kecil daripada seharusnya? Jika iya, kemungkinan besar Anda telah mengalami kondisi Overdispersi dan Underdispersi pada data.

Secara lebih lanjut, artikel ini akan membahas terkait Overdispersi dan Underdispersi pada data. Yuk kita bahas bersama-sama bagaimana cara mengenali dan mengatasi kondisi ini, agar analisis yang dilakukan lebih akurat dan reliable.

Definisi

Secara definisi Overdispersi dan Underdispersi merupakan suatu kondisi ketika data yang diamati memiliki variasi yang tidak seimbang dengan model yang digunakan untuk menganalisis data.

Overdispersi yaitu ketika variasi data yang diamati lebih besar daripada yang diharapkan oleh model
Underdispersi yaitu ketika variasi data yang diamati lebih kecil daripada yang diharapkan oleh model

Kondisi ini apabila diabaikan begitu saja dapat menyebabkan masalah dalam analisis data, hal ini dikarenakan dapat menghasilkan estimasi parameter yang tidak akurat atau tidak konsisten.

Cara Identifikasi

Identifikasi Overdispersi dan Underdispersi pada data adalah hal yang penting dilakukan sebelum analisis data lebih lanjut. Adapun beberapa cara untuk identifikasi adalah sebagai berikut.

1. Nilai Rasio Varians dan Rata-Rata (Variance to Mean Ratio)

Apabila nilai Variance to Mean Ratio ini lebih besar dari 1, maka kemungkinan terdapat Overdispersi pada data, sedangkan jika nilainya kurang dari 1, maka kemungkinan terdapat Underdispersi pada data.
Rumus perhitungan Variance to Mean Ratio adalah sebagai berikut:

Overdispersi

2. Visualisasi Data
Visualisasi data dapat dilakukan untuk mengidentifikasi adanya kemungkinan terjadinya Overdispersi dan Underdispersi pada data. Misalnya, jika data terlihat sangat tersebar atau memiliki variasi yang besar, kemungkinan terdapat overdispersi pada data. Sedangkan jika data terlihat sangat terkumpul atau memiliki variasi yang kecil, kemungkinan terdapat underdispersi pada data.

Beberapa jenis visualisasi yang dapat digunakan untuk pendeteksian diantaranya:

a. Histogram
Distribusi frekuensi dari data dapat dilihat berdasarkan visualisasi grafik Histogram. Apabila pada histogram terlihat bahwa data memiliki varians yang jauh lebih besar atau lebih kecil dari yang diharapkan, maka ini dapat menunjukkan adanya overdispersi atau underdispersi.

Overdispersi

b. Scatterplot
Visualisasi hubungan antara dua variabel dapat dilihat berdasarkan grafik Scatterplot. Apabila Scatterplot menunjukkan bahwa varians data meningkat atau menurun dengan meningkatnya nilai rata-rata, maka ini dapat menunjukkan adanya overdispersi atau underdispersi.

Scatterplot_

c. Boxplot
Boxplot dapat digunakan untuk memvisualisasikan distribusi data. Jika boxplot menunjukkan adanya pencilan (outlier) yang signifikan atau rentang nilai data yang tidak seimbang, maka ini dapat menunjukkan adanya overdispersi atau underdispersi.

Overdispersi

Faktor-Faktor Penyebab

Faktor-faktor penyebab terjadinya Overdispersi dan Underdispersi yaitu:

  1. Ketidaktepatan Model
    Pemodelan data tidak cukup kompleks atau tidak tepat dalam mengatasi variasi pada data.
  2. Terdapat Data Outlier (Pencilan)
    Adanya data outlier dapat meningkatkan variasi data secara signifikan.
  3. Data Pengamatan Saling Dependen
    Apabila data pengamatan saling terkait satu sama lain maupun terdapat pengamatan ganda.
  4. Variasi Lingkungan
    Adanya faktor eksternal atau variasi lingkungan secara tidak langsung.
  5. Variasi Alami
    Variasi alami merupakan penyebab terjadi Overdispersi dan Underdispersi yang berasal dari dalam data itu sendiri.
  6. Variasi Temporal
    Jenis penyebab ini biasanya terjadi pada data temporal yang melibatkan tren atau pola musiman pada data.

Dampak

Beberapa dampak signifikan dari Overdispersi dan Underdispersi pada analisis data diantaranya adalah sebagai berikut.

1.Kesalahan dalam Estimasi Parameter
Hasil estimasi parameter yang salah dapat mengarah pada kesalahan interpretasi hasil analisis data dan pengambilan keputusan.

2. Kesalahan dalam Prediksi
Apabila terdapat Overdispersi, maka jumlah varians yang diprediksi oleh model terlalu rendah, dan begitupula jika terdapat Underdispersi jumlah varians yang diprediksi model terlalu tinggi.

3. Biaya yang Lebih Tinggi
Biaya yang lebih tinggi diperlukan untuk mengatasi Overdispersi dan Underdispersi pada data. Sebagai contoh terjadi kondisi Overdispersi, maka penanganan masalah tersebut dilakukan dengan mengumpulkan data tambahan maupun membuat model yang lebih kompleks sehingga membutuhkan biaya lebih.

Cara Penanganan

Penanganan Overdispersi dan Underdispersi pada data dapat dilakukan dengan beberapa cara diantaranya:

Overdispersi

1. Menggunakan Model Generalized Linear Models (GLM)
Model GLM dapat menangani data dengan variasi yang besar, dikarenakan memungkinkan penggunaan distribusi probabilitas yang lebih fleksibel & lebih umum dibandingkan model linier biasa.

2. Menggunakan Metode Estimasi Parameter yang Tepat
Metode estimasi parameter yang dapat digunakan untuk mengatasi Overdispersi dan Underdispersi diantaranya metode Maximum Likelihood (ML), metode Generalized Method of Moments (GMM), dan metode Bayesian.

3. Menggunakan Model yang Lebih Kompleks
Penggunaan model yang lebih kompleks seperti model regresi Generalized Poisson, Negative Binomial, Poisson Inverse-Gaussian dapat dipertimbangkan sebagai suatu penanganan.

4. Mengidentifikasi dan Menghapus Outlier (Pencilan)
Sebagai salah satu penyebab terjadinya Overdispersi dan Underdispersi, Outlier dapat diidentifikasi serta dihapus dari data.

5. Melakukan Teknik Transformasi Data
Transformasi data dilakukan dengan mengubah data ke skala yang berbeda untuk mengurangi variasi data. Beberapa teknik transformasi yang dapat digunakan yaitu transformasi logaritmik, transformasi kuadratik, dan transformasi Box-Cox.

6. Meningkatkan Kualitas Pengamatan Data
Kualitas pengamatan data dapat ditingkatkan dengan cara mengumpulkan data tambahan, menambah jumlah pengamatan, dan memastikan pengamatan data independen dapat membantu mengatasi overdispersi dan underdispersi pada data.

Kesimpulan

  • Pemahaman tentang Overdispersi dan Underdispersi sangat penting dalam analisis data, khususnya dalam pemodelan statistik, dimana hal ini merupakan masalah yang penting karena jika diabaikan dapat menyebabkan hasil analisis tidak akurat dan kesimpulan yang salah. Oleh karena itu, pemahaman yang baik tentang overdispersi dan underdispersi pada data sangat penting dalam melakukan analisis data yang berkualitas dan mengambil keputusan yang tepat.
  • Beberapa cara yang dapat dilakukan untuk mengatasi Overdispersi dan Underdispersi pada data adalah dengan menggunakan model yang tepat, teknik transformasi data, model GLM, metode estimasi parameter yang tepat, mengidentifikasi dan menghapus outlier, serta meningkatkan kualitas pengamatan data. Selain itu, perlu juga untuk mengambil langkah-langkah untuk meningkatkan kualitas pengamatan data dan memastikan pengamatan data independen.

Referensi

Rahayuning, H. A., & Purhadi. (2020). Pemodelan Jumlah Kematian Ibu Nifas di Karesidenan Pekalongan Provinsi Jawa Tengah Tahun 2017 Menggunakan Regresi Zero-Inflated Poisson Inverse Gaussian. INFERENSI, Vol. 3, No.2.

Hilbe, J. (2011). Negative Binomial Regression. New York: Cambridge University Press.

D. Karlis and E. Xekalaki, “A Simulation Comparison of Several Procedures for Testing the Poisson Assumption,” Journal of the Royal Statistical Society, vol. 49, pp. 355-382, 2000.

Nah sampai disini dulu penjelasan terkait Overdispersi dan Underdispersi pada data. Jika masih terdapat hal-hal yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!