Simpson’s Paradox in Statistics #1

DW ADS

Hai hai sobat Exsight. Sobat Exsight tentunya pernah menganalisis suatu data bukan? Lalu apakah sobat sudah yakin dengan pasti bahwa hasil analisis data telah menghasilkan interpretasi dan kesimpulan yang tepat? Nah pada artikel ini, kita akan membahas suatu fenomena yang seringkali terdapat pada hasil analisis data yang bernama Simpson’s Paradox.

Simpson's Paradox

Beberapa dari sobat Exsight mungkin mengira Simpson’s Paradox serupa dengan animasi hits Amerika Serikat dengan karakter berwarna kuning yaitu “The Simpsons”. Eitss bukan Simpson yang itu ya sobat 🙂 Adapun Simpson yang kita bahas berkaitan dengan keilmuan dan teori statistika. Yuk simak artikel ini untuk mempelajari lebih lanjut.

Apa itu Simpson’s Paradox?

Simpson’s Paradox merupakan suatu kondisi dimana hasil analisis (asosiasi, korelasi maupun tren) yang diamati pada berbagai macam data menjadi menghilang atau berbanding terbalik ketika data-data tersebut digabungkan.

Misalnya analisis suatu kelompok data menampilkan hasil prediksi tren yang positif, namun ketika kelompok data tersebut dipecah menjadi beberapa sub kelompok, akan menampilkan hasil yang berlawanan.

Apabila Simpson’s Paradox ini diabaikan dapat menyebabkan kesimpulan hasil interpretasi yang salah dan menyesatkan.

Mengapa Simpson’s Paradox bisa terjadi?

Simpson’s Paradox dapat terjadi karena adanya perbedaan dalam distribusi variabel atau faktor-faktor lain yang dapat memengaruhi hasil perhitungan statistik.

Studi Kasus Simpson’s Paradox

Fenomena Simpson’s Paradox dapat terjadi pada berbagai bidang di antaranya di bidang medis dan pendidikan.

a. Kasus Bidang Medis

Misalnya terdapat penelitian tentang penggunaan obat antihipertensi pada pasien dengan penyakit ginjal kronis. Pada penelitian ditemukan bahwa pada keseluruhan populasi, pasien yang menggunakan obat antihipertensi A memiliki risiko lebih rendah untuk mengalami penyakit ginjal stadium akhir (ESRD) dibandingkan dengan pasien yang menggunakan obat antihipertensi B.

Simpson's Paradox

Namun, ketika data dibagi berdasarkan tingkat keparahan penyakit ginjal, ternyata pasien dengan penyakit ginjal yang lebih parah justru memiliki risiko lebih tinggi untuk mengalami ESRD jika menggunakan obat antihipertensi A.

Penemuan ini menunjukkan adanya Simpson Paradox pada studi tersebut. Hal ini disebabkan karena pada kelompok pasien yang lebih parah, distribusi faktor-faktor lain seperti usia dan jenis kelamin dapat berbeda sehingga memengaruhi hasil

b. Kasus Bidang Pendidikan

Kasus lainnya misalnya terkait pengukuran keberhasilan suatu program pendidikan. Berdasarkan laporan hasil suatu program sekolah menunjukkan bahwa tingkat kelulusan siswa di kelas atas meningkat dalam beberapa tahun terakhir.

Namun, ketika dilihat lebih detail, ternyata peningkatan ini terjadi karena meningkatnya jumlah siswa dari keluarga dengan latar belakang pendidikan yang tinggi, sedangkan jumlah siswa dari keluarga dengan latar belakang pendidikan rendah menurun.

Simpson's Paradox

Simpson’s Paradox terjadi dalam kasus ini, dimana kita tidak mempertimbangkan perbedaan latar belakang pendidikan siswa. Sehingga terjadi peningkatan kelulusan secara keseluruhan. Padahal sebenarnya, terdapat perbedaan signifikan dalam kelompok siswa dari latar belakang pendidikan yang berbeda.

Simpson’s Paradox dalam Perhitungan Statistika

Studi kasus yang akan kita gunakan untuk perhitungan kali ini menggunakan data Palmer Penguins yang diperoleh dari R data package. Data terdiri atas 8 variabel dan 333 observasi.

Simpson's Paradox

Load Package dan Data

Data Palmer Penguins dapat dipanggil menggunakan package R (palmerpenguins). Adapun syntax R yang digunakan adalah sebagai berikut.

library(tidyverse)
library(palmerpenguins)

penguin_df<- 
  palmerpenguins::penguins %>%
  na.omit()
penguin_df
DT::datatable((penguin_df))
Gambar 1. Data Palmer Penguins

Korelasi Antar Variabel Secara Agregat

Kita akan membuat grafik scatterplot untuk melihat korelasi atau hubungan antara variabel bill_length_mm dan bill_depth_mm. Syntax R yang digunakan adalah sebagai berikut.

lin_reg <- lm(bill_depth_mm ~ bill_length_mm, data=penguin_df)

penguin_df %>%
  ggplot(aes(x=bill_length_mm, y=bill_depth_mm)) +
  geom_point() +
  geom_abline(slope = lin_reg$coefficients[[2]],
              intercept = lin_reg$coefficients[[1]], 
              color="red") +
  labs(x="Length", y="Depth") +
  theme_classic()
Gambar 2. Scatterplot Variabel bill_length_mm dan bill_depth_mm

Grafik scatterplot pada Gambar 2. menampilkan informasi bahwa variabel bill_length_mm dan bill_depth_mm memiliki hubungan yang berbanding terbalik, hal ini ditandai dengan garis merah yang menurun dari kiri atas ke kanan bawah. Sehingga semakin tinggi nilai bill_length_mm maka nilai pada variabel bill_depth_mm akan semakin rendah.

Korelasi Antar Variabel Berdasarkan Kategori

Selanjutnya kita membuat grafik scatterplot untuk melihat korelasi antara variabel bill_length_mm dan bill_depth_mm. berdasarkan kategori species Penguin meliputi Adelie, Chinstrap, dan Gentoo. Syntax R yang digunakan adalah sebagai berikut.

chin<-
  penguin_df %>%
  filter(species == "Chinstrap")
adelie<-
  penguin_df %>%
  filter(species == "Adelie")
gentoo<-
  penguin_df %>%
  filter(species == "Gentoo")

lm_chin<- lm(data=chin, bill_depth_mm ~ bill_length_mm)
lm_adelie<- lm(data=adelie, bill_depth_mm ~ bill_length_mm)
lm_gentoo<- lm(data=gentoo, bill_depth_mm ~ bill_length_mm)

penguin_df %>%
  ggplot(aes(x=bill_length_mm, y=bill_depth_mm, 
             color=species)) +
  geom_point() +
  geom_abline(slope = lm_chin$coefficients[[2]],
              intercept = lm_chin$coefficients[[1]], 
              color="black") +
  geom_abline(slope = lm_adelie$coefficients[[2]],
              intercept = lm_adelie$coefficients[[1]], 
              color="black") +
  geom_abline(slope = lm_gentoo$coefficients[[2]],
              intercept = lm_gentoo$coefficients[[1]], 
              color="black") +
  labs(x="Length", y="Depth",) +
  theme_classic()
Simpson's Paradox
Gambar 3. Scatterplot Variabel bill_length_mm dan bill_depth_mm Berdasarkan Kategori Species

Grafik scatterplot pada Gambar 3. menunjukkan bahwa apabila dibedakan berdasarkan kategori species, variabel bill_length_mm dan bill_depth_mm memiliki hubungan yang berbanding lurus, hal ini ditandai dengan garis yang naik dari kiri bawah ke kanan atas.

Interpretasi

Perbedaan hasil scatterplot pada Gambar 2. dan Gambar 3. menunjukkan bahwa terdapat fenomena Simpson’s Paradox pada data Palmer Penguins, dimana hal ini dapat disebabkan oleh distribusi variabel yang tidak merata pada kelompok species Penguin.

Cara Mengatasi Simpson’s Paradox

Simpson Paradox dapat mengganggu hasil perhitungan statistik dan menyebabkan kesalahan dalam pengambilan keputusan. Oleh karena itu, untuk menghindari Simpson Paradox, kita dapat melakukan beberapa tindakan, di antaranya:

  1. Memperhatikan faktor-faktor lain yang dapat memengaruhi hasil perhitungan statistik
  2. Memeriksa distribusi variabel pada setiap kelompok data
    Hal ini dapat membantu kita memastikan bahwa hasil perhitungan pada setiap kelompok tetap konsisten dengan hasil perhitungan pada keseluruhan populasi.
  3. Menambah variabel lain dalam analisis data
    Semakin banyak variabel, kita dapat memperoleh pemahaman yang lebih lengkap tentang faktor-faktor yang memengaruhi hasil perhitungan statistik.
  4. Membuat visualisasi data
    Visualisasi data dapat membantu kita memahami distribusi variabel pada setiap kelompok dengan lebih jelas. Dengan demikian, kita dapat dengan mudah mengidentifikasi kemungkinan terjadinya Simpson Paradox dan menghindarinya.

Dalam melakukan analisis data, perlu diingat bahwa Simpson Paradox dapat terjadi pada berbagai jenis perhitungan statistik. Oleh karena itu, penting untuk selalu memperhatikan faktor-faktor yang relevan dan melakukan pemeriksaan yang cermat untuk menghindari kesalahan dalam interpretasi data dan pengambilan keputusan.

Referensi

Hernan, M., Clayton, D., & Keiding, N. (2011). The Simpson’s Paradox Unraveled. International Journal of Epidemiology, Volume 40, Issue 3, 780-785.

https://www.britannica.com/topic/Simpsons-paradox/Problem-of-Causality#ref335395

https://rpubs.com/shampjeff/blog_post_2

Sekian penjelasan terkait Simpson’s Paradox in Statistics. Jika masih terdapat hal-hal yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!