PCA (Principal Component Analysis)

DW ADS

Definisi

Principal Component Analysis (PCA) seringkali disebut juga sebagai analisis komponen utama merupakan suatu metode statistik yang digunakan untuk mengurangi dimensi dari kumpulan data yang kompleks, yang saling berkorelasi satu sama lain, sehingga menjadi variabel baru (disebut dengan komponen utama) yang berukuran lebih kecil, namun mampu menerangkan sebagian besar keragaman total data, dan saling bebas satu sama lain

Adanya PCA memungkinkan data yang semula memiliki banyak dimensi (dimensi tinggi) untuk direpresentasikan dalam dimensi yang lebih rendah, sehingga memudahkan pemahaman dan analisis data.

Konsep Dasar

Konsep dasar dari Principal Component Analysis berfokus pada penjelasan terkait struktur varians- kovarians dari sekumpulan variabel melalui kombinasi linier dari variabel tersebut.

  • Variabel-variabel asal yang saling berkorelasi lebih tinggi dibandingkan variabel asal lainnya akan dikelompokkan kedalam komponen utama (PC) yang sama. Artinya, mereduksi dimensi sejumlah p variabel asal yang saling berkorelasi tinggi .
  • Struktur kovarians p variabel asal tersebut dijelaskan melalui sejumlah dimensi yang lebih kecil (m) variabel baru / komponen utama (PC) yg merupakan kombinasi linier p variabel asal.
  • Setiap komponen utama (PC) diharapkan mampu menjelaskan sebesar mungkin proporsi variabilitas dari total p variabel asal dan antar komponen utama saling independen

Bentuk persamaan umum dari Principal Component Analysis adalah sebagai berikut.

\begin{matrix}
Y_{1}=e{_{1}}^{'}X=e_{11}X_{1}+e_{21}X_{2}+\cdots +e_{p1}X_{p}\\ 
Y_{2}=e{_{2}}^{'}X=e_{12}X_{1}+e_{22}X_{2}+\cdots +e_{p2}X_{p}\\ 
\vdots\\
Y_{p}=e{_{p}}^{'}X=e_{1p}X_{1}+e_{2p}X_{2}+\cdots +e_{pp}X_{p}
\end{matrix}

dimana dalam hal ini
Y1 : Principal Component (PC) pertama yang mempunyai varians terbesar
Y2 : Principal Component (PC) ke- 2 yang mempunyai varians terbesar ke- 2
Yp : Principal Component (PC) ke- p yang mempunyai varians terbesar ke- p
X : Vektor random variabel asal (X)
ep : Vektor karakteristik data ke- p, dimana

e=\left | \lambda I-\lambda  \right |X=0

Model Principal Component ke-i secara umum dapat ditulis Zi = ei ‘X, dimana: i=1, 2, …, p sehingga

\begin{matrix}
Var\left ( Z_{i} \right )={e_{i}}^{'}\sum e_{i}\, i=1,2,\cdots p\\ 
Cov\left ( Z_{i},Z_{k} \right )=e{_{i}}^{'}\sum e_{k},\, i\neq k
\end{matrix}

Dari penjelasan sebelumnya, menunjukkan sifat- sifat Principal Component diantaranya yaitu:

a. Komponen pertama Y1 memuat variasi maksimum data dan seterusnya seperti uraian sebelumnya. Variasi maksimum diperoleh dari rumusan hasil eigen value, dimana λ1 menunjukkan keragaman terbesar. Sehingga hasil komponen pertama juga akan menghasilkan keragaman paling besar.

b.\, \, e_{i1}^{2}+e_{i2}^{2}+\cdots e_{ip}^{2}=1;\, i=1,2,\cdots p
c.\, \,e_{i1}e_{j1}+e_{i2}e_{j2}+\cdots +e_{ip}e_{jp}=0;\, i\neq p

Berdasarkan rumus b) dan c) maka

\sigma _{11}+\sigma _{22}+\cdots +\sigma _{pp}=\lambda _{1}+\lambda _{2}+\cdots \lambda _{p}

Jadi persentase keragaman total yang dapat diterangkan oleh
komponen utama ke-I adalah sebagai berikut

Proporsi\, \, varians\, \, ke-i\, =\frac{\lambda _{i}}{\lambda _{1}+\lambda _{2}+\cdots \lambda _{p}}

Tahapan PCA

Beberapa tahapan dari Principal Component Analysis (PCA) diantaranya yaitu:

1. Tahap Reduksi Dimensi Variabel (Ekstraksi Komponen Utama (PC))
a. Menentukan matrik kovarians (X) atau kovarians (Z) / korelasi (X)
PCA melibatkan perhitungan matriks kovarians, yang mengukur hubungan antara variabel-variabel dalam data. Matriks kovarians digunakan untuk menentukan sejauh mana variabel-variabel tersebut bervariasi bersama.

b. Menentukan p eigen-value dari kovarians (X) atau kovarians (Z) / korelasi (X)
PCA melibatkan perhitungan eigenvector dan eigenvalue dari matriks kovarians. Eigenvalue mengukur besarnya variabilitas yang dijelaskan oleh masing-masing komponen utama, sedangkan eigenvector adalah arah atau pola yang diidentifikasi oleh komponen utama.

c. Menentukan m komponen utama (PC) berdasarkan kriteria (m PC pertama atau variabilitas yang dapat dijelaskan oleh m PC)
Komponen utama dipilih berdasarkan eigenvalue. Komponen utama pertama memiliki eigenvalue tertinggi, yang menjelaskan sebagian besar variasi dalam data. Komponen utama berikutnya menjelaskan variasi yang lebih rendah, dan demikian seterusnya.

d. Mendapatkan m eigen-vector berukuran px1 dari m eigen-value terkait

e. Menentukan m persamaan (kombinasi linier variabel asal) komponen utama (PC)
Data asli diproyeksikan ke dalam sistem koordinat yang baru, yang disusun oleh komponen utama yang telah dipilih. Ini menghasilkan data baru yang memiliki dimensi yang lebih rendah.

2. Tahap Interpretasi
a. Proporsi variabilitas kumulatif yang dijelaskan oleh m komponen utama (PC), dari total variabel asal (m<p)
b. Importance variabel pada setiap komponen utama (PC), dibandingkan variabel lainnya
c. Penentuan m kelompok komponen utama (PC) dan independensi antar m komponen utama (PC)

Scree Plot

Scree plot adalah grafik yang digunakan dalam Principal Component Analysis untuk membantu menentukan berapa banyak komponen utama yang harus dipertahankan dalam analisis. Scree plot sangat berguna dalam pengambilan keputusan terkait reduksi dimensi data. Beberapa kegunaan scree plot dalam PCA diantaranya:

PCA
  1. Menentukan Jumlah Komponen Utama yang Signifikan
    Scree plot digunakan untuk mengidentifikasi “elbow” atau titik di mana eigenvalue komponen utama berhenti signifikan. Eigenvalue adalah ukuran sejauh mana komponen utama menjelaskan variasi data. Pada titik di mana eigenvalue mulai menurun tajam di scree plot, menandakan bahwa komponen-komponen berikutnya tidak memberikan kontribusi yang signifikan dalam menjelaskan variasi data. Oleh karena itu, jumlah komponen utama yang signifikan dapat ditentukan dengan melihat scree plot.
  2. Reduksi Dimensi Data
    Dengan menggunakan scree plot, kita dapat memutuskan berapa banyak komponen utama yang harus dipertahankan dan berapa banyak yang dapat diabaikan. Hal Ini dapat membantu kita dalam reduksi dimensi data sehingga kita dapat bekerja dengan data yang lebih sederhana tetapi tetap mempertahankan sebagian besar informasi penting.
  3. Menghindari Overfitting
    Dalam beberapa kasus, mempertahankan terlalu banyak komponen utama dapat menyebabkan model menjadi terlalu rumit dan cenderung overfitting, terutama dalam analisis prediksi. Scree plot dapat membantu kita menghindari overfitting dengan membantu kita memilih jumlah komponen utama yang paling relevan.
  4. Efisiensi Komputasi
    Dengan mempertahankan hanya komponen utama yang signifikan, kita dapat mengurangi beban komputasi dalam analisis data. Hal ini merupakan aspek penting dalam situasi di mana waktu komputasi adalah faktor yang perlu dipertimbangkan.

Dengan demikian, scree plot adalah alat yang penting dalam PCA untuk membantu peneliti atau analis data dalam menentukan jumlah komponen utama yang tepat untuk menjelaskan variasi data dengan efisien.

Kelebihan dan Keterbatasan

Terdapat beberapa kelebihan dan keterbatasan dari Principal Component Analysis (PCA) diantaranya:

Kelebihan

  1. Reduksi Dimensi
    Principal Component Analysis dapat digunakan untuk mengurangi dimensi data dengan menggabungkan variabel yang saling terkait. Hal ini membantu mengatasi masalah “curse of dimensionality” sehingga membuat data lebih mudah diolah.
  2. Identifikasi Pola
    Principal Component Analysis berguna untuk mengidentifikasi pola dalam data dengan mengisolasi komponen utama yang menjelaskan variasi terbesar dalam data. Adanya identifikasi pola dapat memudahkan kita dalam pemahaman dan interpretasi data.
  3. Mengurangi Redundansi
    Principal Component Analysis dapat menghilangkan redundansi dalam data dengan cara menghapus korelasi antara variabel, sehingga hal ini dapat mencegah masalah multikolinearitas dalam analisis.
  4. Kompresi Data
    Principal Component Analysis dapat digunakan untuk mengompresi data tanpa kehilangan banyak informasi. Hal ini dapat bermanfaat dalam penyimpanan data dan mempercepat proses analisis.
  5. Visualisasi Data
    Principal Component Analysis memungkinkan kita untuk visualisasi data dalam ruang berdimensi lebih rendah, sehingga memudahkan kita dalam pemahaman struktur data.

Keterbatasan

  1. Linearitas
    Principal Component Analysis (PCA) hanya efektif pada data yang memiliki hubungan linear antara variabel. Untuk data yang mengandung pola non-linear, PCA mungkin tidak cocok.
  2. Kehilangan Informasi
    Ketika dimensi data dikurangi, beberapa informasi dapat hilang sehingga ketika menerapkan Principal Component Analysis, kita harus bijak dalam menentukan berapa banyak komponen utama yang akan dipertahankan serta sejauh mana kita bersedia mengorbankan informasi untuk mendapatkan manfaat dari reduksi dimensi.
  3. Sensitif terhadap Skala
    Principal Component Analysis sensitif terhadap perbedaan skala dalam variabel. Oleh karena itu, normalisasi atau standarisasi variabel sering diperlukan sebelum menerapkan Principal Component Analysis .
  4. Kompleksitas Interpretasi
    Hasil Principal Component Analysis sering sulit untuk diinterpretasikan, terutama jika banyak komponen utama yang dihasilkan.
  5. Membutuhkan Perhitungan Komputasi
    Principal Component Analysis melibatkan perhitungan matriks yang memakan waktu dan memori. Untuk dataset besar, ini bisa menjadi tantangan.

Penerapan PCA dalam Berbagai Bidang

Principal Component Analysis (PCA) adalah teknik analisis statistik multivariat yang umum digunakan untuk mengurangi dimensi data dengan mempertahankan informasi yang paling signifikan. PCA memiliki berbagai penerapan dalam berbagai bidang, diantaranya yaitu:

A. Pengolahan Citra dan Penglihatan Komputer
Principal Component Analysis dapat digunakan untuk mengurangi dimensi citra digital, selain itu dapat pula digunakan untuk membantu dalam pengenalan pola, kompresi gambar, dan pemrosesan citra medis.

PCA

B. Analisis Pasar dan Perilaku Konsumen
Dalam bidang pemasaran, Principal Component Analysis dapat digunakan untuk membantu dalam segmentasi pasar dan memahami faktor-faktor yang mempengaruhi perilaku konsumen.

PCA

C. Ekonomi dan Keuangan
Principal Component Analysis dapat digunakan dalam portofolio manajemen untuk mengidentifikasi komponen utama dalam pergerakan harga saham dan mengelola risiko investasi.

D. Manajemen Produksi dan Manufaktur
Dalam sektor industri,Principal Component Analysis dapat digunakan untuk mengoptimalkan proses produksi dengan mengidentifikasi variabel yang paling berpengaruh dalam menghasilkan hasil yang diinginkan.

E. Ekologi dan Konservasi
Principal Component Analysis dapat digunakan pula dalam analisis data ekologi untuk mengidentifikasi pola dalam data spesies dan lingkungan alam. Selain itu, Principal Component Analysis dapat membantu dalam pemahaman ekosistem dan upaya konservasi.

F. Industri dan Teknologi
Dalam industri manufaktur, Principal Component Analysis digunakan untuk memantau dan mengontrol kualitas produk dengan mengidentifikasi faktor-faktor yang memengaruhi kualitas produk. Selain itu dari segi sistem operasi dalam industri, PCA digunakan dalam pemelajaran mesin, kompresi data, dan reduksi dimensi data.

Penerapan Principal Component Analysis bervariasi tergantung pada bidangnya, namun secara umum tujuan dari Principal Component Analysis yaitu mengurangi dimensi data, mengidentifikasi pola, dan memahami hubungan antara variabel-variabel yang ada dalam data tersebut.

Referensi

Johnson, R., & Wichern, D. (2002). Applied Multivariate Statistical Analysis. Pearson Education, Inc.

A’laa, R., & Sutikno. (2018). Pemodelan Faktor- Faktor yang Memengaruhi Gini Rasio Pembangunan di Jawa Timur dengan Regresi Spasial. Jurnal Sains dan Seni ITS.

Finally, sampai sudah kita di penghujung artikel, sekian penjelasan terkait Principal Component Analysis. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!