Definisi
Principal Component Analysis (PCA) seringkali disebut juga sebagai analisis komponen utama merupakan suatu metode statistik yang digunakan untuk mengurangi dimensi dari kumpulan data yang kompleks, yang saling berkorelasi satu sama lain, sehingga menjadi variabel baru (disebut dengan komponen utama) yang berukuran lebih kecil, namun mampu menerangkan sebagian besar keragaman total data, dan saling bebas satu sama lain
Adanya PCA memungkinkan data yang semula memiliki banyak dimensi (dimensi tinggi) untuk direpresentasikan dalam dimensi yang lebih rendah, sehingga memudahkan pemahaman dan analisis data.
Konsep Dasar
Konsep dasar dari Principal Component Analysis berfokus pada penjelasan terkait struktur varians- kovarians dari sekumpulan variabel melalui kombinasi linier dari variabel tersebut.
- Variabel-variabel asal yang saling berkorelasi lebih tinggi dibandingkan variabel asal lainnya akan dikelompokkan kedalam komponen utama (PC) yang sama. Artinya, mereduksi dimensi sejumlah p variabel asal yang saling berkorelasi tinggi .
- Struktur kovarians p variabel asal tersebut dijelaskan melalui sejumlah dimensi yang lebih kecil (m) variabel baru / komponen utama (PC) yg merupakan kombinasi linier p variabel asal.
- Setiap komponen utama (PC) diharapkan mampu menjelaskan sebesar mungkin proporsi variabilitas dari total p variabel asal dan antar komponen utama saling independen
Bentuk persamaan umum dari Principal Component Analysis adalah sebagai berikut.
\begin{matrix} Y_{1}=e{_{1}}^{'}X=e_{11}X_{1}+e_{21}X_{2}+\cdots +e_{p1}X_{p}\\ Y_{2}=e{_{2}}^{'}X=e_{12}X_{1}+e_{22}X_{2}+\cdots +e_{p2}X_{p}\\ \vdots\\ Y_{p}=e{_{p}}^{'}X=e_{1p}X_{1}+e_{2p}X_{2}+\cdots +e_{pp}X_{p} \end{matrix}
dimana dalam hal ini
Y1 : Principal Component (PC) pertama yang mempunyai varians terbesar
Y2 : Principal Component (PC) ke- 2 yang mempunyai varians terbesar ke- 2
Yp : Principal Component (PC) ke- p yang mempunyai varians terbesar ke- p
X : Vektor random variabel asal (X)
ep : Vektor karakteristik data ke- p, dimana
e=\left | \lambda I-\lambda \right |X=0
Model Principal Component ke-i secara umum dapat ditulis Zi = ei ‘X, dimana: i=1, 2, …, p sehingga
\begin{matrix} Var\left ( Z_{i} \right )={e_{i}}^{'}\sum e_{i}\, i=1,2,\cdots p\\ Cov\left ( Z_{i},Z_{k} \right )=e{_{i}}^{'}\sum e_{k},\, i\neq k \end{matrix}
Dari penjelasan sebelumnya, menunjukkan sifat- sifat Principal Component diantaranya yaitu:
a. Komponen pertama Y1 memuat variasi maksimum data dan seterusnya seperti uraian sebelumnya. Variasi maksimum diperoleh dari rumusan hasil eigen value, dimana λ1 menunjukkan keragaman terbesar. Sehingga hasil komponen pertama juga akan menghasilkan keragaman paling besar.
b.\, \, e_{i1}^{2}+e_{i2}^{2}+\cdots e_{ip}^{2}=1;\, i=1,2,\cdots p
c.\, \,e_{i1}e_{j1}+e_{i2}e_{j2}+\cdots +e_{ip}e_{jp}=0;\, i\neq p
Berdasarkan rumus b) dan c) maka
\sigma _{11}+\sigma _{22}+\cdots +\sigma _{pp}=\lambda _{1}+\lambda _{2}+\cdots \lambda _{p}
Jadi persentase keragaman total yang dapat diterangkan oleh
komponen utama ke-I adalah sebagai berikut
Proporsi\, \, varians\, \, ke-i\, =\frac{\lambda _{i}}{\lambda _{1}+\lambda _{2}+\cdots \lambda _{p}}
Tahapan PCA
Beberapa tahapan dari Principal Component Analysis (PCA) diantaranya yaitu:
1. Tahap Reduksi Dimensi Variabel (Ekstraksi Komponen Utama (PC))
a. Menentukan matrik kovarians (X) atau kovarians (Z) / korelasi (X)
PCA melibatkan perhitungan matriks kovarians, yang mengukur hubungan antara variabel-variabel dalam data. Matriks kovarians digunakan untuk menentukan sejauh mana variabel-variabel tersebut bervariasi bersama.
b. Menentukan p eigen-value dari kovarians (X) atau kovarians (Z) / korelasi (X)
PCA melibatkan perhitungan eigenvector dan eigenvalue dari matriks kovarians. Eigenvalue mengukur besarnya variabilitas yang dijelaskan oleh masing-masing komponen utama, sedangkan eigenvector adalah arah atau pola yang diidentifikasi oleh komponen utama.
c. Menentukan m komponen utama (PC) berdasarkan kriteria (m PC pertama atau variabilitas yang dapat dijelaskan oleh m PC)
Komponen utama dipilih berdasarkan eigenvalue. Komponen utama pertama memiliki eigenvalue tertinggi, yang menjelaskan sebagian besar variasi dalam data. Komponen utama berikutnya menjelaskan variasi yang lebih rendah, dan demikian seterusnya.
d. Mendapatkan m eigen-vector berukuran px1 dari m eigen-value terkait
e. Menentukan m persamaan (kombinasi linier variabel asal) komponen utama (PC)
Data asli diproyeksikan ke dalam sistem koordinat yang baru, yang disusun oleh komponen utama yang telah dipilih. Ini menghasilkan data baru yang memiliki dimensi yang lebih rendah.
2. Tahap Interpretasi
a. Proporsi variabilitas kumulatif yang dijelaskan oleh m komponen utama (PC), dari total variabel asal (m<p)
b. Importance variabel pada setiap komponen utama (PC), dibandingkan variabel lainnya
c. Penentuan m kelompok komponen utama (PC) dan independensi antar m komponen utama (PC)
Scree Plot
Scree plot adalah grafik yang digunakan dalam Principal Component Analysis untuk membantu menentukan berapa banyak komponen utama yang harus dipertahankan dalam analisis. Scree plot sangat berguna dalam pengambilan keputusan terkait reduksi dimensi data. Beberapa kegunaan scree plot dalam PCA diantaranya:
- Menentukan Jumlah Komponen Utama yang Signifikan
Scree plot digunakan untuk mengidentifikasi “elbow” atau titik di mana eigenvalue komponen utama berhenti signifikan. Eigenvalue adalah ukuran sejauh mana komponen utama menjelaskan variasi data. Pada titik di mana eigenvalue mulai menurun tajam di scree plot, menandakan bahwa komponen-komponen berikutnya tidak memberikan kontribusi yang signifikan dalam menjelaskan variasi data. Oleh karena itu, jumlah komponen utama yang signifikan dapat ditentukan dengan melihat scree plot. - Reduksi Dimensi Data
Dengan menggunakan scree plot, kita dapat memutuskan berapa banyak komponen utama yang harus dipertahankan dan berapa banyak yang dapat diabaikan. Hal Ini dapat membantu kita dalam reduksi dimensi data sehingga kita dapat bekerja dengan data yang lebih sederhana tetapi tetap mempertahankan sebagian besar informasi penting. - Menghindari Overfitting
Dalam beberapa kasus, mempertahankan terlalu banyak komponen utama dapat menyebabkan model menjadi terlalu rumit dan cenderung overfitting, terutama dalam analisis prediksi. Scree plot dapat membantu kita menghindari overfitting dengan membantu kita memilih jumlah komponen utama yang paling relevan. - Efisiensi Komputasi
Dengan mempertahankan hanya komponen utama yang signifikan, kita dapat mengurangi beban komputasi dalam analisis data. Hal ini merupakan aspek penting dalam situasi di mana waktu komputasi adalah faktor yang perlu dipertimbangkan.
Dengan demikian, scree plot adalah alat yang penting dalam PCA untuk membantu peneliti atau analis data dalam menentukan jumlah komponen utama yang tepat untuk menjelaskan variasi data dengan efisien.
Kelebihan dan Keterbatasan
Terdapat beberapa kelebihan dan keterbatasan dari Principal Component Analysis (PCA) diantaranya:
Kelebihan
- Reduksi Dimensi
Principal Component Analysis dapat digunakan untuk mengurangi dimensi data dengan menggabungkan variabel yang saling terkait. Hal ini membantu mengatasi masalah “curse of dimensionality” sehingga membuat data lebih mudah diolah. - Identifikasi Pola
Principal Component Analysis berguna untuk mengidentifikasi pola dalam data dengan mengisolasi komponen utama yang menjelaskan variasi terbesar dalam data. Adanya identifikasi pola dapat memudahkan kita dalam pemahaman dan interpretasi data. - Mengurangi Redundansi
Principal Component Analysis dapat menghilangkan redundansi dalam data dengan cara menghapus korelasi antara variabel, sehingga hal ini dapat mencegah masalah multikolinearitas dalam analisis. - Kompresi Data
Principal Component Analysis dapat digunakan untuk mengompresi data tanpa kehilangan banyak informasi. Hal ini dapat bermanfaat dalam penyimpanan data dan mempercepat proses analisis. - Visualisasi Data
Principal Component Analysis memungkinkan kita untuk visualisasi data dalam ruang berdimensi lebih rendah, sehingga memudahkan kita dalam pemahaman struktur data.
Keterbatasan
- Linearitas
Principal Component Analysis (PCA) hanya efektif pada data yang memiliki hubungan linear antara variabel. Untuk data yang mengandung pola non-linear, PCA mungkin tidak cocok. - Kehilangan Informasi
Ketika dimensi data dikurangi, beberapa informasi dapat hilang sehingga ketika menerapkan Principal Component Analysis, kita harus bijak dalam menentukan berapa banyak komponen utama yang akan dipertahankan serta sejauh mana kita bersedia mengorbankan informasi untuk mendapatkan manfaat dari reduksi dimensi. - Sensitif terhadap Skala
Principal Component Analysis sensitif terhadap perbedaan skala dalam variabel. Oleh karena itu, normalisasi atau standarisasi variabel sering diperlukan sebelum menerapkan Principal Component Analysis . - Kompleksitas Interpretasi
Hasil Principal Component Analysis sering sulit untuk diinterpretasikan, terutama jika banyak komponen utama yang dihasilkan. - Membutuhkan Perhitungan Komputasi
Principal Component Analysis melibatkan perhitungan matriks yang memakan waktu dan memori. Untuk dataset besar, ini bisa menjadi tantangan.
Penerapan PCA dalam Berbagai Bidang
Principal Component Analysis (PCA) adalah teknik analisis statistik multivariat yang umum digunakan untuk mengurangi dimensi data dengan mempertahankan informasi yang paling signifikan. PCA memiliki berbagai penerapan dalam berbagai bidang, diantaranya yaitu:
A. Pengolahan Citra dan Penglihatan Komputer
Principal Component Analysis dapat digunakan untuk mengurangi dimensi citra digital, selain itu dapat pula digunakan untuk membantu dalam pengenalan pola, kompresi gambar, dan pemrosesan citra medis.
B. Analisis Pasar dan Perilaku Konsumen
Dalam bidang pemasaran, Principal Component Analysis dapat digunakan untuk membantu dalam segmentasi pasar dan memahami faktor-faktor yang mempengaruhi perilaku konsumen.
C. Ekonomi dan Keuangan
Principal Component Analysis dapat digunakan dalam portofolio manajemen untuk mengidentifikasi komponen utama dalam pergerakan harga saham dan mengelola risiko investasi.
D. Manajemen Produksi dan Manufaktur
Dalam sektor industri,Principal Component Analysis dapat digunakan untuk mengoptimalkan proses produksi dengan mengidentifikasi variabel yang paling berpengaruh dalam menghasilkan hasil yang diinginkan.
E. Ekologi dan Konservasi
Principal Component Analysis dapat digunakan pula dalam analisis data ekologi untuk mengidentifikasi pola dalam data spesies dan lingkungan alam. Selain itu, Principal Component Analysis dapat membantu dalam pemahaman ekosistem dan upaya konservasi.
F. Industri dan Teknologi
Dalam industri manufaktur, Principal Component Analysis digunakan untuk memantau dan mengontrol kualitas produk dengan mengidentifikasi faktor-faktor yang memengaruhi kualitas produk. Selain itu dari segi sistem operasi dalam industri, PCA digunakan dalam pemelajaran mesin, kompresi data, dan reduksi dimensi data.
Penerapan Principal Component Analysis bervariasi tergantung pada bidangnya, namun secara umum tujuan dari Principal Component Analysis yaitu mengurangi dimensi data, mengidentifikasi pola, dan memahami hubungan antara variabel-variabel yang ada dalam data tersebut.
Referensi
Finally, sampai sudah kita di penghujung artikel, sekian penjelasan terkait Principal Component Analysis. Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.
Pingback: Principal Component Analysis: Tutorial SPSS (Part 2) - Exsight