Feature Selection in Data Mining

DW ADS

Seiring berjalannya waktu, arus informasi menjadi semakin cepat dan semakin maju, hal ini menyebabkan kita dibanjiri dengan data yang melimpah. Namun sayangnya, data yang ada menjadi terlalu kompleks, dimana terlalu banyak variabel dalam data yang dapat membingungkan kita sehingga membuat proses analisis data menjadi rumit.

Maka perlu adanya suatu teknik yaitu feature selection yang dapat kita gunakan untuk memilih subset fitur (variabel) yang paling relevan dan memberikan kontribusi signifikan dalam analisis data.

Dalam artikel ini, kita akan menjelajahi lebih mendalam terkait konsep feature selection dalam analisis data. Yuk Sobat Exsight, simak artikel ini dengan seksama yaa!

Definisi

Feature Selection didefinisikan sebagai proses pemilihan variabel yang paling relevan dan memiliki kontribusi signifikan dalam analisis data. Konsep dari feature selection yaitu mengidentifikasi serta mempertahankan variabel yang paling informatif dan relevan, sementara variabel yang kurang penting atau tidak memberikan kontribusi yang signifikan akan dihilangkan dalam analisis.

Tujuan

Tujuan dari feature selection adalah sebagai berikut:

feature selection
  1. Mengurangi dimensi data
    Dalam suatu data, terkadang terdapat banyak variabel yang diamati, maka dari itu untuk mengurangi kompleksitas model, dimensi data dikurangi dengan cara menghapus variabel yang kurang signifikan dalam analisis.
  2. Meningkatkan efisiensi komputasi
    Adanya pengurangan jumlah variabel dalam analisis, maka dapat mengurangi beban komputasi yang diperlukan sehingga pengolahan data lebih efisien dan responsif.
  3. Meningkatkan kualitas model atau prediksi
    Variabel terpilih hasil feature selection merupakan variabel yang paling relevan dan informatif, hal ini menjadikan feature selection dapat meningkatkan kualitas model atau prediksi. Selain itu variabel penting akan memberikan informasi yang lebih signifikan, meningkatkan akurasi prediksi, dan memungkinkan kita untuk mendapatkan pemahaman yang lebih baik tentang hubungan antar variabel dalam dataset.
  4. Meningkatkan interpretabilitas model
    Adanya feature selection menjadikan model statistik yang terbentuk lebih sederhana sehingga lebih mudah dipahami dan dijelaskan oleh peneliti. Variabel-variabel terpilih hasil feature selection akan memberikan pemahaman yang lebih fokus dan jelas terkait variabel-variabel yang berkontribusi terhadap hasil model.

Metode Feature Selection

Terdapat beberapa metode yang umum digunakan dalam feature selection, antara lain: metode filter, metode wrapper, dan metode embedded. Secara detail penjelasan dari masing-masing metode tersebut adalah sebagai berikut.

1. METODE FILTER

Metode filter adalah suatu metode feature selection yang dilakukan berdasarkan informasi yang terkandung dalam setiap fitur (variabel) secara independen. Metode filter tidak melibatkan algoritma pembelajaran. Beberapa contoh metode filter yang populer adalah

a. Information Gain
Information gain digunakan untuk mengukur sejauh mana fitur (variabel) memberikan informasi yang berguna dalam membedakan kelas yang berbeda dalam dataset. Fitur yang memiliki information gain yang tinggi dianggap lebih relevan.

b. Chi-Square
Metode chi-square digunakan dalam kasus di mana fitur (variabel) adalah variabel kategorikal. Metode Chi-Square bertujuan untuk mengukur perbedaan distribusi frekuensi antara fitur. Fitur yang memiliki nilai Chi-Square yang tinggi dianggap lebih relevan. Penjelasan selengkapnya terkait chi-square dapat dilihat pada artikel Penjelasan dan Langkah Mudah Uji Chi Square di RStudio.

c. Correlation-based Feature Selection
Metode ini mengukur hubungan linier antara setiap fitur (variabel). Fitur yang memiliki korelasi tinggi dengan target dianggap lebih relevan. Contoh metode yang termasuk dalam kategori ini adalah Pearson’s Correlation Coefficient dan Mutual Information. Adapun pembahasan terkait korelasi pearson selengkapnya bisa dilihat pada artikel Langkah Mudah Uji Korelasi Pearson di R.

2. METODE WRAPPER

Metode wrapper menggunakan algoritma pembelajaran untuk mengevaluasi fitur (variabel) berdasarkan kinerja model yang dibangun. Metode wrapper melibatkan proses iteratif di mana berbagai kombinasi variabel dievaluasi menggunakan model dan kinerjanya diukur. Beberapa contoh metode wrapper adalah:

a. Recursive Feature Elimination (RFE)
RFE melibatkan penghapusan iteratif fitur-fitur dengan kontribusi terendah dalam pembentukan model. Model dijalankan berulang kali hingga hanya fitur terbaik yang tersisa.

b. Forward Selection
Pada metode forward selection, dilakukan penambahan fitur (variabel) secara iteratif, khususnya fitur yang memberikan peningkatan kinerja model secara signifikan

c. Backward Elimination
Pada metode backward elimination, berdasarkan fitur (variabel) yang ada nantinya akan dilakukan penghapusan fitur secara iteratif, khususnya fitur yang memberikan penurunan kinerja model.

3. METODE EMBEDDED

Metode embedded merupakan metode feature selection dengan menggabungkan proses algoritma pembelajaran secara bersamaan. Fitur-fitur dipilih berdasarkan keputusan algoritma pembelajaran tersebut. Beberapa contoh metode embedded diantaranya:

a. Regularisasi (Lasso dan Ridge)
Pada metode regularisasi, fitur-fitur dengan koefisien yang rendah akan dihapus dari model. Jika ingin mengetahui regresi Lasso lebih detail dapat dilihat pada artikel Exsight REGRESI LASSO (Least Absolute Shrinkage and Selection Operator)

b. Decision Tree
Penerapan decision tree diantaranya seperti Random Forest dan Gradient Boosting secara alami memiliki kemampuan untuk mengevaluasi kepentingan fitur dalam pembentukan model.

Tahapan Penerapan Feature Selection

Langkah-langkah penerapan feature selection dalam analisis data adalah sebagai berikut:

  1. Pengumpulan Data
    Langkah pertama yaitu mengumpulkan data yang akan digunakan dalam analisis. Data tersebut harus terstruktur dengan baik dan mencakup fitur-fitur yang relevan dengan tujuan analisis.
  2. Pre Processing Data
    Selanjutnya, dilakukan pre processing data seperti mengatasi missing value, menormalkan skala data, dan mengubah format data jika diperlukan.
  3. Melakukan Feature Selection dengan Metode yang Tepat
    Tahapan berikutnya yaitu melakukan feature selection dengan metode yang sesuai dengan data dan tujuan analisis.
  4. Evaluasi dan Validasi Model
    Setelah melakukan feature selection, tahapan berikutnya yaitu melakukan evaluasi model seperti akurasi, presisi, atau area under the curve (AUC) untuk mengukur kinerja model. Selain itu, dilakukan pula validasi model menggunakan metode seperti validasi silang (cross-validation) untuk memastikan bahwa model memiliki kemampuan yang baik dalam menggeneralisasi pada data yang tidak terlihat sebelumnya.
  5. Interpretasi Hasil
    Setelah membangun model dan mendapatkan hasil prediksi, berikutnya yaitu melakukan interpretasi terhadap hasil. Hasil interpretasi nantinya akan memberikan pemahaman mendalam khususnya terkait fitur-fitur (variabel) yang paling berpengaruh terhadap hasil model.

Kesimpulan

Dalam kesimpulannya, feature selection memiliki peran penting dalam analisis data, khususnya dalam meningkatkan kualitas model dan memperoleh wawasan yang lebih baik. Pemilihan subset fitur (variabel) yang tepat dapat membantu dalam menghilangkan fitur yang tidak relevan, meningkatkan efisiensi komputasi, dan meningkatkan interpretabilitas model. Oleh karena itu, pemahaman yang baik tentang metode feature selection dan penerapannya secara cermat sangat diperlukan untuk mendapatkan hasil analisis yang optimal.

Referensi

Chandrashekar, G., & Sahin, F. (2014). A Survey on Feature Selection Methods. Computers & Electrical Engineering, 40(1), 16-28.

Guyon, I., & Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. Journal of Machine Learning Research, 3, 1157-1182.

Hall, M. A. (1999). Correlation-based Feature Selection for Machine Learning. Ph.D. Thesis, The University of Waikato.

Sekian penjelasan terkait Feature Selection in Data Mining. Apabila masih terdapat hal-hal yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

1 thought on “Feature Selection in Data Mining”

  1. Pingback: Easy Way: Feature Selection With Python #2 - Exsight

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!