Halo halo sobat Exsight, dalam dunia analisis data dan pembuatan keputusan, Classification and Regression Trees (CART) telah menjadi salah satu metode yang cukup populer. Metode ini telah membantu para profesional dari berbagai bidang untuk memahami pola dalam data, membuat prediksi yang akurat, dan mengambil keputusan yang terinformasi.
Dalam artikel ini, kita akan membahas lebih dalam terkait konsep dasar dari Classification and Regression Trees (CART), kelebihan dan keterbatasannya, serta penerapannya dalam berbagai kasus nyata. Yuk yuk simak artikel ini dengan seksama yaa!
Definisi
Metode Classification and Regression Trees (CART) merupakan salah satu metode atau algoritma dari teknik pohon keputusan (decision tree) yang digunakan untuk membangun model prediksi berdasarkan pohon keputusan. CART adalah suatu metode statistik nonparametrik yang dapat menggambarkan hubungan antara variabel respon (variabel dependen) dengan variabel prediktor (variabel independen).
Metode CART pertama kali dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone. Tujuan utama dari Classification and Regression Trees adalah untuk membagi dataset menjadi subset-subset yang lebih kecil dan homogen berdasarkan variabel-variabel prediktif, sehingga memungkinkan pengklasifikasi atau prediktor yang akurat.
Sebagai metode nonparametrik, CART tidak memerlukan asumsi tentang bentuk distribusi populasi atau parameter-parameter tertentu dari distribusi tersebut. Metode CART berfokus pada pola dan struktur dalam data tanpa mengandalkan asumsi tertentu tentang model yang mendasarinya.
Konsep Dasar Classification and Regression Tree
Pada metode Classification and Regression Trees (CART) apabila variabel respon berbentuk kontinu, maka metode yang digunakan adalah metode regresi pohon (regression trees), sedangkan apabila variabel respon memiliki skala kategorik, maka metode yang digunakan adalah metode klasifikasi pohon (classification trees).
Penerapan CART dalam Klasifikasi
Penerapan CART dalam klasifikasi menggunakan algoritma penyekatan rekursif secara biner (binary recursive partitioning). Metode CART akan menghasilkan pohon klasifikasi jika variabel respon mempunyai skala kategorik. Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Ilustrasi dari struktur pohon klasifikasi pada metode CART ditunjukkan pada Gambar 1.
Berdasarkan Gambar 1. diketahui bahwa simpul awal disebut parent note dinotasikan t1 , simpul dalam dinotasikan dengan t2, t3, t4, t5, t7, t9 dan t13, serta simpul akhir (terminal nodes) dinotasikan dengan t6, t8, t10, t11, t12, t14, t15, t16 dan t17 dimana setelahnya tidak ada lagi pemilahan.
Terdapat tiga (3) tahapan dalam algortima CART secara umum algoritma CART terdiri atas 3 tahapan yaitu :
-Pembentukan pohon klasifikasi.
-Pemangkasan pohon klasifikasi.
-Penentuan pohon klasifikasi optimum.
1. Pembentukan Pohon Klasifikasi
Pembentukan pohon klasifikasi diawali dengan menentukan variabel dan threshold untuk dijadikan pemilah tiap simpul. Dalam hal ini, secara detail pembentukan pohon klasifikasi terdiri atas.
a. Pemilahan Pemilah
Data yang digunakan merupakan sampel data learning. Himpunan bagian yang dihasilkan dari proses pemilahan harus lebih homogen dibandingkan pemilahan sebelumnya. Fungsi keheterogenan yang digunakan untuk pemilahan pemilah adalah Indeks Gini. Penggunaan indeks gini dikarenakan, indeks gini selalu memisahkan kelas dengan anggota paling besar/kelas terpenting dalam simpul terlebih dahulu. Fungsi Indeks Gini ditunjukkan pada persamaan
i(t)=\sum_{i, j=1}^{}p\left ( j |t \right )p\left ( i |t \right ),\, i\neq j
dalam hal ini p(j|t) merupakan proporsi kelas j pada simpul t dan p(i | t) adalah proporsi kelas i pada simpul t. Pemilahan yang terpilih akan membentuk suatu himpunan kelas yang disebut simpul. Selanjutnya simpul tersebut melakukan pemilahan secara rekursif sampai diperoleh terminal nodes. Tahapan berikutnya yaitu menentukan kriteria goodness of split untuk mengevaluasi pemilah dari pemilah s pada simpul t dengan rumus sebagai berikut.
\phi \left ( s,t \right )=\Delta i\, \left ( s,t \right )=i\left ( t \right )-p_{L}i\left ( t_{L} \right )-p_{R}i\left ( t_{R} \right )
Pemilah yang menghasilkan ϕ(s,t) lebih tinggi merupakan pemilah terbaik karena mampu mereduksi heterogenitas lebih tinggi.
b. Penentuan Simpul Terminal
Pengembangan pohon akan berhenti apabila pada simpul terdapat pengamatan berjumlah kurang dari atau sama dengan 5 (n ≤ 5) Selain itu, proses pembentukan pohon juga akan berhenti apabila sudah mencapai batasan jumlah level yang telah ditentukan atau tingkat kedalaman (depth) dalam pohon maksimal.
c. Penandaan Label Kelas
Penentuan label kelas pada simpul terminal berdasarkan aturan jumlah terbanyak, yaitu jika
p\left ( j_{0} | t \right )= max_{j} \, \frac{N_{j}\left ( t \right )}{N\left ( t \right )}
Label kelas untuk simpul terminal t adalah j0 yang memberikan nilai dugaan kesalahan pengklasifikasian pada simpul t yang paling kecil sebesar r(t) = 1 – maxj p(j|t).
2. Pemangkasan Pohon Klasifikasi
Pohon yang dibentuk dengan aturan pemilah dan kriteria goodness of split berukuran sangat besar karena penghentian pohon berdasarkan banyaknya amatan pada simpul terminal atau besarnya tingkat kehomogenan. Ukuran pohon yang besar dapat memunculkan adanya overfitting, akan tetapi apabila pengamatan pohon dibatasi dengan ketepatan batas tertentu, maka dapat terjadi kasus underfitting. Ukuran pohon yang layak dapat dilakukan dengan pemangkasan pohon dengan ukuran cost complexity minimum.
R_{\alpha }\left ( T \right )=R\left ( T \right )+\alpha \left | \tilde{T} \right |
Persamaan di atas merupakan kombinasi linear biaya dan kompleksitas pohon yang dibentuk dengan menambahkan cost penalty bagi kompleksitas terhadap biaya kesalahan klasifikasi pohon. Selanjutnya, dilakukan pencarian pohon bagian T(α) < Tmax yaitu sebagai berikut.
R_{\alpha }\left ( T\left ( \alpha \right ) \right )=min_{T< T_{max}}R_{\alpha }\left ( T \right )
3. Penentuan Pohon Klasifikasi Optimum
Penduga pengganti yang sering digunakan apabila pengamatan yang ada tidak cukup besar adalah Cross Validation Estimate. Pengamatan dalam L dibagi secara random menjadi V bagian yang saling lepas dengan ukuran kurang lebih sama besar untuk setiap kelas. Pohon T(v) dibentuk dari sampel learning ke-v dengan v=1,2,…,V dimisalkan d(v)(x ) adalah hasil pengklasifikasian, maka penduga sampel uji untuk R(Tt(v)) adalah sebagai berikut.
R\left ( T_{t}^{v} \right )=\frac{1}{N_{v}}\sum_{\left ( x_{n},j_{n} \right )\in L_{v}}^{N}X\left ( d^{v}\left ( x_{n} \right ) \neq j_{n}\right )
dengan\, \, \, N_{v}\cong \frac{N}{V}\, adalah\, jumlah\, pengamatan\, dalam\, L_{v}
Kelebihan dan Kelemahan
Kelebihan
- Kemudahan Interpretasi
Model CART (Classification and Regression Tree) menghasilkan struktur pohon yang mudah dipahami dan diinterpretasi oleh pengguna. - Kemampuan Menangani Data Campuran
Classification and Regression Tree dapat mengatasi kombinasi data kategorikal dan numerikal tanpa memerlukan banyak preprocessing, sehingga cocok untuk berbagai jenis dataset. - Toleransi terhadap Missing Values
Classification and Regression Tree memiliki toleransi yang baik terhadap nilai yang hilang dalam data, yang membuatnya efektif untuk dataset dengan missing values yang signifikan. - Tidak Memerlukan Asumsi Terhadap Distribusi Data
Classification and Regression Tree tidak memerlukan asumsi tertentu tentang distribusi data, sehingga lebih fleksibel dalam menangani berbagai jenis distribusi.
Kelemahan
- Kecenderungan Overfitting
Model CART cenderung overfitting, terutama pada dataset yang kompleks atau terlalu besar. Hal ini dapat menyebabkan kinerja yang buruk pada data baru yang belum terlihat sebelumnya. - Sensitivitas terhadap Perubahan Data
Pohon CART rentan terhadap perubahan kecil dalam data training, yang dapat menghasilkan struktur pohon yang berbeda secara signifikan. - Tidak Stabil terhadap Perubahan Variabel
Ketika ada perubahan dalam variabel atau data yang masuk, struktur pohon CART dapat berubah secara signifikan, menyebabkan ketidakstabilan dalam model. - Tidak Efektif untuk Data yang Bersifat Linier
CART memiliki kemungkinan tidak efektif untuk data yang memiliki hubungan linier yang kuat antara variabel independen dan dependen, karena cenderung membagi data menjadi kategori diskrit.
Penerapan CART dalam Berbagai Bidang
Penerapan Classification and Regression Trees (CART) sangat luas dan dapat ditemukan dalam berbagai bidang. Berikut adalah beberapa contoh penerapannya:
A. Kesehatan
- Diagnosis Penyakit
Classification and Regression Trees dapat digunakan untuk membuat model prediksi penyakit berdasarkan gejala, riwayat medis, dan faktor risiko pasien. - Pengelompokan Pasien:
Classification and Regression Trees dapat digunakan untuk mengelompokkan pasien berdasarkan profil klinis mereka, membantu dalam pengelolaan penyakit dan perawatan yang sesuai.
B. Keuangan
- Analisis Risiko Kredit
Bank dan lembaga keuangan dapat menggunakan CART untuk menilai risiko kredit pelamar berdasarkan sejarah pembayaran, pendapatan, dan faktor-faktor keuangan lainnya. - Prediksi Investasi
Investor menggunakan model CART untuk memprediksi pergerakan harga saham dan investasi lainnya berdasarkan faktor-faktor pasar dan fundamental perusahaan.
C. Pemasaran
- Segmentasi Pelanggan
Metode CART dapat digunakan untuk mengidentifikasi segmen pelanggan berdasarkan perilaku pembelian, preferensi produk, dan demografis. - Prediksi Churn
Model CART digunakan untuk memprediksi pelanggan yang berisiko tinggi untuk beralih ke pesaing, memungkinkan perusahaan untuk mengambil langkah-langkah retensi yang tepat.
D. Sains Lingkungan:
- Pemantauan Kualitas Udara
CART digunakan untuk menganalisis data kualitas udara dan mengidentifikasi faktor-faktor yang mempengaruhi polusi udara. - Manajemen Sumber Daya Alam
Dalam bidang konservasi, CART digunakan untuk mengidentifikasi spesies dan habitat yang rentan terhadap perubahan lingkungan.
E. Produksi dan Manufaktur
- Pengendalian Kualitas
CART digunakan untuk mengoptimalkan proses produksi dengan memprediksi kecacatan atau kegagalan dalam produk. - Peramalan Permintaan
Perusahaan manufaktur menggunakan model CART untuk meramalkan permintaan produk dan mengatur rantai pasokan.
F. Pendidikan
- Evaluasi Siswa
Sekolah dan lembaga pendidikan menggunakan model CART untuk menilai kinerja siswa berdasarkan faktor-faktor seperti nilai ujian, absensi, dan partisipasi dalam kegiatan ekstrakurikuler. - Pengembangan Kurikulum
CART digunakan untuk mengidentifikasi kebutuhan dan preferensi siswa dalam pengembangan kurikulum pendidikan yang efektif.
Dengan kemampuannya yang fleksibel dan interpretatif, Classification and Regression Trees dapat diterapkan dalam berbagai konteks untuk memecahkan berbagai masalah analisis data dan pengambilan keputusan.
Referensi
Finally, sampai sudah kita di penghujung artikel, sekian penjelasan terkait CART (Classification and Regression Tree). Apabila masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.