
Hai sobat Exsight! Setelah kemarin kita telah membahas secara mendalam tentang Random Forest, hari ini kita akan melangkah lebih jauh dengan mengulas salah satu varian yang tidak kalah menarik, yaitu Random Forest Regression. Jika sebelumnya kita berfokus pada cara algoritma ini membantu kita mengklasifikasikan sesuatu, seperti membedakan email yang spam atau tidak, kali ini kita akan mengajak kamu untuk melihat bagaimana algoritma ini digunakan untuk memprediksi nilai-nilai numerik.
Seperti halnya Random Forest, Random Forest Regression juga mengandalkan kekuatan dari sekumpulan decision trees yang bekerja bersama-sama. Namun bedanya, alih-alih memutuskan kategori, algoritma ini dirancang untuk memberikan prediksi angka yang akurat dengan cara menghitung rata-rata dari prediksi tiap pohon. Mari kita bersama-sama memahami lebih dalam mengenai Random Forest Regression, kelebihan dan kelemahannya, serta bagaimana penerapannya di dunia nyata. Yuk, simak selengkapnya di artikel kali ini dan temukan potensi besar yang bisa kamu terapkan dalam data analisismu!
Definisi
Random Forest Regression adalah algoritma pembelajaran mesin berbasis ensemble yang digunakan untuk memprediksi nilai numerik atau kontinu (tugas regresi). Algoritma ini beroperasi dengan membangun beberapa decision trees (pohon keputusan) dari subset data dan fitur yang dipilih secara acak. Hasil prediksi akhir diperoleh dengan menghitung rata-rata dari semua prediksi pohon yang dibangun. Kombinasi dari pohon-pohon ini menghasilkan estimasi regresi gabungan, yang dinotasikan sebagai:
\bar{r}_n (X) = E_\Theta [r_n (X, \Theta)]
Di sini, EΘ[.] menunjukkan ekspektasi terhadap parameter acak Θ, yang berbeda di setiap pohon, dan Θ dianggap independen serta terdistribusi identik (i.i.d.). Matriks X mewakili input fitur, dan rata-rata dari prediksi semua pohon menghasilkan prediksi akhir. Ini mencerminkan prinsip dasar ensemble learning, di mana gabungan dari beberapa model (decision trees) memberikan hasil yang lebih baik daripada model individu
Perbedaan antara Random Forest untuk regresi dan klasifikasi
Random Forest Regression adalah salah satu penerapan dari algoritma Random Forest yang lebih luas. Namun, meskipun keduanya berasal dari prinsip yang sama, terdapat beberapa perbedaan mendasar yang penting untuk dipahami. Berikut ini adalah perbedaannya
Aspek | Random Forest (Klasifikasi) | Random Forest Regression |
Tujuan | Memprediksi kategori atau kelas. | Memprediksi nilai numerik atau kontinu. |
Hasil Akhir | Menggunakan voting dari semua pohon untuk menentukan kelas. | Menghitung rata-rata dari semua prediksi pohon. |
Pengukuran | Akurasi, presisi, recall, F1-score. | Mean Squared Error (MSE), Root Mean Squared Error (RMSE), R². |
Metode Pembelajaran | Membentuk pohon keputusan untuk klasifikasi. | Membentuk pohon keputusan untuk regresi. |
Kegunaan | Digunakan dalam masalah klasifikasi | Digunakan dalam masalah regresi |
Karakteristik Output | Output berupa kelas | Output berupa nilai numerik |
Kosep dasar Random Forest Regression

Pembangunan pohon
- Subset Data: Setiap pohon dibangun dari subset data yang diambil secara acak. Ini memungkinkan setiap pohon untuk belajar dari bagian yang berbeda dari data pelatihan.
- Variabel Acak: Pada setiap pembelahan simpul (node), variabel yang digunakan untuk membagi data juga dipilih secara acak. Hal ini membantu dalam mengurangi overfitting dan memastikan bahwa pohon-pohon dalam model memiliki variabilitas yang cukup.
Prediksi
- Setelah semua pohon dibangun, setiap pohon memberikan prediksi untuk data input X. Setiap pohon berfungsi sebagai model regresi independen.
- Estimasi regresi gabungan diperoleh dengan menghitung rata-rata dari semua prediksi yang dihasilkan oleh setiap pohon dalam ensemble. Proses ini meningkatkan stabilitas dan akurasi hasil prediksi.
Menghitung kesalahan
- Kuadrat kesalahan rata-rata pada prediksi dihitung dengan rumus:
E_{(X,Y)}(Y - h(X))^2
Di mana Y adalah nilai target yang sebenarnya dan h(X) adalah prediksi dari model. Rumus ini menunjukkan seberapa baik model memprediksi nilai sebenarnya dibandingkan dengan prediksi yang dihasilkan. Secara matematis h(X) dapat dinyatakan sebagai :
h(x) = \frac{1}{T} \sum_{t=1}^{T} h(X, \Theta_t)
di mana T adalah jumlah total pohon dalam ensemble, h(X,Θt) adalah prediksi dari pohon ke-t untuk input X.
Kelebihan dan Kekurangan Random Forest Regression
Dalam era analisis data yang semakin kompleks, pemilihan algoritma prediksi yang tepat sangatlah penting, dan Random Forest Regression menjadi salah satu pilihan yang populer di kalangan praktisi machine learning. Metode ini dikenal karena kemampuannya untuk menangani berbagai tantangan dalam analisis data, serta memberikan hasil yang akurat dan andal. Oleh karena itu, penting untuk memahami karakteristik dari algoritma ini dalam konteks penggunaannya. Berikut ini adalah kelebihan dan kekurangan dari Random Forest Regression yang perlu dipertimbangkan untuk membantu dalam pengambilan keputusan dalam analisis data.
Kelebihan
- Akurasi Tinggi
Random Forest Regression adalah model yang terdiri dari banyak pohon regresi. Setiap pohon dihasilkan dari subset data yang dipilih secara acak (bootstrap) dengan menggunakan subset fitur secara acak. Hasil prediksi dari masing-masing pohon kemudian dirata-rata untuk mendapatkan prediksi final. Proses ini meningkatkan akurasi karena kesalahan individual dari setiap pohon dapat saling meniadakan, terutama jika pohon tersebut lemah secara individual namun memberikan informasi yang sedikit berbeda satu sama lain. Dengan demikian, agregasi prediksi menghasilkan estimasi yang lebih baik dan stabil dibandingkan pohon tunggal. - Robust Terhadap Overfitting
Random Forest Regression mampu menangani overfitting dengan baik melalui dua mekanisme utama: penggunaan banyak pohon regresi dan pengacakan fitur. Setiap pohon dalam hutan dilatih menggunakan subset data yang dipilih secara acak (bootstrap), sehingga setiap pohon mendapatkan bagian data yang berbeda-beda. Selain itu, pada setiap percabangan (split), hanya subset acak dari fitur yang dipertimbangkan untuk pemilihan variabel terbaik, yang mengurangi korelasi antar pohon. Karena pohon-pohon tersebut memiliki struktur yang berbeda, jika beberapa pohon overfit pada data pelatihan, efeknya diminimalisir saat prediksi akhir diambil dari rata-rata hasil semua pohon. - Kemampuan untuk Menangani Data Besar
Random Forest Regression sangat efektif pada dataset yang besar dengan banyak fitur (high dimensional). Metode pengacakan fitur dan subset data memungkinkan model untuk menangani sejumlah besar data dengan efisien. Selain itu, algoritma ini berjalan paralel pada beberapa pohon, yang berarti dapat memanfaatkan kekuatan komputasi yang lebih besar dan membagi beban penghitungan ke beberapa unit pemrosesan. - Menangani Missing Values
Saat pelatihan, jika ada nilai yang hilang untuk suatu fitur, algoritma dapat mengabaikan fitur tersebut pada beberapa pohon, memungkinkan model tetap dilatih tanpa perlu melakukan imputasi nilai yang hilang. Hal ini mengurangi risiko bias yang mungkin muncul dari metode imputasi tradisional. Saat melakukan prediksi dengan Random Forest Regression dan terdapat nilai hilang pada data input baru, algoritma akan mengandalkan rata-rata prediksi dari pohon-pohon yang tidak menggunakan fitur yang hilang tersebut, sehingga prediksi yang dihasilkan tetap stabil dan akurat meskipun terdapat data yang tidak lengkap.
Kekurangan
- Keterbacaan Model yang Rendah
Salah satu kekurangan utama dari Random Forest Regression adalah keterbacaannya yang rendah. Berbeda dengan model yang lebih sederhana seperti regresi linier, di mana hubungan antara variabel independen dan variabel dependen dapat dijelaskan secara jelas, Random Forest merupakan kumpulan ratusan atau ribuan pohon keputusan. Setiap pohon menggunakan subset data dan fitur yang berbeda, sehingga sulit untuk memahami logika yang mendasari prediksi akhir. Interpretasi yang kompleks ini membuat sulit bagi pengguna untuk menjelaskan alasan di balik prediksi, terutama dalam aplikasi yang membutuhkan transparansi. Random Forest sulit untuk diinterpretasikan dibandingkan dengan model yang lebih sederhana seperti regresi linier atau pohon keputusan tunggal. - Konsumsi Waktu dan Sumber Daya
Proses pelatihan Random Forest Regression bisa memakan waktu dan sumber daya komputasi yang lebih besar dibandingkan model yang lebih sederhana. Hal ini karena model harus membangun banyak pohon regresi secara paralel, dan untuk dataset yang sangat besar atau memiliki banyak fitur, proses ini dapat menjadi lambat. Meskipun prediksi model bisa lebih cepat setelah pohon selesai dibangun, kebutuhan komputasi yang tinggi pada tahap pelatihan dapat menjadi kendala, terutama jika sumber daya yang tersedia terbatas. - Prediksi Tidak Dapat Dipercaya untuk Nilai Ekstrem
Meskipun Random Forest Regression umumnya kuat dan akurat, model ini cenderung tidak andal dalam memprediksi nilai ekstrem atau outliers. Hal ini disebabkan karena prediksi akhir diperoleh dari rata-rata hasil semua pohon, yang secara alami cenderung menghaluskan prediksi dan mengurangi sensitivitas terhadap perubahan ekstrem. Akibatnya, jika data memiliki nilai-nilai yang sangat jauh dari rata-rata, Random Forest mungkin gagal memberikan prediksi yang tepat, karena model secara inheren lebih mengarah pada nilai rata-rata.
Penerapan Random Forest Regression dalam berbagai bidang
Bidang Kesehatan

Random Forest Regression digunakan untuk memprediksi risiko komplikasi pascaoperasi dengan mempertimbangkan faktor-faktor seperti usia, kondisi kesehatan sebelum operasi, dan jenis prosedur yang dilakukan. Misalnya, model ini dapat digunakan untuk menganalisis data pasien dan membantu tenaga medis dalam mengidentifikasi individu berisiko tinggi. Dengan informasi ini, tindakan pencegahan yang tepat dapat direncanakan untuk meningkatkan keselamatan pasien. Selain itu, Random Forest Regression juga diterapkan untuk memprediksi perkembangan penyakit kronis seperti diabetes. Dengan menganalisis data historis dan parameter kesehatan, seperti kadar gula darah, tekanan darah, dan indeks massa tubuh, dokter dapat memberikan perawatan yang lebih personal dan efektif, membantu dalam mengelola kondisi pasien secara proaktif.
Bidang Pertanian

Di sektor pertanian, Random Forest Regression digunakan untuk memprediksi hasil panen berdasarkan berbagai variabel, termasuk jenis tanaman, kondisi cuaca, dan praktik pengelolaan lahan. Sebagai contoh, model ini dapat digunakan untuk menganalisis berbagai faktor yang mempengaruhi hasil panen jagung, seperti kondisi tanah, curah hujan, dan suhu. Dengan pendekatan ini, petani dapat memahami bagaimana faktor lingkungan berinteraksi dan mempengaruhi hasil panen, sehingga dapat membuat keputusan yang lebih baik dalam merencanakan dan mengelola produksi pertanian.
Bidang Energi

Dalam bidang energi, Random Forest Regression digunakan untuk memprediksi konsumsi energi berdasarkan berbagai faktor, termasuk waktu (jam, hari, bulan), pola penggunaan, dan karakteristik pengguna. Contohnya, perusahaan penyedia energi dapat menggunakan model ini untuk memprediksi permintaan energi di masa depan, yang membantu mereka dalam merencanakan kapasitas dan manajemen beban. Dengan memanfaatkan model ini, perusahaan dapat meningkatkan efisiensi dan mengurangi pemborosan, sambil memberikan informasi yang berguna bagi pengguna akhir untuk mengelola konsumsi energi mereka dengan lebih efektif.
Demikian penjelasan mengenai Random Forest Regression. Jika ada hal-hal yang masih membingungkan, silakan tulis di kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Jangan lupa untuk tetap mengikuti website kami di exsight.id/blog agar tidak ketinggalan artikel-artikel menarik lainnya!
Referensi
Bikia, V., Rovas, G., Pagoulatou, S., & Stergiopulos, N. (2021). Determination of aortic characteristic impedance and total arterial compliance from regional pulse wave velocities using machine learning: An in-silico study. Frontiers in Bioengineering and Biotechnology, 9, 1–15. https://doi.org/10.3389/fbioe.2021.649866.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010950718922.
Khan, S. N., Li, D., & Maimaitijiang, M. (2022). A geographically weighted random forest approach to predict corn yield in the US corn belt. Remote Sensing, 14(12), 2843. https://doi.org/10.3390/rs14122843
Prasad, D. B. R., Siddaiah, M. D., Baker, T. D. Y. A., El-Ebiary, D. R. S., & Selvakumar, D. (2023). Forecasting electricity consumption through a fusion of hybrid random forest regression and linear regression models utilizing smart meter data. Journal of Theoretical and Applied Information Technology, 101(21).
Baca juga artikel kami tentang Random Forest di sini !

Pingback: Random Forest Regression: Studi Kasus Di R