Rahmania Azwarini

Rantai Markov Diskrit pada Proses Stokastik

Rantai Markov Diskrit — Hai hai sobat Exsight, Bayangkan kamu sedang melempar dadu. Hasil yang keluar selalu acak, tapi ada pola probabilitas tertentu, yaitu setiap angka dari 1 hingga 6 punya peluang yang sama untuk muncul. Dalam kehidupan nyata, banyak hal juga terjadi secara acak, seperti cuaca hari esok, fluktuasi harga saham, atau kapan giliran kita di antrian restoran. Semua ini bisa dimodelkan sebagai proses stokastik, yaitu sebuah proses di mana hasil di masa depan dipengaruhi oleh unsur ketidakpastian atau peluang.

Proses stokastik dapat digunakan untuk membantu kita dalam memahami dan memprediksi kemungkinan kejadian di masa depan. Meskipun hasilnya tidak pasti, dengan menggunakan model seperti rantai Markov, kita bisa menghitung kemungkinan-kemungkinan ini dan membuat prediksi yang lebih akurat tentang apa yang mungkin terjadi selanjutnya.

Artikel ini bertujuan untuk memperkenalkan konsep rantai Markov diskrit, yaitu model yang digunakan untuk memprediksi kejadian-kejadian di masa depan berdasarkan apa yang terjadi saat ini. Dalam rantai Markov, kita tidak perlu tahu semua riwayat masa lalu, cukup melihat keadaan saat ini untuk menentukan apa yang mungkin terjadi selanjutnya. Sistem ini bisa diterapkan dalam banyak bidang, seperti memprediksi perubahan cuaca, mengamati perilaku pelanggan, atau mengatur sistem antrian.

Tanpa berlama- lama lagi kita akan membahas lebih dalam terkait Rantai Markov Diskrit pada Proses Stokastik secara lebih terperinci. Yuk yuk simak artikel ini bersama- sama ya!

Definisi

Secara sederhana, proses stokastik merupakan kumpulan dari variabel acak (angka atau kejadian yang berubah dengan peluang tertentu) yang kita amati dari waktu ke waktu. Misalnya, cuaca hari ini adalah cerah, besok bisa hujan, dan lusa mungkin cerah lagi—semua itu berubah seiring waktu dengan peluang tertentu.

APA ITU RANTAI MARKOV?

Dalam hal ini misalnya kita akan mencoba memprediksi apa yang akan terjadi selanjutnya dalam proses stokastik itu, misalnya cuaca besok. Dalam rantai Markov, hal yang menarik adalah kamu tidak perlu tahu apa yang terjadi sebelumnya (apakah minggu lalu hujan atau tidak) untuk memprediksi kejadian berikutnya. Kamu hanya perlu tahu keadaan sekarang.

Jadi, rantai Markov adalah proses stokastik yang memiliki “memori terbatas”. Ini berarti, peluang kejadian berikutnya hanya bergantung pada keadaan saat ini, bukan pada seluruh riwayat sebelumnya. Misalnya, jika hari ini cerah, kita hanya peduli dengan keadaan cerah saat ini untuk memprediksi cuaca esok, tanpa memikirkan hari-hari sebelumnya.

Rantai Markov merupakan suatu proses stokastik di mana peristiwa masa lalu tidak mempengaruhi peristiwa di masa yang akan datang jika kejadian saat ini diketahui. Konsep Rantai Markov pertama kali diperkenalkan pada tahun 1907, oleh seorang ahli matematika asal Rusia bernama Andrei A. Markov.

Konsep Dasar

Proses stokastik dibagi menjadi dua, yaitu kontinu dan diskrit.

A. Proses Stokastik Diskrit

  • Waktu dalam proses stokastik diskrit terdiri dari langkah-langkah waktu yang terpisah atau interval waktu yang diskrit (terbatas). Misalnya, t=0,1,2,3,…
  • Perubahan keadaan terjadi hanya pada titik-titik waktu tertentu, jadi kita hanya memerhatikan perubahan pada waktu-waktu yang spesifik.
  • Contoh: Jika kita mengamati jumlah pelanggan yang datang ke sebuah kafe setiap jam, maka ini adalah proses stokastik diskrit. Kita mengamati pelanggan pada waktu-waktu yang tetap seperti jam 1, jam 2, dan seterusnya.

B. Proses Stokastik Kontinu

  • Waktu dalam proses stokastik kontinu bersifat kontinu. Artinya, perubahan dapat terjadi kapan saja di sepanjang waktu yang tidak terbatas, misalnya t≥0 dengan nilai waktu yang dapat berupa bilangan desimal.
  • Perubahan keadaan dapat terjadi pada setiap saat tanpa harus menunggu waktu tertentu. Dengan kata lain, waktu dan kejadian bisa berubah secara halus dan tidak hanya pada titik-titik tertentu.
  • Contoh: Pergerakan harga saham adalah contoh proses stokastik kontinu. Harga saham bisa berubah kapan saja selama jam perdagangan, tidak terbatas pada waktu-waktu tertentu.

Sifat Markov

Sifat Markov adalah konsep sederhana dari proses stokastik yang menyatakan bahwa masa depan hanya bergantung pada keadaan sekarang, bukan pada apa yang terjadi di masa lalu. Ide utama dari sifat Markov: apa yang akan terjadi selanjutnya hanya dipengaruhi oleh keadaan saat ini, dan bukan oleh sejarah atau langkah-langkah sebelumnya. Jadi, sistem dengan sifat Markov “lupa” apa yang terjadi di masa lalu, dan fokus pada keadaan sekarang untuk menentukan apa yang akan terjadi selanjutnya. Adapun sifat markov dalam hal ini dapat dinyatakan dalam notasi perhitungan sebagai berikut.

 P\left ( X_{n+1}=j|X_{n}=i,X_{n-1},X_{n-2},\cdots ,X_{0} \right )=P\left ( X_{n+1}=j|X_{n}=i \right )

Berdasarkan format notasi di atas dapat diartikan bahwa peluang untuk berpindah ke keadaan selanjutnya j hanya bergantung pada keadaan sekarang i​, dan tidak peduli apa yang terjadi sebelumnya (Xn−1, Xn−2,…).

Secara lebih detail makna dari tiap notasi dari persamaan di atas adalah sebagai berikut.

P: Ini adalah simbol probabilitas, yang mewakili peluang suatu kejadian terjadi. Jadi, persamaan di atas menunjukkan tentang probabilitas terjadinya sesuatu di masa depan.

Xn​: Ini adalah state (keadaan) pada waktu n. Di setiap titik waktu n, sistem berada dalam suatu keadaan tertentu yang dilambangkan oleh Xn​. Sebagai contoh, jika kita sedang memodelkan cuaca, Xn​ bisa berarti cuaca pada hari n (cerah, mendung, atau hujan).

i : Ini adalah nilai spesifik dari state pada waktu n

Persamaan di atas menunjukkan bahwa probabilitas sistem berada dalam keadaan tertentu di masa depan (Xn+1= j) hanya bergantung pada keadaan sekarang (Xn = i), dan tidak bergantung pada keadaan-keadaan sebelumnya (seperti Xn−1,Xn−2,…,X0​).

Secara sederhana, di masa depan, yang penting hanya apa yang terjadi sekarang, bukan masa lalu.

Klasifikasi State Rantai Markov

Dalam rantai Markov, terdapat klasifikasi state. Adapun klasifikasi state (keadaan) berkaitan dengan bagaimana kita mengelompokkan atau mengidentifikasi sifat-sifat dari setiap state yang mungkin muncul dalam proses tersebut. Ada beberapa kategori utama yang biasanya digunakan untuk mengklasifikasikan state dalam rantai Markov diantaranya adalah sebagai berikut.

A. Recurrent State (Keadaan Kembali)
Sebuah state disebut recurrent jika, setelah kita mencapai state tersebut, ada jaminan bahwa kita akan kembali ke state itu lagi suatu saat di masa depan. Dengan kata lain, state ini selalu bisa “dikunjungi kembali” setelah beberapa waktu.

B. Transient State (Keadaan Sementara):
Sebuah state disebut transient jika, setelah kita mencapai state tersebut, ada kemungkinan kita tidak akan pernah kembali lagi ke state itu. Jadi, walaupun kita mungkin mengunjungi state tersebut sekali, ada peluang kita tidak akan pernah kembali ke sana.

Jika saat ini Rantai Markov berada dalam state, maka ada peluang positif bahwa Rantai Markov tidak akan pernah kembali ke state tersebut, Setelah melewati periode panjang, probabilitas Rantai Markov berada dalam transien state adalah nol.

C. Absorbing State (Keadaan Menyerap):
Absorbing state adalah state yang begitu tercapai, kita tidak bisa keluar dari state tersebut lagi. Jadi, jika proses rantai Markov memasuki absorbing state, ia akan tetap di state tersebut untuk selamanya.

D. Periodic State (Keadaan Periodik):
Sebuah state disebut periodic jika kita hanya bisa kembali ke state itu pada interval waktu tertentu. Misalnya, jika kita hanya bisa kembali ke state tersebut setiap 3 langkah, maka state itu memiliki periode 3.

E. Aperiodic State (Keadaan Aperiodik):
Kebalikan dari Periodic State, terdapat pula istilah Aperiodic State. Sebuah state disebut aperiodic jika kita bisa kembali ke state itu kapan saja tanpa harus menunggu periode tertentu.

Matriks Transisi

Matriks transisi memiliki hubungan yang sangat erat dengan Rantai Markov Diskrit pada Proses Stokastik, hal ini dikarenakan matriks transisi digunakan untuk menggambarkan bagaimana state (keadaan) dalam rantai Markov berubah dari satu waktu ke waktu berikutnya. Bayangkan sobat Exsight memiliki sebuah sistem yang bisa berpindah dari satu keadaan (state) ke keadaan lainnya, dan sobat ingin tahu kemungkinan setiap perpindahan itu terjadi.

Misalnya, kita ingin memodelkan cuaca: hari ini bisa cerah, mendung, atau hujan, dan kamu ingin tahu seberapa besar kemungkinan cuaca berubah ke kondisi lain esok hari. Nah, untuk menghitung peluang perpindahan dari satu keadaan ke keadaan lain, kita menggunakan sesuatu yang disebut matriks transisi probabilitas.

rantai markov
NOCerahMendungHujan
1Cerah0,60,30,1
2Mendung0,40,40,2
3Hujan0,30,50,2

Berdasarkan matriks transisi di atas dapat diartikan bahwa:

Dalam matriks transisi, baris mewakili keadaan awal (misalnya, cerah), dan kolom menunjukkan kemungkinan keadaan selanjutnya (misalnya, cerah, mendung, hujan).

  • Baris nomor 1 (cerah)
    Jika hari ini cerah, kemungkinan besok tetap cerah adalah 0.6 (60%), kemungkinan besok mendung adalah 0.3 (30%), dan kemungkinan hujan adalah 0.1 (10%).
  • Baris nomor 2 (mendung)
    Jika hari ini mendung, kemungkinan besok tetap mendung adalah 0.4 (40%), kemungkinan cerah 0.4 (40%), dan kemungkinan hujan 0.2 (20%).
  • Baris nomor 3 (hujan)
    Jika hari ini hujan, kemungkinan besok hujan lagi adalah 0.2 (20%), kemungkinan mendung 0.5 (50%), dan kemungkinan cerah 0.3 (30%).

Satu hal penting dalam matriks transisi adalah bahwa setiap baris harus berjumlah 1. Mengapa demikian? Hal ini dikarenakan baris dalam matriks mewakili semua kemungkinan perpindahan dari satu keadaan ke semua keadaan lainnya. Jadi, jika kita menjumlahkan semua kemungkinan itu, harus sama dengan 100% (atau 1 dalam desimal), karena sistem pasti akan berubah ke salah satu keadaan. Misalnya, cuaca hari ini pasti akan cerah, mendung, atau hujan, tidak mungkin tidak ada cuaca sama sekali.

Aplikasi Rantai Markov Diskrit

Rantai Markov diskrit memiliki banyak sekali kegunaan dan kerap kali digunakan dalam berbagai bidang diantaranya adalah sebagai berikut.

A. Teori Antrian
Bayangkan sobat Exsight sedang berada di antrian di restoran cepat saji. Rantai Markov digunakan untuk memodelkan bagaimana orang datang dan pergi dari antrian tersebut. Misalnya, berapa lama orang akan menunggu, berapa banyak orang yang akan masuk antrian, atau kapan antrian akan menjadi lebih panjang atau lebih pendek. Hal ini membantu manajer restoran merencanakan jumlah kasir yang diperlukan pada waktu-waktu sibuk.

rantai markov

B. Pemodelan Cuaca
Rantai Markov juga sering digunakan untuk memprediksi cuaca. Misalnya, jika hari ini cerah, kita bisa menggunakan rantai Markov untuk memprediksi apakah cuaca besok akan cerah lagi, mendung, atau hujan, hanya berdasarkan keadaan cuaca hari ini. Ini sangat berguna untuk membuat prakiraan cuaca dalam jangka pendek.

rantai markov

C. Ekonomi dan Keuangan
Di dunia keuangan, rantai Markov bisa digunakan untuk memprediksi fluktuasi pasar saham. Misalnya, kita bisa melihat apakah harga saham akan naik atau turun besok, hanya berdasarkan harga saham hari ini. Rantai Markov juga digunakan dalam penilaian risiko investasi, yaitu untuk memperkirakan seberapa besar risiko kehilangan uang dalam investasi tertentu.

rantai markov

E. Penambahan Pengguna di Media Sosial
Ketika sebuah platform media sosial seperti Instagram atau TikTok bertambah pengguna, kita bisa menggunakan rantai Markov untuk memodelkan pertumbuhan pengguna. Dengan melihat jumlah pengguna hari ini, kita bisa memprediksi berapa banyak orang baru yang akan bergabung besok. Model ini membantu perusahaan merencanakan strategi pemasaran mereka.

rantai markov

Referensi

Asyrofi, A., Anggriani, I., & Soemarsono, A. (2023). Penerapan Metode Rantai Markov Waktu Diskrit dalam Estimasi Perpindahan Penggunaan Merek Smartphone di Balikpapan. Jurnal Imu Dasar, Vol.24, No.2.

Ningsih, E., Widjajati, F., & Soehardjoepri. (2018). Efektivitas Waktu Penunjang Menggunakan Model Rantai Markov Distribusi Delay dalam Jadwal Pesawat Terbang. Surabaya: Institut Teknologi Sepuluh Nopember.

Sekian dan sampai di sini dulu penjelasan terkait Rantai Markov Diskrit pada Proses Stokastik. Jika masih ada yang dibingungkan bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya.

Rantai Markov Diskrit pada Proses Stokastik Read More »

Metode Clustering DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Clustering DBSCAN – Hai hai sobat Exsight, bayangkan sobat Exsight sedang melihat peta kota yang sangat ramai. Terdapat tempat-tempat di mana orang berkumpul dalam jumlah besar, seperti pusat perbelanjaan atau taman kota, dan ada juga tempat yang sepi, seperti gang kecil atau daerah pinggiran.

Nah, cara kerja otak melihat pola keramaian dan kesunyian ini mirip dengan cara kerja salah satu metode clustering yaitu clustering DBSAN. Clustering DBSCAN bisa dikatakan sebagai “pengeksplor peta” karena mampu mengelompokkan data ke dalam kelompok yang padat dan memisahkan area yang tidak terlalu ramai, biasa disebut noise.

Berbeda dengan metode clustering lainnya yang mana kita butuh tahu jumlah kelompok terlebih dahulu, dalam metode clustering DBSCAN ini kita dapat menemukan cluster tanpa petunjuk awal. Dalam metode clustering DBSCAN kita hanya perlu melihat seberapa rapat data saling berdekatan. Jadi, bisa dibilang DBSCAN ini jago menemukan “keramaian” di dalam data dan mengabaikan “gang-gang sepi” yang tidak penting.

Definisi

clustering DBSCAN
Referensi: https://medium.com/@fraidoonomarzai99/dbscan-in-depth-3fa4a8dbd3af

Metode clustering DBSCAN (Density Based Spatial Clustering Algorithm with Noise) adalah algoritma pengelompokkan (clusterisasi) yang didasarkan pada kepadatan (density) titik- titik data di sekitarnya. Terdapat 2 (dua) parameter penting, yaitu parameter radius (Eps) dan jumlah minimum poin untuk membentuk kelompok (MinPts).

Metode DBSCAN membentuk cluster dengan mengidentifikasi area dengan kepadatan tinggi, yaitu wilayah di mana titik-titik data berdekatan dalam jarak tertentu (epsilon, ε) dan memiliki minimal sejumlah titik tertentu (MinPts). Titik-titik yang berada di area kepadatan rendah atau tidak memenuhi syarat akan dianggap sebagai noise (outlier). DBSCAN unggul dalam mengidentifikasi cluster dengan bentuk tidak teratur dan mampu menangani kebisingan, tanpa memerlukan jumlah kluster sebagai input awal.

Konsep Dasar Clustering DBSCAN

clustering DBSCAN

Clustering DBSCAN mengelompokkan data berdasarkan kepadatan titik-titik. Jika banyak titik yang berdekatan dalam satu area, itu dianggap sebagai kluster. Namun, jika hanya ada sedikit titik, area itu dianggap sebagai noise atau kebisingan. Beberapa komponen yang menjadi fokus utama dalam clustering DBSCAN diantaranya.

Epsilon (ε)
Epsilon menunjukkan jarak maksimum atau radius yang digunakan untuk menentukan apakah titik-titik berada cukup dekat satu sama lain untuk menjadi bagian dari cluster. Untuk lebih memudahkan, bayangkan epsilon (ε) seperti lingkaran yang mengelilingi titik tertentu, dan titik lain yang berada dalam lingkaran ini dianggap “tetangga.”

MinPts
MinPts merupakan jumlah minimum titik yang diperlukan dalam radius ε untuk membentuk cluster. Jika suatu titik memiliki cukup “tetangga” (sesuai MinPts), maka titik itu dianggap sebagai bagian dari kluster.

Titik Inti (Core Point)
Titik inti (core point) memiliki cukup banyak tetangga di sekitarnya (lebih dari MinPts dalam radius ε). Ini adalah titik utama yang membentuk kluster.

Titik Noise (Outlier)
Titik Noise (Outlier) terlalu jauh dari titik lain dan tidak memiliki tetangga yang cukup untuk dimasukkan dalam kluster. Jadi, titik ini dianggap sebagai noise atau outlier.

Pengaruh Nilai Parameter Terhadap Hasil Clusterisasi

  • Jika Epsilon (Eps) terlalu kecil atau MinPts terlalu besar, banyak titik yang bisa dianggap sebagai noise.
  • Jika Epsilon (Eps) terlalu besar atau MinPts terlalu kecil, cluster yang berbeda bisa digabung menjadi satu, dan noise mungkin tidak terdeteksi dengan baik.

Algoritma Clustering DBSCAN

Secara lebih detail konsep dasar dari algoritma clustering DBSCAN adalah sebagai berikut.

  1. Menentukan parameter Eps dan MinPts .
    Epsilon (ε) dan MinPts perlu ditentukan berdasarkan data. Nilai yang terlalu kecil untuk ε mungkin menghasilkan terlalu banyak cluster kecil, sementara nilai yang terlalu besar bisa menggabungkan kluster yang berbeda menjadi satu.
  2. Input data yang akan dianalisis.
  3. Menghitung jumlah data yang ditentukan oleh parameter radius (Eps). Jika jumlahnya mencukupi (lebih dari atau sama dengan ɛ), data akan ditandai sebagai inti (core point).
  4. Menghitung jarak core point dengan point yang lain menggunakan jarak Euclidean.
  5. Berikut adalah rumus jarak Euclidean yang ditujukan pada persamaan sebagai berikut.
d(P,C)=\sqrt{\sum_{i=1}^{n}\left ( x_{pi}-x_{ci} \right )^{2}}

Keterangan:

  • d(P,C) = Jarak euclidean dari titik data P ke titik data C (pusat kluster)
  • xpi = Nilai fitur ke-i pada titik data P
  • xci = Nilai fitur ke-i pada titik data C (pusat kluster)
  • n = dimensi data
  1. Buat cluster baru dengan menambahkan data ke dalam cluster.
  2. Melakukan identifikasi pada data yang ditandai sebagai core point
  3. Melanjutkan proses sampai semua point telah diproses.
  4. Jika ada data yang tidak masuk ke dalam cluster manapun akan ditandai sebagai noise.

Intinya, metode DBSCAN memiliki cara kerja dengan mencari cluster melalui pemeriksaan parameter radius (Eps) dari setiap titik dalam dataset. Jika Eps pada data berisi lebih dari MinPts, sebuah cluster baru dengan p sebagai core point terbentuk.

Kelebihan dan Kelemahan

Kelebihan

  1. Dapat Menangani Kluster dengan Bentuk Tidak Teratur
    DBSCAN mampu mengidentifikasi kluster dengan bentuk apa pun, termasuk kluster berbentuk tidak teratur. Hal ini berbeda dengan algoritma seperti K-Means, yang cenderung mengasumsikan kluster berbentuk bulat.
  2. Tidak Memerlukan Jumlah Kluster sebagai Input Awal
    Berbeda dengan K-Means yang membutuhkan jumlah kluster (k) sebagai parameter, DBSCAN secara otomatis menemukan jumlah kluster berdasarkan distribusi kepadatan data. Hal ini membuat DBSCAN lebih fleksibel, terutama jika jumlah kluster tidak diketahui sebelumnya.
  3. Tahan (Robust) terhadap Noise
    DBSCAN secara eksplisit mengklasifikasikan titik-titik yang tidak sesuai dengan kluster mana pun sebagai “noise.” Hal ini sangat berguna ketika bekerja dengan data yang mengandung outlier, di mana algoritma lain mungkin tidak mengidentifikasi outlier dengan baik.
  4. Dapat Menangani Dataset Berukuran Besar
    Dengan cara memproses titik-titik data dalam ruang kepadatan lokal, DBSCAN relatif efisien dalam menangani dataset besar, terutama jika dibandingkan dengan metode klasterisasi hirarkis.
  5. Fleksibelitas dalam Parameter
    Parameter ε (epsilon) menentukan radius area lokal untuk mengukur kepadatan. Selain itu juga terdapat elemen MinPts yang menentukan jumlah titik minimum dalam radius untuk membentuk kluster. Parameter ini dapat disesuaikan berdasarkan karakteristik dataset.

Kelemahan

  1. Sensitivitas Terhadap Pemilihan Parameter
    Metode clustering DBSCAN sangat bergantung pada nilai parameter ε dan MinPts. Pemilihan nilai yang salah dapat menghasilkan kluster yang tidak optimal. Misalnya, nilai ε yang terlalu kecil mungkin menghasilkan terlalu banyak noise, sementara nilai yang terlalu besar bisa menggabungkan kluster yang seharusnya terpisah.
  2. Sulit Menangani Dataset dengan Kepadatan Berbeda
    DBSCAN bekerja baik jika kluster memiliki kepadatan yang relatif seragam. Jika kluster memiliki kepadatan yang bervariasi, DBSCAN dapat kesulitan memisahkan kluster tersebut, karena menggunakan nilai ε yang sama untuk semua titik.
  3. Tidak Efisien pada Dimensi Tinggi (High-Dimensional Data)
    DBSCAN kurang efektif ketika diterapkan pada data dengan dimensi yang tinggi. Pada data dengan banyak fitur (high-dimensional data), menghitung jarak antar titik menjadi kurang akurat, menyebabkan penurunan performa algoritma, dikenal sebagai “curse of dimensionality.”
  4. Kesulitan Mengidentifikasi Kluster Kecil
    Jika nilai MinPts terlalu besar, clustering DBSCAN mungkin saja gagal mendeteksi kluster kecil yang valid karena syarat kepadatan minimum tidak terpenuhi. Akibatnya, kluster kecil bisa salah diidentifikasi sebagai noise.
  5. Kesulitan dalam Menentukan ε pada Data Skala Besar
    Meskipun metode clustering DBSCAN dapat bekerja dengan baik pada dataset besar, menentukan nilai ε yang tepat dalam skala besar tetap menjadi tantangan. Algoritma ini tidak memberikan panduan langsung untuk memilih nilai ε yang optimal, sehingga membutuhkan percobaan atau penggunaan metode tambahan seperti grafik K-distance.

Penerapan Clustering DBSCAN dalam Berbagai Bidang

Clustering DBSCAN (Density-Based Spatial Clustering of Applications with Noise) merupakan algoritma clustering yang sangat fleksibel dan efektif, serta banyak digunakan dalam berbagai bidang untuk menangani data dengan bentuk cluster yang tidak teratur serta mengabaikan noise. Berikut beberapa penerapan DBSCAN di berbagai bidang.

A. Data Geospasial dan GPS
Clustering DBSCAN sering digunakan untuk mengelompokkan data lokasi, seperti titik-titik GPS yang diambil dari smartphone atau perangkat pelacak. Misalnya, dalam transportasi, algoritma DBSCAN dapat membantu mengidentifikasi tempat-tempat ramai yang sering dikunjungi, seperti stasiun, pusat perbelanjaan, atau area wisata, dengan mendeteksi kluster lokasi GPS yang padat. Selain itu, DBSCAN dapat digunakan untuk memisahkan rute-rute populer dari jalur yang jarang dilalui.

clustering DBSCAN

B. Analisis Pasar Finansial
Metode clustering DBSCAN juga digunakan dalam analisis data finansial untuk mendeteksi pola transaksi atau perilaku pasar. Misalnya, DBSCAN dapat membantu menemukan kelompok transaksi besar yang terjadi dalam rentang waktu tertentu di pasar saham, mengidentifikasi perilaku spekulatif, atau mendeteksi anomali transaksi yang mencurigakan yang dapat mengindikasikan potensi penipuan.

C. Analisis Citra dan Pengolahan Gambar
Algoritma clustering DBSCAN berguna untuk segmentasi gambar. Algoritma ini dapat digunakan untuk mengelompokkan piksel yang serupa dalam sebuah gambar, seperti piksel yang memiliki warna atau tekstur yang sama, guna mendeteksi objek atau area tertentu dalam gambar. Dalam pengolahan citra medis, DBSCAN bisa diterapkan untuk mendeteksi sel-sel abnormal atau tumor dari hasil scan medis.

D. Ilmu Biologi dan Analisis Genom
Dalam bidang bioinformatika, DBSCAN diterapkan untuk menganalisis data genom atau DNA. Algoritma ini mampu menemukan kelompok gen atau pola di dalam data genom yang memiliki karakteristik unik. Hal ini penting untuk mempelajari mutasi genetik atau memahami hubungan antar segmen DNA, yang bisa berkaitan dengan penyakit atau kondisi tertentu.

clustering DBSCAN

E. Kesehatan Masyarakat dan Epidemiologi
Dalam bidang kesehatan masyarakat dan epidemiologi, metode clustering DBSCAN dapat digunakan dalam epidemiologi untuk mengelompokkan kasus-kasus penyakit berdasarkan lokasi geografis atau waktu terjadinya. Misalnya, DBSCAN bisa membantu menganalisis penyebaran penyakit dengan mengidentifikasi daerah-daerah dengan kepadatan kasus penyakit tertentu, seperti wabah, dan mengisolasi area-area yang relatif bebas dari kasus tersebut.

Referensi

Isnawarty, D., & Irhamah. (2019). Text Clustering pada Akun Twitter Layanan Ekspedisi JNE, J&T, dan Pos Indonesia Menggunakan Metode Density- Based Spatial Clustering of Applications with Noise (DBSCAN) dan K-Means. Jurnal Sains dan Seni ITS, Vol.8, No.2.

Ye, Q., Gao, W., & Zeng, W. (2003). Color Image Segmentation Using Density- Based Clustering. International Conference on Multimedia and Expo (ICME), (p. 346). China.

Finally, sampai sudah nih kita di penghujung artikel, sekian dulu ya penjelasan terkait DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Apabila masih ada yang dibingungkan, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. Bye bye and see you!

Metode Clustering DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Read More »

Apa Itu Random Forest?

Hai hai sobat Exsight, bagaimana kabarnya? Pada kesempatan kali ini kita akan membahas lebih lanjut terkait Random Forest. Random Forest adalah sebuah metode dalam machine learning yang digunakan untuk membuat prediksi, baik untuk masalah klasifikasi (misalnya menentukan apakah email adalah spam atau bukan) maupun regresi (misalnya memprediksi harga rumah). Random Forest terdiri dari banyak “pohon keputusan” (decision trees) yang bekerja bersama-sama untuk memberikan hasil prediksi yang lebih akurat.

Bayangkan Random Forest seperti sekelompok orang yang diminta memberikan pendapat atau keputusan. Alih-alih hanya mengandalkan satu orang untuk membuat keputusan, kita mengumpulkan pendapat dari banyak orang, lalu kita mengambil keputusan berdasarkan suara terbanyak. Dengan cara ini, kita mendapatkan keputusan yang lebih baik karena tidak hanya bergantung pada satu pendapat saja.

Definisi

Random Forest adalah sebuah algoritma yang digunakan untuk membuat prediksi berdasarkan banyak pohon keputusan yang saling independen. Prediksi hasil random forest diperoleh melalui proses voting (jumlah terbanyak) dari pohon-pohon yang terbentuk. Dalam random forests proses pengacakan untuk membentuk pohon tidak hanya dilakukan untuk data sampel saja melainkan juga pada pengambilan variabel prediktor. Sehingga, proses ini akan menghasilkan kumpulan pohon
klasifikasi dengan ukuran dan bentuk yang berbeda-beda. Hasil yang diharapkan adalah suatu kumpulan pohon yang memiliki korelasi kecil antar pohon.

Konsep Dasar Random Forest

random forest

BAGAIMANA CARA RANDOM FOREST BEKERJA?

A. Membangun Banyak Pohon Keputusan Secara Acak
Random Forest bekerja dengan membangun banyak pohon keputusan. Setiap pohon dibuat menggunakan sampel acak dari data pelatihan. Misalnya, jika kita memiliki data tentang nilai, absensi, dan aktivitas mahasiswa, Random Forest akan secara acak memilih beberapa data tersebut untuk membangun setiap pohon keputusan.

B. Pembentukan Sampel Data Secara Acak (Bootstrap Sampling)
Untuk membuat setiap pohon dalam Random Forest, algoritma mengambil sampel acak dari data yang ada. Proses ini disebut bootstrap sampling, di mana beberapa data bisa terpilih lebih dari satu kali, dan beberapa data mungkin tidak terpilih sama sekali. Dengan cara ini, setiap pohon dilatih menggunakan data yang sedikit berbeda-beda, sehingga setiap pohon akan sedikit berbeda satu sama lain.

C. Setiap Pohon Menghasilkan Prediksi
Setelah dibentuk, setiap pohon akan menghasilkan prediksi berdasarkan data input. Setiap pohon keputusan memutuskan berdasarkan serangkaian aturan, seperti “Jika nilai di atas 80 dan absensi di atas 90%, maka mahasiswa akan lulus”. Setiap pohon mungkin memberikan jawaban yang berbeda, tergantung pada bagaimana pohon tersebut dibangun dan data apa yang digunakannya.

D. Proses Voting untuk Klasifikasi dan Rata-rata untuk Regresi
Untuk Klasifikasi
Jika kita menggunakan Random Forest untuk memprediksi kategori (misalnya, lulus atau tidak lulus), maka setiap pohon dalam hutan akan memberikan jawabannya. Jawaban yang paling banyak dipilih oleh pohon-pohon itulah yang menjadi prediksi akhir. Proses ini disebut voting.

Untuk Regresi
Jika kita ingin memprediksi nilai numerik (misalnya, berapa nilai akhir seorang mahasiswa), maka Random Forest akan mengambil rata-rata dari semua prediksi yang diberikan oleh setiap pohon.

Perbedaan Random Forest dengan Metode Lainnya

Seringkali penggunaan metode random forest dikaitkan dengan beberapa metode statistik yang memiliki pola kerja yang mirip diantaranya Decision Trees serta CART (Classification and Regression Trees). Meskipun demikian terdapat perbedaan mendasar dari metode-metode tersebut diantaranya adalah sebagai berikut.

AspekDecision TreesCARTRandom Forest
DefinisiModel prediksi tunggal yang berbentuk pohon.Jenis pohon keputusan khusus untuk klasifikasi dan regresi.Metode ensemble yang menggabungkan banyak pohon keputusan.
Cara KerjaMembagi data secara berulang hingga sampai di keputusan akhir.Membagi data untuk meminimalkan kesalahan klasifikasi atau prediksi.Menggunakan banyak pohon yang dibangun dari subset data dan fitur secara acak.
KelemahanLebih mudah terkena overfitting.Rentan overfitting, terutama pada data yang kompleks.Lebih tahan terhadap overfitting karena menggunakan banyak pohon.
KelebihanSederhana dan mudah diinterpretasi.Mengoptimalkan pemisahan data untuk akurasi yang lebih baik.Akurasi lebih tinggi dan tahan terhadap variabilitas data.
Penggunaan DataMenggunakan seluruh dataset untuk membentuk pohon.Menggunakan seluruh dataset dengan pemisahan optimal.Menggunakan subset data secara acak (bootstrap sampling).
Penggunaan FiturMenggunakan semua fitur untuk setiap pemisahan.Sama dengan Decision Trees, menggunakan semua fitur.Menggunakan subset acak dari fitur untuk setiap pemisahan.
OverfittingTinggi, terutama pada dataset kecil.Sama seperti Decision Trees, cenderung overfitting.Lebih tahan terhadap overfitting karena model ensemble.
AkurasiBisa rendah jika ada overfitting atau underfitting.Akurasi lebih baik dibanding Decision Trees biasa.Akurasi lebih tinggi dibanding pohon tunggal, terutama pada data kompleks.
Jenis PrediksiKlasifikasi atau regresi.Klasifikasi dan regresi.Klasifikasi dan regresi.

Algoritma Random Forest

Pengembangan metode random forest dilakukan dari proses bagging, yaitu terletak pada proses pemilihan pemilah. Pada random forest, pemilihan pemilah hanya melibatkan beberapa variabel prediktor yang terambil secara acak. Algoritma Random Forest dijelaskan sebagai berikut.

Langkah A
Mengambil n data sampel dari dataset awal dengan menggunakan teknik resampling bootstrap dengan pengembalian.

Langkah B
Menyusun pohon klasifikasi dari setiap dataset hasil resampling bootstrap, dengan penentuan pemilah terbaik didasarkan pada variabel prediktor yang diambil secara acak. Jumlah variabel yang diambil secara acak dapat ditentukan melalui perhitungan log2(p + 1), dimana p adalah banyak variabel prediktor atau menggunakan

 \sqrt{p}

Langkah C
Melakukan prediksi klasifikasi data sampel berdasarkan pohon klasifikasi yang terbentuk.

Langkah D
Mengulangi langkah a sampai langkah c hingga diperoleh sejumlah pohon klasifikasi yang diinginkan. Perulangan dilakukan sebanyak K kali.

Langkah E
Melakukan prediksi klasifikasi data sampel akhir dengan mengombinasikan hasil prediksi pohon klasifikasi yang diperoleh berdasarkan aturan majority vote.

Analisis dengan menggunakan metode random forest dimulai dari pengambilan data dengan teknik resampling bootstrap. Bootstrap adalah suatu metode yang dapat bekerja tanpa membutuhkan asumsi distribusi karena sampel asli digunakan sebagai populasi. Bootstrap digunakan untuk mencari distribusi sampling dari suatu estimator melalui prosedur resampling dengan pengembalian dari data asli

Kelebihan dan Kelemahan

Terdapat beberapa kebeihan dan kelemahan dari metode Random Forest yaitu sebagai berikut.

Kelebihan

  1. Akurasi Tinggi
    Random Forest cenderung memiliki akurasi yang lebih baik dibandingkan metode lain karena menggabungkan prediksi dari beberapa pohon keputusan (decision trees). Proses voting dari banyak pohon ini membantu meningkatkan hasil prediksi.
  2. Penanganan Overfitting
    Salah satu masalah umum pada decision tree adalah overfitting. Namun, Random Forest mengatasi masalah ini dengan memanfaatkan banyak pohon yang dilatih pada subset data yang berbeda, sehingga model menjadi lebih general dan tidak terlalu “menghapal” data training.
  3. Bisa Menangani Data yang Tidak Linear
    Random Forest mampu menangani hubungan yang kompleks dan tidak linear dalam data, karena terdiri dari berbagai pohon keputusan yang menangkap berbagai pola.
  4. Robust terhadap Outliers dan Missing Data
    Karena menggunakan banyak pohon, Random Forest tidak terlalu terpengaruh oleh outlier atau data yang hilang, dan tetap bisa memberikan prediksi yang baik.
  5. Feature Importance
    Random Forest bisa memberi informasi tentang fitur mana yang paling penting dalam memengaruhi prediksi, sehingga membantu dalam interpretasi data.

Kelemahan

  1. Waktu dan Sumber Daya Komputasi yang Besar
    Dikarenakan Random Forest membangun banyak pohon, maka random forest membutuhkan lebih banyak waktu dan sumber daya komputasi dibandingkan model yang lebih sederhana, terutama ketika bekerja dengan dataset yang besar.
  2. Tidak Efisien untuk Data Real-Time
    Random Forest mungkin bukan pilihan terbaik untuk penerapan analisis data yang membutuhkan prediksi secara real-time, hal ini dikarenakan proses membangun pohon dan melakukan prediksi cukup lambat dibandingkan model lain seperti regresi logistik.
  3. Overfitting pada Dataset yang Noisy
    Meskipun Random Forest dapat mengatasi overfitting, namun pada dataset yang sangat noisy atau bising, model ini mungkin masih bisa mengalami overfitting jika tidak diatur dengan benar.
  4. Konsumsi Memori yang Besar
    Dikarenakan Random Forest menyimpan banyak pohon dan informasi terkait, hal ini bisa menyebabkan konsumsi memori yang besar, terutama pada dataset yang besar.

Penerapan dalam Berbagai Bidang

Berikut adalah beberapa contoh penerapan Random Forest di berbagai bidang diantaranya adalah sebagai berikut.

A. Bidang Pemasaran
Random Forest dapat digunakan untuk mengelompokkan pelanggan berdasarkan preferensi, perilaku, dan karakteristik demografis mereka. Hal ini membantu perusahaan dalam merancang strategi pemasaran yang lebih efektif dan personal.
Selain itu penerapan random forest lainnya dalam bidang pemasaran digital, yaitu random forest digunakan untuk menganalisis sentimen pelanggan dari ulasan produk, komentar media sosial, atau survei pelanggan. Dengan cara ini, perusahaan dapat memahami bagaimana produk mereka diterima oleh masyarakat.

random forest

B. Bidang Pendidikan
Random Forest dapat digunakan untuk memprediksi kinerja akademik siswa berdasarkan berbagai faktor seperti kehadiran, nilai ujian sebelumnya, aktivitas ekstrakurikuler, dan latar belakang sosial-ekonomi. Hal ini tentunya dapat membantu institusi pendidikan untuk memberikan perhatian yang tepat bagi siswa yang berisiko gagal.

Selain itu algoritma random forest juga digunakan untuk membuat sistem pembelajaran adaptif yang disesuaikan dengan kebutuhan dan gaya belajar siswa. Sistem ini dapat memprediksi topik mana yang sulit bagi siswa dan memberikan rekomendasi materi yang sesuai.

random forest

C. Industri dan Manufaktur
Dalam bidang industri atau manufaktur, Random Forest digunakan untuk memprediksi kapan mesin atau peralatan akan mengalami kerusakan dengan menganalisis data sensor dan riwayat pemeliharaan. Hal ini membantu perusahaan mencegah kerusakan yang tak terduga dan mengoptimalkan jadwal perawatan.

Random Forest dapat pula digunakan untuk mengoptimalkan proses produksi dengan menganalisis data dari berbagai tahapan produksi dan memprediksi bagaimana perubahan dalam satu bagian akan memengaruhi hasil akhir.

random forest

Referensi

Fachruddin, M., & Kuswanto, H. (2015). Perbandingan Metode Random Forest Classification dan Support Vector Machine untuk Deteksi Epilepsi Menggunakan Data Rekaman Electroencephalograph (EEG). Surabaya: Institut Teknologi Sepuluh Nopember.

Nah, sampai juga kita di akhir artikel. Sampai disini dulu penjelasan terkait Random Forest. Jika masih ada yang dibingungkan atau ada yang ingin didiskusikan, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. See you!

Apa Itu Random Forest? Read More »

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!