Metode Clustering DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DW ADS

Clustering DBSCAN – Hai hai sobat Exsight, bayangkan sobat Exsight sedang melihat peta kota yang sangat ramai. Terdapat tempat-tempat di mana orang berkumpul dalam jumlah besar, seperti pusat perbelanjaan atau taman kota, dan ada juga tempat yang sepi, seperti gang kecil atau daerah pinggiran.

Nah, cara kerja otak melihat pola keramaian dan kesunyian ini mirip dengan cara kerja salah satu metode clustering yaitu clustering DBSAN. Clustering DBSCAN bisa dikatakan sebagai “pengeksplor peta” karena mampu mengelompokkan data ke dalam kelompok yang padat dan memisahkan area yang tidak terlalu ramai, biasa disebut noise.

Berbeda dengan metode clustering lainnya yang mana kita butuh tahu jumlah kelompok terlebih dahulu, dalam metode clustering DBSCAN ini kita dapat menemukan cluster tanpa petunjuk awal. Dalam metode clustering DBSCAN kita hanya perlu melihat seberapa rapat data saling berdekatan. Jadi, bisa dibilang DBSCAN ini jago menemukan “keramaian” di dalam data dan mengabaikan “gang-gang sepi” yang tidak penting.

Definisi

clustering DBSCAN
Referensi: https://medium.com/@fraidoonomarzai99/dbscan-in-depth-3fa4a8dbd3af

Metode clustering DBSCAN (Density Based Spatial Clustering Algorithm with Noise) adalah algoritma pengelompokkan (clusterisasi) yang didasarkan pada kepadatan (density) titik- titik data di sekitarnya. Terdapat 2 (dua) parameter penting, yaitu parameter radius (Eps) dan jumlah minimum poin untuk membentuk kelompok (MinPts).

Metode DBSCAN membentuk cluster dengan mengidentifikasi area dengan kepadatan tinggi, yaitu wilayah di mana titik-titik data berdekatan dalam jarak tertentu (epsilon, ε) dan memiliki minimal sejumlah titik tertentu (MinPts). Titik-titik yang berada di area kepadatan rendah atau tidak memenuhi syarat akan dianggap sebagai noise (outlier). DBSCAN unggul dalam mengidentifikasi cluster dengan bentuk tidak teratur dan mampu menangani kebisingan, tanpa memerlukan jumlah kluster sebagai input awal.

Konsep Dasar Clustering DBSCAN

clustering DBSCAN

Clustering DBSCAN mengelompokkan data berdasarkan kepadatan titik-titik. Jika banyak titik yang berdekatan dalam satu area, itu dianggap sebagai kluster. Namun, jika hanya ada sedikit titik, area itu dianggap sebagai noise atau kebisingan. Beberapa komponen yang menjadi fokus utama dalam clustering DBSCAN diantaranya.

Epsilon (ε)
Epsilon menunjukkan jarak maksimum atau radius yang digunakan untuk menentukan apakah titik-titik berada cukup dekat satu sama lain untuk menjadi bagian dari cluster. Untuk lebih memudahkan, bayangkan epsilon (ε) seperti lingkaran yang mengelilingi titik tertentu, dan titik lain yang berada dalam lingkaran ini dianggap “tetangga.”

MinPts
MinPts merupakan jumlah minimum titik yang diperlukan dalam radius ε untuk membentuk cluster. Jika suatu titik memiliki cukup “tetangga” (sesuai MinPts), maka titik itu dianggap sebagai bagian dari kluster.

Titik Inti (Core Point)
Titik inti (core point) memiliki cukup banyak tetangga di sekitarnya (lebih dari MinPts dalam radius ε). Ini adalah titik utama yang membentuk kluster.

Titik Noise (Outlier)
Titik Noise (Outlier) terlalu jauh dari titik lain dan tidak memiliki tetangga yang cukup untuk dimasukkan dalam kluster. Jadi, titik ini dianggap sebagai noise atau outlier.

Pengaruh Nilai Parameter Terhadap Hasil Clusterisasi

  • Jika Epsilon (Eps) terlalu kecil atau MinPts terlalu besar, banyak titik yang bisa dianggap sebagai noise.
  • Jika Epsilon (Eps) terlalu besar atau MinPts terlalu kecil, cluster yang berbeda bisa digabung menjadi satu, dan noise mungkin tidak terdeteksi dengan baik.

Algoritma Clustering DBSCAN

Secara lebih detail konsep dasar dari algoritma clustering DBSCAN adalah sebagai berikut.

  1. Menentukan parameter Eps dan MinPts .
    Epsilon (ε) dan MinPts perlu ditentukan berdasarkan data. Nilai yang terlalu kecil untuk ε mungkin menghasilkan terlalu banyak cluster kecil, sementara nilai yang terlalu besar bisa menggabungkan kluster yang berbeda menjadi satu.
  2. Input data yang akan dianalisis.
  3. Menghitung jumlah data yang ditentukan oleh parameter radius (Eps). Jika jumlahnya mencukupi (lebih dari atau sama dengan ɛ), data akan ditandai sebagai inti (core point).
  4. Menghitung jarak core point dengan point yang lain menggunakan jarak Euclidean.
  5. Berikut adalah rumus jarak Euclidean yang ditujukan pada persamaan sebagai berikut.
d(P,C)=\sqrt{\sum_{i=1}^{n}\left ( x_{pi}-x_{ci} \right )^{2}}

Keterangan:

  • d(P,C) = Jarak euclidean dari titik data P ke titik data C (pusat kluster)
  • xpi = Nilai fitur ke-i pada titik data P
  • xci = Nilai fitur ke-i pada titik data C (pusat kluster)
  • n = dimensi data
  1. Buat cluster baru dengan menambahkan data ke dalam cluster.
  2. Melakukan identifikasi pada data yang ditandai sebagai core point
  3. Melanjutkan proses sampai semua point telah diproses.
  4. Jika ada data yang tidak masuk ke dalam cluster manapun akan ditandai sebagai noise.

Intinya, metode DBSCAN memiliki cara kerja dengan mencari cluster melalui pemeriksaan parameter radius (Eps) dari setiap titik dalam dataset. Jika Eps pada data berisi lebih dari MinPts, sebuah cluster baru dengan p sebagai core point terbentuk.

Kelebihan dan Kelemahan

Kelebihan

  1. Dapat Menangani Kluster dengan Bentuk Tidak Teratur
    DBSCAN mampu mengidentifikasi kluster dengan bentuk apa pun, termasuk kluster berbentuk tidak teratur. Hal ini berbeda dengan algoritma seperti K-Means, yang cenderung mengasumsikan kluster berbentuk bulat.
  2. Tidak Memerlukan Jumlah Kluster sebagai Input Awal
    Berbeda dengan K-Means yang membutuhkan jumlah kluster (k) sebagai parameter, DBSCAN secara otomatis menemukan jumlah kluster berdasarkan distribusi kepadatan data. Hal ini membuat DBSCAN lebih fleksibel, terutama jika jumlah kluster tidak diketahui sebelumnya.
  3. Tahan (Robust) terhadap Noise
    DBSCAN secara eksplisit mengklasifikasikan titik-titik yang tidak sesuai dengan kluster mana pun sebagai “noise.” Hal ini sangat berguna ketika bekerja dengan data yang mengandung outlier, di mana algoritma lain mungkin tidak mengidentifikasi outlier dengan baik.
  4. Dapat Menangani Dataset Berukuran Besar
    Dengan cara memproses titik-titik data dalam ruang kepadatan lokal, DBSCAN relatif efisien dalam menangani dataset besar, terutama jika dibandingkan dengan metode klasterisasi hirarkis.
  5. Fleksibelitas dalam Parameter
    Parameter ε (epsilon) menentukan radius area lokal untuk mengukur kepadatan. Selain itu juga terdapat elemen MinPts yang menentukan jumlah titik minimum dalam radius untuk membentuk kluster. Parameter ini dapat disesuaikan berdasarkan karakteristik dataset.

Kelemahan

  1. Sensitivitas Terhadap Pemilihan Parameter
    Metode clustering DBSCAN sangat bergantung pada nilai parameter ε dan MinPts. Pemilihan nilai yang salah dapat menghasilkan kluster yang tidak optimal. Misalnya, nilai ε yang terlalu kecil mungkin menghasilkan terlalu banyak noise, sementara nilai yang terlalu besar bisa menggabungkan kluster yang seharusnya terpisah.
  2. Sulit Menangani Dataset dengan Kepadatan Berbeda
    DBSCAN bekerja baik jika kluster memiliki kepadatan yang relatif seragam. Jika kluster memiliki kepadatan yang bervariasi, DBSCAN dapat kesulitan memisahkan kluster tersebut, karena menggunakan nilai ε yang sama untuk semua titik.
  3. Tidak Efisien pada Dimensi Tinggi (High-Dimensional Data)
    DBSCAN kurang efektif ketika diterapkan pada data dengan dimensi yang tinggi. Pada data dengan banyak fitur (high-dimensional data), menghitung jarak antar titik menjadi kurang akurat, menyebabkan penurunan performa algoritma, dikenal sebagai “curse of dimensionality.”
  4. Kesulitan Mengidentifikasi Kluster Kecil
    Jika nilai MinPts terlalu besar, clustering DBSCAN mungkin saja gagal mendeteksi kluster kecil yang valid karena syarat kepadatan minimum tidak terpenuhi. Akibatnya, kluster kecil bisa salah diidentifikasi sebagai noise.
  5. Kesulitan dalam Menentukan ε pada Data Skala Besar
    Meskipun metode clustering DBSCAN dapat bekerja dengan baik pada dataset besar, menentukan nilai ε yang tepat dalam skala besar tetap menjadi tantangan. Algoritma ini tidak memberikan panduan langsung untuk memilih nilai ε yang optimal, sehingga membutuhkan percobaan atau penggunaan metode tambahan seperti grafik K-distance.

Penerapan Clustering DBSCAN dalam Berbagai Bidang

Clustering DBSCAN (Density-Based Spatial Clustering of Applications with Noise) merupakan algoritma clustering yang sangat fleksibel dan efektif, serta banyak digunakan dalam berbagai bidang untuk menangani data dengan bentuk cluster yang tidak teratur serta mengabaikan noise. Berikut beberapa penerapan DBSCAN di berbagai bidang.

A. Data Geospasial dan GPS
Clustering DBSCAN sering digunakan untuk mengelompokkan data lokasi, seperti titik-titik GPS yang diambil dari smartphone atau perangkat pelacak. Misalnya, dalam transportasi, algoritma DBSCAN dapat membantu mengidentifikasi tempat-tempat ramai yang sering dikunjungi, seperti stasiun, pusat perbelanjaan, atau area wisata, dengan mendeteksi kluster lokasi GPS yang padat. Selain itu, DBSCAN dapat digunakan untuk memisahkan rute-rute populer dari jalur yang jarang dilalui.

clustering DBSCAN

B. Analisis Pasar Finansial
Metode clustering DBSCAN juga digunakan dalam analisis data finansial untuk mendeteksi pola transaksi atau perilaku pasar. Misalnya, DBSCAN dapat membantu menemukan kelompok transaksi besar yang terjadi dalam rentang waktu tertentu di pasar saham, mengidentifikasi perilaku spekulatif, atau mendeteksi anomali transaksi yang mencurigakan yang dapat mengindikasikan potensi penipuan.

C. Analisis Citra dan Pengolahan Gambar
Algoritma clustering DBSCAN berguna untuk segmentasi gambar. Algoritma ini dapat digunakan untuk mengelompokkan piksel yang serupa dalam sebuah gambar, seperti piksel yang memiliki warna atau tekstur yang sama, guna mendeteksi objek atau area tertentu dalam gambar. Dalam pengolahan citra medis, DBSCAN bisa diterapkan untuk mendeteksi sel-sel abnormal atau tumor dari hasil scan medis.

D. Ilmu Biologi dan Analisis Genom
Dalam bidang bioinformatika, DBSCAN diterapkan untuk menganalisis data genom atau DNA. Algoritma ini mampu menemukan kelompok gen atau pola di dalam data genom yang memiliki karakteristik unik. Hal ini penting untuk mempelajari mutasi genetik atau memahami hubungan antar segmen DNA, yang bisa berkaitan dengan penyakit atau kondisi tertentu.

clustering DBSCAN

E. Kesehatan Masyarakat dan Epidemiologi
Dalam bidang kesehatan masyarakat dan epidemiologi, metode clustering DBSCAN dapat digunakan dalam epidemiologi untuk mengelompokkan kasus-kasus penyakit berdasarkan lokasi geografis atau waktu terjadinya. Misalnya, DBSCAN bisa membantu menganalisis penyebaran penyakit dengan mengidentifikasi daerah-daerah dengan kepadatan kasus penyakit tertentu, seperti wabah, dan mengisolasi area-area yang relatif bebas dari kasus tersebut.

Referensi

Isnawarty, D., & Irhamah. (2019). Text Clustering pada Akun Twitter Layanan Ekspedisi JNE, J&T, dan Pos Indonesia Menggunakan Metode Density- Based Spatial Clustering of Applications with Noise (DBSCAN) dan K-Means. Jurnal Sains dan Seni ITS, Vol.8, No.2.

Ye, Q., Gao, W., & Zeng, W. (2003). Color Image Segmentation Using Density- Based Clustering. International Conference on Multimedia and Expo (ICME), (p. 346). China.

Finally, sampai sudah nih kita di penghujung artikel, sekian dulu ya penjelasan terkait DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Apabila masih ada yang dibingungkan, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. Bye bye and see you!

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!