R

Single Moving Average

Single Moving Average: Tutorial dengan R

Hai hai sobat Exsight! Pada artikel sebelumnya kita sudah mempelajari tutorial Single Moving Average (SMA) dengan Excel. Pada artikel ini kita akan membahas tutorial Single Moving Average dengan bahasa pemrograman R. Single Moving Average ini adalah metode yang cukup sederhana dalam analisis data runtun waktu. Konsep dalam SMA sering jadi pilihan pertama karena konsepnya mudah dipahami. Seperti namanya, Single Moving Average menggunakan rata-rata dalam prosesnya. Lebih tepatnya menggunakan rata-rata periode terakhir data untuk mepredikasi periode berikutnya.

Sebelum kita terjun ke sintaks, penting untuk memahami kapan Single Moving Average bekerja dengan baik dan kapan tidak. Metode ini unggul ketika data relatif stabil, artinya tidak ada tren naik/turun yang jelas dan tidak ada pola musiman berulang. Single Moving Average tidak dapat menangkap arah perubahan jangka panjang atau pengulangan musiman. Hal ini dikarenakan SMA hanya menggunakan rata-rata untuk mengecilkan fluktuasi data.

Setelah mengulas secara singkat mengenai Single Moving Average, ada hal yang perlu kita ketahui terlebih dahulu, yaitu persamaan matematis dari Single Moving Average. Kita akan membahas secara singkat untuk hal ini. Kemudian, kita akan belajar penggunaan metode SMA untuk data menggunakan bahasa pemrograman R. Kita akan membahas tahapannya satu persatu secara mendetail. Yuk kita simak bersama !

Persamaan Single Moving Average

Secara matematis, peramalan Single Moving Average ditulis sebagai berikut:

F_{t+1} = \frac{1}{N}\left(X_t + X_{t-1} + \cdots + X_{t-N+1}\right) 

dengan

\begin{aligned}
F_{t+1} &= \text{nilai rata-rata bergerak tunggal pada periode } (t+1),\\[4pt]
X_{t} &= \text{data pada periode } t,\\[4pt]
N &= \text{jangka waktu moving\ average (banyak periode pengamatan)}.
\end{aligned}

Tutorial Single Moving Average

Selanjutnya kita akan mempelajari bagaimana cara menggunakan metode Single Moving Average (SMA) dengan bahasa pemrograman R. Pada tutorial ini, kita akan bekerja menggunakan data time series yang sudah disediakan. Kamu bisa mengunduh dataset tersebut di sini.

Install packages

Hal pertama yang harus kita lakukan adalah meng-install packages. Pada metode Single Moving Average kita memerlukan packages TTR dan readxl.

install.packages("TTR") 
install.packages("readxl") 

Package TTR digunakan untuk technical analysis pada data time series. Pada tutorial ini akan kita gunakan untuk metode Single Moving Average, sedangkan Package readxl digunakan untuk membaca file Excel (.xls dan .xlsx). Kemudian tahap selanjutnya kita panggil library tersebut sehingga packages yang telah kita install dapat digunakan.

Panggil Library

Pada tahap ini kita akan memanggil library dengan menggunakan fungsi library(). Sintaks yang kita gunakan yaitu sebagai berikut

library(readxl)
library(TTR)

Setelah memanggil library. Tahap selanjutnya adalah meng-input data

Input Data

Pada tahap ini kita akan memasukan data, melihat data kita, dan melihat dimensi data. Sintaks yang diperlukan yaitu sebagai berikut:

# Membaca sheet pertama
data <- read_excel("D:/Data Latihan SMA.xlsx")

# Melihat data
data

# Melihat dimensi data
dim(data)

Peng-input-an data pada tahap ini menggunakan fungsi read_excel(). Kemudian untuk melihat dimensi data digunakan fungsi dim(). Jika sintaks di atas kita jalankan, maka didapatkan hasil sebagai berikut:

Gambar : Tampilan Data
Gambar : Output Dimensi Data

Terdapat 2 output, yaitu berupa data dan dimensi. Pada output dimensi data didapatkan 11 dan 2. Hal ini menunjukan bahwa terdapat 11 baris dan 2 kolom pada data. Setelah meng-input, data tahap selanjutnya adalah melihat pola data terlebih dahulu. Jika pola data stabil, maka metode Single Moving Average bisa untuk digunakan.

Plot Data

Pada tahap ini kita akan mem-plot-kan data dengan menggunakan fungsi plot.ts(). Namun, sebelum itu kita akan mengubah tipe data menjadi data time series dengan menggunakan fungsi ts(). Sintaks yang kita perlukan sebagai berikut

data.ts<- ts(data$biaya_promosi, start = 1, end = 11)
plot.ts(data.ts, col = "blue", ylab = "Biaya Promosi", xlab = "Bulan")
title(main = "Plot Biaya Promosi per Bulan", 
      cex.sub = 0.8)
points(data.ts, pch = 20, col = "red")

Setelah kita jalankan sintaks di atas, maka kita akan mendapatkan plot seperti berikut

Dapat dilihat bahwa kita sudah mendapatkan plot data dengan Bulan sebagai sumbu x dan Biaya Promosi sebagai sumbu y. Kemudian dari plot ini lah kita melihat kestabilan data. Dapat dilihat dari plot tersebut bahwa data dalam keadaan stabil. Dengan demikian, kita dapat menerapkan metode SIngle Moving Average ke data. Langkah selanjutnya yang harus kita lakukan adalah menerapkan metode Single Moving Average ke data.

Single Moving Average

Pada tahap ini kita akan menerapkan metode Single Moving Average ke data. Pada tahap awal, kita harus menentukan jumlah orde terlebih dahulu. Orde pada Single Moving Average adalah jumlah periode data terakhir yang digunakan untuk menghitung nilai rata-ratanya. Pada Single Moving Average, biasanya kita mulai dari orde 3. Hal ini dikarenakan orde 3 merupakan ukuran yang paling sederhana namun cukup mampu menghaluskan fluktuasi. Dengan kata lain, kita akan menggunakan 3 data terakhir untuk setiap nilai Single Moving Average. Kita akan menggunakan fungsi SMA().

Single Moving Average Orde 3

Prediksi dengan Single Moving Average Orde 3
# SMA orde 3
pemulusan.sma3 <- SMA(data.ts, n = 3)
pemulusan.sma3

Dapat dilihat bahwa pada fungsi SMA kita perlu memasukan data dan nilai orde yang diinginkan. Pada kasus ini yaitu n=3. Dengan sintaks di atas kita mendapatkan output sebagai berikut:

Single Moving Average

Karena untuk menghitung Single Moving Average orde 3 maka kita membutuhkan 3 data pertama dulu. Jadi pada posisi pertama dan kedua belum ada nilai Single Moving Average yang bisa kita peroleh. Oleh karena itu, nilai pada posisi pertama dan kedua bernilai NA. Pada fungsi SMA() di R (dari package TTR), hasil moving average untuk periode ke-t ditulis pada posisi t, padahal secara konsep peramalan, nilai SMA untuk orde n adalah prediksi untuk periode berikutnya (t+1). Karena itu, jika ingin SMA digunakan sebagai ramalan untuk periode selanjutnya, maka hasilnya perlu digeser maju satu langkah (t+1).

Gabungkan Data Asli dengan Data Ramalan Orde 3

Dengan menggunakan sintaks dibawah ini kita akan mengubah menjadi hasil prediksi untuk periode berikutnya. Berikut ini sintaks yang kita perlukan

# Tambahkan sebagai baris baru
data_gabungan_3 <- data.frame(
  biaya_promosi = c(data$biaya_promosi,c(rep(NA, 1))),
  SMA3 = c(c(rep(NA, 1),pemulusan.sma3))
)
data_gabungan_3

Dapat dilihat bahwa, hasil dari SMA() sudah menjadi nilai prediksi untuk data selanjutnya. Kemudian, kita akan menghitung akurasi modelnya dengan menggunakan matrik akurasi MSE.

Hitung Akurasi Single Moving Average Orde 3

Perhitungan akurasi ini dilakukan secara manual, tidak menggunakan fungsi bawaan R.

MSE_SMA3 <- mean((data_gabungan_3$biaya_promosi[4:11] - data_gabungan_3$SMA3[4:11])^2)
MSE_SMA3

Dapat dilihat bahwa nilai MSE sebesar 93.59653. Nilai ini akan kita bandingkan dengan orde yang lain untuk melihat orde mana yang terbaik. Sebelum kita melakukan hal tersebut, kita akan mem-plot data asli dengan data prediksinya terlebih dahulu. Hal ini untuk melihat apakah pola data prediksi mengikuti pola data aslinya atau tidak.

Plot Data Asli dengan Data Prediksi Orde 3

# Plot data asli
plot(data_gabungan_3$biaya_promosi, type = "l", col = "blue", lwd = 2,
     xlab = "Bulan", ylab = "Biaya Promosi",
     main = "Plot Data Asli vs MA(3)")

# Tambahkan garis MA3
lines(data_gabungan_3$SMA3, col = "red", lwd = 2, lty = 2)

# Tambahkan legenda
legend("topleft", legend = c("Data Asli", "SMA(3)"),
       col = c("blue", "red"), lty = c(1, 2), lwd = 2)

Sintaks di atas digunakan untuk mem-plot-kan data asli dengan data prediksi. Setelah sintaks dijalankan maka didapatkan output sebagai berikut

Dapat dilihat bahwa hasil prediksi tidak terlalu mengikuti pola data asli dan orde 3 menghasilkan pemulusan yang tidak besar. Kemudian kita akan melakukan pemodelan dengan SMA orde 4. Dengan kata lain kita akan menggunakan 4 data terakhir untuk setiap nilai Single Moving Average .

Single Moving Average Orde 4

Prediksi dengan Single Moving Average Orde 4

# SMA orde 4
pemulusan.sma4 <- SMA(data.ts, n = 4)
pemulusan.sma4

Seperti sebelumnya kita akan memasukan data dan memasukan orde yang kita inginkan. Pada langkah ini kita akan memasukan n=4. Didapatkan hasil sebagai berikut:

Karena untuk menghitung Single Moving Average orde 4 kita membutuhkan 4 data pertama dulu, maka pada posisi pertama, kedua, dan ketiga belum ada nilai Single Moving Average yang bisa kita peroleh. Oleh karena itu, nilai pada posisi tersebut bernilai NA. Untuk tahap selanjutnya, sama seperti tahap sebelumnya kita akan mengubah hasil SMA sebagai hasil prediksi untuk periode selanjutnya,

Gabungkan Data Asli dengan Data Ramalan Orde 4

# Tambahkan sebagai baris baru
data_gabungan_4 <- data.frame(
  biaya_promosi = c(data$biaya_promosi,c(rep(NA, 1))),
  SMA4 = c(c(rep(NA, 1),pemulusan.sma4))
)
data_gabungan_4

Dari sintaks di atas kita dapatkan data frame sebagai berikut:

Di mana didapatkan bahwa nilai pada posisi pertama hingga keempat bernilai NA. Dapat dilihat bahwa hasil dari SMA() sudah menjadi nilai prediksi untuk data selanjutnya. Kemudian, kita akan menghitung akurasi modelnya dengan menggunakan matrik akurasi MSE. Sintaks yang diperlukan sebagai berikut:

Hitung Akurasi Single Moving Average Orde 4

MSE_SMA4 <- mean((data_gabungan_4$biaya_promosi[5:11] - data_gabungan_4$SMA4[5:11])^2)
MSE_SMA4

Dapat dilihat bahwa nilai MSE untuk SMA orde 4 lebih kecil dibandingkan SMA orde 3. Jadi dapat dikatakan bahwa SMA dengan orde 4 lebih baik dari pada SMA orde 3. Tahap selanjutnya adalah kita akan membandingkan data asli vs data ramalan dengan cara membuat plot data asli dengan data prediksinya.

Plot Data Asli dengan Data Prediksi Orde 4

# Plot data asli
plot(data_gabungan_4$biaya_promosi, type = "l", col = "blue", lwd = 2,
     xlab = "Bulan", ylab = "Biaya Promosi",
     main = "Plot Data Asli vs MA(4)")

# Tambahkan garis MA4
lines(data_gabungan_4$SMA4, col = "red", lwd = 2, lty = 2)

# Tambahkan legenda
legend("topleft", legend = c("Data Asli", "SMA(4)"),
       col = c("blue", "red"), lty = c(1, 2), lwd = 2)

Menggunakan sintaks di atas kita dapatkan plot sebagai berikut :

Dapat dilihat bahwa hasil prediksi menggunakan Single Moving Average (SMA) orde 4 tampak lebih mulus dibandingkan dengan hasil pada SMA orde 3. Hal ini terjadi karena semakin besar orde moving average yang digunakan, semakin banyak data historis yang dirata-ratakan. Ketika jumlah periode yang dirata-ratakan bertambah, fluktuasi jangka pendek pada data akan semakin “diredam” sehingga garis hasil pemulusannya tampak lebih halus.

Dengan kata lain, SMA orde 4 memberikan tingkat smoothing yang lebih tinggi karena setiap titik prediksi atau nilai pemulusan mempertimbangkan empat data terakhir. Sementara pada orde 3 hanya tiga data yang dilibatkan, sehingga hasilnya sedikit lebih responsif terhadap perubahan mendadak dalam data.

Namun, perlu diperhatikan juga bahwa peningkatan orde tidak selalu lebih baik. Jika orde terlalu besar, model bisa menjadi terlalu lambat merespons perubahan tren, sehingga pola data terbaru kurang tercermin dalam prediksi. Jadi, pemilihan orde harus mempertimbangkan tujuan analisis: apakah ingin garis lebih halus atau ingin respons yang lebih cepat terhadap perubahan data.

Dengan melihat hasil grafik, terlihat bahwa SMA orde 4 memberi visualisasi yang lebih stabil dan lebih mudah ditangkap secara pola umum, sehingga cocok digunakan untuk mempelajari tren jangka panjang.

Langkah-langkah di atas adalah jika kita mengacu pada konsep dasar dalam penentuan orde pada metode Single Moving Average (SMA). Dimana, proses pemilihan orde biasanya dilakukan melalui pendekatan trial and error (coba-coba). Artinya, analis mencoba beberapa nilai orde. Misalnya 3, 4, 5, dan seterusnya. Kemudian membandingkan hasil pemulusan atau akurasi prediksi untuk menentukan orde mana yang paling sesuai dengan pola data.

Namun, ketika menggunakan fungsi SMA() pada package TTR di R, sebenarnya tersedia fleksibilitas tambahan. Kita dapat mengosongkan parameter orde, sehingga fungsi tersebut secara otomatis akan menghitung dan menentukan orde yang dianggap paling optimal untuk data yang kita miliki. Dengan demikian, pemilihan orde tidak lagi dilakukan secara manual, melainkan langsung dihitung berdasarkan algoritma internal fungsi tersebut.

Pendekatan otomatis ini tentu memberikan beberapa keuntungan. Pertama, prosesnya lebih efisien, karena kita tidak perlu menguji banyak nilai orde satu per satu. Kedua, pemilihan orde yang dilakukan oleh sistem dapat menghasilkan model pemulusan yang lebih stabil dan lebih akurat, karena orde terpilih benar-benar mempertimbangkan karakteristik statistik dari data yang dianalisis. Ketiga, hasil prediksi yang dihasilkan oleh SMA dengan orde otomatis cenderung lebih optimal dalam hal kinerja, sehingga cocok digunakan terutama ketika kita bekerja dengan data yang kompleks atau jumlah observasi yang cukup besar.

Dengan kata lain, meskipun pendekatan manual melalui trial and error tetap valid dan sering digunakan dalam pembelajaran konsep, penggunaan fitur otomatis pada fungsi SMA() dapat menjadi alternatif yang lebih praktis dan efektif dalam aplikasi nyata, terutama ketika tujuan utama adalah memperoleh hasil ramalan yang akurat.

Referensi

Hayuningtyas, R. Y., & Sari, R. (2021). Aplikasi Peramalan Alat Kesehatan Menggunakan Single Moving AverageJurnal Infortech3(1), 40-45

GeeksforGeeks. (2025). Moving Averages in R. Diakses dari https://www.geeksforgeeks.org/r-machine-learning/moving-averages-in-r/

Utami, H. (n.d.). Modul Praktikum Metode Peramalan. Yogyakarta: Universitas Gadjah Mada.

Sampai di sini dulu penjelasan terkait Single Moving Average: Tutorial dengan R. Apabila sobat Exsight masih ada yang dibingungkan terkait pembahasan pada artikel ini, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. See you in the next article yaa!

Single Moving Average: Tutorial dengan R Read More »

Kaggle

Kaggle : Tutorial Mudah untuk Pemula

Hai hai sobat Exsight! 👋Kalau kamu tertarik belajar data science atau machine learning, pasti sering dengar nama Kaggle. Nah, Kaggle ini bisa dibilang rumah besar bagi para pecinta data. Di sana kita bisa menemukan ribuan dataset gratis, ikut kompetisi seru, belajar dari kode orang lain, bahkan berdiskusi langsung dengan komunitas global. Jadi, buat kamu yang baru mulai, Kaggle adalah tempat yang pas banget untuk latihan sekaligus mengasah kemampuan.

Lewat tutorial ini, kita bakal bahas hal-hal dasar yang sering bikin bingung pemula. Mulai dari cara bikin akun, biar kamu bisa langsung gabung dan menjelajah. Setelah itu, kita kenalan dengan dashboard. Selain itu, kita juga bakal belajar cara bikin file R di Kaggle. Jadi, kamu nggak perlu ribet instal macam-macam di laptop. Tinggal buka Kaggle, bikin notebook, pilih bahasa R, dan langsung bisa mulai analisis data. Seru kan? Supaya makin lengkap, kita juga bahas cara input data ke dalam notebook. Dengan begitu, kamu bisa langsung praktek mengolah dataset pilihanmu. Yuk nggak usah lama lagi kita bahas secara bertahap!

Kaggle

Kaggle adalah sebuah platform online yang dirancang khusus untuk siapa saja yang ingin belajar dan berlatih di bidang data science maupun machine learning. Platform ini pertama kali hadir pada tahun 2010, kemudian diakuisisi oleh Google pada tahun 2017, sehingga sekarang sudah terhubung langsung dengan layanan Google Cloud. Jadi, bisa dibilang Kaggle adalah tempat yang sangat lengkap untuk belajar, praktik, dan berkolaborasi dalam dunia analisis data.

Salah satu hal yang paling menarik dari Kaggle adalah adanya kompetisi data science. Di sini banyak perusahaan atau lembaga internasional yang memberikan tantangan nyata, misalnya membuat model prediksi kesehatan, klasifikasi gambar, analisis teks, hingga deteksi penipuan transaksi. Hasil dari model yang kita buat akan dibandingkan dengan peserta lain melalui leaderboard, sehingga kita bisa tahu sejauh mana kemampuan kita.

Selain kompetisi, Kaggle juga menyediakan lebih dari 50 ribu dataset publik yang bisa diakses secara gratis. Dataset ini bisa digunakan untuk latihan, penelitian, maupun eksplorasi data. Jadi kalau teman-teman bingung mencari data untuk belajar, Kaggle adalah tempat yang tepat.

Kaggle juga memiliki fitur Notebook, yaitu ruang kerja berbasis cloud yang memungkinkan kita menulis kode, menjalankan analisis, menampilkan hasil, hingga membuat catatan, semuanya dalam satu tempat. Notebook mendukung bahasa Python dan R, dengan library penting yang sudah otomatis tersedia, jadi tidak perlu lagi repot menginstal secara manual.

Tidak hanya itu, Kaggle juga punya forum diskusi bernama Discuss, di mana kita bisa bertanya, berbagi pengalaman, atau berdiskusi dengan komunitas data scientist dari seluruh dunia. Untuk teman-teman yang baru mulai belajar, ada juga Courses yang berisi kursus singkat gratis dengan topik seperti Python, machine learning, dan deep learning. Kursus ini bisa langsung dipraktikkan lewat Notebook, dan setelah selesai kita bisa mendapatkan sertifikat.

Dengan semua fitur ini, Kaggle bisa dianggap sebagai “paket lengkap” bagi siapa saja yang ingin belajar data science. Ada kompetisi untuk mengasah kemampuan, dataset untuk eksplorasi, Notebook untuk praktik, forum untuk berdiskusi, serta kursus gratis untuk belajar terstruktur. Jadi, baik pemula maupun yang sudah berpengalaman, semuanya bisa mendapatkan manfaat dari Kaggle.

Pendaftaran Akun Kaggle

Sebelum bisa menikmati semua fasilitas yang ada di Kaggle, kita perlu terlebih dahulu membuat akun resmi di platform tersebut. Proses pendaftarannya sebenarnya cukup sederhana, hanya saja tetap ada beberapa langkah yang perlu diikuti agar berjalan lancar. lLangkah-langkah yang perlu dilakukan sebagai berikut:

Langkah 1: Akses Laman Resmi Kaggle

Tahap pertama yang perlu kamu lakukan untuk membuat akun di Kaggle adalah membuka laman resminya di https://www.kaggle.com. Setelah halaman berhasil terbuka, kamu akan langsung melihat tampilan beranda Kaggle.

Langkah 2: Registrasi Akun Kaggle

Kalau kamu belum punya akun Kaggle, langkah selanjutnya adalah melakukan registrasi. Dari halaman utama, klik tombol Register, lalu pilih metode pendaftaran yang kamu mau: bisa pakai email atau langsung lewat akun Google. Supaya lebih praktis dan cepat, sebaiknya pilih Register with Google, karena kamu tidak perlu lagi repot verifikasi manual lewat email.

Langkah 3: Memilih Opsi Register with Google

Setelah kamu menekan tombol Register, akan muncul beberapa pilihan cara untuk mendaftar. Nah, pada tahap ini sebaiknya pilih opsi Register with Google hingga mendapatkan tampilan sebagai berikut :

Kalau semua proses registrasi sudah selesai, berarti akun kamu sekarang sudah aktif dan siap digunakan. Dari sini, kamu bisa langsung mulai mencoba berbagai fitur, entah itu untuk eksplorasi data, belajar lewat kursus gratis, atau bahkan ikut kompetisi data science. Semua fasilitasnya bisa langsung kamu akses kapan saja.

Pengenalan Ruang Lingkup Dashboard Kaggle

Setelah kamu berhasil membuat akun, langkah berikutnya adalah mengenal dulu dashboard.

Layer Profil

Di dalam dashboard Kaggle, ada beberapa menu penting yang perlu kamu kenali. Pertama, ada Your Work, yang berisi semua aktivitas dan karya yang pernah kamu buat di Kaggle, seperti notebook, dataset, maupun script. Bagian ini bisa dibilang sebagai tempat mengelola sekaligus menampilkan hasil kerja atau proyek data science kamu.

Lalu ada Your Profile, yaitu halaman profil publik yang menampilkan identitasmu di komunitas Kaggle. Di sini bisa terlihat nama, foto, bio singkat, keahlian, kompetisi yang pernah diikuti, ranking, hingga kontribusi lain. Profil ini berfungsi sebagai portofolio supaya orang lain bisa melihat reputasi dan pencapaianmu.

Berikutnya, ada Your Groups, yang berisi daftar grup atau tim yang kamu ikuti di Kaggle. Fitur ini sangat berguna untuk kolaborasi, terutama kalau kamu ikut kompetisi data science bersama tim. Dengan begitu, kamu bisa kerja bareng dan berbagi tugas dengan lebih terorganisir.

Kemudian, ada menu Settings untuk mengatur akun. Di sini kamu bisa mengganti email, password, mengatur notifikasi, mengelola API Token, menghubungkan akun GitHub, hingga menyesuaikan privasi. Intinya, bagian ini berguna agar akun Kaggle kamu bisa dikustomisasi sesuai kebutuhan.

Selain itu, ada juga tombol Sign Out yang fungsinya tentu saja untuk keluar dari akun. Kalau kamu selesai menggunakan Kaggle di perangkat bersama, tombol ini penting agar akunmu tetap aman.

Fitur lain yang tak kalah penting adalah Your Accelerator Quota. Bagian ini menampilkan jatah penggunaan GPU/TPU yang kamu punya untuk menjalankan notebook di Kaggle. Dengan begitu, kamu bisa memantau sisa quota sebelum melakukan eksperimen besar dengan model machine learning.

Terakhir, ada Your Notifications, yaitu tempat semua notifikasi dari Kaggle muncul. Misalnya, ada komentar di notebook kamu, update terbaru dari kompetisi, atau undangan untuk bergabung ke sebuah grup. Notifikasi ini membantu kamu tetap terhubung dengan komunitas dan tidak ketinggalan informasi penting.

Layer News Feed

News Feed yang memuat berbagai informasi terbaru dari dunia data science dan machine learning. Di sini kamu bisa menemukan update tentang kompetisi yang sedang berlangsung, rilis dataset terbaru, hingga postingan komunitas. Bagian ini berguna banget untuk menjaga kamu tetap up-to-date dengan tren, berita, maupun sumber daya baru.

Layer Menu Dashboard

Pada menu Home, pengguna akan menemukan informasi umum yang ditampilkan di halaman dashboard. Menu Competitions berisi berbagai kompetisi yang berhubungan dengan data mining. Bagian Data menyediakan kumpulan dataset yang bisa digunakan untuk latihan maupun analisis. Menu Code menjadi ruang kerja interaktif untuk melakukan analisis data menggunakan Python maupun R. Sementara itu, Discussions menghadirkan forum diskusi tempat para pengguna Kaggle dari seluruh dunia saling bertukar ide dan informasi dalam berbagai topik. Di menu Learn, tersedia materi pelatihan atau kursus yang ditawarkan.

Akses R Programming di Kaggle

Hal yang perlu dilakukan jika ingin mengakses R programming di Kaggle yaitu sebagai berikut

Langkah 1 : Klik <> Code

Untuk mulai menggunakan R Programming di Kaggle, langkah pertama yang perlu kamu lakukan adalah klik menu Code pada dashboard.

Hingga muncul tampilan seperti ini.

Your Works memuat informasi aktifitas analisis dan sebagainya yang sudah pernah dibuat atau dikerjakan. Kemudian untuk membuat file R yang baru, klik tombol New Notebook

Langkah 2 : Klik New Notebook

Kita harus mengklik New Notebook untuk membuat file R baru.

Sehingga didapatkan tampilan sebagai berikut.

Langkah 3 : Atur Bahasa Pemrograman

Sekarang kita saatnya mengganti bahasa pemrograman ke R dengan cara sebagai berikut

  1. Klik menu File di bagian atas notebook.
  2. Pilih opsi Language.
  3. Lalu klik R sebagai bahasa pemrograman yang ingin kamu gunakan.

Hingga muncul tampilan berikut.

Langkah 4 : Atur Tipe Editor

Kemudian kita akan menyesuaikan tipe editor di Kaggle, bisa juga mengatur tipe editor yang dipakai. Caranya:

  1. Klik menu File di bagian atas notebook.
  2. Pilih Editor Type.
  3. Lalu tentukan antara 2 tipe yaitu Notebook atau Scripts. Tipe editor Notebook dipakai untuk melakukan eksplorasi data secara interaktif. Dalam satu halaman, pengguna dapat menampilkan output, menambahkan komentar, sekaligus menuliskan source code. Kemudian kalau Scripts digunakan khusus untuk eksplorasi model atau pengiriman hasil pada kompetisi data mining dan sejenisnya. Script dapat ditinjau kembali serta dibuat laporan dalam bentuk RMarkdown. Saat ini kita akan memilih Notebook (lebih interaktif, cocok untuk eksplorasi data dan visualisasi) atau tipe lain sesuai kebutuhanmu.

Setelah memilih kita akan ditunjukkan tampilan halaman Console R Programming sebagai berikut.

Kaggle

Setelah itu kita dapat menggunakan R. Kita bisa menambah console script dengan mengklik + (add cell)

Hingga muncul tampilan sebagai berikut.

Import Dataset ke dalam Kaggle

Untuk melakukan analisis data kita harus menginput data terlebih dahulu. Berikut langkah – langkah nya.

Langkah 1 : Klik Add Input

Kita akan mengklik Add Input untuk tahap pertama.

Langkah 2 : Klik New Dataset

Kemudian langkah kedua yang harus kita lakukan adalah mengklik New Dataset

Langkah 3 : Klik Browser Files

Langkah ketiga yang akan kita lakukan yaitu mengklik Browser Files

Langkah 4 : Klik Open

Kemudian langkah keempat kita akan memilih file yang akan kita upload lalu mengklik Open agar data terupload

Langkah 5 : Isi Kolom DATASET TITLE

Lalu kita harus mengisi kolom DATASET TITLE dengan nama yang kita inginkan hingga muncul tulisan tautan dibawahnya, lalu klik Create.

Tunggu proses nya selesai hingga muncul tampilan seperti ini.

Pastikan lagi bahwa pada bagian DATASETS sudah muncul data yang kita upload tadi

Tahap selesai, data sudah dapat digunakan !!

Referensi

Coursera Staff. (2025, 2 Juli). What is Kaggle and what is it used for? Coursera. Diakses dari https://www.coursera.org/articles/kaggle

Tb, A. M. (2023). Data mining menggunakan R: Teori dan praktik. Serang: PT. Bale Damar Publishing. Diakses dari https://share.google/kbna2BBtBQaLEKF6D

Sampai di sini dulu penjelasan terkait Kaggle : Tutorial Mudah untuk Pemula. Apabila sobat Exsight masih ada yang dibingungkan terkait pembahasan pada artikel ini, bisa langsung saja ramaikan kolom komentar atau hubungi admin melalui tombol bantuan di kanan bawah. Stay tuned di website https://exsight.id/blog/ agar tidak ketinggalan artikel-artikel menarik lainnya. See you in the next article yaa!

Kaggle : Tutorial Mudah untuk Pemula Read More »

Tutorial Grafik np: Pengendalian Atribut

Halo sobat Exsight! Sebelumnya kita telah mempelajari “Tutorial Grafik P: Pengendalian Atribut” kali ini kita akan mempelajari grafik pengendali atribut np.

Alat Statistical Process Control (SPC) yang satu ini memiliki karakteristik yang sama dengan grafik p. Namun, penerapannya berbeda. Perbedaannya adalah pada grafik np, yang dibahas dan diplot adalah banyaknya sampel ketidaksesuaian, sedangkan pada grafik p, yang dibahas dan diplot adalah proporsi ketidaksesuaian.

Untuk mengenal lebih lanjut, mari kita sama-sama mempelajari konsep dasarnya serta penerapannya di berbagai bidang. Tidak hanya itu, pada artikel ini kita juga akan mempelajari tutorial grafik np dengan menggunakan aplikasi R.

Konsep Dasar Grafik np

Grafik np

Grafik np adalah grafik yang digunakan untuk mengendalikan banyaknya ketidaksesuaian produk dari suatu proses produksi.

Misal nih suatu produksi sebanyak mengamatan atau dapat kita sebut sebagai subgrup, dimana setiap pengamatan ke-k memiliki ukuran sampel yang berbeda sebanyak n

grafik np
Ilustrasi data untuk grafik np

Untuk banyaknya ketidaksesuaian pengamatan ke-k dapat dirumuskan sebagai berikut:

D_k = \sum_{i=1}^{n} X_{ik}
\begin{aligned}
&\text{dimana} \\
&i = 1, 2, \dots, n \quad \text{(unit sampel ke-} i \text{ pada satu pengamatan)}, \\
&k = 1, 2, \dots, m \quad \text{(pengamatan ke-} k\text{)}. \\[10pt]

&\text{sehingga} \\
&X_{ik} \quad \text{menunjukkan unit sampel ke-} i \text{ pada pengamatan ke-} k. \\
&\text{Status } X_{ik} \text{ memenuhi dua kemungkinan hasil:} \\
&\quad X_{ik} = 1, \quad \text{jika unit tidak sesuai}, \\
&\quad X_{ik} = 0, \quad \text{jika unit sesuai}. \\[10pt]
\end{aligned}

Ketika kita membahas peluang ketidaksesuaian (dinyatakan dengan p), maka dapat dikatakan bahwa unit sampel ke-i pada pengamatan ke-k berdistribusi Bernoulli dengan parameter p menunjukkan peluang terjadinya ketidaksesuaian. Dengan nilai rata-rata (μ) dan variansi (σ²) dapat dinyatakan sebagai berikut:

\mu = p\\ \sigma^2 = p(1 - p)

Selanjutnya, banyaknya ketidaksesuaian pada pengamatan ke-k (D) dapat dianggap sebagai hasil dari beberapa ulangan kejadian Bernoulli, sehingga D dapat dikatakan berdistribusi Binomial dengan parameter n dan p. Dengan demikian, nilai rata-rata (μ) dan variansi (σ²) dapat dinyatakan sebagai berikut:

\mu = np \\
\sigma^2 = np(1 - p)

Untuk memperoleh model grafik kendali dengan nilai rata-rata dan variansi yang diketahui, kita dapat merujuk pada grafik kendali Shewhart. Batas kendali grafik kendali Shewhart dihitung sebagai berikut:

\text{Upper Control Limit (UCL):} \quad UCL = \mu + k \cdot w\\
\text{Center Line (CL):} \quad CL =  \mu \\
\text{Lower Control Limit (LCL):} \quad LCL = \mu - k \cdot w

Di mana w adalah statistik sampel yang mengukur karakteristik kualitas.

Karena karakteristik kualitas yang dianalisis berupa atribut dan berdistribusi Binomial, maka statistik sampel yang digunakan untuk mengukur karakteristik kualitas dinyatakan dengan D, yaitu jumlah ketidaksesuaian. Nilai k diambil dari luas di bawah kurva distribusi Normal. Dalam hal ini, penulis memilih k=3 untuk memenuhi standar internasional, yang berarti data berada dalam rentang kepercayaan 99,73%. Artinya, dari 10.000 data, maksimal 27 data diharapkan berada di atas UCL atau di bawah LCL.

Jika dalam suatu produksi proporsi ketidaksesuaian (p) diketahui dan setiap pengamatan memiliki ukuran sampel (n) yang sama, maka dari persamaan batas kendali grafik kendali Shewhart dapat diperoleh sebagai berikut:

UCL = np + 3\sqrt{np(1 - p)}\\
CL = np\\
LCL = np - 3\sqrt{np(1 - p)}

Jika proporsi ketidaksesuaian p tidak diketahui, maka p harus ditaksir dari data observasi. Prosedur yang biasa dilakukan adalah memilih m pengamatan (subgrup) pendahuluan, masing-masing berukuran n. Sebagai aturan umum, m biasanya dipilih antara 20 sampai 25 subgrup. Maka jika ada Dk unit sampel ketidaksesuaian dalam pengamatan ke-k, kita dapat hitung proporsi ketidaksesuaian dalam pengamatan ke-k itu sebagai berikut:

p_k = \frac{D_k}{n}

dan rata-rata proporsi ketidaksesuaian dari seluruh pengamatan tersebut adalah

\overline{p} = \frac{\sum_{j=1}^{m} D_j}{mn}=\frac{\sum_{j=1}^{m} p_j}{m}

Rata-rata proporsi ketidaksesuaian ini nantinya digunakan untuk menaksir proporsi ketidaksesuaian p yang tidak diketahui. Penaksiran data dengan memilih m pengamatan (subgrup) pendahuluan maka akan membuat estimasi lebih stabil dan tidak terpengaruh oleh variasi dari satu pengamatan saja. Jika hanya menggunakan satu kelompok data berukuran n, hasil estimasi bisa sangat bervariasi

Selanjutnya, berdasarkan rata-rata proporsi ketidaksesuaian dari seluruh pengamatan tersebut​, kita dapat menentukan grafik kendali np dengan rumus sebagai berikut:

UCL = n \overline{p} + 3\sqrt{n \overline{p}(1 - \overline{p})} \\
CL = n \overline{p}\\
LCL = n \overline{p} - 3\sqrt{n \overline{p}(1 - \overline{p})}

Grafik np juga memerlukan standardisasi agar mudah diinterpretasi. Dengan melakukan standardisasi, kita dapat mengubah nilai jumlah ketidaksesuaian menjadi nilai yang lebih umum dan mudah dipahami. Hal ini memudahkan dalam menganalisis data dan membuat keputusan yang tepat. Oleh karena itu, grafik np berfungsi sebagai alat yang penting dalam pengendalian kualitas untuk memastikan bahwa proses produksi tetap sesuai dengan standar yang ditetapkan, sekaligus memudahkan dalam memahami dan menginterpretasikan hasil analisis.

Pada pembahasan selanjutnya kita akan membahas mengenai tutorial membuat grafik np dengan R menggunakan studi kasus. Jadi perhatikan dengan seksama ya !

Tutorial Membuat Grafik np dengan R

Studi Kasus: Pengendalian Kualitas Produksi di Pabrik Widget

Di sebuah pabrik widget yang terletak di pinggiran kota, manajer kualitas, Bapak Indra, bertanggung jawab untuk memastikan bahwa setiap produk yang dihasilkan memenuhi standar kualitas yang sangat ketat. Pabrik tersebut memiliki reputasi yang sangat baik di pasar, dan setiap pelanggan mengharapkan produk yang sempurna. Untuk menjaga standar kualitas, Bapak Indra dan timnya selalu melakukan pemeriksaan ketat terhadap setiap batch produk yang diproduksi.

Namun, meskipun sudah ada sistem pengendalian kualitas yang baik, Bapak Indra merasa perlu untuk memantau kualitas produk secara lebih sistematis dan lebih terstruktur. Dia ingin memastikan bahwa tidak ada perubahan yang signifikan dalam tingkat kecacatan produk dari waktu ke waktu. Oleh karena itu, setelah melakukan riset dan diskusi dengan tim, ia memutuskan untuk mengimplementasikan grafik np sebagai alat pemantauan kualitas yang lebih efektif.

Grafik np adalah jenis grafik kontrol yang digunakan untuk memantau jumlah unit yang tidak memenuhi standar dalam sampel yang diambil dari setiap batch produksi. Grafik ini sangat cocok digunakan di pabrik tempat Bapak Indra bekerja, karena ukuran sampel dapat bervariasi dari satu batch ke batch lainnya, dan grafik np memungkinkan manajer kualitas untuk tetap memantau perubahan jumlah ketidaksesuaian yang terjadi.

Bapak Indra lalu menetapkan prosedur pengumpulan data dari setiap batch produksi. Setiap kali sebuah batch selesai diproduksi, tim kualitas akan mengambil sampel acak dari batch tersebut dan mencatat berapa banyak produk yang tidak memenuhi standar kualitas yang ditetapkan. Mereka kemudian akan mencatat ukuran sampel dan jumlah unit yang tidak memenuhi standar pada lembar pengamatan untuk dianalisis lebih lanjut.

Pada suatu hari, Bapak Indra menerima laporan terbaru dari tim kualitas yang berisi data dari sepuluh batch produk yang baru saja diproduksi. Berikut adalah data yang dikumpulkan selama pengamatan:

BatchUkuran Sampel (n)Jumlah Cacat (D)
11005
21203
3801
41504
5902
61100
71306
8702
91403
101605

Dengan data tersebut, Bapak Indra memutuskan untuk membuat grafik np guna memantau kualitas produksi. Tujuannya adalah untuk melihat apakah ada pola yang tidak biasa dalam jumlah unit yang tidak memenuhi standar dan menentukan apakah proses produksi sedang berjalan sesuai harapan atau perlu dilakukan perbaikan. Berikut ini tahapan yang harus dilakukan oleh Bapak Indra:

Tutorial: Membuat Grafik np di R dengan Paket qcc

Berikut adalah langkah-langkah untuk membuat grafik np menggunakan R dan paket qcc:

1. Menginstal dan Memuat Paket

Pastikan Anda telah menginstal paket qqc. Jika belum, Anda bisa menginstalnya dengan perintah berikut:

install.packages("qcc")  # Instal jika belum ada
library(qcc)

2. Mengumpulkan Data

Kita akan memasukkan data ke dalam R. Data yang dimasukkan adalah ukuran sampel dan jumlah cacat per batch.

# Membuat data
batch <- 1:10
ukuran_sampel <- c(100, 120, 80, 150, 90, 110, 130, 70, 140, 160)
jumlah_cacat <- c(5, 3, 1, 4, 2, 0, 6, 2, 3, 5)

data <- data.frame(batch, ukuran_sampel, jumlah_cacat)

data

Maka didapatkan output sebagai berikut:

grafik np

3. Menghitung Proporsi Cacat

Pada tahap ketiga kita akan menghitung proporsi cacat dari setiap batch dan menyiapkan data untuk grafik np.

# Menghitung proporsi cacat
data$proporsi_cacat <- data$jumlah_cacat / data$ukuran_sampel

jika kita menampilkan datanya lagi setelah kita menghitung proporsi cacat maka didapatkan sebagai berikut:

data
grafik np

Dapat dilihat bahwa proporsi cacat yang dihitung dimasukkan ke tabel data awal. Kemudian tahap selanjutnya menyiapkan data untuk grafik np sebagai berikut:

# Menyiapkan data untuk grafik np
np_data <- data.frame(batch = data$batch, defects = data$jumlah_cacat, size = data$ukuran_sampel)np_data
grafik np

4. Membuat Grafik np

Tahap keempat kita akan membuat grafik np menggunakan fungsi qqc() dari paket qqc.

# Membuat grafik np
qcc(np_data$defects, sizes = np_data$size, type = "np", title = "Grafik Kendali np untuk Produksi Widget", xlab = "Batch", ylab = "Jumlah Cacat")
grafik np

5. Interpretasi Hasil

Grafik kendali np di atas digunakan untuk memantau jumlah cacat dalam proses produksi widget dari 10 batch. Grafik ini menampilkan garis tengah (CL) sebagai rata-rata jumlah cacat per batch, serta batas kendali atas (UCL) dan batas kendali bawah (LCL) untuk memastikan apakah proses berjalan sesuai rencana. Nilai CL dan UCL terlihat berubah-ubah karena jumlah cacat aktual dalam data bersifat variabel, sehingga grafik secara otomatis menyesuaikan rata-rata dan batas kendali berdasarkan distribusi cacat di setiap batch. Hal ini menunjukkan bahwa grafik np dirancang adaptif terhadap perubahan pola cacat yang terjadi. Sementara itu, LCL tetap berada di angka 0 karena tidak mungkin ada jumlah cacat negatif.

Dari hasil analisis, semua titik data berada di antara UCL dan LCL. Tidak ada yang melanggar batas atas atau bawah (Number beyond limits = 0), dan tidak ada pola aneh yang muncul (Number violating runs = 0). Hal Ini menunjukkan bahwa variasi jumlah cacat masih berada dalam batas kendali yang wajar. Dapat dilihat juga bahwa cacat paling sedikit tercatat pada batch ke-6, yaitu sebanyak 0 cacat, sedangkan cacat paling banyak terjadi pada batch ke-7 dengan jumlah 6 cacat.

Kesimpulannya, produksi widget ini berada dalam kendali statistik. Tidak ada tanda-tanda kekacauan atau masalah besar, jadi prosesnya bisa dikatakan stabil dan konsisten. Namun, meskipun proses dinyatakan stabil, tetap penting untuk melakukan pemantauan rutin agar kestabilan tetap terjaga. Selain itu, langkah perbaikan berkelanjutan juga diperlukan, misalnya dengan menganalisis penyebab cacat pada batch tertentu dan mencari cara untuk menguranginya. Dengan cara ini, proses produksi tidak hanya stabil, tetapi juga bisa terus ditingkatkan untuk mencapai kualitas yang lebih baik.

Referensi

Nurkotimah, Y. (2012). Analisis grafik kendali np yang distandarisasi untuk pengendalian kualitas dalam proses pendek (Skripsi, Universitas Islam Negeri Maulana Malik Ibrahim).

R Core Team. (2023). qcc: Quality Control Charts. Diakses pada 28 November 2024, dari https://cran.r-project.org/web/packages/qcc/index.html

Demikian penjelasan mengenai Tutorial Grafik np: Pengendalian Atribut. Jika masih ada hal-hal yang membingungkan, jangan ragu untuk menuliskannya di kolom komentar atau menghubungi admin melalui tombol bantuan di kanan bawah. Jangan lupa untuk terus mengikuti website kami di exsight.id/blog agar tidak ketinggalan artikel-artikel menarik lainnya!

Tutorial Grafik np: Pengendalian Atribut Read More »