Memilih Tools yang Tepat dari 2 Tools Populer Data Science: R vs Python

DW ADS
memilih tools data science
Data Science | Pexels

Saat ini tools data science semakin luas dan beragam serta memiliki kelebihan dan kekurangannya masing-masing. Memilih tools yang tepat harus disesuaikan dengan karakteristik tools yang dipakai berdasarkan tujuan pemakaiannya.

Beberapa Tools Data Science Populer

Seiring dengan melesatnya perkembangan teknologi saat ini, data science menjadi salah satu bidang yang paling banyak ditekuni untuk berkarir. Selain karena banyaknya demand dari berbagai industri, menjadi data scientist memungkinkan seseorang bisa terus mengembangkan skill seiring semakin kompleksnya data yang ditangani saat ini. Karena peminat yang tinggi itu, tidak heran jika saat ini banyak ditemukan para data scientist yang berasal dari berbagai bidang bahkan yang tidak secara langsung terkait dengan data science.

Data scientist bertanggung jawab dalam penanganan data mulai dari tahap pengumpulan, ekstraksi, manipulasi, pemrosesan, analisis, hingga prediksi. Mempelajari data science tidak selalu sulit apalagi di jaman serba digital seperti saat ini. Kini, data science bisa dipelajari secara otodidak atau bisa melalui berbagai sumber di internet dan beragam course.

Terdapat beragam tools yang bisa dipakai seorang data scientist untuk memproses dan menganalisis data, seperti Python, R, SAS, Hadoop, TensorFlow, Tableau, dan lain sebagainya. Semakin populer sebuah tools, maka sumber belajar yang tersedia semakin melimpah dan semakin banyak pembahasan terkait penggunaan tools tersebut yang tersedia di berbagai forum diskusi.

Dalam artikel ini, akan dibahas dua tools yang cukup umum dipakai untuk melakukan analisis data, yaitu R dan Python. Dua-duanya merupakan tools yang sangat populer dan merupakan tools berbasis open source, artinya dapat digunakan dan dikembangkan secara bebas tanpa biaya.

Sekilas Tentang R

Bahasa R, R Studio, R Languange, kelebihan dan kekurangan R
Bahasa R | Google

R adalah sebuah bahasa pemrograman gratis yang dikembangkan oleh R Core Team, pertama kali dipublikasikan pada tahun 1993 dan mulanya berasal dari bahasa pemrograman S. Bahasa R dapat dioperasikan di berbagai platform berbasis UNIX, Windows, dan MacOS. Karena secara khusus dibuat untuk melakukan komputasi statistik dan grafik, maka dalam package bawaan R sudah menyediakan berbagai macam teknik analisis statistik secara lengkap seperti pemodelan linier, berbagai pengujian statistik, clustering dan klasifikasi, hingga visualisasi data yang lengkap.

Ketika ingin menggunakan R, maka terdapat dua software yang harus secara bersama-sama di-install, yaitu R dan R Studio. R Studio adalan versi IDE (Integrated Development Environment) dari R, dan baik R maupun R Studio dapat digunakan secara sendiri maupun bersama-sama, walaupun keduanya tetap harus ter-install. Untuk lebih jelasnya dapat mengikuti tutorial penginstalan R dan R Studio di sini (Windows).

Selain dengan software bawaannya, R dapat dioperasikan melalui beberapa IDE lain seperti R Visual Studio, NVim-R, dan r4intelliJ.

Sekilas Tentang Python

Bahasa Python, Python Languange
Bahasa Python | Pexels

Python dibuat oleh seorang programmer Belanda, Guido van Rossum dan dirilis pada 1991 dan merupakan bahasa pemrograman berorientasi objek. Python merupakan penerus bahasa ABC. Python didesain lebih general dan tidak secara khusus diperuntukkan melakukan komputasi statistik, sehingga dibutuhkan package-package tambahan seperti Matplotlib, Numpy, Scipy, Pandas, dan lain-lain. Bahasa pemrograman Python cukup mudah di pahami, hal ini menjadikannya sebagai bahasa pemrograman paling populer digunakan.

Kepopuleran Python memengaruhi banyak bahasa pemrograman lain seperti Cobra, Go (bahasa pemrograman buatan Google), dan Swift (bahasa pemrograman yang dibuat Apple untuk mengembangkan iOS dan OS X). Seperti R, Python merupakan sebuah bahasa pemrograman open source dan bebas digunakan dan dikembangkan oleh siapa saja.

Python dapat dijalankan di berbagai OS seperti Linux, Windows, dan MacOS. Selain dapat dijalankan melalui shell/terminal, bahasa pemrograman ini dapat dioperasikan melalui berbagai IDE seperti Visual Studio Code, Jupyter Notebook, Vim, Spyder, Google Colab, dan lain-lain.

Adapun cara install Python dan Jupyter Notebook di Windows dapat dengan melihat tutorial di link ini

Kelebihan dan Kekurangan

Masing-masing baik R dan Python memiliki kelebihan dan kekurangan.

Bahasa R

Kelebihan bahasa R dibandingkan bahasa pemrograman lain adalah:

  • Open source, gratis download dan penggunaan
  • Dapat dioperasikan di berbagai sistem operasi, baik UNIX, Windows, dan Mac
  • Dapat menangani data yang messy dan kompleks dengan mudah menggunakan package dplyr dan readr
  • Tersedia package dasar atau tambahan yang lengkap untuk machine learning dan analisis statistik
  • Kemudahan membuat plot dengan ggplot dan plotly atau dengan package dasar R

Sementara bahasa R juga memiliki kekurangan, antara lain:

  • Lambat ketika dioperasikan pada data berukuran besar (big data)
  • Struktur bahasa cukup rumit dan susah dipahami pemula
  • Proses running yang lambat seiring kompleksnya output yang diinginkan
  • Kurang populer digunakan dalam deep learning
  • Memahami package yang cocok dipakai di R relatif sulit
Bahasa Python

Bahasa Python memiliki beberapa kelebihan, antara lain:

  • Memiliki struktur bahasa yang terstruktur dan mudah dipahami pemula
  • Open source dan bisa dioperasikan di berbagai OS
  • Populer digunakan, sehingga ketersediaan sumber belajar dan diskusi di forum-forum lebih banyak
  • Python bisa dipakai untuk tujuan pemrograman apapun tidak terbatas pada analisis data

Kekurangan bahasa Python antara lain sebagai berikut:

  • Pemrosesan lebih lambat dari bahasa pemrograman lain karena memakan banyak memori
  • Komputasi statistik membutuhkan instalasi package tambahan dan terbatas
  • Pemahaman mengenai library Python relatif kompleks
  • Visualisasi data terbatas dan membutuhkan package tambahan seperti matplotlib dan plotly

Penggunaan

Berikut merupakan salah satu contoh pemanfaatan R dan Python dalam melakukan pemodelan regresi linier.

Penggunaan pada R
data = read.csv("https://raw.githubusercontent.com/mrtkp9993/Statistical-Modeling-Examples/master/data/child_data.csv", sep = ",")
lm = lm(read_ab~., data = data)
summary(lm)
penggunaan R, kelebihan R
Hasil output pemodelan regresi linier dengan R
Penggunaan pada Python
import pandas as pd
import statsmodels.api as sm
data = pd.read_csv("https://raw.githubusercontent.com/mrtkp9993/Statistical-Modeling-Examples/master/data/child_data.csv", sep=",")
x = data[['age', 'mem_span', 'iq']]
y = data[['read_ab']]
x = sm.add_constant(x)
model = sm.OLS(y,x).fit()
model.summary()
penggunaan python, kelebihan python
Hasil output pemodelan regresi linier dengan Python

Ketika ingin membuat sebuah model, regresi linier misalnya, pada R bisa dengan menggunakan package bawaan atau dengan package tambahan. Terlihat pada baris code di atas, pembuatan model hingga menghasilkan sebuah ringkasan utuh (dengan summary) pada R lebih sederhana dan tidak membutuhkan banyak penyesuaian daripada dengan Python.

Dalam kasus analisis data, R memiliki package dasar untuk analisis statistika, pemodelan, dan visualisasi yang lebih powerful daripada Python. Pengguna dapat membuat model dengan satu baris kode. Sementara pada Python, pembuatan model lebih kompleks dan membutuhkan package tambahan.

Python lebih cocok digunakan ketika ingin menganalisis data yang terhubung dengan sebuah aplikasi berbasis web atau digunakan dalam deep learning yang selanjutnya berguna dalam pengembangan AI. Python merupakan bahasa pemrograman yang multi-purpose. Artinya, selain untuk analisis data, penggunaan Python lebih fleksibel daripada R.

Struktur Sintaks

Python memiliki struktur bahasa yang lebih mudah dipahami daripada R. Karena tidak menggunakan banyak tanda kurung, Python tentu menghasilkan kode dengan lebih sederhana dan keterbacaannya lebih jelas daripada R. Beberapa error terjadi karena kurangnya tanda kurung atau kurung kurawal (“{}”) pada code, sehingga dengan Python, error tersebut bisa dikurangi.

Contoh sederhananya dapat dengan melihat bagaimana fungsi yang sama dibentuk pada kedua bahasa sebagai berikut:

Fungsi pada R
detectNumber <- function(number){
__if(number < 0){
____print("that is a negative number!")
__} else if(number > 0){
____print("that is a positive number!")
__} else {
____print("that is "+number)
__}
}
detectNumber(83)
## [1] "that is a positive number!"
Fungsi pada Python
def detectNumber(number):
____if number < 0:
________print("that is a negative number!")
____elif number > 0:
________print("that is a positive number!")
____else:
________print("that is ", number)
detectNumber(-12)
## that is a negative number!

Memilih Tools yang Tepat

Python lebih umum digunakan pada berbagai tujuan pemrograman dan tidak terbatas pada analisis statistik. Namun, ketika penggunaan difokuskan pada analisis data secara statistik dan visualisasi data yang beragam, penggunaan Python kurang powerful. Sehingga, pemilihan R atau Python lebih diperhatikan pada apakah tujuannya untuk melakukan analisis data yang membutuhkan banyak fungsi statistik atau lebih general.

Jika seorang data scientist ingin menganalisis data secara statistik dan visualisasi, maka R pilihan yang tepat. Sebaliknya, jika ingin mengolah data terutama yang terintegrasi dengan sebuah framework web tertentu atau data yang berukuran sangat besar, melakukan beberapa tugas non-statistik seperti web-scrapping atau menyimpan ke database untuk machine learning, maka Python adalah pilihan yang tepat di samping kemampuan dalam membangun model deep learning yang lebih kekar dan bahasa pemrogramannya yang lebih mudah dipahami.

Nah, sudah punya gambaran belum terkait tools mana yang ingin kamu pakai? Jika kamu memiliki kesulitan dalam menggunakan salah satu tools tersebut, kamu bisa menghubungi Exsight untuk mendapatkan informasi lebih lanjut. Sampai jumpa di artikel-artikel selanjutnya, ya! Dan jangan lupa selalu gunakan software asli bukan bajakan!

Referensi

Leong, C. K. (2010). R in a Nutshell. Journal of Statistical Software, Book Reviews36(2), 1–3.

VanderPlas, J. (2016). Python data science handbook: Essential tools for working with data. ” O’Reilly Media, Inc.”.

Sstt...
Mau Kiriman Artikel Terbaru Exsight
Tanpa Biaya Langganan? ????

Nama Kamu

Email Kamu

Dapatkan Akses Informasi Terupdate Seputar Dunia Data dan Statistika 🙂

Exsight ADS

Leave a Comment

Hubungi Admin
Halo, selamat datang di Exsight! 👋

Hari ini kita ada DISKON 20% untuk semua transaksi. Klaim sekarang!