Dataset Publik
Dataset publik memainkan peran penting dalam lanskap machine learning. Mereka berfungsi sebagai dasar untuk melatih dan menguji model ML, memungkinkan peneliti dan praktisi untuk mengevaluasi kinerja algoritma mereka, memvalidasi hipotesis, dan membandingkan hasil dengan benchmark yang ada.
Selain menyediakan platform untuk eksperimen, dataset publik berkontribusi pada demokratisasi machine learning. Dengan membuat data tersedia secara gratis, mahasiswa, akademisi, dan profesional dapat mengakses dataset berkualitas tinggi untuk mendukung penelitian dan proyek mereka. Ketersediaan data secara luas ini mendorong inovasi dan kolaborasi dalam komunitas ML, mendorong kemajuan bidang ini.
Artikel ini akan memperkenalkan gambaran tentang dataset publik populer yang ditawarkan oleh lima perpustakaan machine learning terkenal: Scikit-learn, Seaborn, PyTorch, TensorFlow, dan Hugging Face.
Scikit-learn
from sklearn import datasets
from sklearn.datasets import fetch_california_housing
# Iris Dataset
iris = datasets.load_iris()
# California Housing Dataset
california_housing = fetch_california_housing()
# Digits Dataset
digits = datasets.load_digits()
# Diabetes Dataset
diabetes = datasets.load_diabetes()
Iris Dataset
Iris Dataset, juga dikenal sebagai Fisher's Iris Dataset, adalah dataset klasik dalam bidang pengenalan pola dan machine learning. Terdiri dari 150 sampel, dataset ini mencakup tiga kelas bunga iris (Setosa, Versicolor, dan Virginica), masing-masing dengan 50 instance. Dataset ini berisi empat fitur: panjang kelopak, lebar kelopak, panjang mahkota, dan lebar mahkota, semua diukur dalam sentimeter. Iris Dataset sangat banyak digunakan untuk tugas klasifikasi dan pengelompokan, sebagai pengenalan machine learning yang cocok untuk pemula menggunakan perpustakaan sklearn.
California Housing Dataset
California Housing Dataset adalah dataset komprehensif yang digunakan untuk tugas regresi, berisi 20.640 instance yang mewakili blok perumahan California. Setiap instance terdiri dari 8 atribut: pendapatan median, umur median perumahan, rata-rata jumlah kamar per rumah tangga, rata-rata jumlah kamar tidur per rumah tangga, total populasi, okupansi rata-rata, lintang, dan bujur. Variabel target adalah nilai median rumah untuk setiap blok perumahan. Sklearn menyediakan alat-alat yang diperlukan untuk preprocessing data, pelatihan, dan evaluasi model pada California Housing Dataset, memungkinkan pengguna untuk mengembangkan keterampilan mereka dalam regresi dan mengeksplorasi faktor-faktor yang memengaruhi harga perumahan.
Digits Dataset
Digits Dataset adalah koleksi gambar grayscale 8x8 angka tulisan tangan, mulai dari 0 hingga 9. Terdiri dari 1.797 sampel, membuatnya menjadi alternatif yang lebih kecil dan lebih mudah diatur daripada dataset MNIST yang populer. Digits Dataset cocok untuk tugas klasifikasi gambar dan dapat digunakan untuk memperkenalkan pengguna pada teknik pemrosesan gambar dan pengenalan pola menggunakan rangkaian alat sklearn.
Diabetes Dataset
Diabetes Dataset adalah pilihan populer lainnya untuk tugas regresi. Ini terdiri dari 442 instance, masing-masing mewakili pasien diabetes, dan mencakup sepuluh variabel dasar: usia, jenis kelamin, indeks massa tubuh, rata-rata tekanan darah, dan enam pengukuran serum darah. Variabel target adalah ukuran kuantitatif perkembangan penyakit satu tahun setelah baseline. Dengan fitur yang kaya dari sklearn, pengguna dapat melakukan preprocessing data, melatih model regresi, dan mengevaluasi kinerjanya pada Diabetes Dataset.
Seaborn
import seaborn as sns
# Tips Dataset
tips = sns.load_dataset("tips")
# Titanic Dataset
titanic = sns.load_dataset("titanic")
# Car Crashes Dataset
car_crashes = sns.load_dataset("car_crashes")
# Penguins Dataset
penguins = sns.load_dataset("penguins")
Tips Dataset
Tips Dataset adalah dataset bawaan Seaborn yang terdiri dari 244 instance, masing-masing mewakili makanan di restoran. Ini mencakup tujuh atribut: tagihan total, tip, jenis kelamin, perokok, hari, waktu, dan ukuran pesta. Dataset ini ideal untuk eksplorasi data, visualisasi, dan analisis statistik, memungkinkan pengguna untuk menemukan hubungan antara berbagai faktor dan dampaknya pada perilaku memberikan tip. Kemampuan visualisasi Seaborn yang kaya memungkinkan pengguna untuk membuat berbagai jenis plot, seperti scatter plot, box plot, dan violin plot, untuk menyelidiki pola dan tren dalam data.
Titanic Dataset
Titanic Dataset adalah dataset yang terkenal dalam komunitas machine learning yang berisi informasi tentang penumpang di atas kapal Titanic yang malang. Dengan 891 instance dan 15 atribut, termasuk kelas penumpang, jenis kelamin, usia, tarif, dan status kelangsungan hidup, dataset ini menawarkan wawasan tentang faktor-faktor yang berkontribusi pada kelangsungan hidup penumpang. Alat visualisasi Seaborn memungkinkan pengguna untuk mengeksplorasi dataset dan mengidentifikasi pola, korelasi, dan outlier yang dapat membantu memprediksi hasil kelangsungan hidup.
Car Crashes Dataset
Car Crashes Dataset adalah dataset bawaan Seaborn lainnya yang mencakup data tentang frekuensi kecelakaan mobil di Amerika Serikat. Dataset ini berisi 51 instance, masing-masing mewakili satu negara bagian, dan tujuh atribut: jumlah kecelakaan total, kecelakaan terkait kecepatan, kecelakaan terkait alkohol, kecelakaan tidak terdistraksi, tidak ada kecelakaan sebelumnya, premi asuransi, dan kerugian per pengemudi yang diasuransikan. Kemampuan visualisasi Seaborn memungkinkan pengguna untuk membuat plot dan melakukan analisis statistik untuk mengidentifikasi tren dan faktor yang berkontribusi pada frekuensi kecelakaan mobil di berbagai negara bagian.
Penguins Dataset
Penguins Dataset adalah dataset yang relatif baru yang telah populer sebagai alternatif untuk Iris Dataset. Ini berisi 344 instance, masing-masing mewakili seekor penguin dari salah satu dari tiga spesies (Adélie, Chinstrap, dan Gentoo). Dataset ini mencakup tujuh atribut: spesies, pulau, panjang paruh, kedalaman paruh, panjang sirip, massa tubuh, dan jenis kelamin. Dengan kumpulan atribut yang beragam, Penguins Dataset cocok untuk eksplorasi data, visualisasi, dan analisis statistik menggunakan Seaborn. Pengguna dapat membuat berbagai jenis plot, seperti scatter plot, pair plot, dan distribution plot, untuk menemukan pola dan hubungan antara atribut.
PyTorch
import torch
from torchvision import datasets, transforms
# MNIST Dataset
mnist_train = datasets.MNIST(root="./data", train=True, download=True, transform=transforms.ToTensor())
mnist_test = datasets.MNIST(root="./data", train=False, download=True, transform=transforms.ToTensor())
# Fashion-MNIST Dataset
fashion_mnist_train = datasets.FashionMNIST(root="./data", train=True, download=True, transform=transforms.ToTensor())
fashion_mnist_test = datasets.FashionMNIST(root="./data", train=False, download=True, transform=transforms.ToTensor())
# CIFAR-10 Dataset
cifar10_train = datasets.CIFAR10(root="./data", train=True, download=True, transform=transforms.ToTensor())
cifar10_test = datasets.CIFAR10(root="./data", train=False, download=True, transform=transforms.ToTensor())
# CIFAR-100 Dataset
cifar100_train = datasets.CIFAR100(root="./data", train=True, download=True, transform=transforms.ToTensor())
cifar100_test = datasets.CIFAR100(root="./data", train=False, download=True, transform=transforms.ToTensor())
MNIST Dataset
MNIST (Modified National Institute of Standards and Technology) Dataset adalah dataset yang populer untuk tugas pengenalan gambar, khususnya untuk klasifikasi digit tulisan tangan. Ini terdiri dari 70.000 gambar grayscale, masing-masing berukuran 28x28 piksel, yang mewakili digit dari 0 hingga 9. Dataset ini dibagi menjadi 60.000 gambar pelatihan dan 10.000 gambar pengujian. PyTorch menyediakan DataLoader bawaan untuk dataset MNIST, menyederhanakan proses pengisian dan preprocessing data untuk melatih model deep learning. Dataset MNIST secara luas digunakan sebagai benchmark untuk algoritma klasifikasi gambar dan merupakan titik awal yang sangat baik bagi mereka yang baru memulai deep learning menggunakan library PyTorch.
Fashion-MNIST Dataset
Fashion-MNIST Dataset adalah alternatif untuk dataset MNIST tradisional, dirancang untuk mengatasi keterbatasannya dalam hal kompleksitas dan penggunaan berlebihan. Dataset ini terdiri dari 70.000 gambar grayscale, masing-masing berukuran 28x28 piksel, yang mewakili 10 kelas item pakaian, seperti kaus, celana panjang, dan gaun. Seperti dataset MNIST, dataset ini dibagi menjadi 60.000 gambar pelatihan dan 10.000 gambar pengujian. DataLoader bawaan PyTorch untuk Fashion-MNIST memungkinkan pengguna untuk dengan mudah memuat dan preprocessing data untuk melatih dan mengevaluasi model deep learning. Dataset ini merupakan pilihan yang sangat baik bagi mereka yang ingin menjelajahi tugas klasifikasi gambar yang lebih kompleks menggunakan PyTorch.
CIFAR-10 dan CIFAR-100 Datasets
CIFAR-10 dan CIFAR-100 adalah pilihan populer untuk tugas klasifikasi gambar yang melibatkan gambar yang lebih kompleks dan beragam. Dataset CIFAR-10 berisi 60.000 gambar warna, masing-masing berukuran 32x32 piksel, yang mewakili 10 kelas objek, seperti pesawat, mobil, dan burung. Dataset ini dibagi menjadi 50.000 gambar pelatihan dan 10.000 gambar pengujian. Dataset CIFAR-100 mirip, tetapi berisi 100 kelas objek, dengan 600 gambar per kelas. PyTorch menawarkan DataLoader bawaan untuk kedua dataset CIFAR-10 dan CIFAR-100, memudahkan pengguna untuk memuat dan preprocessing data untuk melatih model deep learning.
TensorFlow
import tensorflow as tf
# MNIST Dataset
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
# Fashion-MNIST Dataset
fashion_mnist = tf.keras.datasets.fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
# CIFAR-10 Dataset
cifar10 = tf.keras.datasets.cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
# CIFAR-100 Dataset
cifar100 = tf.keras.datasets.cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data()
# IMDB Movie Review Dataset
imdb = tf.keras.datasets.imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data()
MNIST Dataset
MNIST Dataset adalah dataset yang populer untuk klasifikasi digit tulisan tangan. TensorFlow juga menyediakan dukungan bawaan untuk dataset MNIST, termasuk utilitas loading data dan preprocessing. Suite alat TensorFlow yang luas memungkinkan pengguna untuk membangun, melatih, dan mengevaluasi model deep learning untuk tugas pengenalan gambar, membuat dataset MNIST sebagai titik awal yang sangat baik bagi mereka yang baru memulai TensorFlow dan deep learning.
Fashion-MNIST Dataset
Fashion-MNIST Dataset, alternatif untuk dataset MNIST tradisional, adalah pilihan populer lainnya untuk tugas klasifikasi gambar menggunakan TensorFlow. TensorFlow menawarkan utilitas bawaan untuk memuat dan preprocessing dataset Fashion-MNIST, memungkinkan pengguna untuk dengan cepat dan mudah melatih dan mengevaluasi model deep learning untuk mengklasifikasikan item pakaian.
CIFAR-10 dan CIFAR-100 Datasets
Dataset CIFAR-10 dan CIFAR-100 juga banyak digunakan untuk tugas klasifikasi gambar yang melibatkan gambar yang lebih kompleks dan beragam. TensorFlow menyediakan dukungan bawaan untuk kedua dataset ini, menyederhanakan proses loading dan preprocessing data. Dengan bekerja dengan dataset CIFAR-10 dan CIFAR-100, pengguna dapat memperoleh pengalaman dalam melatih model deep learning pada tugas klasifikasi gambar yang lebih menantang menggunakan TensorFlow.
IMDB Movie Review Dataset
IMDB Movie Review Dataset adalah dataset populer untuk tugas pemrosesan bahasa alami, khususnya analisis sentimen. Dataset ini terdiri dari 50.000 ulasan film, yang diberi label sebagai positif atau negatif, dengan distribusi kelas yang seimbang. TensorFlow menawarkan utilitas bawaan untuk memuat dan preprocessing dataset IMDB Movie Review, memudahkan pengguna untuk melatih dan mengevaluasi model deep learning untuk analisis sentimen.
COCO Dataset
COCO (Common Objects in Context) Dataset adalah dataset berskala besar untuk tugas deteksi objek, segmentasi, dan captioning. Dataset ini berisi lebih dari 200.000 gambar berlabel, dengan lebih dari 1,5 juta instance objek di seluruh 80 kategori objek. TensorFlow menyediakan dukungan untuk dataset COCO melalui TensorFlow Object Detection API, yang mencakup alat dan utilitas untuk loading, preprocessing, dan mengevaluasi data. Dataset COCO adalah resource yang sangat baik bagi mereka yang ingin menjelajahi tugas visi komputer canggih menggunakan TensorFlow.
Hugging Face
from datasets import load_dataset
# GLUE Benchmark (for example, MRPC task)
glue_mrpc = load_dataset("glue", "mrpc")
# SQuAD Dataset
squad = load_dataset("squad")
GLUE Benchmark
GLUE (General Language Understanding Evaluation) Benchmark adalah koleksi sembilan tugas pemahaman bahasa alami yang beragam, termasuk analisis sentimen, menjawab pertanyaan, dan parafrase. Tujuan dari benchmark ini adalah untuk mengevaluasi kinerja model NLP pada berbagai tugas. Hugging Face menawarkan model dan dataset pra-pelatihan untuk GLUE Benchmark, memungkinkan pengguna untuk fine-tuning model dan mengevaluasi kinerjanya pada tugas-tugas tertentu, serta membandingkan hasilnya dengan hasil model lain.
SQuAD (Stanford Question Answering Dataset)
SQuAD dataset adalah pilihan populer untuk tugas menjawab pertanyaan dan pemahaman membaca. Dataset ini terdiri dari lebih dari 100.000 pertanyaan berdasarkan lebih dari 500 artikel Wikipedia, dengan setiap pertanyaan disertai dengan sebuah paragraf yang berisi jawabannya. Hugging Face menyediakan akses ke dataset dan model pra-pelatihan SQuAD, menyederhanakan proses fine-tuning dan evaluasi model untuk tugas menjawab pertanyaan.