Traffine I/O

日本語

2022-03-05

公開データセット - ライブラリ別

公開データセット

公開データセットは、機械学習の分野で重要な役割を果たしています。これらは、MLモデルのトレーニングやテストの基盤となり、研究者や実践者がアルゴリズムのパフォーマンスを評価し、仮説を検証し、既存のベンチマークと結果を比較することを可能にします。

実験のプラットフォームを提供するだけでなく、公開データセットは機械学習の民主化にも貢献しています。データを自由に利用できるようにすることで、学生、学者、プロフェッショナルなど誰もが、高品質のデータセットにアクセスして、研究やプロジェクトをサポートすることができます。データの広範な提供は、MLコミュニティ内でのイノベーションと協力を促進し、分野を前進させています。

この記事では、Scikit-learn、Seaborn、PyTorch、TensorFlow、Hugging Faceの5つの著名な機械学習ライブラリが提供する人気のある公開データセットの概要を紹介します。

Scikit-learn

https://scikit-learn.org/stable/datasets.html

python
from sklearn import datasets
from sklearn.datasets import fetch_california_housing

# Iris Dataset
iris = datasets.load_iris()

# California Housing Dataset
california_housing = fetch_california_housing()

# Digits Dataset
digits = datasets.load_digits()

# Diabetes Dataset
diabetes = datasets.load_diabetes()

Iris Dataset

アヤメ・データセットは、パターン認識や機械学習の分野で古典的なデータセットです。150サンプルから成り、50個のサンプルがセトサ、バージコロール、バージニカの各アヤメの種類に属しています。データセットには4つの特徴量、がくの長さ、がくの幅、花弁の長さ、花弁の幅が含まれており、いずれもセンチメートル単位で測定されます。アヤメ・データセットは、sklearnライブラリを使った機械学習の初心者向け入門として、分類やクラスタリングのタスクに広く使われています。

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html

California Housing Dataset

カリフォルニア・ハウジング・データセットは、回帰タスクに使用される包括的なデータセットで、カリフォルニアの住宅街を表す20,640個のインスタンスが含まれています。各インスタンスには8つの属性があり、それぞれ中央値の収入、住宅の中央値の年齢、1世帯あたりの平均部屋数、1世帯あたりの平均ベッドルーム数、総人口、平均占有率、緯度、経度が含まれています。目標変数は、各住宅街の中央値の家の価値です。Sklearnは、データの前処理、モデルのトレーニング、カリフォルニア・ハウジング・データセット上でのモデルの評価に必要なツールを提供し、回帰におけるスキルの開発や、住宅価格に影響を与える要因の探索ができます。

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html

Digits Dataset

デジット・データセットは、0から9までの手書き数字の8x8のグレースケール画像のコレクションです。1,797個のサンプルから成り、一般的なMNISTデータセットよりも小さく、管理が容易な代替品として使用できます。デジット・データセットは、画像分類タスクに適しており、sklearnのツールセットを使って、画像処理やパターン認識技術に入門することができます。

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html

Diabetes Dataset

糖尿病データセットは、回帰タスクに人気のある選択肢です。442個のインスタンスが含まれており、それぞれ糖尿病患者を表しています。基準となる変数は、年齢、性別、体格指数、平均血圧、および6つの血清測定値です。目標変数は、基準の1年後の疾患進行の定量的な測定値です。Sklearnの豊富な機能を使用することで、ユーザーはデータを前処理し、回帰モデルをトレーニングし、糖尿病データセット上での性能を評価することができます。

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html

Seaborn

https://github.com/mwaskom/seaborn-data#data-sources

python
import seaborn as sns

# Tips Dataset
tips = sns.load_dataset("tips")

# Titanic Dataset
titanic = sns.load_dataset("titanic")

# Car Crashes Dataset
car_crashes = sns.load_dataset("car_crashes")

# Penguins Dataset
penguins = sns.load_dataset("penguins")

Tips Dataset

Tips Datasetは、レストランでの食事を表す244個のインスタンスから成る、Seabornに組み込まれたデータセットです。総請求額、チップ、性別、喫煙者、日、時間、およびパーティーサイズなど、7つの属性が含まれています。データの探索、可視化、統計分析に適しており、様々な要因がチップに与える影響を発見することができます。Seabornの豊富な可視化機能を使用することで、散布図、箱ひげ図、バイオリン図などの様々なプロットを作成し、データのパターンやトレンドを調査することができます。

https://rdrr.io/cran/reshape2/man/tips.html

Titanic Dataset

タイタニック・データセットは、タイタニック号に乗っていた乗客に関する情報が含まれる、機械学習コミュニティでよく知られたデータセットです。891個のインスタンスと15個の属性があり、乗客のクラス、性別、年齢、運賃、生存状況などが含まれています。Seabornの可視化ツールを使用することで、データセットを探索し、乗客の生存に影響を与えた要因を特定することができます。

https://www.kaggle.com/c/titanic/data

Car Crashes Dataset

Car Crashes Datasetは、アメリカでの車の事故の頻度に関するデータを含む、Seabornに組み込まれたデータセットです。データセットには、全国の各州について、合計事故数、速度違反による事故数、アルコールによる事故数、注意散漫でない事故数、前回の事故がない事故数、保険料、保険料あたりの損失など、7つの属性が含まれています。Seabornの可視化機能を使用することで、プロットを作成し、異なる州での車の事故の頻度に影響を与える要因やトレンドを特定することができます。

https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-bad-drivers-dataset

Penguins Dataset

Penguins Datasetは、Iris Datasetの代替データセットとして人気を博している、比較的新しいデータセットです。3種類のペンギン(アデリーペンギン、チンストラップペンギン、ゲンツウペンギン)の中から1つを表す344個のインスタンスが含まれています。データセットには、種、島、くちばしの長さ、くちばしの深さ、ひれの長さ、体重、および性別など、7つの属性が含まれています。多様な属性セットを持つPenguins Datasetは、Seabornを使用したデータ探索、可視化、統計分析に最適です。ユーザーは、散布図、ペアプロット、分布プロットなど、さまざまなプロットを作成して、属性間のパターンや関係性を明らかにすることができます。

https://github.com/allisonhorst/palmerpenguins

PyTorch

https://pytorch.org/vision/stable/datasets.html

python
import torch
from torchvision import datasets, transforms

# MNIST Dataset
mnist_train = datasets.MNIST(root="./data", train=True, download=True, transform=transforms.ToTensor())
mnist_test = datasets.MNIST(root="./data", train=False, download=True, transform=transforms.ToTensor())

# Fashion-MNIST Dataset
fashion_mnist_train = datasets.FashionMNIST(root="./data", train=True, download=True, transform=transforms.ToTensor())
fashion_mnist_test = datasets.FashionMNIST(root="./data", train=False, download=True, transform=transforms.ToTensor())

# CIFAR-10 Dataset
cifar10_train = datasets.CIFAR10(root="./data", train=True, download=True, transform=transforms.ToTensor())
cifar10_test = datasets.CIFAR10(root="./data", train=False, download=True, transform=transforms.ToTensor())

# CIFAR-100 Dataset
cifar100_train = datasets.CIFAR100(root="./data", train=True, download=True, transform=transforms.ToTensor())
cifar100_test = datasets.CIFAR100(root="./data", train=False, download=True, transform=transforms.ToTensor())

MNIST Dataset

MNIST(Modified National Institute of Standards and Technology)Datasetは、手書き数字の認識タスクに人気のあるデータセットです。70,000個のグレースケール画像が含まれており、各画像は28x28ピクセルで、0から9までの数字を表しています。データセットは、60,000個のトレーニング画像と10,000個のテスト画像に分かれています。PyTorchには、MNISTデータセットのためのビルトインのDataLoaderが用意されており、ディープラーニングモデルのトレーニングに必要なデータの読み込みと前処理を簡素化することができます。MNISTデータセットは、イメージ分類アルゴリズムのベンチマークとして広く使用されており、ディープラーニングに初めて取り組む人にとって優れた出発点となります。

https://pytorch.org/vision/main/generated/torchvision.datasets.MNIST.html

Fashion-MNIST Dataset

Fashion-MNIST Datasetは、従来のMNISTデータセットの限界を解決するために設計された、複雑性の高い画像認識タスクに対する代替データセットです。データセットには、Tシャツ、ズボン、ドレスなどの10種類の衣料品のクラスを表す70,000個のグレースケール画像が含まれています。MNISTデータセットと同様に、60,000個のトレーニング画像と10,000個のテスト画像に分かれています。PyTorchのビルトインのDataLoaderを使用することで、Fashion-MNISTデータセットのデータの読み込みと前処理を簡単に行うことができます。データセットは、PyTorchを使用したより複雑な画像分類タスクを探索するための優れた選択肢です。

https://pytorch.org/vision/main/generated/torchvision.datasets.FashionMNIST.html

CIFAR-10、CIFAR-100 Datasets

CIFAR-10およびCIFAR-100データセットは、より複雑で多様な画像を対象とした画像分類タスクにおいて、広く使用されているデータセットです。CIFAR-10データセットには、飛行機、自動車、鳥などの10種類のオブジェクトを表す60,000枚のカラー画像が含まれており、各画像は32x32ピクセルです。データセットは、50,000個のトレーニング画像と10,000個のテスト画像に分かれています。CIFAR-100データセットは同様に、100種類のオブジェクトを表し、各クラスに600枚の画像が含まれています。PyTorchには、CIFAR-10およびCIFAR-100データセットのためのビルトインDataLoaderが用意されており、ディープラーニングモデルのトレーニングに必要なデータの読み込みと前処理を簡素化することができます。

https://pytorch.org/vision/main/generated/torchvision.datasets.CIFAR10.html
https://pytorch.org/vision/main/generated/torchvision.datasets.CIFAR100.html

TensorFlow

https://www.tensorflow.org/datasets/catalog/overview

python
import tensorflow as tf

# MNIST Dataset
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Fashion-MNIST Dataset
fashion_mnist = tf.keras.datasets.fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

# CIFAR-10 Dataset
cifar10 = tf.keras.datasets.cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# CIFAR-100 Dataset
cifar100 = tf.keras.datasets.cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data()

# IMDB Movie Review Dataset
imdb = tf.keras.datasets.imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data()

MNIST Dataset

MNISTデータセットは、手書きの数字の分類に対する人気のあるデータセットです。TensorFlowもMNISTデータセットのビルトインサポートを提供しており、データの読み込みや前処理などのユーティリティが含まれています。TensorFlowの広範なツール群を使用することで、イメージ認識タスクのためのディープラーニングモデルを構築、トレーニング、評価することができます。これは、TensorFlowやディープラーニングに初めて取り組む人にとって優れた出発点となります。

https://www.tensorflow.org/datasets/catalog/mnist

Fashion-MNIST Dataset

Fashion-MNISTデータセットは、TensorFlowを使用した画像分類タスクに対する従来のMNISTデータセットの代替データセットです。TensorFlowは、Fashion-MNISTデータセットの読み込みや前処理などのユーティリティをビルトインしており、ユーザーは簡単に衣料品の分類に関するディープラーニングモデルをトレーニング、評価することができます。

https://www.tensorflow.org/datasets/catalog/fashion_mnist

CIFAR-10、CIFAR-100 Datasets

CIFAR-10およびCIFAR-100データセットは、より複雑な画像分類タスクを対象としており、画像の多様性も高いです。TensorFlowはこれらのデータセットにビルトインサポートを提供しており、データの読み込みや前処理などのユーティリティを簡素化することができます。CIFAR-10およびCIFAR-100データセットを使用することで、TensorFlowを使用したより難解な画像分類タスクのトレーニングに取り組むことができます。

https://www.tensorflow.org/datasets/catalog/cifar10
https://www.tensorflow.org/datasets/catalog/cifar100

IMDB Movie Review Dataset

IMDB映画レビューデータセットは、自然言語処理タスクのうち感情分析に対する人気のあるデータセットです。50,000件の映画レビューが含まれており、ポジティブまたはネガティブのどちらかのラベルが付けられています。TensorFlowはIMDB映画レビューデータセットの読み込みや前処理などのユーティリティを提供しており、感情分析のためのディープラーニングモデルを簡単にトレーニング、評価することができます。

https://www.tensorflow.org/datasets/catalog/imdb_reviews

COCO Dataset

COCO(Common Objects in Context)データセットは、オブジェクト検出、セグメンテーション、およびキャプション付けタスクに対する大規模なデータセットです。200,000以上のラベル付き画像が含まれており、80のオブジェクトカテゴリにわたる1,500万を超えるオブジェクトインスタンスが含まれています。TensorFlowは、TensorFlow Object Detection APIを通じてCOCOデータセットをサポートしており、データの読み込み、前処理、評価などのツールとユーティリティが含まれています。COCOデータセットは、TensorFlowを使用した高度なコンピュータビジョンタスクを探求するための優れたリソースとなります。

https://www.tensorflow.org/datasets/catalog/coco

Hugging Face

https://huggingface.co/datasets

python
from datasets import load_dataset

# GLUE Benchmark (for example, MRPC task)
glue_mrpc = load_dataset("glue", "mrpc")

# SQuAD Dataset
squad = load_dataset("squad")

GLUE Benchmark

GLUE(General Language Understanding Evaluation)ベンチマークは、感情分析、質問応答、および言い換えなど、多様な自然言語理解タスクの9つのコレクションです。このベンチマークは、NLPモデルのタスクに対するパフォーマンスを評価することを目的としています。Hugging Faceは、GLUEベンチマークのための事前学習モデルとデータセットを提供しており、モデルをファインチューニングして特定のタスクに対するパフォーマンスを評価し、他のモデルと比較することができます。

https://huggingface.co/datasets/glue

SQuAD (Stanford Question Answering Dataset)

SQuADデータセットは、質問応答および読解タスクに対する人気のある選択肢の1つです。500以上のWikipedia記事に基づく100,000以上の質問が含まれており、それぞれの質問には答えが含まれるパラグラフが付属しています。Hugging Faceは、SQuADデータセットと事前学習済みモデルへのアクセスを提供しており、モデルをファインチューニングし、質問応答タスクに対するモデルのパフォーマンスを評価するプロセスを簡素化しています。

https://huggingface.co/datasets/squad

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!