2022-11-10

Pandasの概要

Pandasとは

Pandasは、Pythonにおけるデータ分析と操作のためのライブラリです。データを効率的に保存・操作するためのデータ構造や、欠損値や重複値の処理、フィルタリング、変換などのツールを提供しています。Pandasは、Pythonにおける効率的な数値計算を提供するNumPyライブラリの上に構築されています。Pandasは、データサイエンスや機械学習で広く使われ、Pythonでデータを扱う人にとって必要不可欠なツールです。

Pandasの主な特徴

Pandasの主な特徴は次のとおりです。

データフレームやシリーズを含む、表形式のデータを効率的に保存・操作するためのデータ構造
欠損値や重複値の処理、フィルタリング、変換などのためのツール
NumPy、Matplotlib、Scikit-learnなどの他のPythonライブラリとの統合
CSV、Excel、SQLデータベースなど、さまざまな形式のデータの読み書きをサポートするビルトイン機能
複雑なデータスライスやフィルタリングを可能にする強力なインデックスと選択機能
データ分析や可視化のための他のPythonライブラリやツールとの簡単な統合

インストール

Pandasを使用するには、まずコンピュータにインストールする必要があります。Pandasは、pipパッケージマネージャーを使用してインストールできます。

bash

$ pip install pandas

Pandasのデータ構造

Pandasは、データを保存・操作するための2つの主要なデータ構造、つまりデータフレームとシリーズを提供しています。
この章では、データを保存・操作するためのPandasライブラリが提供する2つの主要なデータ構造であるデータフレームとシリーズについて説明します。

データフレーム

データフレームは、スプレッドシートに似た2次元のテーブル形式のデータです。各列は変数を表し、各行は観測を表します。データフレームは、Pandasでもっともよく使用されるデータ構造であり、表形式のデータを操作するための強力な方法を提供しています。

Pandasでデータフレームを作成するには、DataFrame()関数を使用し、辞書またはリストのリストを渡します。辞書のキーまたはリストのリストの最初のリストが列名になり、残りのリストが行になります。

python

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}

df = pd.DataFrame(data)

print(df)

       Name  Age      City
0     Alice   25  New York
1       Bob   30     Paris
2   Charlie   35    London
3     David   40     Tokyo

データフレームの列には、列名を使用してアクセスできます。

python

ages = df['Age']
print(ages)

0    25
1    30
2    35
3    40
Name: Age, dtype: int64

また、loc[]メソッドを使用して行にアクセスすることもできます。loc[]メソッドには行のラベルを渡します。また、iloc[]メソッドを使用して行にアクセスすることもできます。iloc[]メソッドには行のインデックスを渡します。

python

row = df.loc[1]
print(row)

Name        Bob
Age          30
City      Paris
Name: 1, dtype: object

シリーズ

シリーズは、スプレッドシートの1つの列に似た1次元のデータの配列です。シリーズは、データフレーム内の単一の変数または1つの列を表すためによく使用されます。シリーズは、Pandasで1次元のデータを操作するための強力な方法を提供します。

Pandasの概要

Pandasとは

Pandasの主な特徴

インストール

Pandasのデータ構造

データフレーム

シリーズ

参考

StreamlitをCloud Runにデプロイ

Pandasデータフレームのインデックスとスライス

Ryusei Kakujo