Pandasとは
Pandasは、Pythonにおけるデータ分析と操作のためのライブラリです。データを効率的に保存・操作するためのデータ構造や、欠損値や重複値の処理、フィルタリング、変換などのツールを提供しています。Pandasは、Pythonにおける効率的な数値計算を提供するNumPyライブラリの上に構築されています。Pandasは、データサイエンスや機械学習で広く使われ、Pythonでデータを扱う人にとって必要不可欠なツールです。
Pandasの主な特徴
Pandasの主な特徴は次のとおりです。
- データフレームやシリーズを含む、表形式のデータを効率的に保存・操作するためのデータ構造
- 欠損値や重複値の処理、フィルタリング、変換などのためのツール
- NumPy、Matplotlib、Scikit-learnなどの他のPythonライブラリとの統合
- CSV、Excel、SQLデータベースなど、さまざまな形式のデータの読み書きをサポートするビルトイン機能
- 複雑なデータスライスやフィルタリングを可能にする強力なインデックスと選択機能
- データ分析や可視化のための他のPythonライブラリやツールとの簡単な統合
インストール
Pandasを使用するには、まずコンピュータにインストールする必要があります。Pandasは、pipパッケージマネージャーを使用してインストールできます。
$ pip install pandas
Pandasのデータ構造
Pandasは、データを保存・操作するための2つの主要なデータ構造、つまりデータフレームとシリーズを提供しています。
この章では、データを保存・操作するためのPandasライブラリが提供する2つの主要なデータ構造であるデータフレームとシリーズについて説明します。
データフレーム
データフレームは、スプレッドシートに似た2次元のテーブル形式のデータです。各列は変数を表し、各行は観測を表します。データフレームは、Pandasでもっともよく使用されるデータ構造であり、表形式のデータを操作するための強力な方法を提供しています。
Pandasでデータフレームを作成するには、DataFrame()
関数を使用し、辞書またはリストのリストを渡します。辞書のキーまたはリストのリストの最初のリストが列名になり、残りのリストが行になります。
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
Name Age City
0 Alice 25 New York
1 Bob 30 Paris
2 Charlie 35 London
3 David 40 Tokyo
データフレームの列には、列名を使用してアクセスできます。
ages = df['Age']
print(ages)
0 25
1 30
2 35
3 40
Name: Age, dtype: int64
また、loc[]
メソッドを使用して行にアクセスすることもできます。loc[]
メソッドには行のラベルを渡します。また、iloc[]
メソッドを使用して行にアクセスすることもできます。iloc[]
メソッドには行のインデックスを渡します。
row = df.loc[1]
print(row)
Name Bob
Age 30
City Paris
Name: 1, dtype: object
シリーズ
シリーズは、スプレッドシートの1つの列に似た1次元のデータの配列です。シリーズは、データフレーム内の単一の変数または1つの列を表すためによく使用されます。シリーズは、Pandasで1次元のデータを操作するための強力な方法を提供します。
Pandasでシリーズを作成するには、Series()
関数を使用し、リストまたは配列を渡します。
import pandas as pd
ages = pd.Series([25, 30, 35, 40])
print(ages)
0 25
1 30
2 35
3 40
dtype: int64
シリーズの要素には、インデックスを使用してアクセスできます。
age = ages[1]
print(age)
30
また、シリーズに対して要素ごとの操作を行うこともできます。
doubled_ages = ages * 2
print(doubled_ages)
0 50
1 60
2 70
3 80
dtype: int64
参考