Traffine I/O

日本語

2022-11-10

Pandasの概要

Pandasとは

Pandasは、Pythonにおけるデータ分析と操作のためのライブラリです。データを効率的に保存・操作するためのデータ構造や、欠損値や重複値の処理、フィルタリング、変換などのツールを提供しています。Pandasは、Pythonにおける効率的な数値計算を提供するNumPyライブラリの上に構築されています。Pandasは、データサイエンスや機械学習で広く使われ、Pythonでデータを扱う人にとって必要不可欠なツールです。

Pandasの主な特徴

Pandasの主な特徴は次のとおりです。

  • データフレームやシリーズを含む、表形式のデータを効率的に保存・操作するためのデータ構造
  • 欠損値や重複値の処理、フィルタリング、変換などのためのツール
  • NumPy、Matplotlib、Scikit-learnなどの他のPythonライブラリとの統合
  • CSV、Excel、SQLデータベースなど、さまざまな形式のデータの読み書きをサポートするビルトイン機能
  • 複雑なデータスライスやフィルタリングを可能にする強力なインデックスと選択機能
  • データ分析や可視化のための他のPythonライブラリやツールとの簡単な統合

インストール

Pandasを使用するには、まずコンピュータにインストールする必要があります。Pandasは、pipパッケージマネージャーを使用してインストールできます。

bash
$ pip install pandas

Pandasのデータ構造

Pandasは、データを保存・操作するための2つの主要なデータ構造、つまりデータフレームとシリーズを提供しています。
この章では、データを保存・操作するためのPandasライブラリが提供する2つの主要なデータ構造であるデータフレームとシリーズについて説明します。

データフレーム

データフレームは、スプレッドシートに似た2次元のテーブル形式のデータです。各列は変数を表し、各行は観測を表します。データフレームは、Pandasでもっともよく使用されるデータ構造であり、表形式のデータを操作するための強力な方法を提供しています。

Pandasでデータフレームを作成するには、DataFrame()関数を使用し、辞書またはリストのリストを渡します。辞書のキーまたはリストのリストの最初のリストが列名になり、残りのリストが行になります。

python
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}

df = pd.DataFrame(data)

print(df)
       Name  Age      City
0     Alice   25  New York
1       Bob   30     Paris
2   Charlie   35    London
3     David   40     Tokyo

データフレームの列には、列名を使用してアクセスできます。

python
ages = df['Age']
print(ages)
0    25
1    30
2    35
3    40
Name: Age, dtype: int64

また、loc[]メソッドを使用して行にアクセスすることもできます。loc[]メソッドには行のラベルを渡します。また、iloc[]メソッドを使用して行にアクセスすることもできます。iloc[]メソッドには行のインデックスを渡します。

python
row = df.loc[1]
print(row)
Name        Bob
Age          30
City      Paris
Name: 1, dtype: object

シリーズ

シリーズは、スプレッドシートの1つの列に似た1次元のデータの配列です。シリーズは、データフレーム内の単一の変数または1つの列を表すためによく使用されます。シリーズは、Pandasで1次元のデータを操作するための強力な方法を提供します。

Pandasでシリーズを作成するには、Series()関数を使用し、リストまたは配列を渡します。

python
import pandas as pd

ages = pd.Series([25, 30, 35, 40])

print(ages)
0    25
1    30
2    35
3    40
dtype: int64

シリーズの要素には、インデックスを使用してアクセスできます。

python
age = ages[1]
print(age)
30

また、シリーズに対して要素ごとの操作を行うこともできます。

doubled_ages = ages * 2
print(doubled_ages)
0    50
1    60
2    70
3    80
dtype: int64

参考

https://pandas.pydata.org/docs/reference/index.html

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!