Traffine I/O

日本語

2022-11-15

Pandasのパフォーマンスと効率性を向上させるためのテクニック

はじめに

Pandasは、構造化されたデータを操作するための必要なデータ構造と関数を提供する、データ操作と分析のための優れたPythonライブラリです。Pandasは柔軟性と使いやすさで知られていますが、大規模なデータセットを処理する場合、パフォーマンスの問題が生じることがあります。これらの制限に対処するためには、Pandasワークフローに最適化技術を理解し、適用することが不可欠です。

効率的なデータの読み込み

効率的なデータの読み込みは、Pandasワークフローの最適化において重要な要素です。パフォーマンスを最適化するために、各列のデータ型を慎重に選択し、メモリ使用量を管理し、必要に応じてデータを小さな塊に分割して処理するために、チャンキングとイテレーションを使用することが重要です。

データ型とメモリ管理

データの読み込み時、Pandasは入力データに基づいて、各列のデータ型を自動的に推定します。しかし、このプロセスは、整数を含む列をfloat64のdtypeで読み込むなど、サブオプティマルな結果を招く場合があります。メモリ使用量を最適化し、パフォーマンスを向上させるために、データの読み込み時にdtypeパラメータを使用して、各列のデータ型を明示的に指定することができます。

python
import pandas as pd

# 各列のデータ型を指定
data = pd.read_csv('data.csv', dtype={'column1': 'int32', 'column2': 'category'})

チャンキングとイテレーション

大規模なデータセットを扱う場合、全てのデータをメモリに読み込むことは不可能な場合があります。そのような場合は、chunksizeパラメータを使用して、データを小さな塊、つまり「チャンク」で処理することができます。このアプローチにより、データセットを反復処理し、各チャンクで操作を実行し、メモリのフットプリントを減らすことができます。

python
import pandas as pd

# チャンクサイズでデータを読み込む
chunk_size = 1000
data_reader = pd.read_csv('large_data.csv', chunksize=chunk_size)

for chunk in data_reader:
    # 各チャンクで操作を実行
    print(chunk.head())

小さな塊でデータを処理することで、メモリを使い果たすことなく、大規模なデータセットで操作を実行することができます。ただし、ソートや集計などの特定の操作については、データを小さな塊で効率的に処理するための追加の手順や技術が必要になる場合があることに注意してください。

パフォーマンスの向上

パフォーマンスの向上は、要素ごとの反復処理ではなく、配列全体に操作を実行するベクトル化によって実現することができます。この方法は、低レベルの最適化を活用し、Pythonのループのオーバーヘッドを回避することができます。ベクトル化に加えて、NumPy関数や、メソッドチェーンなどのPandasの組み込みメソッドを活用することで、パフォーマンスを向上させることができます。

ベクトル化

ベクトル化とは、要素ごとに反復処理するのではなく、配列やデータ構造全体に対して操作を実行することを指します。この技術により、Pandasは、低レベルの最適化を活用し、NumPyライブラリの下にあるものを含め、大幅に高速化を実現することができます。

Pandasでは、SeriesやDataFrameオブジェクトに対して、組み込みの関数やメソッドを使用して、ベクトル化演算を実行することができます。これらの操作には、算術、比較、論理演算が含まれます。

python
import pandas as pd

data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
result = data * 2  # ベクトル化乗算

NumPy関数の使用

NumPyは、Pythonでの数値計算のための強力なライブラリであり、Pandasの基盤となっています。NumPy関数を利用することで、Pandas操作のパフォーマンスを向上させることができます。多くのNumPy関数は、PandasのSeriesやDataFrameオブジェクトと互換し、両方のライブラリ間でシームレスに統合できます。

python
import numpy as np
import pandas as pd

data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
result = np.sqrt(data)  # 要素ごとに平方根を適用

カテゴリカルデータ

文字列やファクターなどのカテゴリカルデータは、Pandasのカテゴリカルデータ型を使用することで、効率的に格納および操作することができます。カテゴリカルデータ型は、整数としてデータを格納し、整数値とカテゴリラベルの別々のマッピングを保持するため、メモリ使用量を大幅に削減し、特にソート、グループ化、結合などの操作に対してパフォーマンスを向上させることができます。

python
import pandas as pd

data = pd.Series(['apple', 'banana', 'apple', 'orange'], dtype='category')

メソッドチェーン

メソッドチェーンは、1つの簡潔な文でデータ構造に複数の操作を実行する強力なプログラミング技術です。Pandasでは、多くのDataFrameやSeriesメソッドが新しいオブジェクトを返すため、追加のメソッド呼び出しでさらに変更や変換が可能です。

メソッドチェーンを使用することで、コード中の中間変数の量を減らし、より読みやすく、効率的なコードを実現できます。また、この技術により、データの処理中に複数の一時オブジェクトを作成する必要がなくなり、パフォーマンスが向上する場合があります。

python
import pandas as pd

data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

result = (
    data.assign(C=lambda df: df['A'] * 2)
    .query('C > 3')
    .sort_values(by='C', ascending=False)
)

この例では、新しい列Cを作成し、Cが3より大きい行をフィルタリングし、残りの行をC列の降順でソートする、1つの文で複数の操作を実行しています。

並列処理

大規模なデータセットを扱う場合、並列処理はパフォーマンスを大幅に向上させることができます。DaskやSwifterのようなライブラリを使用して、Pandas操作を並列化することができます。また、Pythonの標準ライブラリのmultiprocessingモジュールを使用して、作業量を複数のプロセスに分散することもできます。

Daskを使用した並列処理

Daskは、Pythonの柔軟性のある並列計算ライブラリであり、Pandas操作を並列化するために使用することができます。Daskは、小さなPandas DataFrameがインデックスで分割された、大きな並列DataFrameであるDask DataFrameを提供します。Dask DataFrameは、Pandas APIを模倣しており、Pandasワークフローを大規模なデータセットにスケールアップすることが容易になります。

python
import dask.dataframe as dd

# データをDask DataFrameに読み込む
dask_data = dd.read_csv('large_data.csv')

# Dask DataFrameで操作を実行する
result = dask_data.groupby('column1').mean()

# 結果を計算してPandas DataFrameを返す
result_pd = result.compute()

Swifterを使用した高速化操作

Swifterは、Pandas DataFrameやSeriesに任意の関数を効率的に適用することを目的としたライブラリです。Swifterは、入力データや関数に基づいて、ベクトル化またはDaskによる並列処理の最適なストラテジーを自動的に選択することによって、性能を大幅に向上させます。Pandasのネイティブにベクトル化されていない、例えばapplyメソッドを使用して適用されるカスタム関数などの操作のパフォーマンスを大幅に向上させることができます。

python
import pandas as pd
import swifter

data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 入力値を二乗するカスタム関数を定義
def square(x):
    return x**2

# Swifterを使用してカスタム関数を適用
data['C'] = data['A'].swifter.apply(square)

Pandasでのマルチプロセス処理

Pythonの標準ライブラリには、multiprocessingモジュールが含まれており、複数のプロセスに作業量を分散することで、Pandas操作を並列化することができます。このアプローチは、大規模なデータセットに対してカスタム関数を適用するなど、計算負荷が高いタスクに特に有用です。

python
import pandas as pd
from multiprocessing import Pool, cpu_count

data = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 入力値を二乗するカスタム関数を定義
def square(x):
    return x**2

# データを複数のプロセスで処理するためにチャンクに分割
num_partitions = cpu_count()  # CPUコア数
num_cores = cpu_count()
data_split = np.array_split(data, num_partitions)

# 各チャンクにカスタム関数を適用する関数を定義
def process_data(data_chunk):
    return data_chunk['A'].apply(square)

# multiprocessingを使用して操作を並列化
with Pool(num_cores) as pool:
    results = pool.map(process_data, data_split)

# 結果を単一のPandas DataFrameに結合
data['C'] = pd.concat(results)

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!