2023-04-07

データベースのインデックス

データベースにおけるインデックスとは

データベースの世界では、データの検索とクエリの実行は重要な操作です。巨大なデータセットを扱う際には、目的の情報を見つけるために全てのデータを検索することは時間がかかります。ここでインデックスが重要な役割を果たします。本の索引が本全体を読まずに特定の情報を素早く見つけるのと同様に、データベースのインデックスはデータベースエンジンがテーブル内の全ての行をスキャンせずに必要なデータを見つけるのを助けます。

インデックスの目的

インデックスはデータベース管理システムでいくつかの重要な目的を果たします。

クエリの高速化
インデックスの主な目的の1つは、データの検索操作の速度を向上させることです。インデックスがない場合、データベース管理システムは各クエリごとにフルテーブルスキャンを実行する必要があります。つまり、テーブル内の全てのレコードを調べる必要があります。インデックスはデータを特定の方法で格納するため、システムが必要なデータをはるかに速く見つけることができます。ディスクI/O操作の数を大幅に削減することができ、特に大規模なデータセットの場合にはクエリのパフォーマンスに大きな違いをもたらすことができます。
一意性の強制
インデックスは、データベース内の特定の列において2つの行が同じ値を持たないようにするために使用されることがあります。これを一意なインデックスと呼びます。例えば、ユーザーのテーブルでは、2つのユーザーが同じメールアドレスを持たないようにしたい場合があります。メールアドレスの列に一意なインデックスを作成することで、データベースは重複したメールアドレスをもたらす新しいデータの挿入を自動的に防止します。
ソートとグループの支援
データの検索の高速化だけでなく、インデックスはデータのソートやグループ化も支援することがあります。データがインデックス化されると、通常はソートされた構造で格納されます。そのため、データベースは再度データをソートする必要がない場合には、このソートされたデータを直接使用することがあります。

インデックスの動作原理

インデックスはデータベース内のデータの一部を格納するデータ構造として実装されます。もっとも一般的な形式のインデックスは、テーブルの各行の主キーのコピーと、各キーの場所を示すポインタを格納します。インデックスは効率的に検索できるように構造化されています。

インデックスは、次の2つのコンポーネントで構成されています。

キー
これはテーブル内のインデックス化された列からの値です。通常はソートされた方法で格納されます。
ポインタ
これはデータファイル内の各キーの場所を参照するものです。

キーとポインタの組み合わせにより、データベースエンジンはテーブル全体をスキャンすることなくデータの場所を素早く見つけるためにインデックスを使用することができます。

インデックスの種類

ここでは、データベースのインデックスの種類について説明します。主に使用される3つの一般的な種類であるBツリーインデックス、ビットマップインデックス、ハッシュインデックスに焦点を当てます。

Bツリーインデックス

データベースでもっとも人気のあるインデックスの一つがBツリーインデックスです。Bツリーはバランスツリー（Balanced Tree）の略で、ソートされたデータを維持し、探索、挿入、削除を対数時間で行う自己バランスの取れたツリー構造です。

Bツリーインデックスの構造

Bツリーインデックスは、Bツリーと呼ばれる階層的かつバランスの取れた構造にキーを整理します。ツリーはルートと呼ばれる最上位のノードから始まり、各ノードは特定の順序でソートされた一定数のキーと子ポインタを含みます。

ノードは内部ノードと葉ノードの2つに分類されます。内部ノードにはキーと子ポインタがありますが、葉ノードには実際のデータレコードのキーとポインタが含まれます。Bツリーは、葉ノードが常に同じ深さにあるように設計されており、バランスと効率的なアクセスが確保されています。

Bツリーインデックスの利点

範囲クエリと等価クエリの両方を効率的に処理することができる
ソートや特定の順序での検索に有利
エントリが追加または削除されると自動的にバランスが取れる

ビットマップインデックス

ビットマップインデックスは、カーディナリティが低い場合に使用されます。カーディナリティとは、列内のユニークな値の数を指します。

ビットマップインデックスの構造

ビットマップインデックスでは、カラム内の各ユニークな値に対して対応するビットマップ（ビットの配列）が作成されます。ビットマップの各ビットはテーブル内の1つの行を表します。そのビットは、その行のカラムの値が対応するユニークな値と一致する場合は1に設定され、一致しない場合は0に設定されます。

ビットマップインデックスの利点

ビットマップインデックスは非常にスペース効率が良い
ANDやORなどの複数の条件を持つクエリで効率的に使用することができる

ハッシュインデックス

ハッシュインデックスは、検索条件が完全に一致する場合に使用されます。

ハッシュインデックスの構造

ハッシュインデックスでは、ハッシュ関数を使用してキー（インデックスのキー値）をアドレス（データファイル内のデータレコードの場所）にマップします。ハッシュ関数の出力であるハッシュ値は、データの場所を示します。この構造はハッシュテーブルと呼ばれ、バケットの配列を含んでいます。

ハッシュインデックスの利点

完全一致の検索に非常に効率的
キーの分布が均一である場合、特定のルックアップパターンでBツリーインデックスよりも高速になることがある

例

Bツリー、ビットマップ、ハッシュのインデックスを簡単な例で説明します。次のようなデータを持つEmployeesという単純なテーブルがあると想像してください。

EmployeeID	Name	Department
1	Alice	HR
2	Bob	Sales
3	Carol	HR
4	Dave	IT
5	Eve	Sales
6	Frank	IT

Bツリーインデックスの例

EmployeeID列にBツリーインデックスを作成した場合、インデックスの構造は次のようになります。

    [3]
   /    \
 [1,2]   [4,5,6]

ここで、数字は従業員のIDを表しています。Bツリーインデックスは、これらのIDを木構造のような形式で整理し、特定のIDの検索を効率的に行います。例えば、EmployeeIDが5であるレコードを探している場合、データベースはまず5を3と比較し、5が大きいことを判断してから、右の子ノード[4,5,6]を調べてレコードを見つけます。

ビットマップインデックスの例

Department列にビットマップインデックスを作成した場合、インデックスは次のようになります。

Department: HR    -> 1 0 1 0 0 0
            Sales -> 0 1 0 0 1 0
            IT    -> 0 0 0 1 0 1

各ビットはテーブル内の1つの行に対応します。例えば、HRのビットマップでは、最初と3番目のビットが1に設定されており、最初と3番目の従業員がHR部門に所属していることを示しています。ビットマップインデックスは、カーディナリティが低い場合に効率的です。

ハッシュインデックスの例

EmployeeID列にハッシュインデックスを作成した場合、次のようになります。

Hashed Value of EmployeeID: 1 -> [Address of Record with EmployeeID 1]
                            2 -> [Address of Record with EmployeeID 2]
                            3 -> [Address of Record with EmployeeID 3]
                            4 -> [Address of Record with EmployeeID 4]
                            5 -> [Address of Record with EmployeeID 5]
                            6 -> [Address of Record with EmployeeID 6]

ハッシュインデックスは、ハッシュ関数を使用して従業員のIDをデータファイル内のレコードのアドレスや場所に直接マッピングします。これにより、等価検索の場合に非常に高速なアクセスが可能ですが、範囲クエリには有用ではありません。

適切なインデックスの選択

データベースを管理する際には、パフォーマンスを最適化するために適切なインデックスを選択することが重要です。インデックスの選択はクエリの実行速度と効率に大きな影響を与える場合があります。以下では、インデックスの選択に影響を与える要素と、Bツリーインデックス、ビットマップインデックス、ハッシュインデックスを比較して適切な選択をする方法を紹介します。

クエリパターン
データベースに対して実行されるクエリの種類を理解することが重要です。例えば、アプリケーションが主に正確な一致のルックアップを行う場合は、ハッシュインデックスが適しています。一方、頻繁に範囲クエリを実行する場合は、Bツリーインデックスがより適しています。
カーディナリティ
ビットマップインデックスは、カーディナリティが低い列に特に有効です。一方、高カーディナリティのデータにはBツリーインデックスが効率的です。
読み取りと書き込みの比率
データベースの読み取りと書き込みの比率を考慮してください。データベースが読み取り中心の場合、追加のインデックスによる高速な読み取りの最適化が有益です。ただし、頻繁な書き込み操作（挿入、更新、削除）が含まれる場合は、インデックスを使用することで書き込みパフォーマンスが低下する可能性があるため注意が必要です。
ディスクスペース
インデックスはディスクスペースを消費します。利用可能なディスクスペースの量とインデックスの消費量を考慮することが重要です。
メンテナンス
インデックスはメンテナンスを必要とします。データが変更されると、インデックスが断片化したり肥大化したりする場合があり、パフォーマンスを維持するために定期的な再構築や再編成が必要になることがあります。このメンテナンスはリソースを消費する場合があり、本番ワークロードに影響を与えないよう注意深く計画する必要があります。

インデックスのデメリット

インデックスはデータベースのパフォーマンスを最適化するための強力なツールですが、欠点がないわけではありません。これらの欠点を理解することは、効果的なデータベース管理のために不可欠です。

ディスクスペースの増加
作成されるインデックスごとにディスクスペースが消費されます。データベースのサイズやインデックスの数に応じて、膨大な量のストレージが必要になる場合があります。
書き込みパフォーマンスの低下
インデックスは挿入、更新、削除のパフォーマンスに影響を与える場合があります。データが変更されるたびに、対応するインデックスも更新する必要があります。この追加作業により、書き込み操作に時間がかかる可能性があります。
メンテナンスのオーバーヘッド
インデックスはメンテナンスを必要とします。データが変更されると、インデックスが断片化したり肥大化したりする場合があり、パフォーマンスを維持するために定期的な再構築や再編成が必要になることがあります。このメンテナンスはリソースを消費し、本番ワークロードに影響を与えないよう注意深く計画する必要があります。
複雑さ
複数のインデックスや複雑なインデックス構造の使用は、データベース設計に追加の複雑さをもたらす可能性があります。この複雑さにより、クエリのパフォーマンスを予測するのが難しくなったり、パフォーマンスの問題のトラブルシューティングが複雑化したりする可能性があります。

インデックスはクエリのパフォーマンスを最適化するために非常に重要ですが、適切に使用する必要があります。

データベースにおける正規化

カラム指向データベース

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS