はじめに
近年、DXという言葉を聞く機会が多くなりました。DXとは、Digital Transformationの略で、デジタルテクノロジーを活用して新しい価値を創出し、組織の成長を促す活動のことです。つまり、DXの根幹にはデータ活用があります。データ活用のためには、正しいデータを使いたいときに使えるようにするデータマネジメントが必要不可欠になります。データマネジメントによりデータ活用が促進され、データ駆動型の意思決定を推進することでDXを実現します。
データ活用における課題
データを活用するためには、正しいデータを使いたいタイミングで使える必要がありますが、多くの組織は次のような課題を抱えており、DXがなかなか進みません。
- 組織内にデータが乱立している
- 部門や個人によってデータの持ち方が異なる
- ビジネスサイドとエンジニアサイドの間に大きな壁がある
- 組織間の利害関係によってなデータ共有が阻まれる
- データがどこに存在しているのか、そもそもデータが存在するのかさえ分からない
- 欲しいデータがすぐに取得できない
これらの課題を解決し、データが活用される組織を作るためには適切なデータマネジメントを実施する必要があります。
データマネジメントのバイブル「DMBOK」
データマネジメントを語る上で欠かせないのがDMBOK(Data Management Body of Knowledge)です。DMBOKはデータマネジメントについてまとめた書籍です。DMBOKではデータマネジメントを次のように定義しています。
Data Management is the development, execution, and supervision of plans, policies, programs, and practices that deliver, control, protect, and enhance the value of data and information assets throughout their lifecycles.
データマネジメントとは、データとインフォメーションという資産の価値を提供し、管理し、守り、高めるために、それらのライフサイクルを通じて計画、方針、スケジュール、手順などを開発、実施、監督することである。
データマネジメントの対象
データにはビジネスデータとメタデータがあります。データマネジメントの対象はこれらのデータになります。
ビジネスデータ
ビジネスデータには構造化データと非構造化データがあります。
- 構造化データ
- テーブルデータとして扱うことができるような構造を持っているデータ
- 非構造化データ
- 非構造化データとは、テキストファイルや、画像、動画、音声データなど、テーブルデータとして扱うことが困難なデータ
メタデータ
メタデータとは、データに対しての情報です。例えば次のようなものをメタデータと呼びます。
- データの作成者
- データの作成日時
- データ内の個人情報の有無
- データの型
- データが誰にどのくらい参照されているか
メタデータを管理する目的
メタデータを管理する目的は、データの調査コストを削減するためです。データを作成する人はそのデータに詳しいのでメタデータがなくてもデータを理解できるかもしれませんが、データを参照する人にとってはそのデータが何のデータかが分からないのでメタデータなしでは気軽にそのデータを参照することができません。また、データ作成者本人でも1年後にはそのデータの仕様を忘れている可能性もあります。そのデータの作成者が退職する場合もあります。メタデータが整備されていなければ、そのデータの調査にかなりの工数を費やしてしまう可能性があります。
データ分析基盤
データ分析基盤とは、データを連携、統合し、活用するためシステムであり、データマネジメントのサービスです。データレイク、データウェアハウス、データマートの3層のシステム構成とすることが一般的です。データマネジメントは、データ分析基盤をフル活用してデータ駆動型の意思決定をする組織を目指します。
データレイク層
データレイク層には、データソースから構造化データや非構造化データ、半構造化データ(JSON、CSVなど)を加工せずそのままの状態で蓄積していきます。データの中身に誤りがあったとしても修正せずにそのままの状態で集約します。
データウェアハウス層
データウェアハウス層は、組織内の構造化データを時系列に統合する層です。大量に蓄積したデータを分析することにより、インサイトを得て組織の意思決定をサポートします。
データマート層
データマート層とは、データウェアハウスのサブセットであり、データウェアハウス層からユースケースと一対一の関係で抽出して格納されたデータベースです。データマート層を構築してデータ分析基盤のユースケースごとにデータを管理することにより次のメリットが得られます。
- 影響範囲を制限
- データ量に削減によるSQLの応答時間の向上
- 必要なデータの探索時間の減少
データ分析基盤のユースケースを定める
データ基盤を構築する目的はユースケースを実現するためです。そのため、データレイク、データウェアハウス、データマートを考える前にまずはデータ分析基盤によって実現したいことを整理する必要があります。例えばECサイトを運営している企業がデータ分析基盤で実現したいこととして、以下が考えられます。
- 売上、在庫、広告コストなどのモニタリング
- 顧客のレビュー分析
- 広告の便益測定
- ABテストによる効果の測定
これらの他にも無数のユースケースが存在します。また、データ分析基盤の利用者によって最適なツールが異なることも意識する必要があります。Excelを使いたい人もいれば、Jupyter Notebookを使いたい人もいます。これらを踏まえ、ビジネスとデータを繋げることを常に意識しながらデータ分析基盤の設計をする必要があります。
データ活用とセキュリティのトレードオフ
データ活用とセキュリティはトレードオフの関係にあります。例えば、組織内の誰でも閲覧可能なデータベースは、データ活用の観点では素晴らしい環境ですが、大きなセキュリティリスクがあります。GDPR など個人情報保護に関する規制が年々強くなっており、万が一個人情報が流出してしまうと大問題になってしまいます。一方、セキュリティをガチガチに固めてしまうとデータ活用が進まなくなります。セキュリティのトレードオフを適切に見極めながらデータ活用を推進する必要があります。
参考