Traffine I/O

日本語

2022-07-04

Google Cloudのデータ分析基盤サービス

はじめに

現代において、企業はデータを活用し、洞察を得て、意思決定をし、ビジネスを進める必要があります。Google Cloudは、企業がデータを管理、分析、理解するためのツールとサービスを提供しています。この記事では、Google Cloudにおけるデータ分析基盤サービスの概要を提供し、データウェアハウジング、データレイク、ストリーミングアナリティクス、ビジネスインテリジェンス、データ統合、ワークフローオーケストレーション、データセキュリティ、ガバナンスなどをカバーします。

データウェアハウジング

BigQuery

BigQueryは、Google Cloudの完全にマネージドでサーバーレスのデータウェアハウジングソリューションであり、超高速なSQLクエリ、リアルタイムデータ分析、他のGoogle Cloudサービスとのシームレスな統合を実現します。BigQueryのサーバーレスアーキテクチャと組み込み機械学習機能により、構造化データの大量の格納と分析を行いたい企業にとって有力な選択肢となっています。

https://cloud.google.com/bigquery

データレイク

Cloud Storage

Google Cloud Storageは、大量の非構造化データを格納および取得するために設計された高度にスケーラブルで費用効果の高いオブジェクトストレージサービスです。画像、ビデオ、ドキュメント、その他のバイナリデータを含むあらゆるタイプのデータを格納するための信頼性の高い安全なデータレイク基盤を提供します。Cloud Storageは、さまざまなパフォーマンスとコスト要件に対応するための異なるストレージクラスを提供し、幅広いユースケースに適したソリューションとなっています。

https://cloud.google.com/storage

BigQuery

BigQueryはデータレイクアーキテクチャでも使用でき、Cloud Storageなどの外部データソースに格納されたデータをSQL構文を使ってクエリや分析することができます。BigQueryの外部テーブル機能を使用することで、データを移動したり変換することなく、Cloud Storageに格納された非構造化データや半構造化データをデータレイク環境で柔軟で費用対効果の高い方法で分析することができます。

Dataproc

Google Cloud Dataprocは、Google Cloud上でApache SparkとApache Hadoopのワークロードを実行するための完全にマネージドなサービスです。大量のデータセットを処理し、ETLタスクを実行するための高速で簡単かつ費用効果の高い方法を提供します。Dataprocを使用すると、迅速にSparkとHadoopクラスタを作成および管理し、必要に応じてスケールアップまたはスケールダウンし、使用するリソースのみを支払うことができます。Dataprocは、Cloud StorageやBigQueryなどの他のGoogle Cloudサービスとも統合されており、包括的なデータ処理パイプラインを構築することができます。

https://cloud.google.com/dataproc

Dataplex

Google Cloud Dataplexは、データ管理を自動化し、スケールで洞察を発見するために設計されたインテリジェントデータファブリックです。データレイク、データウェアハウス、その他のデータソース全体でデータを管理、発見、ガバナンスするための統一されたプラットフォームを提供します。Dataplexを使用すると、データの検索、カタログ化、ラインナップトラッキングを自動化することができ、データの理解と使用が容易になります。さらに、Dataplexは、ポリシーベースのアクセス制御やデータ分類などの高度なデータガバナンス機能を提供し、データが安全で規制に準拠していることを保証します。

https://cloud.google.com/dataplex

ストリーミング分析

Pub/Sub

Google Cloud Pub/Subは、アプリケーションやサービス間でリアルタイムのデータストリーミングを可能にするグローバルなメッセージングサービスです。イベント駆動アーキテクチャやストリーミングアナリティクスに対するスケーラブルで信頼性の高いメッセージング機能を提供します。Pub/Subは、パブリッシャーがトピックにメッセージを送信し、サブスクライバーがそれらのトピックからメッセージを受信することができる、パブリッシュ-サブスクライブパターンを使用します。これにより、プロデューサーとコンシューマーの間で直接的な通信が必要なく、スケーラブルなデータストリーム処理が可能となります。

https://cloud.google.com/pubsub

Dataflow

Google Cloud Dataflowは、データ処理パイプラインの構築と実行のためのフルマネージドサービスです。リアルタイムおよびヒストリカルデータを大規模に処理、変換、分析するための柔軟で費用対効果の高い方法を提供します。Dataflowは、Apache Beamプログラミングモデルをベースにしており、バッチ処理とストリーミング処理の両方に対応した統合パイプラインを構築することができます。

https://cloud.google.com/dataflow

ビジネスインテリジェンス

Looker

Lookerは、データ分析とビジネスインテリジェンスプラットフォームであり、ユーザーがデータを探索、視覚化、共有することができます。BigQueryや他のGoogle Cloudサービスとの緊密な統合により、Lookerは企業が迅速かつ効率的にデータに基づく意思決定を行うことを可能にします。

https://cloud.google.com/looker

Looker Studio

Looker Studioは、データカタログおよび発見ツールであり、企業がデータ資産を管理および組織化するのを支援します。Looker Studioを使用すると、ユーザーは簡単に組織全体で利用可能なデータを検索、発見、理解することができます。これにより、より正確な意思決定を行い、より良いビジネス結果を得ることができます。

https://cloud.google.com/looker-studio

データ統合

Data Fusion

Data Fusionは、ビルド、展開、管理するための完全にマネージドなクラウドネイティブのデータ統合サービスであり、複数のソースからのデータパイプラインの構築を簡素化します。複雑なデータ変換を行うためのコードレスでグラフィカルなインターフェースを提供し、ユーザーがさまざまなソースからのデータを統合し、エンリッチすることが容易になります。

Dataproc

Dataprocは、データレイク処理に加えて、データ統合タスクにも使用できます。Apache SparkおよびApache Hadoopワークロードのサポートを活用することで、組織は大量のデータを取り込み、処理、変換するためのデータパイプラインを構築および実行することができます。

ワークフローオーケストレーション

Cloud Composer

Cloud Composerは、Apache Airflow上に構築された完全にマネージドなワークフローオーケストレーションサービスです。ユーザーは、さまざまなGoogle Cloudサービス全体でデータワークフローを作成、スケジュール、監視できるため、データ処理タスクがタイムリーかつ効率的に実行されることが保証されます。

https://cloud.google.com/composer

データセキュリティおよびガバナンス

Data Catalog

Data Catalogは、データ資産を発見、理解、管理するための完全にマネージドなメタデータ管理サービスです。メタデータを集中的に格納および管理することで、データガバナンスを適切に維持しながら、必要なデータにアクセスすることが容易になります。

https://cloud.google.com/data-catalog/docs/concepts/overview

Cloud DLP

Cloud Data Loss Prevention(DLP)は、組織が機密データを発見、分類、保護するためのサービスです。Cloud DLPを使用することで、ビジネスは機密情報を検出および管理し、データが保護され、規制に準拠していることを確認できます。

https://cloud.google.com/dlp

Cloud IAM

Cloud Identity and Access Management(IAM)は、Google Cloud内のデータおよびリソースへのアクセスを制御するサービスです。Cloud IAMを使用することで、ビジネスは細粒度なアクセスポリシーを定義および強制し、特定のデータおよびサービスに対してのみ承認されたユーザーがアクセスできるようにすることができます。

https://cloud.google.com/iam

参考

https://cloud.google.com/bigquery
https://cloud.google.com/storage
https://cloud.google.com/dataproc
https://cloud.google.com/dataplex
https://cloud.google.com/pubsub
https://cloud.google.com/dataflow
https://cloud.google.com/looker
https://cloud.google.com/looker-studio
https://cloud.google.com/data-catalog/docs/concepts/overview
https://cloud.google.com/dlp
https://cloud.google.com/iam

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!