MaxCompute：PB スケールのデータウェアハウスの運用

MaxCompute

大量のデータを高速で処理するプラットフォーム

今すぐ購入コンソールいどう

新規プロジェクトサポート選択データ型は近日オンラインになりますので、ご注意ください >

概要

MaxCompute (旧プロダクト名 ODPS) は、大規模データウェアハウジングのためのフルマネージドかつマルチテナント形式のデータ処理プラットフォームです。さまざまなデータインポートソリューションと分散計算モデルにより、大規模データの効率的な照会、運用コストの削減、データセキュリティを実現します。

{"moduleinfo":{"benefits":"利点","outputBuyBtn4Partner":true,"os_count":[{"count_phone":0,"count":0}],"products_count":[{"count_phone":0,"count":0}],"benefits_count":[{"count_phone":4,"count":4}],"news_count":[{"count_phone":0,"count":0}],"floor":"floor1","outputNews4Partner":"false","regions_count":[{"count_phone":0,"count":0}]},"regions":[],"os":[],"products":[],"benefits":[{"icon":"https://img.alicdn.com/tfs/TB1bCuxXrH1gK0jSZFwXXc7aXXa-108-108.png","title":"大規模コンピューティングとストレージ","content":"EB レベルのデータ保存と計算が可能です。"},{"icon":"https://img.alicdn.com/tfs/TB13TuxXrY1gK0jSZTEXXXDQVXa-108-108.png","title":"主要な計算モデル","content":"SQL、MapReduce、Graph、および MPI の反復アルゴリズムが利用可能です。"},{"icon":"https://img.alicdn.com/tfs/TB1Lc9yXAL0gK0jSZFxXXXWHVXa-108-108.png","title":"セキュリティ","content":"7 年以上にわたり、安定したオフライン分析サービスを提供し、マルチレベルでのサンドボックス保護とモニタリングが可能です。"},{"icon":"https://img.alicdn.com/tfs/TB1P1OwXAT2gK0jSZFkXXcIQFXa-108-108.png","title":"コスト削減","content":"企業のプライベートクラウドよりも効率的なコンピューティングとストレージを提供し、購入コストを 20% から 30% 削減します。"}],"news":[],"$root":{"moduleinfo":{"benefits":"利点","outputBuyBtn4Partner":true,"os_count":[{"count_phone":0,"count":0}],"products_count":[{"count_phone":0,"count":0}],"benefits_count":[{"count_phone":4,"count":4}],"news_count":[{"count_phone":0,"count":0}],"floor":"floor1","outputNews4Partner":"false","regions_count":[{"count_phone":0,"count":0}]},"regions":[],"os":[],"products":[],"benefits":[{"icon":"https://img.alicdn.com/tfs/TB1bCuxXrH1gK0jSZFwXXc7aXXa-108-108.png","title":"大規模コンピューティングとストレージ","content":"EB レベルのデータ保存と計算が可能です。"},{"icon":"https://img.alicdn.com/tfs/TB13TuxXrY1gK0jSZTEXXXDQVXa-108-108.png","title":"主要な計算モデル","content":"SQL、MapReduce、Graph、および MPI の反復アルゴリズムが利用可能です。"},{"icon":"https://img.alicdn.com/tfs/TB1Lc9yXAL0gK0jSZFxXXXWHVXa-108-108.png","title":"セキュリティ","content":"7 年以上にわたり、安定したオフライン分析サービスを提供し、マルチレベルでのサンドボックス保護とモニタリングが可能です。"},{"icon":"https://img.alicdn.com/tfs/TB1P1OwXAT2gK0jSZFkXXcIQFXa-108-108.png","title":"コスト削減","content":"企業のプライベートクラウドよりも効率的なコンピューティングとストレージを提供し、購入コストを 20% から 30% 削減します。"}],"news":[]},"$moduleId":"3093554200"}

利点

: 大規模コンピューティングとストレージ
EB レベルのデータ保存と計算が可能です。

: 主要な計算モデル
SQL、MapReduce、Graph、および MPI の反復アルゴリズムが利用可能です。

: セキュリティ
7 年以上にわたり、安定したオフライン分析サービスを提供し、マルチレベルでのサンドボックス保護とモニタリングが可能です。

: コスト削減
企業のプライベートクラウドよりも効率的なコンピューティングとストレージを提供し、購入コストを 20% から 30% 削減します。

{"moduleinfo":{"title":"特徴","li_count":[{"count_phone":4,"count":4}]},"li":[{"spm":"a","img":"https://img.alicdn.com/tfs/TB1EYCxXEH1gK0jSZSyXXXtlpXa-108-108.png","more":[{"p":"データ Tunnel、履歴データ Tunnel、増分データ Tunnel をサポートしています。","tce_rule_count":"1","title":""},{"p":"MaxCompute は、Tunnel を使用してデータを送信します。Tunnel はスケーリングさせることができ、日常的に PB レベルのデータをインポート/エクスポートします。複数の Tunnel を介して、すべてのデータや履歴データをインポートできます。Tunnel サービスは、Java SDK をサポートしています。MaxCompute クライアント上でコマンドを使用して、クラウドとファイルやデータを交換できます。","tce_rule_count":"1","title":"複数のデータ Tunnel と履歴データ Tunnel"},{"p":"MaxCompute は、リアルタイムでデータをアップロードするための DataHub サービスを提供しています。このサービスは低レイテンシで、簡単に操作できます。また、増分データのインポートに非常に適しています。DataHub では、Logstash、Flume、Fluentd、Sqoop などの複数のデータ転送プラグインがサポートされます。Log Service を使用して簡単にログを MaxCompute に送信できるほか、ビッグデータ開発キットを使用してログの解析とマイニングを実行することもできます。","tce_rule_count":"1","title":"リアルタイム増分データ Tunnel"}],"h1":"Tunnel 機能","imgAction":"https://img.alicdn.com/tfs/TB1nbCJXxn1gK0jSZKPXXXvUXXa-108-108.png"},{"spm":"a","img":"https://img.alicdn.com/tfs/TB11gGxXxD1gK0jSZFKXXcJrVXa-108-108.png","more":[{"p":"MaxCompute はすべてのデータをテーブル形式で保存し、ファイルシステムを公開していません。高い圧縮比で圧縮された列式保存により、コストが大幅に削減されます。MaxCompute の圧縮比は 5 です。","tce_rule_count":"1","title":""}],"h1":"テーブル形式でのデータ保存","imgAction":"https://img.alicdn.com/tfs/TB1cAWIXET1gK0jSZFrXXcNCXXa-108-108.png"},{"spm":"A","img":"https://img.alicdn.com/tfs/TB133GxXxD1gK0jSZFKXXcJrVXa-108-108.png","more":[{"p":"SQL、MapReduce、Graph などの計算モデルをサポートしています。","tce_rule_count":"1","title":""},{"p":"MaxCompute SQL は、標準的な SQL 構文と Hive 構文に準じています。両者を組み合わせた構文は Hibernate Query Language (HQL) と似ているので、SQL や HQL のプログラマーは MaxCompute SQL を簡単に使用することができます。SQL 計算モデルを実行するためのコンピューティングフレームワークは、一般的な MapReduce モデルよりも効率的です。ただし、MaxCompute SQL はトランザクション、インデックス、更新、削除をサポートしていません。","tce_rule_count":"1","title":"SQL"},{"p":"MaxCompute は Java MapReduce プログラミングモデルを提供します。MaxCompute には、ファイル API がありません。システム内のテーブルとの間でデータを読み書きする必要があります。そのため、MaxCompute の MapReduce モデルは、オープンソースコミュニティの MapReduce モデルとは異なります。たとえば、並べ替えやハッシュのアルゴリズムをカスタマイズできません。ただし、開発プロセスはシンプルになります。また、MaxCompute は Extended MapReduce (MR²) モデルを提供します。このモデルでは、Map 操作の後に、複数の Reduce 操作を実行できます。","tce_rule_count":"1","title":"MapReduce"},{"p":"MapReduce で K-Means や PageRank などの複雑な反復計算を行った場合、タスクを完了するのに非常に時間がかかります。そのため、MaxCompute は Graph モデルを使用して、効率的にタスクを実行します。","tce_rule_count":"1","title":"Graph"}],"h1":"計算モデル","imgAction":"https://img.alicdn.com/tfs/TB1xieFXpY7gK0jSZKzXXaikpXa-108-108.png"},{"spm":"a","img":"https://img.alicdn.com/tfs/TB1aHaxXEz1gK0jSZLeXXb9kVXa-108-108.png","more":[{"p":"MaxCompute は、マルチテナント形式のコンピューティングプラットフォームです。デフォルトでは、テナントは分離されていて、データを共有しません。ただし、同一プロジェクトグループ内の他のユーザーに、特定のデータに対する権限を設定することができます。","tce_rule_count":"1","title":""}],"h1":"セキュリティ","imgAction":"https://img.alicdn.com/tfs/TB1FbCIXAY2gK0jSZFgXXc5OFXa-108-108.png"}],"$root":{"moduleinfo":{"title":"特徴","li_count":[{"count_phone":4,"count":4}]},"li":[{"spm":"a","img":"https://img.alicdn.com/tfs/TB1EYCxXEH1gK0jSZSyXXXtlpXa-108-108.png","more":[{"p":"データ Tunnel、履歴データ Tunnel、増分データ Tunnel をサポートしています。","tce_rule_count":"1","title":""},{"p":"MaxCompute は、Tunnel を使用してデータを送信します。Tunnel はスケーリングさせることができ、日常的に PB レベルのデータをインポート/エクスポートします。複数の Tunnel を介して、すべてのデータや履歴データをインポートできます。Tunnel サービスは、Java SDK をサポートしています。MaxCompute クライアント上でコマンドを使用して、クラウドとファイルやデータを交換できます。","tce_rule_count":"1","title":"複数のデータ Tunnel と履歴データ Tunnel"},{"p":"MaxCompute は、リアルタイムでデータをアップロードするための DataHub サービスを提供しています。このサービスは低レイテンシで、簡単に操作できます。また、増分データのインポートに非常に適しています。DataHub では、Logstash、Flume、Fluentd、Sqoop などの複数のデータ転送プラグインがサポートされます。Log Service を使用して簡単にログを MaxCompute に送信できるほか、ビッグデータ開発キットを使用してログの解析とマイニングを実行することもできます。","tce_rule_count":"1","title":"リアルタイム増分データ Tunnel"}],"h1":"Tunnel 機能","imgAction":"https://img.alicdn.com/tfs/TB1nbCJXxn1gK0jSZKPXXXvUXXa-108-108.png"},{"spm":"a","img":"https://img.alicdn.com/tfs/TB11gGxXxD1gK0jSZFKXXcJrVXa-108-108.png","more":[{"p":"MaxCompute はすべてのデータをテーブル形式で保存し、ファイルシステムを公開していません。高い圧縮比で圧縮された列式保存により、コストが大幅に削減されます。MaxCompute の圧縮比は 5 です。","tce_rule_count":"1","title":""}],"h1":"テーブル形式でのデータ保存","imgAction":"https://img.alicdn.com/tfs/TB1cAWIXET1gK0jSZFrXXcNCXXa-108-108.png"},{"spm":"A","img":"https://img.alicdn.com/tfs/TB133GxXxD1gK0jSZFKXXcJrVXa-108-108.png","more":[{"p":"SQL、MapReduce、Graph などの計算モデルをサポートしています。","tce_rule_count":"1","title":""},{"p":"MaxCompute SQL は、標準的な SQL 構文と Hive 構文に準じています。両者を組み合わせた構文は Hibernate Query Language (HQL) と似ているので、SQL や HQL のプログラマーは MaxCompute SQL を簡単に使用することができます。SQL 計算モデルを実行するためのコンピューティングフレームワークは、一般的な MapReduce モデルよりも効率的です。ただし、MaxCompute SQL はトランザクション、インデックス、更新、削除をサポートしていません。","tce_rule_count":"1","title":"SQL"},{"p":"MaxCompute は Java MapReduce プログラミングモデルを提供します。MaxCompute には、ファイル API がありません。システム内のテーブルとの間でデータを読み書きする必要があります。そのため、MaxCompute の MapReduce モデルは、オープンソースコミュニティの MapReduce モデルとは異なります。たとえば、並べ替えやハッシュのアルゴリズムをカスタマイズできません。ただし、開発プロセスはシンプルになります。また、MaxCompute は Extended MapReduce (MR²) モデルを提供します。このモデルでは、Map 操作の後に、複数の Reduce 操作を実行できます。","tce_rule_count":"1","title":"MapReduce"},{"p":"MapReduce で K-Means や PageRank などの複雑な反復計算を行った場合、タスクを完了するのに非常に時間がかかります。そのため、MaxCompute は Graph モデルを使用して、効率的にタスクを実行します。","tce_rule_count":"1","title":"Graph"}],"h1":"計算モデル","imgAction":"https://img.alicdn.com/tfs/TB1xieFXpY7gK0jSZKzXXaikpXa-108-108.png"},{"spm":"a","img":"https://img.alicdn.com/tfs/TB1aHaxXEz1gK0jSZLeXXb9kVXa-108-108.png","more":[{"p":"MaxCompute は、マルチテナント形式のコンピューティングプラットフォームです。デフォルトでは、テナントは分離されていて、データを共有しません。ただし、同一プロジェクトグループ内の他のユーザーに、特定のデータに対する権限を設定することができます。","tce_rule_count":"1","title":""}],"h1":"セキュリティ","imgAction":"https://img.alicdn.com/tfs/TB1FbCIXAY2gK0jSZFgXXc5OFXa-108-108.png"}]},"$moduleId":"5055897200"}

特徴

Tunnel 機能

データ Tunnel、履歴データ Tunnel、増分データ Tunnel をサポートしています。

複数のデータ Tunnel と履歴データ Tunnel

MaxCompute は、Tunnel を使用してデータを送信します。Tunnel はスケーリングさせることができ、日常的に PB レベルのデータをインポート/エクスポートします。複数の Tunnel を介して、すべてのデータや履歴データをインポートできます。Tunnel サービスは、Java SDK をサポートしています。MaxCompute クライアント上でコマンドを使用して、クラウドとファイルやデータを交換できます。

リアルタイム増分データ Tunnel

MaxCompute は、リアルタイムでデータをアップロードするための DataHub サービスを提供しています。このサービスは低レイテンシで、簡単に操作できます。また、増分データのインポートに非常に適しています。DataHub では、Logstash、Flume、Fluentd、Sqoop などの複数のデータ転送プラグインがサポートされます。Log Service を使用して簡単にログを MaxCompute に送信できるほか、ビッグデータ開発キットを使用してログの解析とマイニングを実行することもできます。
テーブル形式でのデータ保存

MaxCompute はすべてのデータをテーブル形式で保存し、ファイルシステムを公開していません。高い圧縮比で圧縮された列式保存により、コストが大幅に削減されます。MaxCompute の圧縮比は 5 です。
計算モデル

SQL、MapReduce、Graph などの計算モデルをサポートしています。

SQL

MaxCompute SQL は、標準的な SQL 構文と Hive 構文に準じています。両者を組み合わせた構文は Hibernate Query Language (HQL) と似ているので、SQL や HQL のプログラマーは MaxCompute SQL を簡単に使用することができます。SQL 計算モデルを実行するためのコンピューティングフレームワークは、一般的な MapReduce モデルよりも効率的です。ただし、MaxCompute SQL はトランザクション、インデックス、更新、削除をサポートしていません。

MapReduce

MaxCompute は Java MapReduce プログラミングモデルを提供します。MaxCompute には、ファイル API がありません。システム内のテーブルとの間でデータを読み書きする必要があります。そのため、MaxCompute の MapReduce モデルは、オープンソースコミュニティの MapReduce モデルとは異なります。たとえば、並べ替えやハッシュのアルゴリズムをカスタマイズできません。ただし、開発プロセスはシンプルになります。また、MaxCompute は Extended MapReduce (MR²) モデルを提供します。このモデルでは、Map 操作の後に、複数の Reduce 操作を実行できます。

Graph

MapReduce で K-Means や PageRank などの複雑な反復計算を行った場合、タスクを完了するのに非常に時間がかかります。そのため、MaxCompute は Graph モデルを使用して、効率的にタスクを実行します。
セキュリティ

MaxCompute は、マルチテナント形式のコンピューティングプラットフォームです。デフォルトでは、テナントは分離されていて、データを共有しません。ただし、同一プロジェクトグループ内の他のユーザーに、特定のデータに対する権限を設定することができます。

利用イメージ

コスト削減

East Environment Energy

コスト効率の良い迅速なクラウド移行

すべての関連するサービスを 3 か月以内にクラウドに移行する支援をしました。East Environment Energy ではビッグデータプラットフォームを構築せずに移行し、データ処理時間を 3 分の 2 以上短縮しました。また、クラウド上のグリーンエネルギー利用データも確保しています。

利点

主要業務への集中

3 か月以内にすべての関連するサービスをクラウドに移行する支援をします。クラウド上に大量のリソースを置くことで、業務遂行に役立ちます。
コスト削減

人材投入や研究開発にかかるコストを大幅に削減できます。
安全性と信頼性

豊富な機能と安定したパフォーマンスにより、お客様のデータをクラウド上に確実に保護できます。

課題

クラウド移行

Step 1：DataX および Tunnel を使用して MaxCompute とデータを同期します。
データクリーニング

Step 2：Dataworks を使用してデータ同期とデータクリーニングを実行します。
データの表示

Dataworks を使用して、抽出・変換・ロード (ETL)、および Online Analytical Processing (OLAP) を行い、結果を Quick BI によりレポート生成します。