MaxCompute とは - - Alibaba Cloud ドキュメントセンター

ビッグデータコンピューティングサービスである MaxCompute (旧 ODPS) は、GB、TB、PB 級のデータに対応した高速なデータウェアハウスソリューションです。

MaxCompute は、従来の各種分散コンピューティングモデルに対応しており、ビジネスコストを削減し、データセキュリティを確保しながら、大量データの計算に関する課題を解決できます。

また、MaxCompute は DataWorks とシームレスに統合されるため、MaxCompute のデータ同期化、タスク開発、データワークフロー開発、データの操作、保守、管理をワンストップで実行できます。詳細は、「DataWorks」をご参照ください。

MaxCompute は、主に構造化データの一括保存と一括計算に使用されます。大容量のデータウェアハウスソリューションだけでなく、ビッグデータ分析機能とモデル化サービスも提供します。データ収集技術の多様化と広域化が進むにつれ、産業界でのデータの大容量化が加速しています。データ容量が、従来のソフトウェア業界では扱うことができなかった 100 GB、TB、更には PB 級にまで拡大しています。

大容量データの場合、単一サーバーでは処理能力が限られるため､分散コンピューティングに移行するのが一般的です。しかし、分散コンピューティングモデルの維持管理は容易でなく、高い専門性がデータアナリストに求められます。分散モデルを使用する場合、データアナリストはビジネスニーズを理解するだけでなく、基盤のコンピューティングモデルにも精通する必要があります。 MaxCompute を使用することで、大量データの分析と処理を簡便化できます。また、大容量データを分析するのに、分散コンピューティングに関する詳細な知識は必要ありません。

注 Alibaba グループでは、大規模インターネット企業のデータウェアハウスと BI 分析、E-commerce サイトの Web ログ解析とトランザクション分析､およびユーザー特性とインタレストマイニングなどの分野で、MaxCompute を幅広く使用しています。

MaxCompute ラーニングパス

「MaxCompute ラーニングパス」を使用すると、MaxCompute に関する概念、基本操作、および高度な操作を素早く学習できます。

プロダクトの利点

大規模コンピューティングとストレージ
MaxCompute は、大規模データ (最大で PB 級) の保存と処理に適しています。
複数の計算モデルに対応
MaxCompute は、SQL、MapReduce、Graph、MPI 反復アルゴリズム、およびその他のプログラミングモデルを基盤としたデータ処理方法に対応しています。
堅牢なデータセキュリティ
MaxCompute は、すべての Alibaba Group ビジネスのオフライン解析を 7 年以上に渡って安定的に支え、マルチレイヤーサンドボックス保護およびモニタリング機能を備えています。
優れた費用対効果
MaxCompute は、オンプレミスのプライベートクラウドモデルに比べ、調達費を 20% から30% 削減できます。

機能

データトンネル
- 大規模な履歴データチャネルに対応しています。
  
  TUNNELは、並列性の高いデータのアップロードとダウンロードサービスを提供します。 TUNNEL サービスは、TB 級や PB 級の日次データのインポートとエクスポートに対応しているため、全データや履歴データを一括インポートする際に特に便利です。また、TUNNEL サービスは Java プログラミングインターフェイスを実装しており、MaxCompute クライアントツールには、ローカルファイルやサービスデータの交換に対応したコマンドが用意されています。
- リアルタイムおよび増分データチャネル
  
  リアルタイムのデータアップロード向けには、レイテンシを低減して使いやすい DataHub サービスが MaxCompute に搭載されています。 DataHub サービスは、増分データのインポートに特に適しています。 DataHub は、Logstash 、Flume、 Fluentd 、Sqoop などの多様なデータ転送プラグインにも対応しています。また、ログ機能も備えています。ログは MaxCompute に送られ、次に DataWorks でログ解析とマイニングが実行されます。
コンピューティングおよび解析タスク
MaxCompute は、複数のコンピューティングモデルに対応しています。
- SQL: MaxCompute では、データはテーブル形式で保存されます。 MaxCompute では、外部インターフェイス用の SQL クエリ関数を使用できます。 MaxCompute は従来のデータベースソフトウェアと同じように操作できるだけでなく、PB 級のデータを処理することもできます。
  注
  
  MaxCompute SQL は、トランザクション、インデックス、更新と削除操作に対応していません。
  
  MaxCompute SQL 構文は、Oracle や MySQL とは異なり、他のデータベースの SQL 文を MaxCompute にシームレスに移行できないので注意してください。
  
  MaxCompute SQL では、クエリを秒からミリ秒単位で実行できますが、結果をミリ秒単位で返すことはできません。
  
  MaxCompute SQL の利点は、ラーニングコストを低く抑えられることです。複雑な分散コンピューティングに関する知識は必要ありません。データベース操作の経験があれば、MaxCompute SQL を短期間で習得できます。
- UDF: ユーザー定義関数
  MaxCompute には、コンピューティングに関するユーザーニーズを満たす数多くの組み込み関数が実装されていますが、カスタム関数を作成することもできます。
- MapReduce: MapReduce は、MaxCompute に実装されている Java MapReduce プログラミングモデルです。 Java プログラミングインターフェイスが採用され、開発プロセスを簡素化する設定になっていますが、MapReduce を使用する前に、分散コンピューティングの基本概念を理解し、関連のあるプログラミング経験を積むことを推奨します。 MaxCompute MapReduce では、Java プログラミングインターフェイスを使用できます。
- Graph： MaxCompute の Graph 機能は、反復グラフ計算向けの処理フレームワークです。グラフ計算ジョブでは、グラフを使ってモデルが構築されます。グラフは頂点と辺から構成され、頂点と辺には値が含まれます。グラフの編集と展開が繰り返し実行された後、最終結果が得られます。代表的なアプリケーションには、PageRank、SSSP アルゴリズム、K 平均法アルゴリズムなどがあります。グラフは編集と展開が繰り返し実行され、最終的な結果が表示されます。代表的なアプリケーションには、PageRank、単一始点最短距離アルゴリズム、K 平均法クラスタリングアルゴリズムなどがあります。
SDK
開発者向けに便利なツールキットが用意されています。詳細は、「MaxCompute SDK」をご参照ください。
安全性
Maxcompute には、データを保護するための強力なセキュリティサービスが搭載されています。詳細は、「セキュリティガイド (security guide)」をご参照ください。

次のステップ

MaxCompute プロダクトの利点、機能の特徴、その他の関連事項について学習しました。次のチュートリアルに進むことができます。次のチュートリアルでは、 MaxCompute の課金方法について説明します。詳細は、「料金 (Product Pricing)」をご参照ください。