E-MapReduce

EMR は Hadoop、Spark、Kafka、Flink、および Storm などのオープンソースエコシステムをベースにクラスター、ジョブ、データを管理するためのサービスを提供する、オールインワン、エンタープライズ向けのビッグデータプラットフォームです。

Alibaba Cloud Elastic MapReduce (EMR) は Alibaba Cloud プラットフォーム上で実行されるビッグデータソリューションです。EMR はオープンソースの Apache Hadoop および Apache Spark をベースとして Alibaba Cloud ECS インスタンス上に構築されます。EMR を使用することで、Apache Hive、Apache Kafka、Flink、Druid、および TensorFlow などの Hadoop エコシステムと Spark エコシステムのコンポーネントによるデータ解析・処理が可能になります。Object Storage Service (OSS)、Log Service (SLS)、および Relational Database Service (RDS) などさまざまな Alibaba Cloud データストレージサービスに格納済みのデータを処理する場合に EMR を使用できます。

利点

使いやすさ
クラスターはハードウェア、ソフトウェアを設定せずに迅速に起動できます。Hadoop クラスターの作成から設定、チューニングまでをコンソール画面にて簡単操作で管理できます。
優れたコスト効率
処理の負荷に応じてクラスターの台数を調整でき、それに応じてノードに対して発生するコストも最小化できます。
安定性
詳細に最適化したクラスター環境、自動化されたバックグラウンドメンテナンス、および多数のオンラインサポートチャネルを提供します。
セキュリティ
Kerberos の認証およびデータ暗号化がサポートされています。RAM を使用することで、プライマリアカウントやサブアカウントによってサービス権限を分離することが可能です。

特徴

自動化されたクラスターの作成および拡張

ハードウェア、ソフトウェアを設定せずに、クラスターをコンソールから迅速に作成・拡張できます。

クラスターの作成

Hadoop, Kafka, Druid, and ZooKeeper など複数のタイプのクラスターを迅速に作成できます。

クラスターの展開

既存のクラスターに任意のタイプのノードを迅速に追加できます。

スケジューリングされたクラスターの作成

指定した時刻にクラスターの作成、ジョブの実行、実行後のクラスターのリリースを行う実行プランを作成できます。

コンポーネントの自動デプロイ

コンポーネントは必要に応じて追加・構成・メンテナンスできます。

動的展開

クラスターコンピューティングリソースを指定した時刻にスケーリングし、総保有コスト (TCO) を削減できます。

ワークフロースケジューリング

EMR はシンプルなジョブオーケストレーションとスケジューリングを提供します。

ジョブの編集および管理

複数のタイプのジョブを実行・オーケストレーションできるように、ジョブのGUI編集および管理をサポートしています。

ワークフロースケジューリング

ジョブのスケジューリングでは、依存関係を継承できるようになっています。DAG ベースのワークフローでジョブをオーケストレーション・スケジューリングできます。

動的クラスター

指定した時刻に一時的なクラスターの起動、ジョブの実行、実行後のクラスターの停止を行う実行プランを作成できます。

ジョブ実行保証

ジョブの実行に失敗すると、即時アラームを送信します。また、自動でジョブを再実行できるように設定しておくこともできます。

多数のコンポーネント

多数のコンポーネントを提供します。

Hadoop

大規模データを格納するキャパシティーとコンピューティング能力を有するビッグデータ処理プラットフォームです。

Spark

オフラインおよびリアルタイムのコンピューティング、SQL 構文、および機械学習をサポートするメモリーベースの新世代分散型コンピューティングフレームワークです。

Hive

Hadoop をベースにしたオフラインのデータ処理システムです。Hive では Hadoop Distributed File System (HDFS) ベースの構造化されたテーブル管理をサポートしており、データ分析・処理用の SQL に類似したクエリー構文を提供しています。

Kafka

高スループット、高信頼性の特徴を有する分散型のメッセージ公開およびサブスクリプションを行うシステムです。

Storm

リアルタイムでデータを処理するリアルタイムコンピューティングエンジンです。

ZooKeeper

分散アプリケーションの整合性を確保できる分散型オープンソースコーディネーションサービスです。

Hue

管理ツールおよびコンソールです。

Oozie

オープンソースのジョブスケジューリングツールです。

Druid

オープンソースのリアルタイムビッグデータ解析ソフトウェアです。

Flink

バッチ処理およびストリーム処理の分散型エンジンです。

エコシステムサポート

他のプロダクトと連携できます。

OSS のサポート

多数のコンポーネントで Object Storage Service (OSS) を HDFS として使用できます。

SLS のサポート

Log Service からリアルタイムデータ (RTD) を入力できる SDK を提供しています。

Elasticsearch のサポート

Hadoop は Elasticsearch のすべての操作をサポートする ES-Hadoop プラグインを内蔵しています。

MaxCompute のサポート

MaxCompute のデータの読み書きが可能です。

Alibaba Cloud Message Service のサポート

メッセージサービス (Message Queue、Message Service) のデータの読み書きが可能です。

利用イメージ

  • オフラインデータ処理
  • アドホックデータ分析
  • ストリームコンピューティング
データ統合

データ統合

豊富なデータ統合方法をサポート

オープンソースツール、オフラインツール、リアルタイムツール、および Alibaba Cloud の開発した統合ツールを使用できます。

利点

  • ファイルデータ

    ログやその他テキストからリアルタイムでデータ収集が可能です。

  • データベース

    バッチ、およびデータベースからリアルタイムでデータ収集が可能です。

オフラインデータ処理

オフラインデータ処理

柔軟かつコスト効率の高いオフラインデータ処理モード

Hive、Pig、Spark、SparkSQL、および Tez など多数のコンピューティングエンジンをサポートしています。また、異なるストレージサービスで格納されているデータにアクセスして使用することもできます。

利点

  • 複数のコンピューティングエンジン

    MR、Hive、Pig、Spark、および Tez など複数のコンピューティングエンジンをサポートしています。

  • 複数のデータソースのサポート

    OSS、HDFS、MaxCompute、および Kafka などのデータソースからデータを読み込むことができます。

  • 複数のデータターゲットのサポート

    コンピューティング結果をさまざまなソフトウェアに多様な形式で書き込むことができます。

アドホックデータ分析

アドホックデータ分析

柔軟かつ高速なデータ分析をサポート

Alibaba Cloud のスケーラビリティにより、Hadoop クラスターを迅速に作成してデータを分析することができます。タスク完了後、当該クラスターをリリースすることができます。

利点

  • 柔軟なクラスター

    データ分析用に一時的な Hadoop クラスタ―を迅速に構築し、タスク実行後にクラスターをリリースできます。

  • 柔軟なコンピューティング能力

    コンピューティングタスクのニーズに応じて、クラスター内のコンピューティングノードの数をカスタマイズできます。

ストリームコンピューティング

ストリームコンピューティング

柔軟で信頼性の高いリアルタイムコンピューティングを提供

多数のデータソース、オープンソースコミュニティの全ソリューション、および Alibaba Cloud ソリューションをサポートしています。

利点

  • 複数のデータソースのサポート

    システムログとバイナリーログからデータを読み込むことができます。

  • 複数のコンピューティングエンジン

    Spark Streaming、Storm、および Flink をサポートしています。