E-MapReduce Service

Apache Hadoop および Spark などをベースにしたビッグデータ分析サービス

使用を開始する

概要

Alibaba Cloud Elastic MapReduce (E-MapReduce) は、ビッグデータを高速処理するためのサービスです。オープンソースの Apache Hadoop および Apache Spark に基づいた E-MapReduce により、トレンド分析やデータウェアハウス、継続的にストリーミングされるデータの分析などが可能です。

また、Hadoop 分散クラスターによる高速分散処理も簡単に実装することができます。


メリット

使いやすさ

  • 必要なスペックに即した ECSモデル、ディスク領域、およびデータ分析等に使用するソフトウェアを選択するだけで、ビッグデータ処理基盤の構築が可能

  • Hadoop クラスターは、必要なタイミングで作成、処理が完了したら解放されるので、処理を実行していない時間はコストが発生しません。

  • 処理の負荷に応じて、クラスター内のノードの台数を調整できます。

  • Hadoop クラスタの作成から設定、チューニングまでをコンソール画面にて簡単操作で管理できます。

優れたコスト効率

  • クラスター内のノードをそれぞれ管理するのではなく、クラスターとして一括で操作できるので、管理工数を削減ができます。

  • 処理の負荷に応じてクラスターの台数を調整でき、それに応じてノードに対して発生するコストも最小化できます。

Alibaba プロダクトとの連携

  • 他のプロダクトとシームレスに連携できるため、Hadoop/Spark 計算エンジンの入力ソースや出力先として使用可能

プロダクト詳細

E-MapReduce は、使いやすい Web インターフェイスで簡単にデータが分析できる、フルマネージドのサービスです。E-MapReduce により、数分のうちに Hadoop クラスターを起動して、ビッグデータの分析などができます。

タスク完了後は、分析処理のために作成されたリソース類が自動的に削除されるため、必要最低限のコストのみに抑えることができます。データ処理のフレームワークとして、Apache Storm、Spark、Hue、Hive、MapReduce その他のソリューションをタスク内で使用することもできます。

Elastic Computer Service、Resource Asset Management、ApsaraDB for RDS、および ApsaraDB for Redis などの Alibaba Cloud サービスと簡単に連携することができます。また、ビジネス要件に応じて、ユーザ独自で開発したプログラムからE-MapReduce を実行させるような処理連携も可能です。


特徴

柔軟性

  • ジョブ処理に必要な規模のクラスタを迅速に作成し、またジョブ完了後は使用したリソース類を自動的に削除

  • 作成済みのクラスター内のノード数調整も可能

サードパーティ製品との連携

以下をサポート

  • フレームワーク: Apache Spark、MapReduce、Apache Pig

  • ツール: Apache Sqoop、Spark SQL

  • データストレージ: Apache HDFS、HBase

  • オフラインデータ処理、アドホック分析、ライブストリーミングなども実行可能

  • ビッグデータを効率的に処理しながら、データ処理コストと時間を削減

セキュリティ

  • RAM を使用することで、プライマリアカウントやサブアカウントによってサービス権限の分離が可能

  • ECS に設定可能なネットワーク許可/拒否設定により、セキュリティを確保

ジョブの連携

  • ジョブ (Hive、Pig、Apache Spark など) 同士の連携が可能

料金

利用料金は<ECSの価格(ディスクを含む)>と<EMRの価格>にかかります。 また購入にあたっては、以下の前提・条件がございますので、ご確認ください。 併せて購入時の価格の計算ロジックも掲載しております。

購入前提・条件

・Coreの購入個数は2台から
・Masterのシステムディスクサイズは100GB(固定)
・Core1台あたりのシステムディスクサイズは40GB(固定)

購入価格計算ロジック

ECS(インスタンス) + ECS(システムディスク) + ECS(データディスク) + EMR

◾️ ECS(インスタンス)
  スペック価格 × 購入個数

◾️ ECS(システムディスク)
  Master: ディスク価格(100GB)
  Core: ディスク価格(40GB) × Coreの購入個数

◾️ ECS(データディスク)
  Master: ディスク価格(選択したサイズ)
  Core: ディスク価格(選択したサイズ) × 4 × Coreの購入個数

◾️ EMR
  Master: スペック価格 × CPU数
  Core: スペック価格 × 購入個数 × CPU数

マスターノードの外部ネットワークトラフィックにかかるコスト

クラスターを作成すると、マスターノードに対して 8 Mbps のパブリックネットワーク帯域幅が開かれます (HA Hadoop クラスターでは、2 台のマスターノード両方に 8 Mbps 帯域幅ができます)。トラフィックは従量課金で、Hadoop クラスターのコストには含まれていません。アウトバンドトラフィックにのみ時間単位で課金され、インバウンドトラフィックは無料です。 たとえば、アウトバウンドパブリックトラフィックを 1 時間で 10 GB 使用すると、請求額は 10 GB x 料金/GB (JPY¥/時) になります。トラフィック料金は、リージョンにより多少異なります。

北京 (中国北部 2)、張家口 (中国北部 3)、杭州 (中国東部 1)、上海 (中国東部 2)、深セン (中国南部 1)

E-MapReduce インスタンスタイプ月額サブスクリプション (JPY¥/月)従量課金 (JPY¥/時間)
emr.c44001.35
emr.c53501.21
emr.cm44401.50
emr.g53801.30
emr.gn5-c4g12,7309.46
emr.gn5-c8g11,9505.70
emr.hfc54201.43
emr.hfg54601.60
emr.i12601.86
emr.i27102.42
emr.mn44501.37
emr.n12900.72
emr.n24301.29
emr.n43000.90
emr.se14601.94
emr.se1ne4901.68
emr.sn13301.14
emr.sn1ne3501.20
emr.sn23601.52
emr.sn2ne3801.32

シンガポール

E-MapReduce インスタンスタイプ月額サブスクリプション (JPY¥/月)従量課金 (JPY¥/時間)
emr.c45001.01
emr.c53501.21
emr.cm45901.26
emr.g53801.30
emr.gn5-c4g13,7507.80
emr.gn5-c8g12,6804.70
emr.hfc54201.48
emr.hfg54601.56
emr.i15601.17
emr.i27101.55
emr.mn44900.97
emr.n14300.86
emr.n24800.92
emr.n44300.52
emr.se16801.37
emr.se1ne7101.43
emr.sn14300.86
emr.sn1ne4500.88
emr.sn24901.07
emr.sn2ne5101.12

シリコンバレー (米国西部 1)

E-MapReduce インスタンスタイプ月額サブスクリプション (JPY¥/月)従量課金 (JPY¥/時間)
emr.c45401.04
emr.c53501.21
emr.cm46201.18
emr.g53801.30
emr.gn5-c4g13,5407.36
emr.gn5-c8g12,5304.44
emr.hfc54201.48
emr.hfg54601.56
emr.i15201.07
emr.i27101.42
emr.mn45101.01
emr.n14500.88
emr.n25101.01
emr.n44600.53
emr.se16301.27
emr.se1ne6601.33
emr.sn14600.92
emr.sn1ne4800.96
emr.sn25101.01
emr.sn2ne5401.04

香港

E-MapReduce インスタンスタイプ月額サブスクリプション (JPY¥/月)従量課金 (JPY¥/時間)
emr.c45100.96
emr.c53501.21
emr.cm45901.26
emr.g53801.30
emr.gn5-c4g13,5607.41
emr.gn5-c8g12,5404.47
emr.hfc54201.48
emr.hfg54601.56
emr.i15301.11
emr.i27101.55
emr.mn44700.91
emr.n13600.71
emr.n24500.87
emr.n43800.52
emr.se16801.37
emr.se1ne7101.43
emr.sn14300.82
emr.sn1ne4500.86
emr.sn24901.07
emr.sn2ne5101.12

利用イメージ

オフラインデータ処理

保存されたログ、データベースレコードなどのペタバイト(PB)単位の構造化または非構造化データをアプリケーションから簡単に管理および処理することができます。

推奨構成

E-MapReduce + OSS + ECS + HBase + MaxCompute + ApsaraDB for RDS + ApsaraDB for Redis

offline

大量のログを分析し、ユーザーの行動予測や天気予報などを行います。E-MapReduce は非リレーショナルデータベースだけでなくリレーショナルデータベースからのデータも、HDFS や Hbase、MaxCompute のような指定のデータリポジトリにストリーミングします。保存されたこれらのデータは、E-mapreduce サービスで提供される MapReduce、Apache Spark、または Apache hive を使用して分析することができます。分析結果はその後 OSS にアップロードされ、Web アプリケーションからアクセスして Web ページに表示できるようになります。E-MapReduce により、必要なときにバッチ処理したり、処理結果をさまざまなストレージシステムに保存することも容易になります。

アドホックデータ分析

Hue または Apache Zeppelin によりインタラクティブな Web インターフェイスを使用してアドホッククエリを簡単に管理し、処理結果も容易に表示することができます。

推奨構成

E-MapReduce + OSS + MaxCompute + RDS (MySQL) + ApsaraDB for Redis + ECS (MongoDB)

adhoc

アドホッククエリへの対応が素早く、E-MapReduce は Apache Zeppelin および Apache Hue と連携されて使いやすい Web インターフェイスを提供しております。CLI ツールにより手動でクエリを実行する必要がなく、Hive または Spark SQL クエリを簡単に実行および管理できます。処理されるデータの構造に従って、データは Alibaba Cloud が提供する ApsaraDB for RDS、ApsaraDB for Redis、ECS などのマネージドサービスのいずれにも保存することができます。

ビッグデータのオンラインサービス

複数のデータ採集チャネルからリアルタイムで得られるデータ、いずれかのデータリポジトリに既に保存されているデータ、大量のデータを簡単に管理、処理、および分析することが出来ます。

推奨構成

E-MapReduce + ECS + MaxCompute + RDS (MySQL) + ApsaraDB for Redis

onlineservice

データは、リアルタイムのストリーミングデータでも以前に保存されたデータでも、HBase および Hadoop HDFS を使用して EMR データ層に保存されます。処理されたデータは、その後カスタムアプリケーションからアクセスされます。

リアルタイムストリーミング

IoT センサー、E-commerce の Web サイトにおけるユーザーのアクティビティなどのさまざまなソースから生じるライブのデータストリームをリアルタイムで処理することができます。

推奨構成

E-MapReduce + OSS + Log Service + MNS + RDS (MySQL) + ApsaraDB for Redis

streaming

Alibaba Cloud E-MapReduce は、Log Service、Messege Service などのその他の Alibaba Cloud サービスと簡単に組み合わることができ、これらはリアルタイムデータストリームからのデータ採集チャネルとして動作します。このデータは複雑なアルゴリズムを用いて、Apache Storm と連携された Apache Flume または Kafka を使用してストリーミングされ、処理されます。最終的に処理されたデータはその後 HDFS、Hbase、またはその他のビッグデータ保存サービスにリアルタイムで保存されます。


はじめに

コンソール、CLI、および API を使用して Hadoop クラスターを簡単に設定、プロビジョニング、管理し、ビッグデータを処理します。

コンソールを用いた E-MapReduce の使用

コンソールを使用して、処理の必要に応じて Hadoop クラスターを作成、設定できます。また、クラスターでプロビジョニングされる ECS インスタンスおよびアプリケーション (Spark、Hive、Hue など) の数とタイプを直接指定することもできます。

リソース

以下のリンクから SDK と各種ドキュメントにアクセスできます。

開発者向けリソース