E-MapReduce クラスターには、マスター、コア、タスクの 3 種類のノードインスタンスがあります。

インスタンスのタイプごとに異なるサービスプロセスがデプロイされます。 たとえば、 Hadoop では、 HDFS NameNodeサービスと YARN ResourceManager サービスがマスターインスタンスにデプロイされ、 HDFS DataNode サービスと YARN NodeManager サービスがコアインスタンスにデプロイされます。 タスクインスタンスの場合、それらはコンピューティングタスクでのみ使用されるため、 YARN NodeManager のみがデプロイされ、 HDFS 関連サービスはデプロイされません。

クラスターを作成するときには、インスタンスの各タイプの ECS 仕様を決定する必要があります。 同じタイプの ECS インスタンスは、同じインスタンスグループに属している必要があります。 コアまたはタスクのインスタンスグループ内のホストの数を増やすと、後でクラスターをスケールアップできます。 これはマスターインスタンスグループには適用されません。
タスクインスタンスはバージョン 3.2.0 以降でサポートされています。

マスターインスタンス

マスターインスタンスには、クラスターサービスの管理および制御コンポーネントがデプロイされます。 SSH を使用してマスターインスタンスに接続し、ソフトウェアの Web UI を介してクラスター内のサービスステータスを確認できます。

テストを実行したりジョブを実行したりする場合は、マスターインスタンスにログインし、コマンドラインで直接ジョブを送信します。 デフォルトでは、1 つのマスターインスタンスのみが使用されます。 ただし、クラスターの高可用性機能が有効になっている場合は、2 つが使用されます。

コアインスタンス

マスターインスタンスによって管理されるコアインスタンスは、すべてのデータをクラスターに格納します。 また、コンピューティングタスクを実行するためにコンピューティングサービスを展開します。 より多くのデータストレージが必要な場合やワークロードが重い場合は、クラスターの運用に影響を与えることなく、いつでもコアインスタンスを拡張できます。

タスクインスタンス

タスクインスタンスはコンピューティングを担当し、クラスターにコンピューティング能力をすぐに追加できます。 また、クラスターの運用に影響を与えることなく、いつでも拡大縮小できます。 ただし、このインスタンスのタイプはオプションであり、コアインスタンスに十分な計算能力がある場合、タスクインスタンスは必要ありません。 コンピューティングサービスのフォールトトレランス (または再試行) によっては、タスクインスタンスノードの数を減らすと、 MapReduce ジョブおよび Spark ジョブが失敗することがあります。