このセクションでは、E-MapReduce クラスターの作成および設定方法を説明します。

クラスター作成ページに移動します。

  1. [Alibaba Cloud E-MapReduce コンソール] にログインします。
  2. RAM 認証を完了します。 詳細は、「ロールの権限付与」をご参照ください。
  3. クラスターを作成するリージョンを選択します。 リージョンは、クラスター作成後に変更することはできません。
  4. 右上の [クラスター作成] をクリックします。

クラスターの作成

操作手順は下記のとおりです。

  • ソフトウェアの設定
  • ハードウェアの設定
  • 基本設定

手順 1:ソフトウェアの設定

説明

  • EMR バージョン: デフォルトでは最新のバージョンが選択されます。
  • クラスタータイプ: 現在、E-MapReduce (EMR) は以下のクラスタータイプを提供しています:
    • Hadoop クラスター これらのクラスターは、Hadoop、Hive、Spark、Spark Streaming、Flink、Storm、Presto、Impala、Oozie、または Pig といった複数のエコシステムコンポーネントを提供しています。 Hadoop、Hive および Spark はセミホスティングサービスで分散型大規模データストレージとコンピューティングに使用されます。 Spark Streaming、Flink および Storm はストリームコンピューティングを提供します。 Presto と Impala はインタラクティブなクエリを実現するために使用されます。 コンポーネントの詳細については、クラスターとサービス管理ページに表示されている 「サービスリスト」 をご参照ください。
    • Kafka クラスター これらのクラスターは高スループットと高スケーラビリティを備えたセミホスティング分散メッセージシステムを提供します。 Kafka クラスターはクラスターの安定稼動を維持する包括的なサービス監視システムを提供します。 Kafka クラスターはよりプロフェッショナルで、信頼性があり、安全です。 これらのクラスターをデプロイしたり維持する必要はありません。 これらのクラスターは一般的にログ収集や監視データ集約のようなシナリオで使用されます。 オフラインデータ処理とストリームコンピューティング、およびリアルタイムデータ分析もサポートされています。
    • Druid クラスター これらのクラスターはセミホスティングおよびリアルタイムインタラクティブ分析サービスを提供します。 Druid クラスターはミリ秒単位での大量のデータ照会および複数の方法によるデータ書き込みをサポートしています。 Druid クラスターは EMR Hadoop、EMR Spark、OSS、RDS のような他のサービスと共に柔軟で安定したリアルタイム照会を提供します。
    • データサイエンスクラスター これらのクラスターは一般的にビッグデータおよび AI シナリオに適用されます。 データサイエンスクラスターは Hive および Spark のオフラインビッグデータ ETL と TensorFlow モデルトレーニングを提供します。 CPU + GPU の混成コンピューティングフレームワークと NVIDIA CPU にサポートされるディープラーニングアルゴリズムを選択しコンピューティングタスクを効率的に実行することができます。
  • 必要サービス: デフォルト設定を選択します。 管理ページ上で後からサービスの追加、有効化および無効化ができます。
  • ハイセキュリティモード: クラスターに Kerberos 認証機能を有効化するかを示します。 一般ユーザー用に作成されたクラスターは一般的にこのモードを必須としないため、このモードはデフォルトで無効化されています。
  • カスタム設定の有効化 : JSON ファイルを指定しソフトウェア設定を変更できます。 手順の詳細については、 [ソフトウェア設定] をご参照ください。

手順 2: ハードウェア設定

説明

  • 課金設定

    • 課金設定: クラスターのテスト時は従量課金を選択できます。 すべてのテストに合格すると、サブスクリプションベースのクラスターを作成し使用できます。
  • ネットワーク設定
    • ゾーン : 一般的に、デフォルトゾーンが使用されます。
    • ネットワークタイプ : VPC がデフォルトで選択されます。 VPC を選択しなかった場合は VPC コンソール に移動して作成します。
    • ゾーン : 同一リージョン内の地理的なエリア これらのゾーンは VPC を通じて相互接続されています。
    • VPC : 指定のリージョンで作成された VPC を選択します。 利用可能な VPC が存在しない場合、 [VPC/VSwitch の作成] をクリックし、現在のゾーンで作成します。
    • VSwitch : 現在のゾーン内の指定された VPC 用に VSwitch を選択します。 利用可能な VSwitch が存在しない場合、VPC コンソールに移動し現在のゾーンで作成します。
    • セキュリティグループ名: クラスターを初めて作成した場合は、デフォルトではセキュリティグループは利用できません。 名前を入力しセキュリティグループを作成する必要があります。 セキュリティグループを既に作成している場合はセキュリティグループを選択します。
  • クラスター設定
    • 高可用性 : この機能が有効になると、リソースマネージャーとネームノードの高可用性を保証する 2 つのマスターノードが提供されます。 HBase クラスターはデフォルトで高可用性をサポートしています。 HBase クラスターは 2 つのマスターノードの 1 つとしてコアノードを使用する必要があります。 高可用性機能が有効化されると、HBase クラスターはより安全で信頼性のある高可用性をサポートする 1 つのマスターノードのみが必要です。 高可用性をサポートするクラスターを作成する必要がある場合、テスト中に高可用性を有効化します。
    • マスターノード: リソースマネージャーおよびネームノードのようなプロセスをデプロイします。
      • マスターインスタンスタイプ: ニーズに合わせてインスタンス仕様を選択します。 詳細については、 「インスタンスタイプファミリー」 をご参照ください。
      • システムディスクタイプ:ニーズに合わせてウルトラディスクまたは SSD ディスクを選択します。
      • システムディスクサイズ: ニーズに合わせてディスクをリサイズできます。 推奨最小ディスクサイズは 120 GB です。
      • データディスクタイプ:ニーズに合わせてウルトラディスクまたは SSD ディスクを選択します。
      • データディスクサイズ:ディスクをリサイズできます。 推奨最小ディスクサイズは 80 GB です。
      • マスターインスタンス:デフォルトのマスターインスタンス数は 1 です。
    • コアインスタンス:すべてのクラスターデータを格納します。 ニーズに合わせてインスタンスのスケールアップができます。
      • コアインスタンスタイプ: ニーズに合わせてインスタンス仕様を選択できます。 詳細については、 [インスタンスタイプファミリー] をご参照ください。
      • システムディスクタイプ: ニーズに合わせてウルトラディスクまたは SSD ディスクを選択します。
      • システムディスクサイズ:ニーズに合わせてディスクをリサイズできます。 推奨最小ディスクサイズは 80 GB です。
      • データディスクサイズ: ニーズに合わせてウルトラディスクまたは SSD ディスクを選択します。
      • データディスクサイズ:ニーズに合わせてディスクをリサイズできます。 推奨最小ディスクサイズは 80 GB です。
      • コアインスタンス:デフォルトのコアインスタンス数は 2 です。 ニーズに合わせてコアインスタンスの数を調整できます。
    • タスクインスタンスグループ:タスクインスタンスグループにはデータは格納されません。 タスクインスタンスグループはクラスターのコンピューティング容量を調整するために使用されます。 この機能はデフォルトで無効になっています。 ニーズに合わせて有効化できます。

手順 3:基本設定

説明

  • 基本情報

    • クラスター名:クラスターの名前を入力します。 1~64 文字の長さで設定でき、漢字、大文字アルファベット、小文字アルファベット、数字、ハイフン (-) およびアンダースコア (_) を使用できます。
  • 実行中ログ

    • 実行中ログ:この機能を有効化または無効化できます。 この機能はデフォルトで無効になっています。 この機能を有効化すると、ログを保存する OSS パスを指定しなければなりません。 すべての実行中ログは指定の OSS ディレクトリに格納されます。 この機能を有効化するには、まず OSS をアクティベートする必要があります。 アップロードされたデータはスペース使用量に基づいて課金されます。 デバッグおよびトラブルシューティングに役立つこの機能を有効化することを推奨します。
    • ログパス:ログを保存する OSS パスを指定します。
    • 統合メタデータベース:Hive はクラスターから独立した統合メタデータベースを使用します。 メタ情報はクラスターリリース後に削除されません。 この機能を無効化することを推奨します。
  • 権限設定:一般的にデフォルト設定が使用されます。
  • ログイン設定
    • リモートログイン:セキュリティグループのポート 22 を開放するかどうかを示します。 この機能はデフォルトで無効になっています。
    • パスワード:マスターインスタンスにログインするためのパスワードを設定します。 ログインパスワードは 8~30 文字の長さで大文字、小文字、数字、エクスクラメーションマーク (!) 、アッとマーク (@) 、シャープ (#) 、ドルマーク ($)、パーセント (%)、アンドマーク (&) およびアスタリスク (*) のような特殊文字を含めることができます。
  • ブートストラップ操作 (任意):クラスターが Hadoop を開始する前にカスタムスクリプトを実行するように設定することができます。 詳細については、 「ブートストラップアクション」 をご参照ください。

構成リスト

構成リストで構成アイテムと料金を確認します。

作成の確認

設定が終わりすべての設定が有効であることを確認した後、 [作成] ボタンがハイライトされます。 情報を確認し、[作成] をクリックしクラスターを作成します。

重要
  • 課金方法が従量課金の場合、クラスターはすぐに作成されます。 クラスターリストページへ誘導されます。 初期化中のクラスターをクラスターリストで確認できます。 クラスター作成が完了するまで数分かかります。 クラスターが作成されると、アイドル状態に変わります。
  • 課金方法がサブスクリプションの場合、オーダーが生成されます。 クラスターは支払い完了後に作成されます。

作成の失敗

作成に失敗すると、CREATE_FAILED とクラスターリスト上に表示されます。 ポインターを赤いエクスクラメーションマーク (!) 上に動かし、理由を表示します。

これらのクラスターにコンピューティングリソースは作成されていないため、作成に失敗したクラスターを扱う必要はありません。 これらのクラスターは 3 日後に自動的に非表示になります。