このチュートリアルでは、Alibaba Cloud EMR (E-MapReduce) のクラスターを作成する方法を学びます。

EMR クラスター作成ページに移動します

  1. Alibaba Cloud E-MapReduce コンソールにログインします。
  2. RAM 権限付与を完了します。 詳細は、ロールの権限付与をご参照ください。
  3. クラスターの地域を選択します。 リージョンは、クラスターの作成後に変更することはできません。
  4. [クラスターの作成] をクリックすると、クラスター作成ページに移動します。

クラスターの作成

重要 EMR クラスターを作成した後に変更できるのは、その名前だけです。

クラスターを作成するには、次の 3 つの手順に従います。

  1. ソフトウェアを設定します。
    • EMR バージョン: E-MapReduce のメインバージョンは完全なオープンソースソフトウェア環境を表し、内部コンポーネントソフトウェアのアップグレードに基づいて定期的にアップグレードすることができます。 Hadoop に関連するソフトウェアがアップグレードされると、E-MapReduce のメインバージョンもアップグレードされます。 以前のバージョンのクラスターを新しいバージョンにアップグレードすることはできません。
    • クラスタータイプ: 現在、E-MapReduce には 4 つのクラスタータイプがあります。
      • Hadoop クラスター。これは、以下の半ば管理されたエコシステムコンポーネントを提供します。
        • 大規模なオフライン分散データストレージおよびコンピューティング用の Hadoop、Hive、および Spark。
        • ストリーム処理用の Spark Streaming 、Flink、および Storm。
        • インタラクティブ分析を実行するための Presto と Impala。
        • Oozie と Pig。
      • ドルイドクラスター。半ば管理されたリアルタイムのインタラクティブな分析サービスを提供するもので、ミリ秒の待ち時間で大量のデータを照会し、複数のデータ取り込み方法をサポートします。 EMR Hadoop、EMR Spark、OSS、RDS などのサービスと共に使用すると、ドルイドクラスターはリアルタイムの照会ソリューションを提供します。
      • データサイエンスクラスター。主にビッグデータと AI のシナリオに適用でき、Hive と Spark のオフラインビッグデータ、および TensorFlow モデルトレーニングを提供します。
      • Kafka クラスター。高いスループットと高いスケーラビリティを特徴とする半ば管理された分散メッセージシステムで、安定した稼働環境を維持できる完全なサービスモニタリングシステムを提供します。
    • 必須サービス: 選択したクラスタータイプの下にあるすべてのソフトウェアコンポーネントのリスト (名前とバージョン番号を含む) を表示します。
    • オプションのサービス: 必要に応じてさまざまなコンポーネントを選択できます。 選択したコンポーネントは、デフォルトで関連するサービスプロセスを開始します。
      選択するコンポーネントが多いほど、これらのサービスを実行するためのリソースが不足する可能性があるため、設定の要件が高くなります。
    • 高セキュリティモード: このモードでは、クラスターの Kerberos 認証を設定できます。 この機能は個々のユーザーが使用するクラスターには不要で、デフォルトではオフになっています。
    • カスタム設定を有効にする: クラスターを起動する前に、JSON ファイルを指定してソフトウェア設定を変更できます。
  2. ハードウェアを設定します。
    • 課金方法
      • ECS と同様に、サブスクリプションモードと 従量課金 モードの両方がサポートされています。 サブスクリプションモードを選択した場合は、期間も選択する必要があります。 1、2、3、6、または 9 か月、あるいは 1、2、または 3 年を選択できます。 このモードは短期間のテストや柔軟な動的タスクに適用できますが、比較的高価です。
    • クラスターネットワークの設定
      • ゾーン: クラスターを配置するゾーンを選択します。 より良いネットワーク接続が必要な場合は、同じ可用性ゾーンを選択することを推奨します。 ただし、可用性ゾーンのストレージが不足している可能性があるため、クラスターを作成するときにこれが失敗のリスクを高めます。 多数のノードが必要な場合は、チケットを送信してください。
      • ネットワークの種類: VPC (Virtual Private Cloud) ネットワークが選デフォルトで選択されているため、VPC と VSwitch を入力する必要があります。 ネットワークを作成していない場合は、VPC コンソールに移動して作成します。 E-MapReduce VPC の詳細については、VPC をご参照ください。
      • VPC: VPC ネットワークのリージョンを選択します。
      • VSwitch: 対応する VPC の下にある VSwitch のゾーンを選択します。 このゾーンで利用可能な VSwitch がない場合は、新しいものを作成する必要があります。
      • セキュリティグループ名: セキュリティグループは通常、最初にクラスターを作成したときには存在しません。 新しいセキュリティグループを作成するには、名前を入力します。 セキュリティグループが既にある場合は、ここで選択できます。
    • クラスターの設定
      • 高可用性: 有効にすると、Hadoop クラスター内の 2 つのマスターインスタンスを使用して、リソースマネージャーとネームノードの可用性が確保されます。 HBase クラスターは、デフォルトで高可用性をサポートします。
      • ノードタイプ: サポートされている 3 種類のノードは次のとおりです。
        • マスター。主に、リソースマネージャやネームノードなどの制御プロセスの展開を担当します。
        • コア。主にクラスター内のすべてのデータの格納を担当し、必要に応じて拡張できます。
        • タスク。計算に使用されるノードです。 データは保存されず、クラスターの計算能力を調整するために使用されます。
      • ノード設定: 異なるノードタイプを選択します。 ノードの種類が異なれば、アプリケーションのシナリオも異なります。
      • データディスクの種類: クラスターノードが使用するデータディスクは、標準クラウドディスク、高効率クラウドディスク、SSD クラウドディスクのいずれかです。 これは機種やリージョンによって異なります。 ユーザーが別のリージョンを選択すると、それらのリージョンでサポートされているディスクがドロップダウンリストに表示されます。 デフォルトでは、データディスクはクラスターのリリース時に解放されます。 デフォルトでは、一時ディスクタイプが設定されており、変更できません。
      • データディスク容量: 1 台のコンピューターに推奨されるクラスターの最小容量は 40 G、最大容量は 8000 G です。変更することはできません。デフォルトでは、一時ディスクの容量が設定されており、変更できません。
      • インスタンス数: これは、必要なすべてのノードのインスタンス数を示します。 クラスターには少なくとも 3 つのインスタンスが必要です。 ただし、高可用性クラスターには少なくとも 4 つ必要なので、マスターノードを 1 つ追加します。
  3. 基本情報を設定します。
    • 基本情報
      • クラスター名: クラスター名には、漢字、英字 (大文字と小文字)、数字、ハイフン (-)、および下線 (_) を含めることができます。長さは 1 ~ 64 文字です。
    • 実行中のログ
      • 実行中のログ: 実行中のログを保存する機能は、デフォルトで有効になっています。 デフォルトの状態では、実行中のログを保存する場所として OSS ディレクトリを選択できますが、この機能を使用する前に OSS をアクティブにしておく必要があります。 コストはアップロードされたファイルの数によって異なります。 OSSログ保 存機能を開くことを推奨します。この機能は、デバッグとエラーのスクリーニングに役立ちます。
      • ログパス: ログを保存するための OSS パス。
      • 統一メタデータベース: これは、クラスターの外部データベースにすべての Hive メタデータを格納するために、E-MapReduce によって提供されます。 クラスターが OSS を主なストレージとして使用している場合は、この機能を使用することを推奨します。
    • 権限設定
      • EMR ロール: このロールは、ECS や OSS など、他の Alibaba Cloud サービスを使用する権限を、E-MapReduce に付与します。
      • ECS ロール: このロールにより、E-MapReduce コンピューティングノード上で実行中のプログラムは、Alibaba Cloud AccessKey を提供せずに OSS などのクラウドサービスにアクセスできます。 E-MapReduce は、アクセス権限付与のためのオンデマンドの AccessKey に自動適用されます。 AccessKey 権限はこのロールによって制御されます。
    • ログイン設定
      • リモートログイン: デフォルトでオンにされ、セキュリティグループポート 22 が有効になります。
      • ログインパスワード: マスターノードでログインパスワードを設定します。 を含める必要があります。ログインパスワードには、英字 (大文字と小文字の両方)、数字、および特殊文字 (!@#$%^&*) を含める必要があります。長さは 8 ~ 30 文字です。
    • (オプション) ブートストラップアクション: Hadoop がクラスターで有効になる前に、カスタマイズしたスクリプトを実行できます。 詳細は、ブートストラップアクション をご参照ください。

クラスターのコストは [設定リスト] ウィンドウに表示されます。 価格は支払いの種類によって異なります。 サブスクリプションクラスターの場合、総費用が表示されます。 従量課金クラスターの場合、1 時間ごとのコストが表示されます。

作成の確認

必要な情報をすべて入力したら、[作成] ボタンが強調表示されます。 [作成] をクリックして、クラスターを作成します。

  • クラスターが従量課金の場合はすぐに作成され、[概要] ページに戻ります。 ここでは、クラスターは [初期化中] というステータスで表示されます。 クラスターの作成が完了するまで数分かかることがあります。 クラスターが作成されると、そのステータスは [アイドル] に切り替わります。
  • 注文が生成されて支払われるまで、サブスクリプションクラスターは作成されません。

コアノードへのログイン

コアノードにログインするには、以下の手順を実行します。

  1. マスターノードで Hadoop アカウントに切り替えます。
    su hadoop
  2. 鍵なしで SSH を介してコアノードにログインします。
    ssh emr-worker-1
  3. sudo コマンドで root 権限を取得します。
    sudo vi /etc/hosts

クラスター作成中の失敗

クラスターの作成に失敗した場合、[クラスターの作成に失敗しました] というメッセージが、クラスターリストページに表示されます。 赤い感嘆符の上にカーソルを置くと、失敗の理由が表示されます。

対応するコンピューティングのリソースが作成されないため、追加の操作を実行する必要はありません。 クラスターは 3 日後に自動的に非表示となります。