このセクションでは E-MapReduce (EMR) 上のクラスターとジョブ、およびそれらの使用方法を説明します。 たとえば、Spark ジョブを作成し、それをクラスター上で実行して Pi (π) を計算し、コンソール上で結果を確認できます。

重要 注記:すべての 前提条件 が満たされていることを確認することをご確認ください。
  1. クラスターの作成
    1. Alibaba Cloud E-MapReduce コンソールで、[クラスター] タブをクリックし、クラスターリストページへ移動します。 右上の [プロジェクトの作成]をクリックします。
    2. ソフトウェアの設定
      1. 最新の EMR バージョンを選択します。 例: EMR 3.13.0
      2. デフォルトのソフトウェア設定を選択します。
    3. ハードウェアの設定
      1. [重量課金] を選択します。
      2. セキュリティグループが作成されていない場合、名前を入力してから作成します。
      3. 4 コア、 8 GB メモリのマスターインスタンスを選択します。
      4. 4 コア、 8 GB メモリの 2 つのコアインスタンスを選択します。
      5. 残りの設定はすべてデフォルトの設定を使用します。
    4. 基本設定
      1. クラスター名を入力します。
      2. ジョブのログを保存するパスを指定します。 実行中のログ機能が有効になっていることを確認してください。 クラスターが作成されたリージョンで、 OSS バケットを作成します
      3. クラスターにログインするためのパスワードを入力します。
    5. [OK] をクリックしてクラスターを作成します。
  2. ジョブを作成します。
    1. [データプラットフォーム] タブをクリックし、 プロジェクトリストページへ移動します。 右上の [新規プロジェクト]をクリックします。
    2. [新規プロジェクト] ダイアログボックス内で、プロジェクト名および説明を入力し、[作成] をクリックします。
    3. 指定のプロジェクトの右にある [ワークフローのデザイン] をクリックし、[ジョブの編集] ページへ移動します。
    4. ジョブの編集ページの左側で、操作するフォルダを右クリックし [新規ジョブ] をクリックします。
    5. 名前と説明を入力します。
    6. ジョブタイプに Spark を選択します。
    7. [OK]をクリックします。
      フォルダを右クリックし、サブフォルダーの作成を選択し、フォルダをリネームしたりフォルダを削除することもできます。
    8. 以下のようにパラメーターを入力します:
      --class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
      /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar JAR ファイル名はクラスター上の Spark のバージョンにより定義されます。 たとえば、 Spark のバージョンが 2.1.1 の場合、JAR ファイル名は spark-examples_2.11-2.1.1.jar となります。 Spark のバージョンが 2.2.0 の場合、JAR ファイル名は spark-examples_2.11-2.2.0.jar です。
    9. [実行] をクリックします。
  3. ジョブログエントリを表示し、結果を確認します。

    ジョブを実行した後、ページ下部にある [ログ] タブをクリックし実行中のジョブのログを確認します。 [詳細表示] をクリックし、詳細ページへ移動します。 このページでは、ジョブ投入ログや YARN コンテナログなどの詳細を確認できます。