本チュートリアルでは、Spark ジョブを設定する方法について学びます。

手順

  1. Alibaba Cloud E-MapReduce コンソールにログインします。
  2. ナビゲーションバーの上部にある、[データプラットフォーム] をクリックします。
  3. [操作] 列で、指定のプロジェクトの隣にある [ワークフローの設計] をクリックします。
  4. ジョブの編集ページの左側で、操作するフォルダを右クリックして [新規ジョブ] を選択します。
  5. [新規ジョブ] ダイアログボックスで、ジョブの名前と説明を入力します。
  6. [OK] をクリックします。
    フォルダを右クリックして、サブフォルダを作成、フォルダ名を変更、フォルダを削除します。
  7. Spark ジョブタイプを選択して Spark ジョブを作成します。 このタイプのジョブは以下の方法を使用してバックグラウンドで送信されます。
    spark-submit [options] --class [MainClass] xxx.jar args
  8. "コンテンツ" フィールドにこのジョブを送信するために必要なパラメーターを入力します。 spark-submit の後のパラメーターのみ入力されます。 以下の例は Spark ジョブと PySpark ジョブを作成するためのパラメータの入力方法です。
    • Spark ジョブの作成

      Spark WordCount ジョブを作成します。

      • ジョブの名前は WordCount
      • タイプは Spark を選択
      • パラメーター
        • 以下のコマンドを入力します。
          spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
        • E-MapReduce ジョブ "コンテンツ" フィールドに以下を入力します。
          --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
        重要 ジョブ jar パッケージが OSS に保存されます。 前述の例では、ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar で Jar パッケージを参照します。 [OSS パスの選択] をクリックして OSS から jar パッケージを表示および選択します。 システムによって OSS 上の Spark スクリプトの絶対パスは自動的に完成されます。 デフォルトの OSS プロトコルを ossref プロトコルに切り替えます。
    • PySpark ジョブの作成

      Scala および Java ジョブタイプに加えて、E-MapReduce では Spark の Python ジョブタイプもサポートされています。 Python スクリプト用の Spark K-means ジョブを作成します。

      • ジョブ名は Python-Kmeans
      • タイプは Spark
      • パラメーター
        --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 --jars ossref://emr/checklist/jars/emr-core-0.1.0.jar ossref://emr/checklist/python/wordcount.py oss://emr/checklist/data/kddb 5 32
      • Python スクリプトリソースの参照がサポートされており、ossref プロトコルが使用されます。
      • PySpark については、オンライン Python インストールキットはサポートされていません。
  9. [保存] をクリックして Spark ジョブの設定を完了します。