Spark または Spark SQL で Table Store テーブルにアクセスする

Spark と Spark SQL を使用して、Table Store 内のデータに Table StoreE-MapReduce によってリリースされた依存関係パッケージを使用して直接アクセスすることができます。

Spark/Spark SQLをインストール

  1. 次の要件に準拠する Spark インストールパッケージ をダウンロードします。
    • リリースバージョン: 1.6.2
    • パッケージタイプ: Hadoop 2.6 用にビルド済み
    • ダウンロードタイプ: 直接ダウンロード
  2. 次のようにインストールパッケージを解凍します。
    $ cd /home/admin/spark-1.6.2
    $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz
    					

JDK-7+ のインストール

  1. JDK-7+ のインストールパッケージをダウンロードしてインストールします。
  2. 以下のようにインストール状況を確認してください。
    $ java -version
    java version "1.8.0_77"
    Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
    					

Table Store 用の Java SDK のダウンロード

  1. Java SDK 依存関係パッケージ (バージョン 4.1.0 以上) をダウンロードしてください。
    SDK 依存関係パッケージは Java SDK とともに更新されます。 最新の Java SDK に従って依存パッケージをダウンロードしてください。
  2. 次のように SDK を Spark ディレクトリにコピーします。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/
    					

EMR 依存パッケージのダウンロード

  • Alibaba Cloud EMR 依存関係パッケージをダウンロードします。
    MNS の詳細については、こちらをクリックしてください。
  • emr-sdk_2.10-1.3.0-20161025.065936-1.jar ファイルの名前を変更します。
    mv emr-sdk_2.10-1.3.0-20161025.065936-1.jar /home/admin/spark-1.6.2/emr-sdk_2.10-1.3.0-SNAPSHOT.jar

Spark SQLの実行

$ cd /home/admin/spark-1.6.2/
$ bin/spark-sql --master local --jars tablestore-4.3.1-jar-with-dependencies.jar,emr-tablestore-1.4.2.jar