このトピックでは、Spark SQL でサポートされるデータソースの種類と、データソースのデータの処理方法について説明します。

サポートされているデータソース

データソース テーブル作成時に定義されたスキーマ テーブル作成時に定義されていないスキーマ 読み取り 書き込み
Kafka
LogHub なし
Table Store なし なし
HBase なし なし
JDBC なし なし
Druid なし なし
Redis なし なし

データソースのデータの処理方法

Spark SQL はコマンドラインまたはワークフローを使用して、データソースのデータを処理できます。

  • コマンドライン

    • プリコンパイルされたデータソース JAR パッケージをダウンロードします。

      JAR パッケージには LogHub、Table Store、HBase、JDBC、Redis データソースの実装と、関連する依存パッケージが含まれます。 JAR パッケージを 1 回ダウンロードすると、これらすべてのデータソースを使用できます。 Kafka と Druid データソースのパッケージは、この JAR パッケージに含まれておらず、将来的に追加されます。 詳細は、「リリースノート」をご参照ください。

    • インタラクティブな開発には、streaming-sql コマンドラインを使用します。
      [hadoop@emr-header-1 ~]# streaming-sql --master yarn-client --jars emr-datasources_shaded_2.11-${version}.jar --driver-class-path emr-datasources_shaded_2.11-${version}.jar
    • -f または -e パラメーターを使用して、SQL 文を送信することもできます。
    • Spark SQL を終了せずにストリーミングジョブを長時間実行する必要がある場合、nohup コマンドを使用して HUP (ハングアップ) シグナルを無視します。
  • ワークフロー

    詳細は、「Streaming SQL ジョブの設定」をご参照ください。