このトピックでは、Spark SQL でサポートされるデータソースの種類と、データソースのデータの処理方法について説明します。
サポートされているデータソース
データソース | テーブル作成時に定義されたスキーマ | テーブル作成時に定義されていないスキーマ | 読み取り | 書き込み |
---|---|---|---|---|
Kafka | ✅ | ✅ | ✅ | ✅ |
LogHub | ✅ | なし | ✅ | ✅ |
Table Store | なし | ✅ | なし | ✅ |
HBase | なし | ✅ | なし | ✅ |
JDBC | なし | ✅ | なし | ✅ |
Druid | なし | ✅ | なし | ✅ |
Redis | なし | ✅ | なし | ✅ |
データソースのデータの処理方法
Spark SQL はコマンドラインまたはワークフローを使用して、データソースのデータを処理できます。
-
コマンドライン
- プリコンパイルされたデータソース JAR パッケージをダウンロードします。
JAR パッケージには LogHub、Table Store、HBase、JDBC、Redis データソースの実装と、関連する依存パッケージが含まれます。 JAR パッケージを 1 回ダウンロードすると、これらすべてのデータソースを使用できます。 Kafka と Druid データソースのパッケージは、この JAR パッケージに含まれておらず、将来的に追加されます。 詳細は、「リリースノート」をご参照ください。
- インタラクティブな開発には、streaming-sql コマンドラインを使用します。
[hadoop@emr-header-1 ~]# streaming-sql --master yarn-client --jars emr-datasources_shaded_2.11-${version}.jar --driver-class-path emr-datasources_shaded_2.11-${version}.jar
- -f または -e パラメーターを使用して、SQL 文を送信することもできます。
- Spark SQL を終了せずにストリーミングジョブを長時間実行する必要がある場合、nohup コマンドを使用して HUP (ハングアップ) シグナルを無視します。
- プリコンパイルされたデータソース JAR パッケージをダウンロードします。
-
ワークフロー
詳細は、「Streaming SQL ジョブの設定」をご参照ください。