このページでは、OSS URI を設定して E-MapReduce を使用する方法について説明します。

OSS URI

E-MapReduce を使用するときは、2 種類の OSS URI を使用できます。
  • ネイティブ URI : oss://[accessKeyId:accessKeySecret@]bucket[.endpoint]/object/path

    この URI は、ジョブ内で入出力データソースを指定する場合に使用します。hdfs:// と同様の URI です。 OSS データの操作時に、AccessKey ID、AccessKey Secret、およびエンドポイントを設定できます。 または、URI に AccessKey ID、AccessKey Secret、およびエンドポイントを指定することもできます。

  • 参照 URI : ossref://bucket/object/path

    E-MapReduce ジョブの設定でのみ有効で、ジョブの実行に必要なリソースを指定する場合に使用します。

oss や ossref などのプレフィックスをスキームと呼びます。 スキームの URI との違いには特にご注意ください。

重要

現在、サポートされている操作は標準ストレージタイプの OSS だけです。

  • E-MapReduce はマルチパートモードを使用して大規模ファイルを OSS にアップロードします。 ジョブが中断されても、結果データは一部 OSS に残ります。 手動で削除する必要があります。 ここでの手順は HDFS を使用する場合と同じです。 ただし、E-MapReduce はマルチパートモードを使用して大規模ファイルをアップロードする点が異なります。 ファイルフラグメントは OSS フラグメント管理にアップロードされます。 そのため、OSS ファイル管理に残っているジョブファイルを削除し、OSS フラグメント管理に残っているファイルフラグメントを消去する必要があります。 削除しないでいると、データストレージの料金が課金されます。
  • 上記の手動クリーンアップ以外に、期限切れのフラグメントが自動的に削除されるよう、フラグメントのライフサイクルを設定する対応を取ることもできます。 詳細は、「OSS ファイルのライフサイクル管理 (Lifecycle management of OSS files)」をご参照ください。