CloudMonitor は、クラスターの動作をモニターしやすくするために、CPU のアイドル状態、メモリ容量、ディスク容量など、E-MapReduce クラスターの複数のモニタリングメトリックを提供します。 これらのモニタリングメトリックのためのアラームルールを設定できます。 E-MapReduce サービスを購入後 CloudMonitor は、前述のモニタリングメトリックスのデータを自動収集します。

モニタリングサービス

  • メトリックス
    メトリック ディメンション 単位 最小モニタリング細分性
    受信トラフィックレート ユーザー、クラスター、およびロール ビット/秒 30 秒
    発信ネットワークレートネットワークドレインレート ユーザー、クラスター、およびロール ビット/秒 30 秒
    CPU のアイドル状態 ユーザー、クラスター、およびロール % 1 分
    ユーザーモードの CPU 使用率 ユーザー、クラスター、およびロール % 30 秒
    システムモードの CPU 使用率 ユーザー、クラスター、およびロール % 30 秒
    アイドルディスク容量 ユーザー、クラスター、およびロール バイト 30 秒
    総ディスク容量 ユーザー、クラスター、およびロール バイト 30 秒
    15 分以内の平均負荷 ユーザー、クラスター、およびロール - 30 秒
    5 分以内の平均負荷 ユーザー、クラスター、およびロール - 30 秒
    1 分以内の平均負荷 ユーザー、クラスター、およびロール - 30 秒
    アイドルメモリ容量 ユーザー、クラスター、およびロール バイト 30 秒
    総メモリ容量 ユーザー、クラスター、およびロール バイト 30 秒
    受信データパケットレート ユーザー、クラスター、およびロール パケット 30 秒
    送信データパケットレート ユーザー、クラスター、およびロール パケット/秒 30 秒
    実行中プロセス数 ユーザー、クラスター、およびロール プロセス 30 秒
    総プロセス数 ユーザー、クラスター、およびロール プロセス 30 秒
    ブロックされたプロセス数 ユーザー、クラスター、およびロール プロセス 30 秒
    作成したプロセス/スレッド数 ユーザー、クラスター、およびロール プロセス/スレッド 30 秒
    MemNonHeapUsedM ユーザー、クラスター、およびロール バイト 30 秒
    MemNonHeapCommittedM ユーザー、クラスター、およびロール バイト 30 秒
    Memnonheapmaxm ユーザー、クラスター、およびロール バイト 30 秒
    MemHeapUsedM ユーザー、クラスター、およびロール バイト 30 秒
    MemHeapCommittedM ユーザー、クラスター、およびロール バイト 30 秒
    MemHeapMaxM ユーザー、クラスター、およびロール バイト 30 秒
    MemMaxM ユーザー、クラスター、およびロール バイト 30 秒
    Threadsnew ユーザー、クラスター、およびロール - 30 秒
    ThreadsRunnable ユーザー、クラスター、およびロール - 30 秒
    ThreadsBlocked ユーザー、クラスター、およびロール - 30 秒
    ThreadsWaiting ユーザー、クラスター、およびロール - 30 秒
    ThreadsTimedWaiting ユーザー、クラスター、およびロール - 30 秒
    ThreadsTerminated ユーザー、クラスター、およびロール - 30 秒
    GcCount ユーザー、クラスター、およびロール - 30 秒
    GcTimeMillis ユーザー、クラスター、およびロール - 30 秒
    CallQueueLength ユーザー、クラスター、およびロール - 30 秒
    NumOpenConnections ユーザー、クラスター、およびロール - 30 秒
    ReceivedBytes ユーザー、クラスター、およびロール - 30 秒
    SentBytes ユーザー、クラスター、およびロール - 30 秒
    BlockCapacity ユーザー、クラスター、およびロール - 30 秒
    BlocksTotal ユーザー、クラスター、およびロール - 30 秒
    CapacityRemaining ユーザー、クラスター、およびロール - 30 秒
    CapacityTotal ユーザー、クラスター、およびロール - 30 秒
    CapacityUsed ユーザー、クラスター、およびロール - 30 秒
    CapacityUsedNonDFS ユーザー、クラスター、およびロール - 30 秒
    CorruptBlocks ユーザー、クラスター、およびロール - 30 秒
    ExcessBlocks ユーザー、クラスター、およびロール - 30 秒
    ExpiredHeartbeats ユーザー、クラスター、およびロール - 30 秒
    MissingBlocks ユーザー、クラスター、およびロール - 30 秒
    PendingDataNodeMessageCount ユーザー、クラスター、およびロール - 30 秒
    PendingDeletionBlocks ユーザー、クラスター、およびロール - 30 秒
    PendingReplicationBlocks ユーザー、クラスター、およびロール - 30 秒
    PostponedMisreplicatedBlocks ユーザー、クラスター、およびロール - 30 秒
    ScheduledReplicationBlocks ユーザー、クラスター、およびロール - 30 秒
    TotalFiles ユーザー、クラスター、およびロール - 30 秒
    TotalLoad ユーザー、クラスター、およびロール - 30 秒
    UnderReplicatedBlocks ユーザー、クラスター、およびロール - 30 秒
    BlocksRead ユーザー、クラスター、およびロール - 30 秒
    BlocksRemoved ユーザー、クラスター、およびロール - 30 秒
    BlocksReplicated ユーザー、クラスター、およびロール - 30 秒
    BlocksUncached ユーザー、クラスター、およびロール - 30 秒
    BlocksVerified ユーザー、クラスター、およびロール - 30 秒
    BlockVerificationFailures ユーザー、クラスター、およびロール - 30 秒
    BlocksWritten ユーザー、クラスター、およびロール - 30 秒
    BytesRead ユーザー、クラスター、およびロール - 30 秒
    BytesWritten ユーザー、クラスター、およびロール - 30 秒
    FlushNanosAvgTime ユーザー、クラスター、およびロール - 30 秒
    FlushNanosNumOps ユーザー、クラスター、およびロール - 30 秒
    FsyncCount ユーザー、クラスター、およびロール - 30 秒
    VolumeFailures ユーザー、クラスター、およびロール - 30 秒
    ReadBlockOpNumOps ユーザー、クラスター、およびロール - 30 秒
    ReadBlockOpAvgTime ユーザー、クラスター、およびロール ミリ秒 30 秒
    WriteBlockOpNumOps ユーザー、クラスター、およびロール - 30 秒
    WriteBlockOpAvgTime ユーザー、クラスター、およびロール ミリ秒 30 秒
    BlockChecksumOpNumOps ユーザー、クラスター、およびロール - 30 秒
    BlockChecksumOpAvgTime ユーザー、クラスター、およびロール ミリ秒 30 秒
    CopyBlockOpNumOps ユーザー、クラスター、およびロール - 30 秒
    CopyBlockOpAvgTime ユーザー、クラスター、およびロール ミリ秒 30 秒
    ReplaceBlockOpNumOps ユーザー、クラスター、およびロール - 30 秒
    ReplaceBlockOpNumOps ユーザー、クラスター、およびロール ミリ秒 30 秒
    BlockReportsNumOps ユーザー、クラスター、およびロール - 30 秒
    BlockReportsAvgTime ユーザー、クラスター、およびロール ミリ秒 30 秒
    NodeManager_AllocatedContainers ユーザー、クラスター、およびロール - 30 秒
    ContainersCompleted ユーザー、クラスター、およびロール - 30 秒
    ContainersFailed ユーザー、クラスター、およびロール - 30 秒
    ContainersIniting ユーザー、クラスター、およびロール - 30 秒
    ContainersKilled ユーザー、クラスター、およびロール - 30 秒
    ContainersLaunched ユーザー、クラスター、およびロール - 30 秒
    ContainersRunning ユーザー、クラスター、およびロール - 30 秒
    ActiveApplications ユーザー、クラスター、およびロール - 30 秒
    ActiveUsers ユーザー、クラスター、およびロール - 30 秒
    AggregateContainersAllocated ユーザー、クラスター、およびロール - 30 秒
    AggregateContainersReleased ユーザー、クラスター、およびロール - 30 秒
    AllocatedContainers ユーザー、クラスター、およびロール - 30 秒
    AppsCompleted ユーザー、クラスター、およびロール - 30 秒
    AppsFailed ユーザー、クラスター、およびロール - 30 秒
    AppsKilled ユーザー、クラスター、およびロール - 30 秒
    AppsPending ユーザー、クラスター、およびロール - 30 秒
    AppsRunning ユーザー、クラスター、およびロール - 30 秒
    AppsSubmitted ユーザー、クラスター、およびロール - 30 秒
    AvailableMB ユーザー、クラスター、およびロール - 30 秒
    AvailableVCores ユーザー、クラスター、およびロール - 30 秒
    PendingContainers ユーザー、クラスター、およびロール - 30 秒
    ReservedContainers ユーザー、クラスター、およびロール - 30 秒
    • モニタリングデータは最大 31 日間保存されます。

    • 最大 14 日間連続してモニタリングデータを表示できます。

  • モニタリングデータの表示
    1. クラウドモニタリングコンソール にログインします。
    2. [クラウドサービスモニタリング][E-MapReduce] インスタンスリストへ移動します。
    3. インスタンス名をクリックするか、または [アクション] 列の [モニタリングチャート] をクリックして、インスタンスモニタリングの詳細ページにアクセスし、さまざまなメトリックを表示します。
    4. ページ上部の [時間範囲] クイック選択ボタンをクリックするか、特定の選択機能を使用します。 モニタリングデータは最大 14 日間連続して表示できます。
    5. モニタリングチャートの右上隅にある [ズームイン] ボタンをクリックしてチャートを拡大します。

アラームサービス

  • パラメーターの説明
    • モニタリングメトリック: E-MapReduce サービスによって提供されるモニタリングメトリックス

    • 統計サイクル: アラームシステムは、サイクルに基づいてモニタリングデータがアラームしきい値を超えたかどうかを確認します。 たとえば、メモリ使用量に関するアラームルールの統計周期が 1 分に設定されている場合、システムはメモリ使用量が 1 分おきにしきい値を超えたかどうかを確認します。

    • 統計方法: データがしきい値を超えているかどうかを決定するために使用される方法を指します。 統計方法としては、平均値、最大値、最小値、合計値を設定できます。

      1. 平均: 統計期間内のメトリックデータの平均値 たとえば、15 分以内に収集されたすべてのモニタリングデータの平均値が統計方法として採用されている場合、80% を超える平均値がしきい値を超えていると見なされます。
      2. 最大: 統計期間内のメトリックデータの最大値 たとえば、15 分以内に収集されたすべてのモニタリングデータの最大値が統計方法として採用されている場合、80% を超える最大値がしきい値を超えると見なされます。
      3. 最小: 統計期間内のメトリックデータの最小値 たとえば、15 分以内に収集されたすべてのモニタリングデータの最小値が統計方法として採用されている場合、80% を超える最小値がしきい値を超えていると見なされます。
      4. 合計: 統計期間内のメトリックデータの合計 たとえば、15 分以内に収集されたすべてのモニタリングデータの合計値が統計的方法として採用されている場合、80% を超える合計値がしきい値を超えていると見なされます。 上記の統計方法は、トラフィックベースのインデックスに必要です。
    • 連続時間: 監視メトリックの値が設定された連続サイクルの間、しきい値を継続的に超えたときにアラームがトリガーされます。

      例:CPU 使用率が 80 %以上、統計サイクルを 5 分に設定し、3 回連続で しきい値を超えた場合、アラームが発生するように設定します。検出 CPU 使用率が初めて 80% を超えた場合、アラーム通知は発行されません。 5 分以内に 2 回目の CPU 使用率が 80% を超えたことが検出された場合、 アラーム通知は発行されません。 3 回目に 80% を超えた場合のみ、 アラーム通知が発行されます。 したがって、実際のデータが初めてしきい値を超えてからアラームルールがトリガーされるまでの間に消費される最小時間は次のとおりです。統計サイクル * (連続検出数 - 1) = 5 * (3-1) = 10 分です。

  • アラームルールの設定
    1. クラウドモニタリングコンソールにログインします。
    2. [クラウドサービスモニタリング][E-MapReduce] インスタンスリストへ移動します。
    3. インスタンス名をクリックするか、または [アクション] 列の [モニタリングチャート] をクリックして、インスタンスモニタリングの詳細ページにアクセスします。
    4. モニタリングチャートの右上隅にあるベルボタンまたはページの右上隅にある [新しいアラームルール] をクリックして、このインスタンスの対応するモニタリングメトリックにアラームルールを設定します。