Merge pull request #118 from frezes/feat/hamiRules

junotx · web-flow · commit ba551fb26f41 · 2025-10-27T14:51:16.000+08:00
[wiztelemetry-monitoring-helper] add HAMi rules
diff --git a/charts/wiztelemetry-monitoring-helper/Chart.yaml b/charts/wiztelemetry-monitoring-helper/Chart.yaml
@@ -15,10 +15,10 @@ type: application
 # This is the chart version. This version number should be incremented each time you make changes
 # to the chart and its templates, including the app version.
 # Versions are expected to follow Semantic Versioning (https://semver.org/)
-version: 0.10.3
+version: 0.11.0
 
 # This is the version number of the application being deployed. This version number should be
 # incremented each time you make changes to the application. Versions are not expected to
 # follow Semantic Versioning. They should reflect the version the application is using.
 # It is recommended to use it with quotes.
-appVersion: "1.2.0"
+appVersion: "1.2.1"
diff --git a/charts/wiztelemetry-monitoring-helper/hack/sync_prometheus_rules.py b/charts/wiztelemetry-monitoring-helper/hack/sync_prometheus_rules.py
@@ -142,7 +142,8 @@ def new_representer(dumper, data):
     'wiztelemetry-kube-scheduler.rules': ' .Values.defaultRules.rules.wiztelemetry.scheduler',
     'wiztelemetry-ascend-npu.rules': ' .Values.defaultRules.rules.gpuDevice.ascendNPU',
     'wiztelemetry-cambricon-mlu.rules': ' .Values.defaultRules.rules.gpuDevice.cambriconMLU',
-    'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU'
+    'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU',
+    'wiztelemetry-hami.rules': ' .Values.defaultRules.rules.gpuDevice.hami'
 }
 
 alert_condition_map = {
diff --git a/charts/wiztelemetry-monitoring-helper/templates/wiztelemetry-rules/wiztelemetry-hami.rules.yaml b/charts/wiztelemetry-monitoring-helper/templates/wiztelemetry-rules/wiztelemetry-hami.rules.yaml
@@ -0,0 +1,167 @@
+{{- /*
+Generated from 'wiztelemetry-hami.rules' group from file://../../../ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml
+Do not change in-place! In order to change this file first read following link:
+https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/hack
+*/ -}}
+{{- $kubeTargetVersion := default .Capabilities.KubeVersion.GitVersion .Values.kubeTargetVersionOverride }}
+{{- if and (semverCompare ">=1.14.0-0" $kubeTargetVersion) (semverCompare "<9.9.9-9" $kubeTargetVersion) .Values.defaultRules.create .Values.defaultRules.rules.gpuDevice.hami }}
+apiVersion: monitoring.coreos.com/v1
+kind: PrometheusRule
+metadata:
+  name: {{ printf "%s-%s" (include "wiztelemetry-monitoring-helper.fullname" .) "wiztelemetry-hami.rules" | trunc 63 | trimSuffix "-" }}
+  namespace: {{ template "wiztelemetry-monitoring-helper.namespace" . }}
+  labels:
+    app: {{ template "wiztelemetry-monitoring-helper.name" . }}
+{{ include "wiztelemetry-monitoring-helper.labels" . | indent 4 }}
+{{- if .Values.defaultRules.labels }}
+{{ toYaml .Values.defaultRules.labels | indent 4 }}
+{{- end }}
+{{- if .Values.defaultRules.annotations }}
+  annotations:
+{{ toYaml .Values.defaultRules.annotations | indent 4 }}
+{{- end }}
+spec:
+  groups:
+  - name: wiztelemetry-hami.rules
+    rules:
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node, namespace, pod, container) (
+          label_replace(
+            label_replace(
+              label_replace(Device_utilization_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+              "pod",
+              "$1",
+              "podname",
+              "(.*)"
+            ),
+            "container",
+            "$1",
+            "ctrname",
+            "(.*)"
+          )
+        )
+      record: node_namespace_pod_container:container_gpu_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node, namespace, pod, container) (
+          label_replace(
+            label_replace(
+              label_replace(Device_memory_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+              "pod",
+              "$1",
+              "podname",
+              "(.*)"
+            ),
+            "container",
+            "$1",
+            "ctrname",
+            "(.*)"
+          )
+        )
+      record: node_namespace_pod_container:container_gpu_memory_usage
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(GPUDeviceCoreAllocated / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_core_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(
+            sum without (devicecores) (GPUDeviceMemoryAllocated) / GPUDeviceMemoryLimit,
+            "node",
+            "$1",
+            "nodeid",
+            "(.*)"
+          ),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_memory_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node) (
+          kube_pod_container_resource_requests{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+        )
+      record: node:node_gpu_allocated_num:sum
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node) (
+            kube_node_status_allocatable{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+        )
+      record: node:node_gpu_num:sum
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+{{- end }}
diff --git a/charts/wiztelemetry-monitoring-helper/values.yaml b/charts/wiztelemetry-monitoring-helper/values.yaml
@@ -66,6 +66,7 @@ defaultRules:
       ascendNPU: true
       cambriconMLU: true
       nvidiaGPU: true
+      hami: true
 
   additionalRuleGroupLabels:
     wiztelemetry:
@@ -79,6 +80,7 @@ defaultRules:
       ascendNPU: {}
       cambriconMLU: {}
       nvidiaGPU: {}
+      hami: {}
 
   ## Additional labels for PrometheusRule alerts
   additionalRuleLabels: {}
diff --git a/ks-prometheus/components/wiztelemetry-mixin/rules/gpu.libsonnet b/ks-prometheus/components/wiztelemetry-mixin/rules/gpu.libsonnet
@@ -494,6 +494,109 @@
           },
         ],
       },
+      {
+        name: "wiztelemetry-hami.rules",
+        rules: [
+          {
+            record: 'node_namespace_pod_container:container_gpu_utilization',
+            expr: |||
+                sum by (%(clusterLabel)s, node, namespace, pod, container) (
+                  label_replace(
+                    label_replace(
+                      label_replace(Device_utilization_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+                      "pod",
+                      "$1",
+                      "podname",
+                      "(.*)"
+                    ),
+                    "container",
+                    "$1",
+                    "ctrname",
+                    "(.*)"
+                  )
+                )
+            ||| % $._config,
+          },
+          {
+            record: 'node_namespace_pod_container:container_gpu_memory_usage',
+            expr: |||
+                sum by (%(clusterLabel)s, node, namespace, pod, container) (
+                  label_replace(
+                    label_replace(
+                      label_replace(Device_memory_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+                      "pod",
+                      "$1",
+                      "podname",
+                      "(.*)"
+                    ),
+                    "container",
+                    "$1",
+                    "ctrname",
+                    "(.*)"
+                  )
+                )
+            ||| % $._config,
+          },
+          {
+            record: 'node:vgpu_device:vgpu_allocated_utilization',
+            expr: |||
+              label_replace(
+                label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+                "device_num",
+                "$1",
+                "deviceidx",
+                "(.*)"
+              )
+            ||| % $._config,
+          },
+          {
+            record: 'node:vgpu_device:vgpu_core_allocated_utilization',
+            expr: |||
+              label_replace(
+                label_replace(GPUDeviceCoreAllocated / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+                "device_num",
+                "$1",
+                "deviceidx",
+                "(.*)"
+              )
+            ||| % $._config,
+          },
+          {
+            record: 'node:vgpu_device:vgpu_memory_allocated_utilization',
+            expr: |||
+              label_replace(
+                label_replace(
+                  sum without (devicecores) (GPUDeviceMemoryAllocated) / GPUDeviceMemoryLimit,
+                  "node",
+                  "$1",
+                  "nodeid",
+                  "(.*)"
+                ),
+                "device_num",
+                "$1",
+                "deviceidx",
+                "(.*)"
+              )
+            ||| % $._config,
+          },
+          {
+            record: 'node:node_gpu_allocated_num:sum',
+            expr: |||
+              sum by (%(clusterLabel)s, node) (
+                kube_pod_container_resource_requests{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+              )
+            ||| % $._config,
+          },
+          {
+            record: 'node:node_gpu_num:sum',
+            expr: |||
+              sum by(%(clusterLabel)s, node) (
+                  kube_node_status_allocatable{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+              )
+            ||| % $._config,
+          },
+        ],
+      },
     ],
   },
 }
diff --git a/ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml b/ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml

Original file line number	Diff line number	Diff line change
`@@ -142,7 +142,8 @@ def new_representer(dumper, data):`
`142`	`142`	`'wiztelemetry-kube-scheduler.rules': ' .Values.defaultRules.rules.wiztelemetry.scheduler',`
`143`	`143`	`'wiztelemetry-ascend-npu.rules': ' .Values.defaultRules.rules.gpuDevice.ascendNPU',`
`144`	`144`	`'wiztelemetry-cambricon-mlu.rules': ' .Values.defaultRules.rules.gpuDevice.cambriconMLU',`
`145`		`- 'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU'`
	`145`	`+ 'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU',`
	`146`	`+ 'wiztelemetry-hami.rules': ' .Values.defaultRules.rules.gpuDevice.hami'`
`146`	`147`	`}`
`147`	`148`
`148`	`149`	`alert_condition_map = {`