[wiztelemetry-monitoring-helper] add HAMi rules

frezes · frezes · commit ae94a9639da9 · 2025-10-27T14:23:33.000+08:00
Signed-off-by: frezes &lt;zhangjunhao@kubesphere.io&gt;
diff --git a/charts/wiztelemetry-monitoring-helper/Chart.yaml b/charts/wiztelemetry-monitoring-helper/Chart.yaml
@@ -15,10 +15,10 @@ type: application
 # This is the chart version. This version number should be incremented each time you make changes
 # to the chart and its templates, including the app version.
 # Versions are expected to follow Semantic Versioning (https://semver.org/)
-version: 0.10.3
+version: 0.11.0
 
 # This is the version number of the application being deployed. This version number should be
 # incremented each time you make changes to the application. Versions are not expected to
 # follow Semantic Versioning. They should reflect the version the application is using.
 # It is recommended to use it with quotes.
-appVersion: "1.2.0"
+appVersion: "1.2.1"
diff --git a/charts/wiztelemetry-monitoring-helper/hack/sync_prometheus_rules.py b/charts/wiztelemetry-monitoring-helper/hack/sync_prometheus_rules.py
@@ -142,7 +142,8 @@ def new_representer(dumper, data):
     'wiztelemetry-kube-scheduler.rules': ' .Values.defaultRules.rules.wiztelemetry.scheduler',
     'wiztelemetry-ascend-npu.rules': ' .Values.defaultRules.rules.gpuDevice.ascendNPU',
     'wiztelemetry-cambricon-mlu.rules': ' .Values.defaultRules.rules.gpuDevice.cambriconMLU',
-    'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU'
+    'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU',
+    'wiztelemetry-hami.rules': ' .Values.defaultRules.rules.gpuDevice.hami'
 }
 
 alert_condition_map = {
diff --git a/charts/wiztelemetry-monitoring-helper/templates/wiztelemetry-rules/wiztelemetry-hami.rules.yaml b/charts/wiztelemetry-monitoring-helper/templates/wiztelemetry-rules/wiztelemetry-hami.rules.yaml
@@ -0,0 +1,167 @@
+{{- /*
+Generated from 'wiztelemetry-hami.rules' group from file://../../../ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml
+Do not change in-place! In order to change this file first read following link:
+https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/hack
+*/ -}}
+{{- $kubeTargetVersion := default .Capabilities.KubeVersion.GitVersion .Values.kubeTargetVersionOverride }}
+{{- if and (semverCompare ">=1.14.0-0" $kubeTargetVersion) (semverCompare "<9.9.9-9" $kubeTargetVersion) .Values.defaultRules.create .Values.defaultRules.rules.gpuDevice.hami }}
+apiVersion: monitoring.coreos.com/v1
+kind: PrometheusRule
+metadata:
+  name: {{ printf "%s-%s" (include "wiztelemetry-monitoring-helper.fullname" .) "wiztelemetry-hami.rules" | trunc 63 | trimSuffix "-" }}
+  namespace: {{ template "wiztelemetry-monitoring-helper.namespace" . }}
+  labels:
+    app: {{ template "wiztelemetry-monitoring-helper.name" . }}
+{{ include "wiztelemetry-monitoring-helper.labels" . | indent 4 }}
+{{- if .Values.defaultRules.labels }}
+{{ toYaml .Values.defaultRules.labels | indent 4 }}
+{{- end }}
+{{- if .Values.defaultRules.annotations }}
+  annotations:
+{{ toYaml .Values.defaultRules.annotations | indent 4 }}
+{{- end }}
+spec:
+  groups:
+  - name: wiztelemetry-hami.rules
+    rules:
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node, namespace, pod, container) (
+          label_replace(
+            label_replace(
+              label_replace(Device_utilization_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+              "pod",
+              "$1",
+              "podname",
+              "(.*)"
+            ),
+            "container",
+            "$1",
+            "ctrname",
+            "(.*)"
+          )
+        )
+      record: node_namespace_pod_container:container_gpu_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node, namespace, pod, container) (
+          label_replace(
+            label_replace(
+              label_replace(Device_memory_desc_of_container, "namespace", "$1", "podnamespace", "(.*)"),
+              "pod",
+              "$1",
+              "podname",
+              "(.*)"
+            ),
+            "container",
+            "$1",
+            "ctrname",
+            "(.*)"
+          )
+        )
+      record: node_namespace_pod_container:container_gpu_memory_usage
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(GPUDeviceCoreAllocated / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_core_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        label_replace(
+          label_replace(
+            sum without (devicecores) (GPUDeviceMemoryAllocated) / GPUDeviceMemoryLimit,
+            "node",
+            "$1",
+            "nodeid",
+            "(.*)"
+          ),
+          "device_num",
+          "$1",
+          "deviceidx",
+          "(.*)"
+        )
+      record: node:vgpu_device:vgpu_memory_allocated_utilization
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node) (
+          kube_pod_container_resource_requests{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+        )
+      record: node:node_gpu_allocated_num:sum
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+    - expr: |-
+        sum by ({{ range $.Values.defaultRules.additionalAggregationLabels }}{{ . }},{{ end }}cluster, node) (
+            kube_node_status_allocatable{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
+        )
+      record: node:node_gpu_num:sum
+      {{- if or .Values.defaultRules.additionalRuleLabels .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+      labels:
+        {{- with .Values.defaultRules.additionalRuleLabels }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+        {{- with .Values.defaultRules.additionalRuleGroupLabels.gpuDevice.hami }}
+          {{- toYaml . | nindent 8 }}
+        {{- end }}
+      {{- end }}
+{{- end }}
diff --git a/charts/wiztelemetry-monitoring-helper/values.yaml b/charts/wiztelemetry-monitoring-helper/values.yaml
@@ -66,6 +66,7 @@ defaultRules:
       ascendNPU: true
       cambriconMLU: true
       nvidiaGPU: true
+      hami: true
 
   additionalRuleGroupLabels:
     wiztelemetry:
@@ -79,6 +80,7 @@ defaultRules:
       ascendNPU: {}
       cambriconMLU: {}
       nvidiaGPU: {}
+      hami: {}
 
   ## Additional labels for PrometheusRule alerts
   additionalRuleLabels: {}
diff --git a/ks-prometheus/components/wiztelemetry-mixin/rules/gpu.libsonnet b/ks-prometheus/components/wiztelemetry-mixin/rules/gpu.libsonnet
@@ -541,7 +541,7 @@
             record: 'node:vgpu_device:vgpu_allocated_utilization',
             expr: |||
               label_replace(
-                label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit * 100, "node", "$1", "nodeid", "(.*)"),
+                label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
                 "device_num",
                 "$1",
                 "deviceidx",
@@ -583,15 +583,15 @@
             record: 'node:node_gpu_allocated_num:sum',
             expr: |||
               sum by (%(clusterLabel)s, node) (
-                kube_pod_container_resource_requests{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu"}
+                kube_pod_container_resource_requests{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
               )
             ||| % $._config,
           },
           {
             record: 'node:node_gpu_num:sum',
             expr: |||
               sum by(%(clusterLabel)s, node) (
-                  kube_node_status_allocatable{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu"}
+                  kube_node_status_allocatable{%(kubeStateMetricsSelector)s,resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
               )
             ||| % $._config,
           },
diff --git a/ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml b/ks-prometheus/manifests/wiztelemetry-prometheusRule.yaml
@@ -1002,7 +1002,7 @@ spec:
       record: node_namespace_pod_container:container_gpu_memory_usage
     - expr: |
         label_replace(
-          label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit * 100, "node", "$1", "nodeid", "(.*)"),
+          label_replace(GPUDeviceSharedNum / GPUDeviceCoreLimit, "node", "$1", "nodeid", "(.*)"),
           "device_num",
           "$1",
           "deviceidx",
@@ -1035,12 +1035,12 @@ spec:
       record: node:vgpu_device:vgpu_memory_allocated_utilization
     - expr: |
         sum by (cluster, node) (
-          kube_pod_container_resource_requests{job="kube-state-metrics",resource=~"nvidia_com_vgpu"}
+          kube_pod_container_resource_requests{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
         )
       record: node:node_gpu_allocated_num:sum
     - expr: |
         sum by(cluster, node) (
-            kube_node_status_allocatable{job="kube-state-metrics",resource=~"nvidia_com_vgpu"}
+            kube_node_status_allocatable{job="kube-state-metrics",resource=~"nvidia_com_vgpu|qingcloud_nvidia_com_vgpu"}
         )
       record: node:node_gpu_num:sum
   - name: wiztelemetry-kubelet.rules

Original file line number	Diff line number	Diff line change
`@@ -142,7 +142,8 @@ def new_representer(dumper, data):`
`142`	`142`	`'wiztelemetry-kube-scheduler.rules': ' .Values.defaultRules.rules.wiztelemetry.scheduler',`
`143`	`143`	`'wiztelemetry-ascend-npu.rules': ' .Values.defaultRules.rules.gpuDevice.ascendNPU',`
`144`	`144`	`'wiztelemetry-cambricon-mlu.rules': ' .Values.defaultRules.rules.gpuDevice.cambriconMLU',`
`145`		`- 'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU'`
	`145`	`+ 'wiztelemetry-nvidia-gpu.rules': ' .Values.defaultRules.rules.gpuDevice.nvidiaGPU',`
	`146`	`+ 'wiztelemetry-hami.rules': ' .Values.defaultRules.rules.gpuDevice.hami'`
`146`	`147`	`}`
`147`	`148`
`148`	`149`	`alert_condition_map = {`