fix: add the stability level to the help message of the metric

nayihz · nayihz · commit 12cebf69ff05 · 2025-05-06T17:20:32.000+08:00
diff --git a/pkg/bbr/metrics/metrics.go b/pkg/bbr/metrics/metrics.go
@@ -17,9 +17,11 @@ limitations under the License.
 package metrics
 
 import (
+	"fmt"
 	"sync"
 
 	"github.com/prometheus/client_golang/prometheus"
+	compbasemetrics "k8s.io/component-base/metrics"
 	"sigs.k8s.io/controller-runtime/pkg/metrics"
 )
 
@@ -30,23 +32,23 @@ var (
 		prometheus.CounterOpts{
 			Subsystem: component,
 			Name:      "success_total",
-			Help:      "Count of successes pulling model name from body and injecting it in the request headers.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Count of successes pulling model name from body and injecting it in the request headers."),
 		},
 		[]string{},
 	)
 	modelNotInBodyCounter = prometheus.NewCounterVec(
 		prometheus.CounterOpts{
 			Subsystem: component,
 			Name:      "model_not_in_body_total",
-			Help:      "Count of times the model was not present in the request body.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Count of times the model was not present in the request body."),
 		},
 		[]string{},
 	)
 	modelNotParsedCounter = prometheus.NewCounterVec(
 		prometheus.CounterOpts{
 			Subsystem: component,
 			Name:      "model_not_parsed_total",
-			Help:      "Count of times the model was in the request body but we could not parse it.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Count of times the model was in the request body but we could not parse it."),
 		},
 		[]string{},
 	)
diff --git a/pkg/epp/metrics/metrics.go b/pkg/epp/metrics/metrics.go
@@ -18,12 +18,15 @@ package metrics
 
 import (
 	"context"
+	"fmt"
 	"sync"
 	"time"
 
 	"github.com/prometheus/client_golang/prometheus"
+	compbasemetrics "k8s.io/component-base/metrics"
 	"sigs.k8s.io/controller-runtime/pkg/log"
 	"sigs.k8s.io/controller-runtime/pkg/metrics"
+
 	logutil "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/util/logging"
 )
 
@@ -44,7 +47,7 @@ var (
 		prometheus.CounterOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "request_total",
-			Help:      "Counter of inference model requests broken out for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Counter of inference model requests broken out for each model and target model."),
 		},
 		[]string{"model_name", "target_model_name"},
 	)
@@ -53,7 +56,7 @@ var (
 		prometheus.CounterOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "request_error_total",
-			Help:      "Counter of inference model requests errors broken out for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Counter of inference model requests errors broken out for each model and target model."),
 		},
 		[]string{"model_name", "target_model_name", "error_code"},
 	)
@@ -62,7 +65,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "request_duration_seconds",
-			Help:      "Inference model response latency distribution in seconds for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model response latency distribution in seconds for each model and target model."),
 			Buckets: []float64{
 				0.005, 0.025, 0.05, 0.1, 0.2, 0.4, 0.6, 0.8, 1.0, 1.25, 1.5, 2, 3,
 				4, 5, 6, 8, 10, 15, 20, 30, 45, 60, 120, 180, 240, 300, 360, 480, 600, 900, 1200, 1800, 2700, 3600,
@@ -75,7 +78,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "request_sizes",
-			Help:      "Inference model requests size distribution in bytes for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model requests size distribution in bytes for each model and target model."),
 			// Use buckets ranging from 1000 bytes (1KB) to 10^9 bytes (1GB).
 			Buckets: []float64{
 				64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32768, 65536, // More fine-grained up to 64KB
@@ -90,7 +93,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "response_sizes",
-			Help:      "Inference model responses size distribution in bytes for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model responses size distribution in bytes for each model and target model."),
 			// Most models have a response token < 8192 tokens. Each token, in average, has 4 characters.
 			// 8192 * 4 = 32768.
 			Buckets: []float64{1, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32778, 65536},
@@ -102,7 +105,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "input_tokens",
-			Help:      "Inference model input token count distribution for requests in each model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model input token count distribution for requests in each model."),
 			// Most models have a input context window less than 1 million tokens.
 			Buckets: []float64{1, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32778, 65536, 131072, 262144, 524288, 1048576},
 		},
@@ -113,7 +116,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "output_tokens",
-			Help:      "Inference model output token count distribution for requests in each model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model output token count distribution for requests in each model."),
 			// Most models generates output less than 8192 tokens.
 			Buckets: []float64{1, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192},
 		},
@@ -124,7 +127,7 @@ var (
 		prometheus.GaugeOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "running_requests",
-			Help:      "Inference model number of running requests in each model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model number of running requests in each model."),
 		},
 		[]string{"model_name"},
 	)
@@ -134,7 +137,7 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceModelComponent,
 			Name:      "normalized_time_per_output_token_seconds",
-			Help:      "Inference model latency divided by number of output tokens in seconds for each model and target model.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Inference model latency divided by number of output tokens in seconds for each model and target model."),
 			// From few milliseconds per token to multiple seconds per token
 			Buckets: []float64{
 				0.001, 0.002, 0.005, 0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0, 5.0, 10.0,
@@ -148,7 +151,7 @@ var (
 		prometheus.GaugeOpts{
 			Subsystem: InferencePoolComponent,
 			Name:      "average_kv_cache_utilization",
-			Help:      "The average kv cache utilization for an inference server pool.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "The average kv cache utilization for an inference server pool."),
 		},
 		[]string{"name"},
 	)
@@ -157,7 +160,7 @@ var (
 		prometheus.GaugeOpts{
 			Subsystem: InferencePoolComponent,
 			Name:      "average_queue_size",
-			Help:      "The average number of requests pending in the model server queue.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "The average number of requests pending in the model server queue."),
 		},
 		[]string{"name"},
 	)
@@ -166,7 +169,7 @@ var (
 		prometheus.GaugeOpts{
 			Subsystem: InferencePoolComponent,
 			Name:      "ready_pods",
-			Help:      "The number of ready pods in the inference server pool.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "The number of ready pods in the inference server pool."),
 		},
 		[]string{"name"},
 	)
@@ -176,19 +179,18 @@ var (
 		prometheus.HistogramOpts{
 			Subsystem: InferenceExtension,
 			Name:      "scheduler_e2e_duration_seconds",
-			Help:      "End-to-end scheduling latency distribution in seconds.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "End-to-end scheduling latency distribution in seconds."),
 			Buckets: []float64{
 				0.0001, 0.0002, 0.0005, 0.001, 0.002, 0.005, 0.01, 0.02, 0.05, 0.1,
 			},
-			// StabilityLevel: compbasemetrics.ALPHA,
 		},
 		[]string{},
 	)
 	SchedulerPluginProcessingLatencies = prometheus.NewHistogramVec(
 		prometheus.HistogramOpts{
 			Subsystem: InferenceExtension,
 			Name:      "scheduler_plugin_duration_seconds",
-			Help:      "Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name.",
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name."),
 			Buckets: []float64{
 				0.0001, 0.0002, 0.0005, 0.001, 0.002, 0.005, 0.01, 0.02, 0.05, 0.1,
 			},
@@ -201,8 +203,7 @@ var (
 		prometheus.GaugeOpts{
 			Subsystem: InferenceExtension,
 			Name:      "info",
-			Help:      "General information of the current build of Inference Extension.",
-			// StabilityLevel: compbasemetrics.ALPHA,
+			Help:      fmt.Sprintf("[%v] %v", compbasemetrics.ALPHA, "General information of the current build of Inference Extension."),
 		},
 		[]string{"commit"},
 	)
@@ -248,6 +249,8 @@ func Reset() {
 	inferencePoolAvgQueueSize.Reset()
 	inferencePoolReadyPods.Reset()
 	SchedulerPluginProcessingLatencies.Reset()
+	SchedulerE2ELatency.Reset()
+	InferenceExtensionInfo.Reset()
 }
 
 // RecordRequstCounter records the number of requests.
diff --git a/pkg/epp/metrics/testdata/input_tokens_metric b/pkg/epp/metrics/testdata/input_tokens_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_input_tokens Inference model input token count distribution for requests in each model.
+# HELP inference_model_input_tokens [ALPHA] Inference model input token count distribution for requests in each model.
 # TYPE inference_model_input_tokens histogram
 inference_model_input_tokens_bucket{model_name="m10",target_model_name="t10",le="1"} 0
 inference_model_input_tokens_bucket{model_name="m10",target_model_name="t10",le="8"} 0
diff --git a/pkg/epp/metrics/testdata/kv_cache_avg_metrics b/pkg/epp/metrics/testdata/kv_cache_avg_metrics
@@ -1,3 +1,3 @@
-# HELP inference_pool_average_kv_cache_utilization The average kv cache utilization for an inference server pool.
+# HELP inference_pool_average_kv_cache_utilization [ALPHA] The average kv cache utilization for an inference server pool.
 # TYPE inference_pool_average_kv_cache_utilization gauge
 inference_pool_average_kv_cache_utilization{name="p1"} 0.3
diff --git a/pkg/epp/metrics/testdata/normalized_time_per_output_token_seconds_metric b/pkg/epp/metrics/testdata/normalized_time_per_output_token_seconds_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_normalized_time_per_output_token_seconds Inference model latency divided by number of output tokens in seconds for each model and target model.
+# HELP inference_model_normalized_time_per_output_token_seconds [ALPHA] Inference model latency divided by number of output tokens in seconds for each model and target model.
 # TYPE inference_model_normalized_time_per_output_token_seconds histogram
 inference_model_normalized_time_per_output_token_seconds_bucket{model_name="m10", target_model_name="t10", le="0.001"} 0
 inference_model_normalized_time_per_output_token_seconds_bucket{model_name="m10", target_model_name="t10", le="0.002"} 0
diff --git a/pkg/epp/metrics/testdata/output_tokens_metric b/pkg/epp/metrics/testdata/output_tokens_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_output_tokens Inference model output token count distribution for requests in each model.
+# HELP inference_model_output_tokens [ALPHA] Inference model output token count distribution for requests in each model.
 # TYPE inference_model_output_tokens histogram
 inference_model_output_tokens_bucket{model_name="m10",target_model_name="t10",le="1"} 0
 inference_model_output_tokens_bucket{model_name="m10",target_model_name="t10",le="8"} 0
diff --git a/pkg/epp/metrics/testdata/queue_avg_size_metrics b/pkg/epp/metrics/testdata/queue_avg_size_metrics
@@ -1,3 +1,3 @@
-# HELP inference_pool_average_queue_size The average number of requests pending in the model server queue.
+# HELP inference_pool_average_queue_size [ALPHA] The average number of requests pending in the model server queue.
 # TYPE inference_pool_average_queue_size gauge
 inference_pool_average_queue_size{name="p1"} 0.4
diff --git a/pkg/epp/metrics/testdata/request_duration_seconds_metric b/pkg/epp/metrics/testdata/request_duration_seconds_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_request_duration_seconds Inference model response latency distribution in seconds for each model and target model.
+# HELP inference_model_request_duration_seconds [ALPHA] Inference model response latency distribution in seconds for each model and target model.
 # TYPE inference_model_request_duration_seconds histogram
 inference_model_request_duration_seconds_bucket{model_name="m10", target_model_name="t10", le="0.005"} 0
 inference_model_request_duration_seconds_bucket{model_name="m10", target_model_name="t10", le="0.025"} 1
diff --git a/pkg/epp/metrics/testdata/request_error_total_metric b/pkg/epp/metrics/testdata/request_error_total_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_request_error_total Counter of inference model requests errors broken out for each model and target model.
+# HELP inference_model_request_error_total [ALPHA] Counter of inference model requests errors broken out for each model and target model.
 # TYPE inference_model_request_error_total counter
 inference_model_request_error_total{error_code="Internal", model_name="m10",target_model_name="t10"} 2
 inference_model_request_error_total{error_code="ModelServerError", model_name="m10",target_model_name="t11"} 1
diff --git a/pkg/epp/metrics/testdata/request_sizes_metric b/pkg/epp/metrics/testdata/request_sizes_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_request_sizes Inference model requests size distribution in bytes for each model and target model.
+# HELP inference_model_request_sizes [ALPHA] Inference model requests size distribution in bytes for each model and target model.
 # TYPE inference_model_request_sizes histogram
 inference_model_request_sizes_bucket{model_name="m10",target_model_name="t10",le="64"} 0
 inference_model_request_sizes_bucket{model_name="m10",target_model_name="t10",le="128"} 0
diff --git a/pkg/epp/metrics/testdata/request_total_metric b/pkg/epp/metrics/testdata/request_total_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_request_total Counter of inference model requests broken out for each model and target model.
+# HELP inference_model_request_total [ALPHA] Counter of inference model requests broken out for each model and target model.
 # TYPE inference_model_request_total counter
 inference_model_request_total{model_name="m10", target_model_name="t10"} 2
 inference_model_request_total{model_name="m10", target_model_name="t11"} 1
diff --git a/pkg/epp/metrics/testdata/response_sizes_metric b/pkg/epp/metrics/testdata/response_sizes_metric
@@ -1,4 +1,4 @@
-# HELP inference_model_response_sizes Inference model responses size distribution in bytes for each model and target model.
+# HELP inference_model_response_sizes [ALPHA] Inference model responses size distribution in bytes for each model and target model.
 # TYPE inference_model_response_sizes histogram
 inference_model_response_sizes_bucket{model_name="m10",target_model_name="t10",le="1"} 0
 inference_model_response_sizes_bucket{model_name="m10",target_model_name="t10",le="8"} 0
diff --git a/pkg/epp/metrics/testdata/running_requests_metrics b/pkg/epp/metrics/testdata/running_requests_metrics
@@ -1,4 +1,4 @@
-# HELP inference_model_running_requests Inference model number of running requests in each model.
+# HELP inference_model_running_requests [ALPHA] Inference model number of running requests in each model.
 # TYPE inference_model_running_requests gauge
 inference_model_running_requests{model_name="m1"} 1
 inference_model_running_requests{model_name="m2"} 1
diff --git a/pkg/epp/metrics/testdata/scheduler_e2e_duration_seconds_metric b/pkg/epp/metrics/testdata/scheduler_e2e_duration_seconds_metric
@@ -1,4 +1,4 @@
-# HELP inference_extension_scheduler_e2e_duration_seconds End-to-end scheduling latency distribution in seconds.
+# HELP inference_extension_scheduler_e2e_duration_seconds [ALPHA] End-to-end scheduling latency distribution in seconds.
 # TYPE inference_extension_scheduler_e2e_duration_seconds histogram
 inference_extension_scheduler_e2e_duration_seconds_bucket{le="0.0001"} 0
 inference_extension_scheduler_e2e_duration_seconds_bucket{le="0.0002"} 1
diff --git a/pkg/epp/metrics/testdata/scheduler_plugin_processing_latencies_metric b/pkg/epp/metrics/testdata/scheduler_plugin_processing_latencies_metric
@@ -1,4 +1,4 @@
-# HELP inference_extension_scheduler_plugin_duration_seconds Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name.
+# HELP inference_extension_scheduler_plugin_duration_seconds [ALPHA] Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name.
 # TYPE inference_extension_scheduler_plugin_duration_seconds histogram
 inference_extension_scheduler_plugin_duration_seconds_bucket{plugin_name="PluginA",plugin_type="PreSchedule",le="0.0001"} 0
 inference_extension_scheduler_plugin_duration_seconds_bucket{plugin_name="PluginA",plugin_type="PreSchedule",le="0.0002"} 0
diff --git a/test/integration/epp/hermetic_test.go b/test/integration/epp/hermetic_test.go

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_input_tokens Inference model input token count distribution for requests in each model.`
	`1`	`+# HELP inference_model_input_tokens [ALPHA] Inference model input token count distribution for requests in each model.`
`2`	`2`	`# TYPE inference_model_input_tokens histogram`
`3`	`3`	`inference_model_input_tokens_bucket{model_name="m10",target_model_name="t10",le="1"} 0`
`4`	`4`	`inference_model_input_tokens_bucket{model_name="m10",target_model_name="t10",le="8"} 0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_normalized_time_per_output_token_seconds Inference model latency divided by number of output tokens in seconds for each model and target model.`
	`1`	`+# HELP inference_model_normalized_time_per_output_token_seconds [ALPHA] Inference model latency divided by number of output tokens in seconds for each model and target model.`
`2`	`2`	`# TYPE inference_model_normalized_time_per_output_token_seconds histogram`
`3`	`3`	`inference_model_normalized_time_per_output_token_seconds_bucket{model_name="m10", target_model_name="t10", le="0.001"} 0`
`4`	`4`	`inference_model_normalized_time_per_output_token_seconds_bucket{model_name="m10", target_model_name="t10", le="0.002"} 0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_output_tokens Inference model output token count distribution for requests in each model.`
	`1`	`+# HELP inference_model_output_tokens [ALPHA] Inference model output token count distribution for requests in each model.`
`2`	`2`	`# TYPE inference_model_output_tokens histogram`
`3`	`3`	`inference_model_output_tokens_bucket{model_name="m10",target_model_name="t10",le="1"} 0`
`4`	`4`	`inference_model_output_tokens_bucket{model_name="m10",target_model_name="t10",le="8"} 0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_request_duration_seconds Inference model response latency distribution in seconds for each model and target model.`
	`1`	`+# HELP inference_model_request_duration_seconds [ALPHA] Inference model response latency distribution in seconds for each model and target model.`
`2`	`2`	`# TYPE inference_model_request_duration_seconds histogram`
`3`	`3`	`inference_model_request_duration_seconds_bucket{model_name="m10", target_model_name="t10", le="0.005"} 0`
`4`	`4`	`inference_model_request_duration_seconds_bucket{model_name="m10", target_model_name="t10", le="0.025"} 1`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_request_error_total Counter of inference model requests errors broken out for each model and target model.`
	`1`	`+# HELP inference_model_request_error_total [ALPHA] Counter of inference model requests errors broken out for each model and target model.`
`2`	`2`	`# TYPE inference_model_request_error_total counter`
`3`	`3`	`inference_model_request_error_total{error_code="Internal", model_name="m10",target_model_name="t10"} 2`
`4`	`4`	`inference_model_request_error_total{error_code="ModelServerError", model_name="m10",target_model_name="t11"} 1`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_request_sizes Inference model requests size distribution in bytes for each model and target model.`
	`1`	`+# HELP inference_model_request_sizes [ALPHA] Inference model requests size distribution in bytes for each model and target model.`
`2`	`2`	`# TYPE inference_model_request_sizes histogram`
`3`	`3`	`inference_model_request_sizes_bucket{model_name="m10",target_model_name="t10",le="64"} 0`
`4`	`4`	`inference_model_request_sizes_bucket{model_name="m10",target_model_name="t10",le="128"} 0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_request_total Counter of inference model requests broken out for each model and target model.`
	`1`	`+# HELP inference_model_request_total [ALPHA] Counter of inference model requests broken out for each model and target model.`
`2`	`2`	`# TYPE inference_model_request_total counter`
`3`	`3`	`inference_model_request_total{model_name="m10", target_model_name="t10"} 2`
`4`	`4`	`inference_model_request_total{model_name="m10", target_model_name="t11"} 1`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_model_response_sizes Inference model responses size distribution in bytes for each model and target model.`
	`1`	`+# HELP inference_model_response_sizes [ALPHA] Inference model responses size distribution in bytes for each model and target model.`
`2`	`2`	`# TYPE inference_model_response_sizes histogram`
`3`	`3`	`inference_model_response_sizes_bucket{model_name="m10",target_model_name="t10",le="1"} 0`
`4`	`4`	`inference_model_response_sizes_bucket{model_name="m10",target_model_name="t10",le="8"} 0`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_extension_scheduler_e2e_duration_seconds End-to-end scheduling latency distribution in seconds.`
	`1`	`+# HELP inference_extension_scheduler_e2e_duration_seconds [ALPHA] End-to-end scheduling latency distribution in seconds.`
`2`	`2`	`# TYPE inference_extension_scheduler_e2e_duration_seconds histogram`
`3`	`3`	`inference_extension_scheduler_e2e_duration_seconds_bucket{le="0.0001"} 0`
`4`	`4`	`inference_extension_scheduler_e2e_duration_seconds_bucket{le="0.0002"} 1`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# HELP inference_extension_scheduler_plugin_duration_seconds Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name.`
	`1`	`+# HELP inference_extension_scheduler_plugin_duration_seconds [ALPHA] Scheduler plugin processing latency distribution in seconds for each plugin type and plugin name.`
`2`	`2`	`# TYPE inference_extension_scheduler_plugin_duration_seconds histogram`
`3`	`3`	`inference_extension_scheduler_plugin_duration_seconds_bucket{plugin_name="PluginA",plugin_type="PreSchedule",le="0.0001"} 0`
`4`	`4`	`inference_extension_scheduler_plugin_duration_seconds_bucket{plugin_name="PluginA",plugin_type="PreSchedule",le="0.0002"} 0`