triton-inference-server · debermudez · Mar 14, 2025 · Mar 15, 2025
diff --git a/genai-perf/README.md b/genai-perf/README.md
@@ -672,6 +672,10 @@ export file is `profile_export.json`, the genai-perf file will be exported to
 
 ### Session Options
 
+##### `--block-size`
+
+The number of tokens allocated per hash block.
+
 ##### `--num-sessions`
 
 The number of sessions to simulate. This is used when generating synthetic

diff --git a/genai-perf/genai_perf/config/generate/perf_analyzer_config.py b/genai-perf/genai_perf/config/generate/perf_analyzer_config.py
@@ -52,6 +52,7 @@
     "batch_size_audio",
     "batch_size_image",
     "batch_size_text",
+    "block_size",
     "concurrency",
     "endpoint_type",
     "extra_inputs",

diff --git a/genai-perf/genai_perf/inputs/input_constants.py b/genai-perf/genai_perf/inputs/input_constants.py
@@ -114,6 +114,7 @@ def to_lowercase(self):
 ###########################
 # Default Session Parameters
 ###########################
+DEFAULT_BLOCK_SIZE = 512
 DEFAULT_NUM_SESSIONS = 0
 DEFAULT_SESSION_CONCURRENCY = 1
 DEFAULT_SESSION_TURN_DELAY_MEAN_MS = 0

diff --git a/genai-perf/genai_perf/inputs/inputs_config.py b/genai-perf/genai_perf/inputs/inputs_config.py
@@ -106,6 +106,9 @@ class InputsConfig:
     # Synthetic Prompt Generation Parameters
     ########################################
 
+    # The number of tokens allocated per hash block.
+    block_size: int = ic.DEFAULT_BLOCK_SIZE
+
     # The number of dataset entries to generate and use as the payload pool
     num_dataset_entries: int = ic.DEFAULT_NUM_DATASET_ENTRIES
 

diff --git a/genai-perf/genai_perf/inputs/retrievers/payload_input_retriever.py b/genai-perf/genai_perf/inputs/retrievers/payload_input_retriever.py
@@ -168,6 +168,7 @@ def _get_prompt(self, data: Dict[str, Any]) -> str:
                 prompt_tokens_mean,
                 prompt_tokens_stddev,
                 hash_ids,
+                self.config.block_size,
             )
         prompt = prompt if prompt else prompt_alt
         return str(prompt)

diff --git a/genai-perf/genai_perf/inputs/retrievers/synthetic_prompt_generator.py b/genai-perf/genai_perf/inputs/retrievers/synthetic_prompt_generator.py
@@ -49,6 +49,8 @@ def create_synthetic_prompt(
             tokenizer: Tokenizer instance.
             prompt_tokens_mean: Mean number of tokens in the prompt.
             prompt_tokens_stddev: Standard deviation for the number of tokens in the prompt.
+            hash_ids: List of hash indices used for token reuse.
+            block_size: Number of tokens allocated per hash block (default 512).
 
         Returns:
             A synthetic prompt as a string.

diff --git a/genai-perf/genai_perf/parser.py b/genai-perf/genai_perf/parser.py
@@ -1171,6 +1171,14 @@ def _add_session_args(parser):
         required=False
     )
 
+    session_group.add_argument(
+        "--block-size",
+        type=int,
+        default=ic.DEFAULT_BLOCK_SIZE,
+        required=False,
+        help="The number of tokens allocated per hash block.",
+    )
+
     session_group.add_argument(
         "--num-sessions",
         type=int,

diff --git a/genai-perf/genai_perf/subcommand/common.py b/genai-perf/genai_perf/subcommand/common.py
@@ -215,6 +215,7 @@ def create_config_options(args: Namespace) -> InputsConfig:
         session_turn_delay_mean=args.session_turn_delay_mean,
         session_turn_delay_stddev=args.session_turn_delay_stddev,
         extra_inputs=extra_input_dict,
+        block_size=args.block_size,
     )
 
 

diff --git a/genai-perf/tests/test_exporters/test_json_exporter.py b/genai-perf/tests/test_exporters/test_json_exporter.py
@@ -212,6 +212,7 @@ def test_generate_json_input_config(
             "subcommand": "profile",
             "prompt_source": "synthetic",
             "extra_inputs": {},
+            "block_size": 512,
         }
 
         _, data = next(iter(mock_read_write))

diff --git a/genai-perf/tests/test_retrievers/test_payload_input_retriever.py b/genai-perf/tests/test_retrievers/test_payload_input_retriever.py
@@ -53,6 +53,7 @@ def __init__(self):
                 self.payload_input_filename = Path("test_input.jsonl")
                 self.prompt_tokens_mean = 10
                 self.prompt_tokens_stddev = 2
+                self.block_size = 10
 
         return MockConfig()