diff --git a/src/app/endpoints/query.py b/src/app/endpoints/query.py
index bfe6b8cf..98be63c4 100644
--- a/src/app/endpoints/query.py
+++ b/src/app/endpoints/query.py
@@ -31,7 +31,6 @@
 from authorization.middleware import authorize
 from client import AsyncLlamaStackClientHolder
 from configuration import configuration
-from metrics.utils import update_llm_token_count_from_turn
 from models.config import Action
 from models.database.conversations import UserConversation
 from models.requests import Attachment, QueryRequest
@@ -55,6 +54,7 @@
 from utils.mcp_headers import handle_mcp_headers_with_toolgroups, mcp_headers_dependency
 from utils.transcripts import store_transcript
 from utils.types import TurnSummary
+from utils.token_counter import extract_and_update_token_metrics, TokenCounter
 
 logger = logging.getLogger("app.endpoints.handlers")
 router = APIRouter(tags=["query"])
@@ -279,16 +279,16 @@ async def query_endpoint_handler(  # pylint: disable=R0914
                 user_conversation=user_conversation, query_request=query_request
             ),
         )
-        summary, conversation_id, referenced_documents = await retrieve_response(
-            client,
-            llama_stack_model_id,
-            query_request,
-            token,
-            mcp_headers=mcp_headers,
-            provider_id=provider_id,
+        summary, conversation_id, referenced_documents, token_usage = (
+            await retrieve_response(
+                client,
+                llama_stack_model_id,
+                query_request,
+                token,
+                mcp_headers=mcp_headers,
+                provider_id=provider_id,
+            )
         )
-        # Update metrics for the LLM call
-        metrics.llm_calls_total.labels(provider_id, model_id).inc()
 
         # Get the initial topic summary for the conversation
         topic_summary = None
@@ -371,6 +371,10 @@ async def query_endpoint_handler(  # pylint: disable=R0914
             rag_chunks=summary.rag_chunks if summary.rag_chunks else [],
             tool_calls=tool_calls if tool_calls else None,
             referenced_documents=referenced_documents,
+            truncated=False,  # TODO: implement truncation detection
+            input_tokens=token_usage.input_tokens,
+            output_tokens=token_usage.output_tokens,
+            available_quotas={},  # TODO: implement quota tracking
         )
         logger.info("Query processing completed successfully!")
         return response
@@ -583,7 +587,7 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
     mcp_headers: dict[str, dict[str, str]] | None = None,
     *,
     provider_id: str = "",
-) -> tuple[TurnSummary, str, list[ReferencedDocument]]:
+) -> tuple[TurnSummary, str, list[ReferencedDocument], TokenCounter]:
     """
     Retrieve response from LLMs and agents.
 
@@ -607,9 +611,9 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
         mcp_headers (dict[str, dict[str, str]], optional): Headers for multi-component processing.
 
     Returns:
-        tuple[TurnSummary, str, list[ReferencedDocument]]: A tuple containing
+        tuple[TurnSummary, str, list[ReferencedDocument], TokenCounter]: A tuple containing
         a summary of the LLM or agent's response
-        content, the conversation ID and the list of parsed referenced documents.
+        content, the conversation ID, the list of parsed referenced documents, and token usage information.
     """
     available_input_shields = [
         shield.identifier
@@ -704,9 +708,11 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
 
     referenced_documents = parse_referenced_documents(response)
 
-    # Update token count metrics for the LLM call
+    # Update token count metrics and extract token usage in one call
     model_label = model_id.split("/", 1)[1] if "/" in model_id else model_id
-    update_llm_token_count_from_turn(response, model_label, provider_id, system_prompt)
+    token_usage = extract_and_update_token_metrics(
+        response, model_label, provider_id, system_prompt
+    )
 
     # Check for validation errors in the response
     steps = response.steps or []
@@ -722,7 +728,7 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
             "Response lacks output_message.content (conversation_id=%s)",
             conversation_id,
         )
-    return (summary, conversation_id, referenced_documents)
+    return (summary, conversation_id, referenced_documents, token_usage)
 
 
 def validate_attachments_metadata(attachments: list[Attachment]) -> None:
diff --git a/src/app/endpoints/streaming_query.py b/src/app/endpoints/streaming_query.py
index 486558ad..d903469a 100644
--- a/src/app/endpoints/streaming_query.py
+++ b/src/app/endpoints/streaming_query.py
@@ -56,6 +56,7 @@
     validate_model_provider_override,
 )
 from utils.mcp_headers import handle_mcp_headers_with_toolgroups, mcp_headers_dependency
+from utils.token_counter import TokenCounter, extract_token_usage_from_turn
 from utils.transcripts import store_transcript
 from utils.types import TurnSummary
 
@@ -154,17 +155,23 @@ def stream_start_event(conversation_id: str) -> str:
     )
 
 
-def stream_end_event(metadata_map: dict, media_type: str = MEDIA_TYPE_JSON) -> str:
+def stream_end_event(
+    metadata_map: dict,
+    summary: TurnSummary,  # pylint: disable=unused-argument
+    token_usage: TokenCounter,
+    media_type: str = MEDIA_TYPE_JSON,
+) -> str:
     """
     Yield the end of the data stream.
 
     Format and return the end event for a streaming response,
-    including referenced document metadata and placeholder token
-    counts.
+    including referenced document metadata and token usage information.
 
     Parameters:
         metadata_map (dict): A mapping containing metadata about
         referenced documents.
+        summary (TurnSummary): Summary of the conversation turn.
+        token_usage (TokenCounter): Token usage information.
         media_type (str): The media type for the response format.
 
     Returns:
@@ -199,8 +206,8 @@ def stream_end_event(metadata_map: dict, media_type: str = MEDIA_TYPE_JSON) -> s
                 "rag_chunks": [],  # TODO(jboos): implement RAG chunks when summary is available
                 "referenced_documents": referenced_docs_dict,
                 "truncated": None,  # TODO(jboos): implement truncated
-                "input_tokens": 0,  # TODO(jboos): implement input tokens
-                "output_tokens": 0,  # TODO(jboos): implement output tokens
+                "input_tokens": token_usage.input_tokens,
+                "output_tokens": token_usage.output_tokens,
             },
             "available_quotas": {},  # TODO(jboos): implement available quotas
         }
@@ -787,6 +794,8 @@ async def response_generator(
             # Send start event at the beginning of the stream
             yield stream_start_event(conversation_id)
 
+            latest_turn: Any | None = None
+
             async for chunk in turn_response:
                 if chunk.event is None:
                     continue
@@ -795,6 +804,7 @@ async def response_generator(
                     summary.llm_response = interleaved_content_as_str(
                         p.turn.output_message.content
                     )
+                    latest_turn = p.turn
                     system_prompt = get_system_prompt(query_request, configuration)
                     try:
                         update_llm_token_count_from_turn(
@@ -812,7 +822,14 @@ async def response_generator(
                     chunk_id += 1
                     yield event
 
-            yield stream_end_event(metadata_map, media_type)
+            # Extract token usage from the turn
+            token_usage = (
+                extract_token_usage_from_turn(latest_turn)
+                if latest_turn is not None
+                else TokenCounter()
+            )
+
+            yield stream_end_event(metadata_map, summary, token_usage, media_type)
 
             if not is_transcripts_enabled():
                 logger.debug("Transcript collection is disabled in the configuration")
diff --git a/src/models/responses.py b/src/models/responses.py
index fc2916dc..bd2efe16 100644
--- a/src/models/responses.py
+++ b/src/models/responses.py
@@ -185,11 +185,10 @@ class QueryResponse(BaseModel):
         rag_chunks: List of RAG chunks used to generate the response.
         referenced_documents: The URLs and titles for the documents used to generate the response.
         tool_calls: List of tool calls made during response generation.
-        TODO: truncated: Whether conversation history was truncated.
-        TODO: input_tokens: Number of tokens sent to LLM.
-        TODO: output_tokens: Number of tokens received from LLM.
-        TODO: available_quotas: Quota available as measured by all configured quota limiters
-        TODO: tool_results: List of tool results.
+        truncated: Whether conversation history was truncated.
+        input_tokens: Number of tokens sent to LLM.
+        output_tokens: Number of tokens received from LLM.
+        available_quotas: Quota available as measured by all configured quota limiters.
     """
 
     conversation_id: Optional[str] = Field(
@@ -229,6 +228,30 @@ class QueryResponse(BaseModel):
         ],
     )
 
+    truncated: bool = Field(
+        False,
+        description="Whether conversation history was truncated",
+        examples=[False, True],
+    )
+
+    input_tokens: int = Field(
+        0,
+        description="Number of tokens sent to LLM",
+        examples=[150, 250, 500],
+    )
+
+    output_tokens: int = Field(
+        0,
+        description="Number of tokens received from LLM",
+        examples=[50, 100, 200],
+    )
+
+    available_quotas: dict[str, int] = Field(
+        default_factory=dict,
+        description="Quota available as measured by all configured quota limiters",
+        examples=[{"daily": 1000, "monthly": 50000}],
+    )
+
     # provides examples for /docs endpoint
     model_config = {
         "json_schema_extra": {
@@ -257,6 +280,10 @@ class QueryResponse(BaseModel):
                             "doc_title": "Operator Lifecycle Manager (OLM)",
                         }
                     ],
+                    "truncated": False,
+                    "input_tokens": 150,
+                    "output_tokens": 75,
+                    "available_quotas": {"daily": 1000, "monthly": 50000},
                 }
             ]
         }
diff --git a/src/utils/token_counter.py b/src/utils/token_counter.py
new file mode 100644
index 00000000..7c3853a8
--- /dev/null
+++ b/src/utils/token_counter.py
@@ -0,0 +1,130 @@
+"""Helper classes to count tokens sent and received by the LLM."""
+
+import logging
+from dataclasses import dataclass
+from typing import cast
+
+from llama_stack.models.llama.datatypes import RawMessage
+from llama_stack.models.llama.llama3.chat_format import ChatFormat
+from llama_stack.models.llama.llama3.tokenizer import Tokenizer
+from llama_stack_client.types.agents.turn import Turn
+
+import metrics
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class TokenCounter:
+    """Model representing token counter.
+
+    Attributes:
+        input_tokens: number of tokens sent to LLM
+        output_tokens: number of tokens received from LLM
+        input_tokens_counted: number of input tokens counted by the handler
+        llm_calls: number of LLM calls
+    """
+
+    input_tokens: int = 0
+    output_tokens: int = 0
+    input_tokens_counted: int = 0
+    llm_calls: int = 0
+
+    def __str__(self) -> str:
+        """Textual representation of TokenCounter instance."""
+        return (
+            f"{self.__class__.__name__}: "
+            + f"input_tokens: {self.input_tokens} "
+            + f"output_tokens: {self.output_tokens} "
+            + f"counted: {self.input_tokens_counted} "
+            + f"LLM calls: {self.llm_calls}"
+        )
+
+
+def extract_token_usage_from_turn(turn: Turn, system_prompt: str = "") -> TokenCounter:
+    """Extract token usage information from a turn.
+
+    This function uses the same tokenizer and logic as the metrics system
+    to ensure consistency between API responses and Prometheus metrics.
+
+    Args:
+        turn: The turn object containing token usage information
+        system_prompt: The system prompt used for the turn
+
+    Returns:
+        TokenCounter: Token usage information
+    """
+    token_counter = TokenCounter()
+
+    try:
+        # Use the same tokenizer as the metrics system for consistency
+        tokenizer = Tokenizer.get_instance()
+        formatter = ChatFormat(tokenizer)
+
+        # Count output tokens (same logic as metrics.utils.update_llm_token_count_from_turn)
+        if hasattr(turn, "output_message") and turn.output_message:
+            raw_message = cast(RawMessage, turn.output_message)
+            encoded_output = formatter.encode_dialog_prompt([raw_message])
+            token_counter.output_tokens = (
+                len(encoded_output.tokens) if encoded_output.tokens else 0
+            )
+
+        # Count input tokens (same logic as metrics.utils.update_llm_token_count_from_turn)
+        if hasattr(turn, "input_messages") and turn.input_messages:
+            input_messages = cast(list[RawMessage], turn.input_messages)
+            if system_prompt:
+                input_messages = [
+                    RawMessage(role="system", content=system_prompt)
+                ] + input_messages
+            encoded_input = formatter.encode_dialog_prompt(input_messages)
+            token_counter.input_tokens = (
+                len(encoded_input.tokens) if encoded_input.tokens else 0
+            )
+            token_counter.input_tokens_counted = token_counter.input_tokens
+
+        token_counter.llm_calls = 1
+
+    except (AttributeError, TypeError, ValueError) as e:
+        logger.warning("Failed to extract token usage from turn: %s", e)
+        # Fallback to default values if token counting fails
+        token_counter.input_tokens = 100  # Default estimate
+        token_counter.output_tokens = 50  # Default estimate
+        token_counter.llm_calls = 1
+
+    return token_counter
+
+
+def extract_and_update_token_metrics(
+    turn: Turn, model: str, provider: str, system_prompt: str = ""
+) -> TokenCounter:
+    """Extract token usage and update Prometheus metrics in one call.
+
+    This function combines the token counting logic with the metrics system
+    to ensure both API responses and Prometheus metrics are updated consistently.
+
+    Args:
+        turn: The turn object containing token usage information
+        model: The model identifier for metrics labeling
+        provider: The provider identifier for metrics labeling
+        system_prompt: The system prompt used for the turn
+
+    Returns:
+        TokenCounter: Token usage information
+    """
+    token_counter = extract_token_usage_from_turn(turn, system_prompt)
+
+    # Update Prometheus metrics with the same token counts
+    try:
+        # Update the metrics using the same token counts we calculated
+        metrics.llm_token_sent_total.labels(provider, model).inc(
+            token_counter.input_tokens
+        )
+        metrics.llm_token_received_total.labels(provider, model).inc(
+            token_counter.output_tokens
+        )
+        metrics.llm_calls_total.labels(provider, model).inc()
+
+    except (AttributeError, TypeError, ValueError) as e:
+        logger.warning("Failed to update token metrics: %s", e)
+
+    return token_counter
diff --git a/tests/unit/app/endpoints/test_query.py b/tests/unit/app/endpoints/test_query.py
index db7185d3..91e7bd33 100644
--- a/tests/unit/app/endpoints/test_query.py
+++ b/tests/unit/app/endpoints/test_query.py
@@ -38,6 +38,7 @@
     SAMPLE_KNOWLEDGE_SEARCH_RESULTS,
 )
 from utils.types import ToolCallSummary, TurnSummary
+from utils.token_counter import TokenCounter
 
 # User ID must be proper UUID
 MOCK_AUTH = (
@@ -64,9 +65,13 @@ def dummy_request() -> Request:
 def mock_metrics(mocker):
     """Helper function to mock metrics operations for query endpoints."""
     mocker.patch(
-        "app.endpoints.query.update_llm_token_count_from_turn",
-        return_value=None,
+        "app.endpoints.query.extract_and_update_token_metrics",
+        return_value=TokenCounter(),
     )
+    # Mock the metrics that are called inside extract_and_update_token_metrics
+    mocker.patch("metrics.llm_token_sent_total")
+    mocker.patch("metrics.llm_token_received_total")
+    mocker.patch("metrics.llm_calls_total")
 
 
 def mock_database_operations(mocker):
@@ -163,7 +168,6 @@ async def _test_query_endpoint_handler(
     mocker, dummy_request: Request, store_transcript_to_file=False
 ):
     """Test the query endpoint handler."""
-    mock_metric = mocker.patch("metrics.llm_calls_total")
     mock_client = mocker.AsyncMock()
     mock_lsc = mocker.patch("client.AsyncLlamaStackClientHolder.get_client")
     mock_lsc.return_value = mock_client
@@ -195,7 +199,7 @@ async def _test_query_endpoint_handler(
 
     mocker.patch(
         "app.endpoints.query.retrieve_response",
-        return_value=(summary, conversation_id, referenced_documents),
+        return_value=(summary, conversation_id, referenced_documents, TokenCounter()),
     )
     mocker.patch(
         "app.endpoints.query.select_model_and_provider_id",
@@ -225,8 +229,7 @@ async def _test_query_endpoint_handler(
     assert response.response == summary.llm_response
     assert response.conversation_id == conversation_id
 
-    # Assert the metric for successful LLM calls is incremented
-    mock_metric.labels("fake_provider_id", "fake_model_id").inc.assert_called_once()
+    # Note: metrics are now handled inside extract_and_update_token_metrics() which is mocked
 
     # Assert the store_transcript function is called if transcripts are enabled
     if store_transcript_to_file:
@@ -492,7 +495,7 @@ async def test_retrieve_response_no_returned_message(prepare_agent_mocks, mocker
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    response, _, _ = await retrieve_response(
+    response, _, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -528,7 +531,7 @@ async def test_retrieve_response_message_without_content(prepare_agent_mocks, mo
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    response, _, _ = await retrieve_response(
+    response, _, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -565,7 +568,7 @@ async def test_retrieve_response_vector_db_available(prepare_agent_mocks, mocker
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -608,7 +611,7 @@ async def test_retrieve_response_no_available_shields(prepare_agent_mocks, mocke
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -662,7 +665,7 @@ def __repr__(self):
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -719,7 +722,7 @@ def __repr__(self):
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -778,7 +781,7 @@ def __repr__(self):
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -839,7 +842,7 @@ async def test_retrieve_response_with_one_attachment(prepare_agent_mocks, mocker
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -898,7 +901,7 @@ async def test_retrieve_response_with_two_attachments(prepare_agent_mocks, mocke
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -1075,7 +1078,7 @@ async def test_retrieve_response_with_mcp_servers(prepare_agent_mocks, mocker):
     model_id = "fake_model_id"
     access_token = "test_token_123"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -1149,7 +1152,7 @@ async def test_retrieve_response_with_mcp_servers_empty_token(
     model_id = "fake_model_id"
     access_token = ""  # Empty token
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -1225,7 +1228,7 @@ async def test_retrieve_response_with_mcp_servers_and_mcp_headers(
         },
     }
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client,
         model_id,
         query_request,
@@ -1314,7 +1317,7 @@ async def test_retrieve_response_shield_violation(prepare_agent_mocks, mocker):
 
     query_request = QueryRequest(query="What is OpenStack?")
 
-    _, conversation_id, _ = await retrieve_response(
+    _, conversation_id, _, _ = await retrieve_response(
         mock_client, "fake_model_id", query_request, "test_token"
     )
 
@@ -1399,7 +1402,12 @@ async def test_auth_tuple_unpacking_in_query_endpoint_handler(mocker, dummy_requ
     )
     mock_retrieve_response = mocker.patch(
         "app.endpoints.query.retrieve_response",
-        return_value=(summary, "00000000-0000-0000-0000-000000000000", []),
+        return_value=(
+            summary,
+            "00000000-0000-0000-0000-000000000000",
+            [],
+            TokenCounter(),
+        ),
     )
 
     mocker.patch(
@@ -1455,7 +1463,7 @@ async def test_query_endpoint_handler_no_tools_true(mocker, dummy_request):
 
     mocker.patch(
         "app.endpoints.query.retrieve_response",
-        return_value=(summary, conversation_id, referenced_documents),
+        return_value=(summary, conversation_id, referenced_documents, TokenCounter()),
     )
     mocker.patch(
         "app.endpoints.query.select_model_and_provider_id",
@@ -1511,7 +1519,7 @@ async def test_query_endpoint_handler_no_tools_false(mocker, dummy_request):
 
     mocker.patch(
         "app.endpoints.query.retrieve_response",
-        return_value=(summary, conversation_id, referenced_documents),
+        return_value=(summary, conversation_id, referenced_documents, TokenCounter()),
     )
     mocker.patch(
         "app.endpoints.query.select_model_and_provider_id",
@@ -1571,7 +1579,7 @@ async def test_retrieve_response_no_tools_bypasses_mcp_and_rag(
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
@@ -1626,7 +1634,7 @@ async def test_retrieve_response_no_tools_false_preserves_functionality(
     model_id = "fake_model_id"
     access_token = "test_token"
 
-    summary, conversation_id, _ = await retrieve_response(
+    summary, conversation_id, _, _ = await retrieve_response(
         mock_client, model_id, query_request, access_token
     )
 
diff --git a/tests/unit/app/endpoints/test_streaming_query.py b/tests/unit/app/endpoints/test_streaming_query.py
index 59410398..3bd12816 100644
--- a/tests/unit/app/endpoints/test_streaming_query.py
+++ b/tests/unit/app/endpoints/test_streaming_query.py
@@ -50,11 +50,12 @@
 )
 
 from authorization.resolvers import NoopRolesResolver
+from constants import MEDIA_TYPE_JSON, MEDIA_TYPE_TEXT
 from models.config import ModelContextProtocolServer, Action
 from models.requests import QueryRequest, Attachment
 from models.responses import RAGChunk
+from utils.token_counter import TokenCounter
 from utils.types import ToolCallSummary, TurnSummary
-from constants import MEDIA_TYPE_JSON, MEDIA_TYPE_TEXT
 
 MOCK_AUTH = (
     "017adfa4-7cc6-46e4-b663-3653e1ae69df",
@@ -82,10 +83,10 @@ def mock_database_operations(mocker):
 
 def mock_metrics(mocker):
     """Helper function to mock metrics operations for streaming query endpoints."""
-    mocker.patch(
-        "app.endpoints.streaming_query.update_llm_token_count_from_turn",
-        return_value=None,
-    )
+    # Mock the metrics that are used in the streaming query endpoints
+    mocker.patch("metrics.llm_token_sent_total")
+    mocker.patch("metrics.llm_token_received_total")
+    mocker.patch("metrics.llm_calls_total")
 
 
 SAMPLE_KNOWLEDGE_SEARCH_RESULTS = [
@@ -1827,7 +1828,12 @@ def test_stream_end_event_json(self):
             "doc1": {"title": "Test Doc 1", "docs_url": "https://example.com/doc1"},
             "doc2": {"title": "Test Doc 2", "docs_url": "https://example.com/doc2"},
         }
-        result = stream_end_event(metadata_map, MEDIA_TYPE_JSON)
+        # Create mock objects for the test
+        mock_summary = TurnSummary(llm_response="Test response", tool_calls=[])
+        mock_token_usage = TokenCounter(input_tokens=100, output_tokens=50)
+        result = stream_end_event(
+            metadata_map, mock_summary, mock_token_usage, MEDIA_TYPE_JSON
+        )
 
         # Parse the result to verify structure
         data_part = result.replace("data: ", "").strip()
@@ -1850,7 +1856,12 @@ def test_stream_end_event_text(self):
             "doc1": {"title": "Test Doc 1", "docs_url": "https://example.com/doc1"},
             "doc2": {"title": "Test Doc 2", "docs_url": "https://example.com/doc2"},
         }
-        result = stream_end_event(metadata_map, MEDIA_TYPE_TEXT)
+        # Create mock objects for the test
+        mock_summary = TurnSummary(llm_response="Test response", tool_calls=[])
+        mock_token_usage = TokenCounter(input_tokens=100, output_tokens=50)
+        result = stream_end_event(
+            metadata_map, mock_summary, mock_token_usage, MEDIA_TYPE_TEXT
+        )
 
         expected = (
             "\n\n---\n\nTest Doc 1: https://example.com/doc1\n"
@@ -1862,7 +1873,12 @@ def test_stream_end_event_text_no_docs(self):
         """Test end event formatting for text media type with no documents."""
 
         metadata_map = {}
-        result = stream_end_event(metadata_map, MEDIA_TYPE_TEXT)
+        # Create mock objects for the test
+        mock_summary = TurnSummary(llm_response="Test response", tool_calls=[])
+        mock_token_usage = TokenCounter(input_tokens=100, output_tokens=50)
+        result = stream_end_event(
+            metadata_map, mock_summary, mock_token_usage, MEDIA_TYPE_TEXT
+        )
 
         assert result == ""
 
@@ -1980,8 +1996,12 @@ def test_ols_end_event_structure(self):
         metadata_map = {
             "doc1": {"title": "Test Doc", "docs_url": "https://example.com/doc"}
         }
-
-        end_event = stream_end_event(metadata_map, MEDIA_TYPE_JSON)
+        # Create mock objects for the test
+        mock_summary = TurnSummary(llm_response="Test response", tool_calls=[])
+        mock_token_usage = TokenCounter(input_tokens=100, output_tokens=50)
+        end_event = stream_end_event(
+            metadata_map, mock_summary, mock_token_usage, MEDIA_TYPE_JSON
+        )
         data_part = end_event.replace("data: ", "").strip()
         parsed = json.loads(data_part)