support multi modal inputs

learner0810 · learner0810 · commit 6420740ac837 · 2025-09-22T13:38:15.000+08:00
diff --git a/pkg/epp/scheduling/framework/plugins/multi/prefix/plugin_test.go b/pkg/epp/scheduling/framework/plugins/multi/prefix/plugin_test.go
@@ -216,7 +216,7 @@ func TestPrefixPluginChatCompletions(t *testing.T) {
 		TargetModel: "test-model1",
 		Body: &types.LLMRequestBody{
 			ChatCompletions: &types.ChatCompletionsRequest{
-				Messages: []types.Message{
+				Messages: []types.Message[string]{
 					{Role: "user", Content: "hello world"},
 					{Role: "assistant", Content: "hi there"},
 				},
@@ -251,7 +251,7 @@ func TestPrefixPluginChatCompletionsGrowth(t *testing.T) {
 		TargetModel: "test-model1",
 		Body: &types.LLMRequestBody{
 			ChatCompletions: &types.ChatCompletionsRequest{
-				Messages: []types.Message{
+				Messages: []types.Message[string]{
 					{Role: "system", Content: "You are a helpful assistant"},
 					{Role: "user", Content: "Hello, how are you?"},
 				},
@@ -284,7 +284,7 @@ func TestPrefixPluginChatCompletionsGrowth(t *testing.T) {
 		TargetModel: "test-model1",
 		Body: &types.LLMRequestBody{
 			ChatCompletions: &types.ChatCompletionsRequest{
-				Messages: []types.Message{
+				Messages: []types.Message[string]{
 					{Role: "system", Content: "You are a helpful assistant"},
 					{Role: "user", Content: "Hello, how are you?"},
 					{Role: "assistant", Content: "I'm doing well, thank you! How can I help you today?"},
@@ -317,7 +317,7 @@ func TestPrefixPluginChatCompletionsGrowth(t *testing.T) {
 		TargetModel: "test-model1",
 		Body: &types.LLMRequestBody{
 			ChatCompletions: &types.ChatCompletionsRequest{
-				Messages: []types.Message{
+				Messages: []types.Message[string]{
 					{Role: "system", Content: "You are a helpful assistant"},
 					{Role: "user", Content: "Hello, how are you?"},
 					{Role: "assistant", Content: "I'm doing well, thank you! How can I help you today?"},
@@ -442,16 +442,16 @@ func BenchmarkPrefixPluginChatCompletionsStress(b *testing.B) {
 	for _, scenario := range scenarios {
 		b.Run(fmt.Sprintf("messages_%d_length_%d", scenario.messageCount, scenario.messageLength), func(b *testing.B) {
 			// Generate messages for this scenario
-			messages := make([]types.Message, scenario.messageCount)
-			messages[0] = types.Message{Role: "system", Content: "You are a helpful assistant."}
+			messages := make([]types.Message[string], scenario.messageCount)
+			messages[0] = types.Message[string]{Role: "system", Content: "You are a helpful assistant."}
 
 			for i := 1; i < scenario.messageCount; i++ {
 				role := "user"
 				if i%2 == 0 {
 					role = "assistant"
 				}
 				content := randomPrompt(scenario.messageLength)
-				messages[i] = types.Message{Role: role, Content: content}
+				messages[i] = types.Message[string]{Role: role, Content: content}
 			}
 
 			pod := &types.PodMetrics{
diff --git a/pkg/epp/scheduling/types/types.go b/pkg/epp/scheduling/types/types.go
@@ -17,6 +17,7 @@ limitations under the License.
 package types
 
 import (
+	"encoding/json"
 	"fmt"
 
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/backend"
@@ -48,12 +49,14 @@ func (r *LLMRequest) String() string {
 
 // LLMRequestBody contains the request-body fields that we parse out as user input,
 // to be used in forming scheduling decisions.
-// An LLMRequestBody must contain exactly one of CompletionsRequest or ChatCompletionsRequest.
+// An LLMRequestBody must contain exactly one of CompletionsRequest,ChatCompletionsRequest or MultiModalChatCompletions.
 type LLMRequestBody struct {
 	// CompletionsRequest is the representation of the OpenAI /v1/completions request body.
 	Completions *CompletionsRequest `json:"completions,omitempty"`
 	// ChatCompletionsRequest is the representation of the OpenAI /v1/chat_completions request body.
 	ChatCompletions *ChatCompletionsRequest `json:"chat_completions,omitempty"`
+	// MultiModalChatCompletionsRequest is the representation of the OpenAI /v1/chat/completions request body.
+	MultiModalChatCompletions *MultiModalChatCompletionsRequest `json:"multi_modal_chat_completions,omitempty"`
 }
 
 // CompletionsRequest is a structured representation of the fields we parse out of the
@@ -79,8 +82,8 @@ func (r *CompletionsRequest) String() string {
 // API spec.
 type ChatCompletionsRequest struct {
 	/* parameters from the official OpenAI chat-completions API */
-	Messages []Message     `json:"messages,omitempty"`
-	Tools    []interface{} `json:"tools,omitempty"`
+	Messages []Message[string] `json:"messages,omitempty"`
+	Tools    []interface{}     `json:"tools,omitempty"`
 	/* parameters from the HuggingFace transformers chat-templates API */
 	Documents                 []interface{}          `json:"documents,omitempty"`
 	ChatTemplate              string                 `json:"chat_template,omitempty"`
@@ -97,16 +100,52 @@ func (r *ChatCompletionsRequest) String() string {
 
 	messagesLen := 0
 	for _, msg := range r.Messages {
-		messagesLen += len(msg.Content)
+		data, _ := json.Marshal(msg.Content)
+		messagesLen += len(data)
+	}
+
+	return fmt.Sprintf("{MessagesLength: %d}", messagesLen)
+}
+
+// MultiModalChatCompletionsRequest is a structured representation of the fields we parse out of the
+// /v1/chat/completions request body.
+// This struct includes fields usable for plugins and scheduling decisions - and not the entire
+// API spec.
+type MultiModalChatCompletionsRequest struct {
+	/* parameters from the official OpenAI chat-completions API */
+	Messages []Message[map[string]interface{}] `json:"messages,omitempty"`
+	Tools    []interface{}                     `json:"tools,omitempty"`
+	/* parameters from the HuggingFace transformers chat-templates API */
+	Documents                 []interface{}          `json:"documents,omitempty"`
+	ChatTemplate              string                 `json:"chat_template,omitempty"`
+	ReturnAssistantTokensMask bool                   `json:"return_assistant_tokens_mask,omitempty"`
+	ContinueFinalMessage      bool                   `json:"continue_final_message,omitempty"`
+	AddGenerationPrompt       bool                   `json:"add_generation_prompt,omitempty"`
+	ChatTemplateKWArgs        map[string]interface{} `json:"chat_template_kwargs,omitempty"`
+}
+
+func (r *MultiModalChatCompletionsRequest) String() string {
+	if r == nil {
+		return nilString
+	}
+
+	messagesLen := 0
+	for _, msg := range r.Messages {
+		data, _ := json.Marshal(msg.Content)
+		messagesLen += len(data)
 	}
 
 	return fmt.Sprintf("{MessagesLength: %d}", messagesLen)
 }
 
 // Message represents a single message in a chat-completions request.
-type Message struct {
+type Message[T ContentConstraint] struct {
 	Role    string
-	Content string // TODO: support multi-modal content
+	Content T
+}
+
+type ContentConstraint interface {
+	string | map[string]any
 }
 
 type Pod interface {
diff --git a/pkg/epp/util/request/body.go b/pkg/epp/util/request/body.go
@@ -18,6 +18,7 @@ package request
 
 import (
 	"encoding/json"
+	"errors"
 
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/types"
 	errutil "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/util/error"
@@ -39,21 +40,36 @@ func ExtractRequestBody(rawBody map[string]any) (*types.LLMRequestBody, error) {
 
 	// Try chat completions
 	var chatCompletions types.ChatCompletionsRequest
-	if err = json.Unmarshal(jsonBytes, &chatCompletions); err != nil {
-		return nil, errutil.Error{Code: errutil.BadRequest, Msg: "invalid request format"}
+	if err = json.Unmarshal(jsonBytes, &chatCompletions); err == nil {
+		if err = validateChatCompletionsMessages(chatCompletions.Messages); err != nil {
+			return nil, errutil.Error{Code: errutil.BadRequest, Msg: "invalid chat-completions request: " + err.Error()}
+		}
+		return &types.LLMRequestBody{ChatCompletions: &chatCompletions}, nil
 	}
 
-	if err = validateChatCompletionsMessages(chatCompletions.Messages); err != nil {
-		return nil, errutil.Error{Code: errutil.BadRequest, Msg: "invalid chat-completions request: " + err.Error()}
+	// Try chat completions
+	var multiModalChatCompletions types.MultiModalChatCompletionsRequest
+	if err = json.Unmarshal(jsonBytes, &multiModalChatCompletions); err == nil {
+		if err = validateMultiModalChatCompletionsMessages(multiModalChatCompletions.Messages); err != nil {
+			return nil, errutil.Error{Code: errutil.BadRequest, Msg: "invalid multi model chat-completions request: " + err.Error()}
+		}
+		return &types.LLMRequestBody{MultiModalChatCompletions: &multiModalChatCompletions}, nil
 	}
 
-	return &types.LLMRequestBody{ChatCompletions: &chatCompletions}, nil
+	return nil, errors.New("invalid request body")
 }
 
-func validateChatCompletionsMessages(messages []types.Message) error {
+func validateChatCompletionsMessages(messages []types.Message[string]) error {
 	if len(messages) == 0 {
 		return errutil.Error{Code: errutil.BadRequest, Msg: "chat-completions request must have at least one message"}
 	}
 
 	return nil
 }
+
+func validateMultiModalChatCompletionsMessages(messages []types.Message[map[string]interface{}]) error {
+	if len(messages) == 0 {
+		return errutil.Error{Code: errutil.BadRequest, Msg: "multi modal chat-completions request must have at least one message"}
+	}
+	return nil
+}
diff --git a/pkg/epp/util/request/body_test.go b/pkg/epp/util/request/body_test.go
@@ -57,13 +57,43 @@ func TestExtractRequestData(t *testing.T) {
 			},
 			want: &types.LLMRequestBody{
 				ChatCompletions: &types.ChatCompletionsRequest{
-					Messages: []types.Message{
+					Messages: []types.Message[string]{
 						{Role: "system", Content: "this is a system message"},
 						{Role: "user", Content: "hello"},
 					},
 				},
 			},
 		},
+		{
+			name: "chat completions request body with multi-modal content",
+			body: map[string]any{
+				"model": "test",
+				"messages": []any{
+					map[string]any{
+						"role": "system",
+						"content": map[string]any{
+							"type": "text",
+							"text": "Describe this image in one sentence.",
+						},
+					},
+					map[string]any{
+						"role": "user",
+						"content": map[string]any{
+							"type":      "image_url",
+							"image_url": "https://example.com/images/dui.jpg.",
+						},
+					},
+				},
+			},
+			want: &types.LLMRequestBody{
+				MultiModalChatCompletions: &types.MultiModalChatCompletionsRequest{
+					Messages: []types.Message[map[string]any]{
+						{Role: "system", Content: map[string]any{"type": "text", "text": "Describe this image in one sentence."}},
+						{Role: "user", Content: map[string]any{"type": "image_url", "image_url": "https://example.com/images/dui.jpg."}},
+					},
+				},
+			},
+		},
 		{
 			name: "chat completions with all optional fields",
 			body: map[string]any{
@@ -81,7 +111,7 @@ func TestExtractRequestData(t *testing.T) {
 			},
 			want: &types.LLMRequestBody{
 				ChatCompletions: &types.ChatCompletionsRequest{
-					Messages:                  []types.Message{{Role: "user", Content: "hello"}},
+					Messages:                  []types.Message[string]{{Role: "user", Content: "hello"}},
 					Tools:                     []any{map[string]any{"type": "function"}},
 					Documents:                 []any{map[string]any{"content": "doc"}},
 					ChatTemplate:              "custom template",