Larger divergence between sglang and transformers than with vllm #3476

rawsh · 2025-09-15T06:55:20Z

rawsh
Sep 15, 2025

Hi, we have been seeing larger divergence between sglang and transformers than with vllm, impacting on policy RL stability. I wanted to see if anyone has been observing similar? Here is sglang compared to vllm with torch inductor disabled:

Without torch inductor the mismatch appears similar.

I have tried: triton attn w/ reduce in fp32, disabling radix cache, disabling cuda graphs, pytorch sampling instead of flashinfer, torch native attention backend without much difference

Script: https://gist.github.com/rawsh/245b3ddd466911d744b2d1b9f409d21b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Larger divergence between sglang and transformers than with vllm #3476

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Larger divergence between sglang and transformers than with vllm #3476

Uh oh!

rawsh Sep 15, 2025

Replies: 0 comments

rawsh
Sep 15, 2025