TEST

vllm serve in 4090 x4

vllm serve --host 0.0.0.0 Qwen/Qwen2.5-72B-Instruct-AWQ  --speculative_model Qwen/Qwen2.5-14B-Instruct-AWQ --num_speculative_tokens 16 --gpu_memory_utilization 0.95 --tensor-parallel-size 4 --max_model_len 8192

vllm serve in 4090 x1

CUDA_VISIBLE_DEVICES="3" vllm serve --host 0.0.0.0 Qwen/Qwen2.5-14B-Instruct-AWQ  --speculative_model Qwen/Qwen2.5-7B-Instruct-AWQ --num_speculative_tokens 16 --gpu_memory_utilization 0.95 --tensor-parallel-size 1 --max_model_len 8192

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
res		res
src		src
.gitignore		.gitignore
README.md		README.md
environment.yml		environment.yml
huggingface-login.sh		huggingface-login.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TEST

About

Uh oh!

Releases

Packages

Languages

KNU-PLML-Lab/ViewPlasticSurgeonBot

Folders and files

Latest commit

History

Repository files navigation

TEST

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages