模型是glm4-v-9b,显卡是3090和4090 启动命令: xinference launch --model-engine Transformers --model-name glm-4v --size-in-billions 9 --model-format pytorch --quantization none 问题描述: xinference刚刚升级到0.12.2版本后,3090和4090同时出现OOM(单机单卡),但在升级之前,在两台机器上都是正常的运行。 