feat: support GLM 4.5 family of models

sammcj · sammcj · commit 9f797b97ea06 · 2025-07-29T23:29:07.000+10:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -6599,6 +6599,8 @@ def set_vocab(self):
             "eos", tokenizer.get_added_vocab()["<|endoftext|>"]
         )
         special_vocab._set_special_token("eot", tokenizer.get_added_vocab()["<|user|>"])
+        special_vocab._set_special_token("eog", tokenizer.get_added_vocab()["<|user|>"])
+        special_vocab._set_special_token("eog", tokenizer.get_added_vocab()["<|observation|>"])
         special_vocab._set_special_token(
             "unk", tokenizer.get_added_vocab()["<|endoftext|>"]
         )
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -2132,7 +2132,6 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_GATE_SHEXP,
         MODEL_TENSOR.FFN_DOWN_SHEXP,
         MODEL_TENSOR.FFN_UP_SHEXP,
-        MODEL_TENSOR.ATTN_POST_NORM,
     ],
     MODEL_ARCH.BITNET: [
         MODEL_TENSOR.ATTN_Q,
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -1414,7 +1414,6 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_GATE_SHEXP,     "blk.%d.ffn_gate_shexp" },
             { LLM_TENSOR_FFN_DOWN_SHEXP,     "blk.%d.ffn_down_shexp" },
             { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
-            { LLM_TENSOR_ATTN_POST_NORM,     "blk.%d.post_attention_norm" },
         },
     },
     {
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -4400,7 +4400,6 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                         layer.bv = create_tensor(tn(LLM_TENSOR_ATTN_V, "bias", i), { n_embd_v_gqa }, TENSOR_NOT_REQUIRED);
 
                         layer.wo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), { n_embd_head_k * n_head, n_embd }, 0);
-                        layer.attn_post_norm = create_tensor(tn(LLM_TENSOR_ATTN_POST_NORM, "weight", i), { n_embd }, 0);
 
                         // K/Q norm tensors (optional for GLM-4.5 355B variant)
                         layer.attn_q_norm = create_tensor(
@@ -4448,9 +4447,10 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                                     create_tensor(tn(LLM_TENSOR_FFN_UP_SHEXP, "weight", i), { n_embd, n_ff_shexp }, 0);
                             }
                         } else {
-                            // Dense layers (first k layers)
+                            // Dense layers (first k layers) - GLM uses separate gate/up projections
+                            layer.ffn_gate = create_tensor(tn(LLM_TENSOR_FFN_GATE, "weight", i), { n_embd, n_ff }, 0);
                             layer.ffn_down = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), { n_ff, n_embd }, 0);
-                            layer.ffn_up   = create_tensor(tn(LLM_TENSOR_FFN_UP, "weight", i), { n_embd, n_ff * 2 }, 0);
+                            layer.ffn_up   = create_tensor(tn(LLM_TENSOR_FFN_UP, "weight", i), { n_embd, n_ff }, 0);
                         }
                     }
                 }

Original file line number	Diff line number	Diff line change
`@@ -6599,6 +6599,8 @@ def set_vocab(self):`
`6599`	`6599`	`"eos", tokenizer.get_added_vocab()["<\|endoftext\|>"]`
`6600`	`6600`	`)`
`6601`	`6601`	`special_vocab._set_special_token("eot", tokenizer.get_added_vocab()["<\|user\|>"])`
	`6602`	`+ special_vocab._set_special_token("eog", tokenizer.get_added_vocab()["<\|user\|>"])`
	`6603`	`+ special_vocab._set_special_token("eog", tokenizer.get_added_vocab()["<\|observation\|>"])`
`6602`	`6604`	`special_vocab._set_special_token(`
`6603`	`6605`	`"unk", tokenizer.get_added_vocab()["<\|endoftext\|>"]`
`6604`	`6606`	`)`
Original file line number	Diff line number	Diff line change
`@@ -1414,7 +1414,6 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N`
`1414`	`1414`	`{ LLM_TENSOR_FFN_GATE_SHEXP, "blk.%d.ffn_gate_shexp" },`
`1415`	`1415`	`{ LLM_TENSOR_FFN_DOWN_SHEXP, "blk.%d.ffn_down_shexp" },`
`1416`	`1416`	`{ LLM_TENSOR_FFN_UP_SHEXP, "blk.%d.ffn_up_shexp" },`
`1417`		`- { LLM_TENSOR_ATTN_POST_NORM, "blk.%d.post_attention_norm" },`
`1418`	`1417`	`},`
`1419`	`1418`	`},`
`1420`	`1419`	`{`
Original file line number	Diff line number	Diff line change
`@@ -4400,7 +4400,6 @@ bool llama_model::load_tensors(llama_model_loader & ml) {`
`4400`	`4400`	`layer.bv = create_tensor(tn(LLM_TENSOR_ATTN_V, "bias", i), { n_embd_v_gqa }, TENSOR_NOT_REQUIRED);`
`4401`	`4401`
`4402`	`4402`	`layer.wo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), { n_embd_head_k * n_head, n_embd }, 0);`
`4403`		`- layer.attn_post_norm = create_tensor(tn(LLM_TENSOR_ATTN_POST_NORM, "weight", i), { n_embd }, 0);`
`4404`	`4403`
`4405`	`4404`	`// K/Q norm tensors (optional for GLM-4.5 355B variant)`
`4406`	`4405`	`layer.attn_q_norm = create_tensor(`
`@@ -4448,9 +4447,10 @@ bool llama_model::load_tensors(llama_model_loader & ml) {`
`4448`	`4447`	`create_tensor(tn(LLM_TENSOR_FFN_UP_SHEXP, "weight", i), { n_embd, n_ff_shexp }, 0);`
`4449`	`4448`	`}`
`4450`	`4449`	`} else {`
`4451`		`- // Dense layers (first k layers)`
	`4450`	`+ // Dense layers (first k layers) - GLM uses separate gate/up projections`
	`4451`	`+ layer.ffn_gate = create_tensor(tn(LLM_TENSOR_FFN_GATE, "weight", i), { n_embd, n_ff }, 0);`
`4452`	`4452`	`layer.ffn_down = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), { n_ff, n_embd }, 0);`
`4453`		`- layer.ffn_up = create_tensor(tn(LLM_TENSOR_FFN_UP, "weight", i), { n_embd, n_ff * 2 }, 0);`
	`4453`	`+ layer.ffn_up = create_tensor(tn(LLM_TENSOR_FFN_UP, "weight", i), { n_embd, n_ff }, 0);`
`4454`	`4454`	`}`
`4455`	`4455`	`}`
`4456`	`4456`	`}`