[layout] fix ldsm trans passing

botbw · botbw · commit 8304674e411e · 2025-10-24T15:43:20.000+08:00
diff --git a/tilelang/intrinsics/mma_macro_generator.py b/tilelang/intrinsics/mma_macro_generator.py
@@ -211,6 +211,7 @@ def ldmatrix_a(self,
         local_size_a = self.local_size_a
         a_dtype = self.a_dtype
         a_transposed = self.a_transposed
+        ldsm_trans = self.a_transposed
         # ldmatrix cannot be used for int8 + trans case.
         ldmatrix_available = not (DataType(a_dtype).bits != 16 and a_transposed)
 
@@ -239,7 +240,6 @@ def _warp_ldmatrix_a(
         ):
             stride = A_shared_buf.shape[-1]
             tx, _, warp_m = self.extract_thread_binding(thread_binding)
-            trans = self.a_transposed
 
             for i in T.serial(warp_rows):
                 # Assign A_shared_buf_elem
@@ -249,18 +249,18 @@ def _warp_ldmatrix_a(
                 if ldmatrix_available:
                     T.ptx_ldmatrix(
                         a_dtype,
-                        T.bool(trans),
+                        T.bool(ldsm_trans),
                         4,
                         ".b16",
                         A_local_buf.data,
                         i * local_size_a,
                         T.address_of(A_shared_buf_elem),
-                        get_ldmatrix_offset("A", tx, 0, stride, a_dtype, a_transposed),
+                        get_ldmatrix_offset("A", tx, 0, stride, a_dtype, ldsm_trans),
                     )
                 else:
                     for j in T.serial(local_size_a):
                         mi, mk = mma_load_layout(tx, j)
-                        A_local_buf[i * local_size_a + j] = A_shared_buf[wk + mk, wi + mi] if trans else A_shared_buf[wi + mi, wk + mk]
+                        A_local_buf[i * local_size_a + j] = A_shared_buf[wk + mk, wi + mi] if a_transposed else A_shared_buf[wi + mi, wk + mk]
 
         return _warp_ldmatrix_a(A_local_buf, A_shared_buf, ki, thread_binding, rk)
 
@@ -277,6 +277,7 @@ def ldmatrix_b(self,
         local_size_b = self.local_size_b
         b_dtype = self.b_dtype
         b_transposed = self.b_transposed
+        ldsm_trans = not b_transposed
         thread_binding = self.get_thread_binding()
         replicate_b = (self.n_dim == 16)
         # ldmatrix cannot be used for int8 + trans case.
@@ -305,7 +306,6 @@ def _warp_ldmatrix_b(
         ):
             stride = B_shared_buf.shape[-1]
             tx, warp_n, _ = self.extract_thread_binding(thread_binding)
-            trans = not b_transposed
 
             for i in T.serial(warp_cols):
                 # Assign B_shared_elem
@@ -320,13 +320,13 @@ def _warp_ldmatrix_b(
 
                     T.ptx_ldmatrix(
                         b_dtype,
-                        T.bool(trans),
+                        T.bool(ldsm_trans),
                         4 if replicate_b else 2,
                         ".b16",
                         B_local_buf.data,
                         i * local_size_b,
                         T.address_of(B_shared_buf_elem),
-                        get_ldmatrix_offset("B", tx, 0, stride, b_dtype, b_transposed),
+                        get_ldmatrix_offset("B", tx, 0, stride, b_dtype, ldsm_trans),
                     )
 
                 else:
diff --git a/tilelang/intrinsics/mma_sp_macro_generator.py b/tilelang/intrinsics/mma_sp_macro_generator.py
@@ -277,6 +277,7 @@ def ldmatrix_a(self,
         local_size_a = self.local_size_a
         a_dtype = self.a_dtype
         a_transposed = self.a_transposed
+        ldsm_trans = self.a_transposed
         # ldmatrix cannot be used for int8 + trans case.
         ldmatrix_available = not (DataType(a_dtype).bits != 16 and a_transposed)
 
@@ -305,7 +306,6 @@ def _warp_ldmatrix_a(
         ):
             stride = A_shared_buf.shape[-1]
             tx, _, warp_m = self.extract_thread_binding(thread_binding)
-            trans = self.a_transposed
 
             for i in T.serial(warp_rows):
                 # Assign A_shared_buf_elem
@@ -315,7 +315,7 @@ def _warp_ldmatrix_a(
                 if ldmatrix_available:
                     T.ptx_ldmatrix(
                         a_dtype,
-                        T.bool(trans),
+                        T.bool(ldsm_trans),
                         4,
                         ".b16",
                         A_local_buf.data,
@@ -326,7 +326,7 @@ def _warp_ldmatrix_a(
                 else:
                     for j in T.serial(local_size_a):
                         mi, mk = mma_load_layout(tx, j)
-                        A_local_buf[i * local_size_a + j] = A_shared_buf[wk + mk, wi + mi] if trans else A_shared_buf[wi + mi, wk + mk]
+                        A_local_buf[i * local_size_a + j] = A_shared_buf[wk + mk, wi + mi] if a_transposed else A_shared_buf[wi + mi, wk + mk]
 
         return _warp_ldmatrix_a(A_local_buf, A_shared_buf, ki, thread_binding, rk)
 
@@ -411,11 +411,11 @@ def ldmatrix_b(self,
         local_size_b = self.local_size_b
         b_dtype = self.b_dtype
         b_transposed = self.b_transposed
+        ldsm_trans = not b_transposed
         thread_binding = self.get_thread_binding()
         replicate_b = (self.n_dim == 16)
         # ldmatrix cannot be used for int8 + trans case.
-        ldmatrix_available = False  # TODO: use ldmatrix when possible
-
+        ldmatrix_available = not (DataType(b_dtype).bits != 16 and not b_transposed)
         def mma_load_layout(i, j):
             return i, j
 
@@ -439,8 +439,6 @@ def _warp_ldmatrix_b(
         ):
             stride = B_shared_buf.shape[-1]
             tx, warp_n, _ = self.extract_thread_binding(thread_binding)
-            trans = not b_transposed
-
             for i in T.serial(warp_cols):
                 # Assign B_shared_elem
                 wi, wk = (
@@ -454,13 +452,24 @@ def _warp_ldmatrix_b(
 
                     T.ptx_ldmatrix(
                         b_dtype,
-                        T.bool(trans),
+                        T.bool(ldsm_trans),
                         4 if replicate_b else 2,
                         ".b16",
                         B_local_buf.data,
                         i * local_size_b,
                         T.address_of(B_shared_buf_elem),
-                        get_ldmatrix_offset("B", tx, 0, stride, b_dtype, b_transposed),
+                        get_ldmatrix_offset("B", tx, 0, stride, b_dtype, ldsm_trans),
+                    )
+
+                    T.ptx_ldmatrix(
+                        b_dtype,
+                        T.bool(ldsm_trans),
+                        4 if replicate_b else 2,
+                        ".b16",
+                        B_local_buf.data,
+                        i * local_size_b + lift(local_size_b) // 2,
+                        T.address_of(B_shared_buf_elem),
+                        get_ldmatrix_offset("B", tx, 8, stride, b_dtype, ldsm_trans),
                     )
 
                 else: